Sujet. Vers une Extension Sémantique de l Analyse Formelle de Concepts : Application à la Recherche d Informations.

Transcription

1 REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE MOULOUD MAMMERI, TIZI-OUZOU FACULTE DE GENIE ELECTRIQUE ET D INFORMATIQUE DEPARTEMENT D INFORMATIQUE MEMOIRE DE MAGISTER En Informatique Option : Ingénierie des Systèmes Informatiques Présenté par M lle ABBAS Nacira Sujet Vers une Extension Sémantique de l Analyse Formelle de Concepts : Application à la Recherche d Informations. Devant le jury d'examen composé de: Mr AHMED OUAMER Rachid Pr. U.M.M.T.O Président Mr DJOUADI Yacine Pr. U.S.T.H.B Rapporteur Mme AMIROUCHE Fatiha M.C.A U.M.M.T.O Examinatrice Mme BOUKALA Malika Pr. U.S.T.H.B Examinatrice Mr RASSOUL Idir M.C.A U.M.M.T.O Examinateur Soutenu publiquement le : 03/07/2014

2 Remerciements Thurgood Marshall. Je tiens à exprimer mon immense gratitude à l'encadreur de ce travail, Mr. DJOUADI Yacine professeur à l'usthb, qui est l'exemple de chercheur passionné que je souhaite devenir un jour. Mes remerciements vont à lui, pour avoir guidé mes premiers pas dans la recherche et pour m'avoir écoutée et motivée. Mes plus vifs remerciements vont à Mr. AHMED OUAMER Rachid professeur à l'ummto, pour m'avoir fait l honneur de présider le jury d'examen de ce mémoire, et y avoir consacré son précieux temps. Je remercie également, l'enseignante qui m'a marquée par son sérieux et sa gentillesse, Mme AMIROUCHE Fatiha, maître de conférences classe A à l'ummto, d avoir accepté de faire partie du jury. Je tiens également à exprimer ma gratitude à Mme BOUKALA Malika professeur à l'usthb, pour avoir accepté de consacrer son précieux temps à l'évaluation de ce travail. Mes remerciements aussi à Mr. RASSOUL Idir, maître de conférences classe A à l'ummto, qui a accepté l examen de ce mémoire et qui a fait en sorte que cette classe de Magister voie le jour. Puisse-t-il trouver ici l expression de ma reconnaissance. Un merci particulier à Mlle CHERDIOUI Sabrina doctorante à l'ummto, pour sa gentillesse et amabilité.

3 SOMMAIRE INTRODUCTION GENERALE 1 CHAPITRE I LA RECHERCHE D INFORMATION SEMANTIQUE I.1. INTRODUCTION 3 I.2. NOTIONS DE BASES DE LA RECHERCHE D INFORMATION 3 I.2.1. Concepts clés 3 I.2.2. Indexation 7 I.2.3. Modèles de recherche d informations 13 I.2.4. Critères et mesures d évaluation d un SRI 18 I.3. DE LA RI CLASSIQUE A LA RI SEMANTIQUE 22 I.3.1. Indexation sémantique 22 I.3.2. Indexation conceptuelle 23 I.3.3. De la sémantique explicite à la sémantique implicite 24 I.4. CONCLUSION 32 CHAPITRE II ANALYSE FORMELLE DE CONCEPTS II.1. INTRODUCTION 33 II.2. PRESENTATION INTUITIVE DE L ANALYSE FORMELLE DE CONCEPTS 33 II.3. PRESENTATION MATHEMATIQUE DE L ANALYSE FORMELLE DE CONCEPTS 35 II.3.2. Algèbre des concepts formels 37 II.3.3. Logique de concepts formels 38 II.4. GENERALISATION DES OPERATEURS DE DERIVATION DE GALOIS 40 II.5. ALGORITHMES DE CONSTRUCTION DE TREILLIS DE CONCEPTS 41 II.5.1. Les algorithmes batch 41 II.5.2. Algorithmes incrémentaux 43 II.5.3. Algorithmes d assemblage 44 II.6. OUTILS 46 II.6.1. ConImp 46 II.6.2. Galicia 46 II.6.3. ConExp 47 II.6.4. Toscana 47 II.7. GENERALISATION DE L ANALYSE FORMELLE DE CONCEPTS 48 II.7.1. Théorie des grandeurs conceptuelles [Wolff, 2002] 49 II.7.2. Analyse Formelle de Concepts Flous 50 II.8. CONCLUSION 55 CHAPITRE III ANALYSE FORMELLE DE CONCEPTS ET RECHERCHE D'INFORMATION III.1. INTRODUCTION 56 III.2. APPROCHES CLASSIQUES DE RECHERCHE DANS LE TREILLIS DE CONCEPTS FORMELS 56 III.2.1. La reformulation (raffinement) de requête 56 III.2.2. La recherche par interrogation et par navigation 57 III.2.3. Utilisation contextuelle de thésaurus 58 III.2.4. La combinaison de plusieurs vues de données semi-structurées 59 III.2.5. Délimitation de l'espace de recherche avec des contraintes de l'utilisateur 59 III.2.6. Classement des résultats de la recherche 59 III.3. APPROCHES DE RECHERCHE PAR TREILLIS DEDIEES AU WEB 60 III.3.1. CREDO 60 III.3.2. FooCA 63 III.3.3. CreChainDo 67 III.4. APPROCHES APPLIQUEES DANS DES DOMAINES SPECIFIQUES 69 III.4.1. Systèmes de recherche de courriers électroniques 69 III.4.2. Systèmes de recherche d images 71 III.4.3. Systèmes de recherche dans un code source 72 III.5. CONCLUSION 74

4 CHAPITRE IV CONTRIBUTION : REDUCTION DE COMPLEXITE ET EXTENSION SEMANTIQUE DU TREILLIS DES CONCEPTS FORMELS IV.1. INTRODUCTION 75 IV.2. REDUCTION PAR CONGRUENCE 76 IV.2.1. Rappels mathématiques 76 IV.2.2. Proposition théorique 79 IV.3. EXTENSION SEMANTIQUE 81 IV.4. APPLICATION DE L'APPROCHE 86 IV.5. ÉVALUATION EXPERIMENTALE DE L'APPROCHE. 91 IV.5.1. Evaluation de la réduction 93 IV.5.2. Evaluation au niveau sémantique 95 IV.6. CONCLUSION 96 CONCLUSION GENERALE 97 Bibliographie

5 Liste des figures Figure I-1 Les niveaux de pertinence [Nie, 2012]... 6 Figure I-2 Processus en U de la RI... 7 Figure I-3 La conjecture de Luhn Figure I-4 Représentation graphique d'une conjonction Figure II-5 Exemple de représentation des documents dans un espace de deux termes Figure I-6 Documents pertinents, documents non pertinents et documents retournés Figure I-7 Courbe rappel / précision Figure I-8 SVD réduite Figure II-9 Représentation de l espace vectoriel réduit Figure II-1 Treillis des concepts formels Figure II-2 Exemple de treillis de concepts logiques Figure II-3 Treillis résultant de déroulement de l'algorithme de Divide&Conquer Figure II-4 Interface de Galicia Figure II-5 Interface ToscanaJ Figure II-6 Représentation graphique d'une fonction d'appartenance caractérisant un ensemble flou A Figure III-1 Architecture générale de CREDO Figure III-2 Format de résultat émis par un moteur de recherche Figure III-3 Résultats de la requête leonard + bernstein dans CREDO Figure III- 4 Interface du système FooCA Figure III-5 Représentation graphique de treillis dans FooCA Figure III-6 Architecture générale du système CreChainDo Figure III-7 L interface de CreChainDo en réponse à une requête sur "carpineto romano" Figure III-8 Interface de CEM Figure III-9.Interface du système ImageSleuth... 72

6 Figure III-10 Architecture générale du système présenté dans [Poshyvanyk and Marcus, 2007] Figure IV-1 Exemple d'une congruence de Gratzer Figure IV-3 Exemple d'une congruence d'ordre Figure IV-2 Exemple d'une congruence de Dorfer Figure IV-4 Exemple d'une congruence d'ordre qui n'est pas une congruence de Dorfer Figure IV-5 treillis obtenu de corpus C Figure IV-6 Treillis de concepts formels du tableau V Figure IV-7 Exemple applicatif: treillis associé au contexte formel initial Figure IV-8 Exemple applicatif: treillis sémantiquement augmenté Figure IV-9 La variation du temps d'exécution du processus de construction du treillis en terme de k et de Figure IV-10 La variation du nombre de concepts formels en terme de k et de Figure IV-11 La variation du rappel en fonction de k et de Figure IV-12 La variation de la précision en fonction de k et de

7 Liste des tableaux Tableau II-1 Exemple d un contexte formel Tableau II-2 Exemple de contexte logique Tableau II-3 Exemple de déroulement de l'algorithme de Chein: contexte formel d'entrée Tableau II-4 Exemple de déroulement de l algorithme de Chein: la trace de l'algorithme Tableau II-5 Exemple de déroulement de l algorithme de Norris: la trace de l'algorithme Tableau II-6 Exemple d'e déroulement de l'algorithme de Divide&Conquer: contexte formel d'entrée Tableau II-7 Exemple d'e déroulement de l'algorithme de Divide&Conquer: les contextes formels résultants de la division Tableau II-8 La complexité des algorithmes de construction de treillis Tableau II-9 Exemple de contexte formelle non binaire Tableau II-10 Exemple d'un contexte formel flou Tableau II-11 Les t-normes les plus courantes Tableau II-12 Les t-conormes les plus courantes Tableau III-1 Exemple de clarification : le contexte formel initial Tableau III-2 Exemple de clarification : le contexte formel résultant de la clarification du contexte présenté dans le tableau III Tableau IV-1 Contexte formel obtenu C Tableau IV-2 Exemple d augmentation sémantique du corpus C Tableau IV-3 Exemple applicatif : le contexte formel initial Tableau IV-4 Exemple applicatif : la matrice de similarité Tableau IV-5 Exemple applicatif : le contexte formel sémantiquement augmenté Tableau IV-6 Exemple de jugements de pertinence... 92

8 Introduction Générale

9 Introduction Générale L Analyse Formelle de Concepts (AFC) est une théorie introduite par Wille en 1982 [Wille, 1982]. C est la restructuration de la théorie des treillis en adéquation avec la philosophie de la pensée humaine. L'AFC part d'une table, appelée contexte formel, avec des objets en ligne et des propriétés en colonne et vise à identifier des clusters de connaissance, appelés concepts formels, et à ordonner ces clusters sous la forme de treillis. Cette théorie a été appliquée dans divers domaines: psychologie, sociologie, médecine, biologie, linguistique,...etc. L'AFC a été rapidement appliquée dans la Recherche d'information (RI), en raison de l'analogie évidente entre le contexte formel chartérisant l'afc et la matrice terme/document caractérisant la RI. Dans un contexte formel terme/document, les objets correspondent aux documents et les propriétés aux termes. Plusieurs applications de l'afc dans la RI ont été proposées pour améliorer les fonctionnalités de la recherche d'information, à savoir: la navigation, la classification des résultats de recherche, la délimitation de l'espace de recherche...etc. En dépit des améliorations apportées par l'afc au processus de recherche, les approches de RI basées AFC se trouvent face à un problème de complexité des treillis construits à partir de corpus de tailles élevées. La génération d'un très grand nombre de concepts formels, engendre un treillis difficile à comprendre, couteux à construire et à parcourir. Dans le cadre de la RI, plusieurs approches ont été proposées pour réduire le treillis de concepts formels [Cheung and Vogel, 2005]. Cependant, aucune de ces approches ne propose un modèle formel valide pour réduire le treillis de concepts formels [Krupka, 2012]. Un autre problème que les applications RI basées FCA doivent surmonter, est l'absence de l'aspect sémantique dans un treillis de concepts formels, cela est due à la non prise en compte des relations sémantiques qui peuvent existées entre les termes lors de la construction des treillis. En effet, dans un contexte formel, la seule relation considérée est la présence ou l'absence d'un terme dans un document. Dans ce présent travail, nous opérons simultanément sur les deux problématiques citées ci-dessus (la complexité des treillis de concepts formels et l'absence de l'aspect sémantique dans ces treillis). Nous proposons une approche qui permet de : (i) réduire le treillis de concepts formels suivant un modèle formel qui se base sur la notion de congruence, (ii) enrichir le contexte formel sémantiquement en prenant en considération les relations sémantiques qui peuvent existées entre les termes, tout en s'appuyant sur la méthode de l'indexation en sémantique latente. Le présent mémoire s articule autour de quatre (04) chapitres. Le chapitre I intitulé: "Recherche d'information sémantique", nous présentons notre domaine d'application (la recherche d'information). Nous rappelons les concepts clés de ce domaine ainsi que les modèles proposés puis nous décrivons quelques travaux proposés dans 1

10 Introduction Générale le cadre de la RI sémantique notamment l'indexation en sémantique latente qui jouera par la suite un rôle important dans l'approche proposée. Le chapitre II intitulé: "Analyse de Formelle de Concepts", nous introduisant l'afc via un exemple intuitif puis nous présentons les mathématiques de cette théorie. Les extensions de l'afc sont passées en revue ainsi que les algorithmes et outils logiciels utilisés dans le cadre de L'AFC. Dans le chapitre III intitulé: "Analyse de Formelle de Concepts et recherche d'information", les différentes applications classiques de l'analyse Formelle de Concepts en recherche d'information sont présentées suivies par une description des systèmes orientés Web. Pour terminer avec des applications qui portent sur des domaines spécifiques. Nous présentons notre contribution au chapitre IV. Nous rappelons d'abord les notions mathématiques nécessaires à la compréhension de l'approche proposée. Ensuite nous présentons notre modèle formel qui permet de réduire et d'étendre sémantiquement le treillis de concepts formels. Pour tester l'efficacité de l'approche, nous présentons nos expérimentations et résultats sur un corpus textuel. Enfin, nous terminons ce mémoire par une conclusion et nous présentons nos perspectives de recherches futures. 2

11 Chapitre I La Recherche d Information Sémantique

12 Chapitre I La Recherche d Information Sémantique I.1. Introduction La recherche d information (RI) est apparue comme une discipline de recherche afin d apporter une solution aux problèmes liés à l accès aux informations contenues dans des grandes masses de documents. La RI avait proposé des techniques pour bien organiser et faciliter l accès aux informations contenues dans ces documents dont le nombre ne cesse de croître. Parmi les premiers mécanismes proposés : la classification des documents par catégorie et la création d indexes. Depuis que internet a fait son entrée, le monde a assisté à une croissance importante en terme de nombre de ressources d informations facilement accessibles et de nombre d utilisateurs qui souhaitent accéder aux informations contenues dans ces ressources. Depuis lors, un énorme fossé est apparu entre ce que l utilisateur cherche et ce qu il trouve. Les techniques que la RI avait proposées deviennent donc insuffisantes. De nombreux travaux dans le domaine de la RI ont été effectués, plusieurs techniques et modèles ont été conçus pour permettre un accès efficace et rapide aux informations. Dans le présent chapitre nous allons présenter les concepts de base de la RI classique. Nous allons ensuite détailler la RI sémantique objet de ce mémoire. I.2. Notions de bases de la recherche d information I.2.1. Concepts clés Définitions de la recherche d information Selon Salton [Salton, 1968], la recherche d'information «est un domaine qui étudie la structure, l'analyse, l'organisation, le stockage, la recherche et la récupération d'informations». D après Van Rijsbergen [Rijsbergen, 1979] «La RI consiste à restituer les documents qui peuvent être pertinents par rapport au besoin d information exprimé dans la requête». D après l Association Française de Normalisation (AFNOR) [Chevalier, 2011], la RI est définie comme : «Action, méthodes et procédures ayant pour objet d extraire d un ensemble de documents les informations voulues. Dans un sens plus large, toute opération (ou ensemble d opérations) ayant pour objet la recherche, la collecte et l exploitation d informations en réponse à une question sur un sujet précis». En général, il s agit d un ensemble de procédures et de techniques visant à retrouver, dans une collection de documents, les documents pertinents par rapport à un besoin d information exprimé par un utilisateur sous forme d une requête. À partir de ces définitions, nous identifions les concepts clés suivants: 3

13 Chapitre I La Recherche d Information Sémantique Document Le mot "document" vient du latin documentum, qui signifie: "enseignement", "démonstration". Au moyen âge, ce terme désigne les textes manuscrits utilisés pour enseigner. Le sens du mot a évolué pour prendre au 18 eme siècle le sens d un écrit servant de preuve, ou de renseignement. Actuellement, l Organisation Internationale de Normalisation (ISO) définit un document comme un «Ensemble formé par un support et une information, généralement enregistré de façon permanente, et tel qu'il puisse être lu par l'homme et la machine». Un document se caractérise par: - Un contenu : un ensemble d unités informationnelles juxtaposées dans un ordre bien déterminé, par un émetteur dans un contexte particulier pour communiquer un message à un récepteur. - Un support : il sert d intermédiaire physique entre l utilisateur et l information contenue dans le document. Il participe au sens donné à l information. Par exemple, un même contenu n a pas la même perception s il est enregistré sur support audio, sur support vidéo ou bien écrit sur un papier. - Des fonctionnalités : le document comporte deux fonctions principales : La conservation, le document sert ici comme une trace de l'activité de l homme. La communication, le document permet de faire connaître le point de vue de son auteur ce qui permet la propagation des idées et du savoir. Dans le contexte de recherche d information, on appelle document, toute unité qui peut constituer une réponse à un besoin informationnel de l'utilisateur. Il peut être un texte, un morceau de texte, une page web, une image, une vidéo, etc. Collection de documents La collection de documents (ou fond documentaire, corpus) est un ensemble d informations exploitables et accessibles par un utilisateur, ou simplement, c est l ensemble de documents dans lequel l utilisateur cherche une information. Généralement la collection constitue des représentations simplifiées mais bien étudiées des documents, de telle manière que la gestion (ajout, suppression d un document) et l interrogation (recherche) soient optimales. Besoin d'information [Tricot, 2004] définit le besoin d information comme «la nécessité ressentie de combler une déficience constatée d'information, une lacune, un défaut ou une anomalie». Trois types de besoin d information ont été définis par [Ingwersen, 1992]: - Besoin vérificatif : l'utilisateur cherche à vérifier une information avec des données connues et il sait souvent comment y accéder. Le besoin ici est plutôt précis. 4

14 Chapitre I La Recherche d Information Sémantique Requête - Besoin thématique connu : l'utilisateur cherche à clarifier, ou à compléter des connaissances dans un sujet connu. Le besoin peut être exprimé de façon incomplète. - Besoin thématique inconnu : l'utilisateur cherche de nouvelles informations dans un sujet qui ne lui est pas familier. Ce besoin est toujours exprimé d une façon incomplète. La requête est l'expression du besoin informationnel de l'utilisateur. C est elle qui initie le processus de recherche. Elle peut être exprimée en langage naturel, booléen, graphique, etc. Le système de recherche d information (SRI) C est un système informatique qui sert d interface entre une collection de documents et des utilisateurs. Il leur permet de retrouver les documents dont le contenu correspond le mieux à leurs besoins d information. Pertinence La pertinence est une notion fondamentale et cruciale dans la RI mais elle est souvent difficile à appréhender. Plusieurs définitions de la pertinence ont été proposées : [Nie, 2012] la correspondance entre un document et une requête, une mesure d «informativité» du document à la requête; un degré de relation (chevauchement, relativité, ) entre le document et la requête; un degré de la surprise qu'apporte un document, qui a un rapport avec le besoin de l'utilisateur; une mesure d'utilité du document pour l'utilisateur; L objectif est de formaliser cette notion et de proposer une fonction qui évalue automatiquement la pertinence d un document vis-à-vis d une requête et qui sélectionne des documents satisfaisants pour l'utilisateur [Brouard and Nie, 2001]. Deux niveaux de pertinence ont été mis en exergue : La pertinence utilisateur : elle est subjective. Elle dépend de la perception de l utilisateur sur l information fournie par le système en réponse à sa requête. Deux utilisateurs peuvent avoir des jugements différents sur un même document sélectionné pour une même requête. Elle peut évoluer dans le temps d une recherche au fur et à mesure que l utilisateur acquiert plus de connaissances sur le sujet recherché. La pertinence système : elle est déterministe et objective. Elle se calcule par une fonction de pertinence qui varie selon le modèle de recherche considéré. 5

15 Chapitre I La Recherche d Information Sémantique Figure I-1 Les niveaux de pertinence [Nie, 2012] I Architecture d un système de recherche d information Généralement, l architecture d un système de recherche d informations (SRI) intègre les fonctionnalités suivantes (voir Figure I-2) : - La représentation de documents et de requêtes (indexation) ; - La recherche ; - La reformulation de requêtes. La représentation Pour faire la correspondance entre un document et une requête, il faut comparer les termes qui apparaissent dans ces deux éléments. Cependant, les collections comportent souvent un grand nombre de documents de tailles élevées ce qui fait que le processus de comparaison devient coûteux. Afin de réduire cette complexité, il faut transformer les documents de telle sorte qu ils soient plus faciles à manipuler. On extrait donc des mots «représentants» ou mots véhiculant le contenu sémantique de documents et de requêtes. Cette transformation est appelée indexation. Celle-ci sera détaillée dans la suite de ce document. La recherche Dans ce processus, le système «décide» quels sont les documents qui correspondent à la requête de l utilisateur. Cette décision est basée sur un ensemble de fonctions mathématiques afin de pouvoir évaluer certaines relations, notamment la relation d appariement entre la requête et les documents. Dans le processus d'appariement documentrequête, le système calcule un score de correspondance entre la représentation de chaque document et celle de la requête. Ce score peut être binaire (pertinent ou non pertinent) ou multivalué pour exprimer un degré de pertinence système, c'est-à-dire, le jugement que le système avait porté sur la pertinence du document vis-à-vis la requête. La pertinence système est calculée à partir d'une fonction de similarité appelée RSV(Q, D) (Retrieval Status Value) où Q est une requête et D un document. Pour une requête donnée, le système retourne des documents en ordre décroissant du score de pertinence. 6

16 Chapitre I La Recherche d Information Sémantique Documents Requête Indexation Analyse Représentation des documents Comparaison Représentation de la requête Documents sélectionnés Reformulation de la requête Figure I-2 Processus en U de la RI Reformulation de requêtes L objectif de cette étape est de rapprocher la pertinence système de la pertinence utilisateur. Il s agit de modifier la requête de l utilisateur en rajoutant des termes qui peuvent provenir de différentes sources. Toujours dans le but d avoir un SRI plus performant, une ressource externe (ontologie, hiérarchie de concepts, vocabulaire contrôlé d'un thesaurus) peut être utilisée durant les processus d indexation, de recherche et de reformulation de requête. Dans ce qui suit nous détaillons le processus d indexation. I.2.2. Indexation I Principes L indexation est une étape primordiale dans la recherche d information. C est un processus qui permet d extraire d un document ou d une requête une représentation paramétrée qui couvre au mieux son contenu sémantique. Le résultat de l indexation est 7

17 Chapitre I La Recherche d Information Sémantique généralement une liste de mots clés appelés descripteurs associés à des poids qui représentent leurs degrés de représentativité de l unité textuelle. Mathématiquement, un index est une fonction qui relie chaque document l'ensemble des mots clés du corpus, décrivant le thème qu'il traite [BAZIZ, 2005] : à où Conscients de l aspect critique de l indexation dans la RI, les développeurs des SRI ont proposé plusieurs manières de procéder : indexation manuelle, automatique et semiautomatique. Elles sont définies comme suit : - Indexation manuelle : dans ce cas, chaque document est analysé par un spécialiste du domaine ou par un documentaliste. Après la lecture des documents, ce spécialiste détermine, selon ses connaissances, les mots-clés qui lui semblent les plus adéquats pour représenter le contenu du document. Ce mode d indexation est fondé sur le jugement humain. Il se caractérise par sa profondeur, sa cohérence et sa qualité. Cependant, il dépend de l indexeur ce qui induit la subjectivité de ses résultats. De plus l augmentation du nombre de documents à indexer rend la tâche d indexation manuelle difficile et coûteuse en temps. L indexation automatique permet de pallier à ce problème. - Indexation automatique : Ce mode d indexation est entièrement informatisé. Il se base sur des procédures algorithmiques pour accomplir les tâches des indexeurs humains. Il détecte automatiquement les termes les plus représentatifs du contenu du document. Ici, le processus d'indexation tente à atteindre une position optimale entre deux objectifs contradictoires, l exhaustivité et la spécificité. Le premier, à pour but de présenter la description la plus complète possible d un document, alors que l autre à pour objectif une meilleure différenciation (discrimination) entre les descriptions des documents pour mieux les distinguer. Ce type d indexation est actuellement la méthode la plus répandue. La première approche KWIC ou Keyword in Context, fût introduite par Luhn en 1958 à International Conference on Scientific Information (ICSI). - Indexation semi-automatique: consiste à tirer profit des deux types d indexation manuelle et automatique. L indexation automatique donne les premiers éléments d indexation, puis le spécialiste du domaine ou le documentaliste corrige, complète les informations obtenues. Le choix d un mode par rapport à l autre dépend d un certain nombre de facteurs, dont le plus déterminant est le volume des collections. La qualité de l indexation peut être mesurée selon plusieurs critères: l exhaustivité, la spécificité, la sélectivité (le degré d intérêt des informations retenues pour les utilisateurs) et l uniformité (c est à dire, qu un autre indexeur ou qu un utilisateur devrait décrire le même document de la même manière). 8

18 Chapitre I La Recherche d Information Sémantique Le but de l indexation est l extraction des descripteurs qui peuvent être : - Des mots simples du texte du document, - Des lemmes ou les racines des mots extraits, - Des "concepts" qui sont des expressions contenant un ou plusieurs mots, - Des n-grammes : Un n-gramme est une succession de n lettres. Exemple : pour le mot «recherche», 1-gramme: r, e, c, h, e, r, c, h, e; 2-gramme : re, ec, ch, he, er, rc, ch, he ; 3- gramme: rec, ech, che, her, erc, rch. Les n-grammes permettent de reconnaître des mots de manière approximative et ainsi de corriger des flexions de mots ou même des fautes de frappe ou d'orthographe. - Des contextes : ceux sont des termes qui n'apparaissant pas nécessairement dans le document mais ayant une relation sémantique et/ou de cooccurrence avec les mots du document. L indexation en sémantique latente est un modèle de recherche qui utilise les contextes comme descripteurs. - Les groupes de mots : un groupe de mots, est généralement plus riche sémantiquement que les mots qui le composent pris séparément. Par exemple «recherche d information» est plus précis que «recherche» et «information» pris isolément. En conséquence, les groupes de mots sont considérés comme unité de base dans le langage d'indexation. La difficulté ici est de comment associer des mots pour produire des groupes ayants un sens. Pour extraire ces descripteurs, le processus d indexation opère sur plusieurs niveaux : - Niveau morphologique : à ce niveau le système extrait des tokens 1, supprime les accents, unifie la casse (minuscules généralement) et élimine les mots vides (prépositions, pronoms personnels, ). - Niveau lexical : ici le processus transforme les mots en leur forme canonique (la racine ou lemme). Ce traitement repose sur deux procédures : la lemmatisation et la troncature (ou racinisation). La racinisation consiste à supprimer le suffixe (et plus rarement le préfixe) des mots. La lemmatisation (stemming) a pour objectif de prendre la forme canonique du mot. - Niveau syntaxique : la grammaire de la langue est utilisée pour extraire des groupes de mots ou des mots composés. - Niveau sémantique : ici on s'intéresse à déduire les sens des mots puis à identifier leurs synonymes, leurs concepts représentatifs et les relations sémantiques entre les mots. A cette étape, un thesaurus ou une ontologie peuvent être utilisé. - Niveau pragmatique : il s agit de l analyse du langage naturel par la connaissance du monde réel. Ce niveau n a pas été automatisé pour le moment. 1 Token : terme anglais qui signifie l unité lexicale dans un texte. 9

19 Chapitre I La Recherche d Information Sémantique I Pondération des termes La pondération est une fonction fondamentale en RI. Le poids d'un terme dans un document indique l'importance de ce terme dans ce document. La plupart des méthodes de pondération se basent sur des aspects statistiques. Elles tirent leur origine de la loi de Zipf et de la conjecture de Luhn. I La loi de zipf La Loi de Zipf [Zipf, 1949] décrit la répartition statistique des fréquences d apparition des différents éléments d un ensemble. Elle a pris le nom de son auteur, George Kingsley Zipf qui a découvert que la répartition des mots dans les documents n est pas aléatoire mais suivant une loi inversement proportionnelle à leur rang. Le rang d'un mot est sa position dans la liste décroissante des fréquences des mots du corpus. Ainsi la loi de zipf stipule que la fréquence du second mot, le plus fréquent selon l ordre des occurrences est la moitié de celle du premier, la fréquence du troisième mot le plus fréquent, son tiers.etc. Zipf a nommé cette loi celle du moindre effort, en faisant référence à la paresse des gens quant au choix et l utilisation des mots familiers. I La conjecture de Luhn La conjecture de Luhn [Luhn, 1958] est basée sur la loi de Zipf. Il mesure «l informativité» des mots qui apparaissent dans les documents. Les mots de rangs extrêmes, faibles ou élevé, ont un pouvoir expressif limité. Les mots de rangs intermédiaires sont pertinents et peuvent indexer un document. Les mots de rang faible sont ceux qui reviennent souvent et ne permettent pas de distinguer les documents les uns des autres. Les mots de rang élevé sont des mots peu utilisés. Cette conjecture est schématisée par les deux courbes de fréquence et d «informativité» dans la Figure I-3. Deux seuils de fréquence, seuil max et seuil min sont fixés pour exclure les termes à faible «informativité». Les termes entre ces deux seuils sont alors pris comme terme d index. I Pondération en tf*idf Le schéma de pondération tf*idf [Jones, 1972] combine un facteur de pondération local tf, quantifiant la représentativité locale d'un terme dans le document, et un second facteur de pondération globale idf, mesurant la représentativité globale du terme vis-à-vis de la collection des documents. Pondération locale tf Indique l'importance du terme dans un document. Les fonctions de pondération locales les plus utilisées sont les suivantes: 10

20 Chapitre I La Recherche d Information Sémantique Fréquence/ Importance Informativité Seuil max Fréquence Seuil min Rang Figure I-3 La conjecture de Luhn - fonction brute de tf ij (term frequency) : correspond au nombre d'occurrences du terme t i dans le document D j, - fonction binaire : elle vaut 1 si la fréquence d'occurrence du terme dans le document est supérieure ou égale à 1, et 0 sinon, - fonction logarithmique : elle est donnée par : α + log(tf ij ), où α est une constante. Cette fonction vise à diminuer les différences entre les fréquences d'occurrence des termes dans le document. - fonction normalisée : Elle est donnée par la formule suivante : Où est la plus grande valeur de des termes du document D j. Pondération globale (idf) Elle indique la représentativité globale du terme dans l'ensemble des documents de la collection. Un poids plus important est donné aux termes qui apparaissent moins fréquemment 11

21 Chapitre I La Recherche d Information Sémantique dans la collection. Un facteur de pondération globale idf (Inverse of Document Frequency), qui dépend de la fréquence inverse dans le document a été introduit. Il peut être calculé selon: Où est le nombre de documents contenant le terme et N le nombre total de documents de la collection. Dans les corpus où les documents sont de tailles homogènes, la mesure tf*idf donne une bonne approximation de l importance d un terme dans un document. Cependant, dans les corpus de documents de tailles variables cette mesure n est pas un bon indice de l importance des termes. Le problème est que les termes des documents longs ont une pondération plus élevée que ceux des documents courts, étant donné leurs fréquences d apparition. Ainsi, les documents longs auront plus de chance d être sélectionnées. Ce problème a été régler en effectuant une normalisation. Dans [Robertson and Walker, 1997], il a été proposé de normaliser la fonction de pondération de la façon suivante : Où : est le poids du terme dans le document ; contrôle l'influence de la fréquence du terme dans le document, sa valeur optimale dépend de la longueur et de l'hétérogénéité des documents dans la collection de documents ; b est une constante appartenant à l'intervalle [0, 1] et contrôle l'effet de la longueur du document ; est la longueur du document, est la longueur moyenne des documents dans la collection entière. 12

22 Chapitre I La Recherche d Information Sémantique Une autre fonction de pondération normalisée utilisée dans le système Inquery [Callan and al., 1992] est donnée comme suit : I.2.3. Modèles de recherche d informations Un modèle de RI a pour rôle de fournir une formalisation du processus de recherche d'information. Il doit accomplir plusieurs rôles dont le plus important est de fournir un cadre théorique pour la modélisation de la mesure de pertinence. De manière générale, les modèles de RI peuvent être classés en trois classes principales ou modèles qui sont : les modèles Booléens, les modèles vectoriels et les modèles probabilistes. I Les modèles Booléens I Le modèle Booléen de base C est le plus ancien de tous les modèles de RI. Il est basé sur la théorie des ensembles. Le document est représenté par un ensemble de termes. La requête est représentée par un ensemble de mots clés reliés par des opérateurs Booléens ET, OU et NON sous forme d une expression logique. L appariement requête-document se fait selon les règles suivantes : Du fait que ce modèle est strict, les documents pertinents dont la représentation ne correspond qu approximativement à la requête ne sont pas retournés. Le modèle présente aussi d autres inconvénients tels que tous les termes ont la même importance et qu il est incapable de trier les documents pertinents. Pour pallier les problèmes du modèle de base, le modèle Booléen étendu a été proposé. I Le modèle Booléen étendu Le modèle Booléen étendu a été introduit par Salton [Salton and al., 1983] pour permettre de relaxer les contraintes du modèle Booléen de base (le tout ou le rien) et de prendre en compte les poids des termes. Etant donné une requête =, le modèle 13

23 Chapitre I La Recherche d Information Sémantique Booléen de base juge comme pertinents les documents contenant simultanément ces deux termes. Les documents contenant un seul des deux termes sont jugés aussi impertinents que les documents n en contenant aucun. Le modèle Booléen étendu considère que les documents contenant un seul des termes sont plus pertinents que ceux qui n en contiennent aucun. Ce modèle mesure la pertinence d'un document par sa distance euclidienne au point où les deux termes sont présents simultanément dans un document. Cette distance est représentée par la distance du document au point (1,1) (voir figure I-4). Pour une requête disjonctive =, la pertinence d'un document peut être mesurée par sa distance euclidienne au point où les deux termes sont totalement absents dans un document, représenté par le point (0,0) dans la figure I-4. a a b b a b a b Figure I-4 Représentation graphique d'une conjonction et d'une disjonction dans le modèle Booléen étendu En généralisant ce principe dans un espace à m dimensions (termes) et en utilisant les p- normes, l appariement requête-document se fait comme suit: 14

24 Chapitre I La Recherche d Information Sémantique Avec :, la valeur de est indiquée au moment de la requête. est le poids du terme dans le document. I Les modèles vectoriels I Le modèle vectoriel Dans le modèle vectoriel (Vector Space Model) [Salton and McGill, 1983], un document est représenté sous forme d un vecteur dans un espace vectoriel engendré par tous les termes d indexation. La dimension de cet espace est le nombre de termes d indexation de la collection de documents. Les coordonnées d un vecteur document sont les poids des termes d index dans ce document. Où est le poids du terme dans le document, m est le nombre de documents dans la collection, n est le nombre de termes d indexation. On représente aussi la requête vectoriel que le document. par un vecteur de mots-clés défini dans le même espace Où est le poids de terme dans la requête. Figure I-5 Exemple de représentation des documents dans un espace de deux termes. 15

25 Chapitre I La Recherche d Information Sémantique La pertinence du document par rapport à la requête est mesurée par la similarité entre leurs vecteurs correspondants. Les principales mesures de similarité utilisées sont : Produit scalaire : La mesure du cosinus : La mesure de Jacard : Le modèle vectoriel a été critiqué du fait qu il considère chacun des termes comme indépendant des autres. Cependant, il est l'un des modèles de RI classique les plus influents, les plus étudiés et les mieux acceptés. I Le modèle vectoriel généralisé Proposé par Wong [Wong and al., 1985], le modèle vectoriel généralisé (GVSM : Generalized Vector Space Model), contrairement au modèle vectoriel, ne considère pas l hypothèse d indépendance des termes d indexation, il permet de tenir compte des dépendances qui peuvent exister entre les termes. Ce modèle est définit sur: - Une collection de termes d indexation ; - Une nouvelle base de vecteur binaires, non orthogonaux {m i }, i=1..2 T, - Un ensemble de min-termes associé à la base; chaque min-terme correspond à l ensemble de documents comprenant les termes d indexation positionnés à 1 dans le vecteur de base correspondant. - Une fonction de pondération gi(mj) qui donne le poids du terme dans le min-terme mj, soit. Chaque document et requête est décrit dans la nouvelle base comme suit : Où : 16

26 Chapitre I La Recherche d Information Sémantique Le calcul de pertinence RSV(Q,D) combine alors le poids des documents corrélation entre termes Ci et facteur de I Les modèles probabilistes I Le modèle probabiliste de base Ce modèle [Maron and Kuhns, 1960] se base sur un modèle mathématique fondé sur la théorie de la probabilité. Etant donné une requête utilisateur notée Q et un document D, le modèle probabiliste tente d estimer la probabilité que le document D appartienne à la classe des documents pertinents (non pertinents). Il se base sur les deux probabilités conditionnelles suivantes : P(wij / Pert) : Probabilité que le terme occure dans le document Dj sachant que ce dernier est pertinent pour la requête P(wij/ NonPert) : Probabilité que le terme dernier n est pas pertinent pour la requête occure dans le document Dj sachant que ce Le calcul d occurrence des termes d indexation dans les documents, est basé sur l application d une loi de distribution sur un échantillon représentatif de documents d apprentissage. En posant les hypothèses que : - La distribution des termes dans les documents pertinents est la même que leurs distributions par rapport à la totalité des documents - Les variables «document pertinent», «document non pertinent» sont indépendantes, La fonction de recherche est obtenue en calculant la probabilité de pertinence d un document D, notée P(Pert/D) [Rijsbergen, 1979]: I Le modèle de réseau inférentiel bayésien Un réseau bayésien est un graphe de dépendances, orienté et acyclique. Les nœuds représentent des variables aléatoires. Les arcs sont pondérés par des valeurs de probabilités conditionnelles et représentent des relations causales entre les nœuds. Dans le contexte de la recherche d information [Turtle and Croft, 1991], les nœuds représentent des concepts, des groupes de termes ou des documents et les arcs représentent les 17

27 Chapitre I La Recherche d Information Sémantique dépendances entre termes et entre termes et documents. Dans un espace défini par les termes d indexation, la mesure de pertinence d une requête par rapport à un document se calcule comme suit : où - : variables aléatoires binaires associés aux termes d indexation - : Variable aléatoire associée à un document - : Variable aléatoire associée à une requête : Probabilité que le terme appartienne à un document pertinent de P( / ) : Probabilité que le terme appartienne au document sachant qu il est pertinent P( / ) = : Probabilité d observer I Le modèle de langue Dans le modèle de langue, on considère que la pertinence d un document pour une requête est en rapport avec la probabilité que la requête puisse être générée par le document [Ponte and Croft, 1998]. Formellement: Où, le modèle de langue du document d, P(Q/ ), la probabilité que la requête Q soit générée par, est la fréquence du terme dans le document d. I.2.4. Critères et mesures d évaluation d un SRI L évaluation est une étape importante dans la conception des SRI car elle permet de les caractériser et de fournir des éléments de comparaison entre eux. Un SRI qui permet d une part de retourner tous les documents pertinents et d autre part de rejeter tous les documents non pertinents peut être considéré comme idéal. Différentes mesures sont utilisées pour évaluer les performances d un SRI. 18

28 Chapitre I La Recherche d Information Sémantique I Les mesures de Rappel/Précision Le rappel et la précision sont les mesures les plus utilisés pour évaluer les SRI. Pour obtenir ces mesures, l'ensemble des documents retournés par le système à évaluer sont partitionnés en deux catégories : les documents pertinents et les documents non pertinents. La précision mesure la capacité du système à rejeter tous les documents non pertinents à une requête. Tandis que le rappel mesure la capacité du système à retrouver tous les documents pertinents répondant à une requête. Les taux de précision et de rappel sont formulés comme suit : Taux de Précision Taux de Rappel Où : DP : documents pertinents pour la requête Q, DPR : documents pertinents retrouvés, DPNR : documents pertinents non retrouvés, DNP : documents non pertinents pour Q, DNPR : documents non pertinents retrouvés, DNPNR : documents non pertinents non retrouvés 19

29 Chapitre I La Recherche d Information Sémantique Documents retournés DNP DP Figure I-6 Documents pertinents, documents non pertinents et documents retournés On représente la mesure rappel/précision par une courbe qui a en général l'allure suivante : Précision 1.0 Courbe d un SRI idéal 1.0 Rappel Figure I-7 Courbe rappel / précision I Les mesures à x documents et la précision moyenne. Deux mesures sont souvent utilisées dans le cadre des campagnes d'évaluations TREC (Text REtrieval Conference) et CLEF (Cross-Language Evaluation Forum) : - La précision à x représente la proportion de documents pertinents présents dans les x (x=5, 10,15, 20,..etc) premiers documents retrouvés. Les documents doivent être triés selon leur degré de pertinence. - La précision exacte est la précision à x où x est le nombre total de documents pertinents dans la collection pour la requête. - La précision moyenne représente la moyenne des précisions calculées pour chaque document pertinent à trouver, au rang de ce document. 20

30 Chapitre I La Recherche d Information Sémantique - Les précisions moyennes pour l ensemble des requêtes, qui sont donc les moyennes des précisions par requête, permettent d obtenir une mesure de la performance globale du système. I Les mesures combinées Le rappel et la précision, ne sont pas en elles-mêmes des mesures appropriées pour évaluer un système de recherche d'information. Il s avère donc nécessaire d introduire de nouvelles formules pour combiner ces deux aspects. Deux mesures sont proposées dans ce cadre, la mesure Harmonique et la E-mesure. I La mesure Harmonique La mesure harmonique a été proposée dans [Shaw Jr and al., 1997]: Où : Valeur de rappel au document restitué : Valeur de précision au document restitué lorsque aucun document pertinent n'est restitué. lorsque tous les documents restitués sont pertinents. On note ici que la valeur de est élevée quand les valeurs de rappel et de précision sont élevées. Ainsi, la mesure Harmonique assure le compromis entre les deux mesures de rappel et de précision. I La mesure E (E-measure) Introduite par Van Rijsbergen [Van Rijsbergen and al., 1981] pour permettre à l'utilisateur de contrôler l importance donnée au rappel et à la précision. Il pourra donc affecter plus d intérêt à l une des deux mesures. La fonction E est définie comme suit : Plus les valeurs de b sont supérieurs à 1, plus la précision sera plus importante que le rappel et inversement. 21

31 Chapitre I La Recherche d Information Sémantique I Autres mesures de performance Il existe aussi d'autres mesures de performance des SRI telles que [BAZIZ, 2005] : - Le temps de réponse acceptable : un SRI doit pouvoir fournir à l utilisateur les documents correspondants à sa demande dans des temps très courts. - La présentation des résultats claire avec facilité d utilisation : capacité du système à comprendre les besoins de l utilisateur et à mettre en valeur les documents correspondants à ceux-ci. Ceci est lié à l interface avec l utilisateur. - Le nombre total de documents pertinents retournés, ou le rappel à 1000 documents ces mesures permettant d évaluer la performance globale du système au final. En fonction ou non du nombre de documents pertinents total. - Le rang du premier document pertinent : cette mesure a été proposée pour prendre en compte la satisfaction de l utilisateur qui chercherait un seul document pertinent (comme c est éventuellement le cas pour les moteurs de recherche sur Internet). - La longueur de recherche : elle est égale au nombre de documents non pertinents que doit lire l utilisateur pour avoir un certain nombre n de documents pertinents. I.3. De la RI classique à la RI sémantique Les modèles classiques de la RI vus auparavant, se basent sur l hypothèse qu il y a une correspondance stricte entre les mots et les sens, alors qu un mot peut représenter plusieurs sens et un sens peut être représenté par plusieurs mots. En partant de cette hypothèse, la recherche d information classique se trouve face à deux problèmes, l ambiguïté des mots et leur disparité [Boubekeur, 2008]. L ambiguïté lexicale fait référence à un mot ayant plusieurs sens. Elle implique que le système peut retourner un document contenant les mêmes termes que la requête malgré que le sens porté par celle-ci est différent de celui porté par le document ce qui engendre un bruit, c'est-à-dire, un ensemble des documents non-pertinents affichés suite à une recherche. La disparité des mots (word mismatch) fait référence à des mots lexicalement différents mais portant un même sens. Ceci implique qu un document qui ne partage pas de termes avec la requête, peut ne pas être retourné même s il est pertinent. On parle ici du problème du silence. Pour surmonter ces problèmes, la RI sémantique est apparue. Son but est d incorporer l'information sémantique dans le processus de la RI. On distingue deux grandes approches : l'indexation sémantique et l'indexation conceptuelle. On parle de l indexation sémantique quand il s'agit d'utiliser le sens des mots (mot-sens ou word-sens) pour indexer les documents. L'indexation conceptuelle peut être vue comme une généralisation de l'indexation sémantique, dans la mesure où les concepts aussi véhiculent des sens [BAZIZ, 2005]. I.3.1. Indexation sémantique Le sens d'un mot dans un texte dépend du contexte dans lequel il a été utilisé. Par exemple si le mot java apparait avec compiler et program, cela indique que java ici concerne le langage de programmation java et non pas l'île de java. La désambigüisation de sens de mot ou Word Sense Disambiguation (WSD) est le processus qui examine le contexte d'un terme donné pour déterminer son sens. Les approches 22

32 Chapitre I La Recherche d Information Sémantique de l'indexation sémantique s'appuient sur des algorithmes de désambiguïsation de mots (WSD) pour indexer les documents et les requêtes avec le sens des mots (mots-sens) plutôt qu'avec des mots simples. Nous présentons dans ce qui suit quelques méthodes proposées pour l'indexation sémantique. La méthode de Voorhees Voorhees [Voorhees, 1993] a créé un outil de désambiguïsation basé sur WordNet 2. Pour désambiguïser une occurrence d'un mot ambigu, les synsets (sens) de ce mot sont classés en se basant sur la valeur de cooccurrence calculée entre le contexte de ce mot et un voisinage contenant les mots du synset dans la hiérarchie de WordNet. Voorhees a expérimenté cette approche sur une collection de test désambiguïsée (les requêtes de la collection de test sont aussi désambiguïsées manuellement) par rapport aux performances du même processus sur la même collection dans son état d'origine (ambigu). Les résultats de ses expérimentations ont montré que les performances du système de RI diminuent sensiblement dans le cas de l'utilisation des collections désambiguïsées. La méthode de Sanderson Sanderson [Sanderson, 1994] a utilisé une forme d'ambiguïté artificielle qu'il désigne par pseudo-mot (pseudo-word). Une concaténation de plusieurs mots choisis aléatoirement dans un corpus forme un pseudo-mot. Ces mots deviennent les pseudo-sens du pseudo-mot qu'ils forment, et toutes leurs occurrences dans ce corpus sont remplacées par ce pseudo-mot En ajoutant des pseudo-mots dans un document de la collection de test, une quantité mesurable d'ambiguïté additionnelle est introduite et son impact sur l'efficacité de la recherche peut être déterminé. La méthode de Mihalcea et al Mihalcea et Moldovan [Mihalcea and Moldovan, 2000] utilisent une méthode de désambiguïsation basée sur un corpus pré étiqueté sémantiquement (désambiguïsé) et WordNet. Un nouveau mot est désambiguïsé en tenant compte de sa relation avec les mots du corpus qui sont déjà désambiguïsés. Ce processus itératif leur permet d'identifier dans le corpus d'origine les mots qui peuvent être désambiguïsés avec une grande précision. Ils arrivent ainsi à désambiguïser 55% des mots (noms et verbes) avec une précision de 92%. I.3.2. Indexation conceptuelle L indexation conceptuelle consiste à indexer un document, non plus avec les termes des documents, mais avec les concepts d une base de connaissances [Stairmand and Black, 1997]. Dans ces approches, il faut une liste de concepts cibles (qui exprime le sens des termes possibles) pour pouvoir transformer le terme en concept. Les concepts sont tirés d un vocabulaire contrôlé: les dictionnaires de synonymes, les ontologies, les thésaurus, les taxonomies, etc. Parmi les approches qui s'inscrivent dans cet état d'esprit: 2 WordNet est un réseau sémantique organisé autour de la notion de synset.un synset regroupe des termes (simple ou composés) ayant un même sens dans un contexte donné. Les synsets sont liés par différentes relations telles que l'hyperonymie (is-a) et son inverse, l'hyponymie (instance-de) [BAZIZ, 2005]. 23

33 Chapitre I La Recherche d Information Sémantique La méthode de Woods Woods [Woods, 1997] propose d indexer conceptuellement les documents en utilisant un réseau ad-hoc, comportant des liens syntaxiques, sémantiques et morphologiques. Il a évalué son approche sur de petites collections (pages du manuel Unix) et les résultats sont de l'ordre de 60% de précision. La méthode de Aggarwal and al. Aggarwal and al. [Aggarwal and al., 01] construisent des "chaînes de mots conceptuelles" (conceptual word-chains) à partir de la taxonomie de concepts de Yahoo!. Ils utilisent cette nouvelle représentation comme alternative à la représentation par fichier inverse. Cette approche permet d'avoir une représentation condensée de documents, ce qui diminue l'effet du bruit dû à l'ambiguïté, à la redondance et à l'indépendance des termes dans les documents. La méthode de Baziz Dans [BAZIZ, 2005], il a été proposé de reformuler une requête d'un utilisateur en s'appuyant sur une ontologie. L'approche consiste à projeter une requête sur une ontologie, identifier les nœuds (concepts) de l'ontologie qui représentent au mieux le contenu de la requête en utilisant différentes relations sémantiques, puis de la réécrire dans le format de départ (mots simples) avant de l'envoyer au SRI. Les résultats des expérimentations montrent que : - Les poids à affecter aux mots des concepts ajoutés à la requête suite à l expansion, doivent être inférieurs à ceux des mots de la requête initiale (poids optimal =0.5). - Le nombre de termes issus d un concept à retenir dans le processus d expansion, doit être limité pour ne pas engendrer un bruit trop important. - La relation hyperonymie (généralisation) permet d améliorer la précision globale (moyenne), tandis que la synonymie améliore la précision pour les premiers "meilleurs" documents retournés. Il est à noter que des schémas de pondération de concepts ont été proposé [Boubkeur, and Azzoug, 2013] afin de mieux exprimer l'apport sémantique d'un concept au contenu du document. I.3.3. De la sémantique explicite à la sémantique implicite La plupart des systèmes de recherche d'information, partent de l'idée que le sens d'un document ou d'une requête est clairement exprimé par les termes qu'ils contiennent. On parle ici des systèmes basés sur une sémantique explicite. Cependant, la sémantique peut être implicite, c'est-à-dire cachée. Plusieurs travaux ont tenté de dévoiler cette sémantique latente et de l'incorporer dans le processus de la recherche d'information pour répondre au mieux au besoins de l'utilisateur. Nous distinguons : - Des approches qui s'appuient sur une base de connaissances et un système d'inférence pour inférer l'information implicite [Hammache and Ahmed-Ouamer, 2006]. 24

34 Chapitre I La Recherche d Information Sémantique - Des systèmes qui infèrent l'information implicite en observant les interactions de l'utilisateur avec le système: ces approches améliorent la fonctionnalité de la reformulation de requête par injection de pertinence connue aussi sous le nom de Relevance Feedback. Cette fonctionnalité permet une modification de la requête initiale, sur la base des jugements de pertinence donnés par l utilisateur, sur les documents restitués par le système. Cependant, les utilisateurs n'indiquent pas toujours les documents qu'ils jugent pertinents, en raison du temps que cela prend. Ces approches infèrent les documents que l'utilisateur trouve pertinents (sans qu'il l'indique explicitement) en analysant ses interactions avec le système. Un exemple est que quand l'utilisateur passe la souris devant un titre d'un document, celui-là peut être pertinent. - Les approches inférant l'information implicite à partir d'un profil utilisateur [Hadjouni and al., 2009] : La recherche d'information dépend aussi du profil de l'utilisateur : ses préférences, sa situation géographique,...ces approches, infèrent le sens implicite d'une requête en se basant sur le profil de l'utilisateur pour pouvoir ensuite le guider dans le processus de recherche. - Les approches inférant l'information implicite en se basant sur la cooccurrence des termes dans le corpus: le modèle LSI (Latent Semantic Indexing) permet de dévoiler le sens caché des documents et des requêtes en observant les cooccurrences des termes dans le corpus, et cela utilisant la technique SVD (Singular Value Decomposition). Nous détaillerons le modèle LSI, sur lequel s'appuie notre travail, dans ce qui suit. I Indexation en sémantique latente (LSI) L'indexation en sémantique latente LSI (Latent Semantic Indexing), a été créée par les laboratoires Bellcores en 1989 [Deerwester and al., 1990] afin d'apporter une solution aux problèmes de la RI classique, à savoir: la synonymie et l'ambigüité des termes. Dans LSI, les documents et les termes sont représentés dans un espace appelé espace sémantique. Il s agit d un espace vectoriel réduit, où les termes et les documents sémantiquement similaires sont proches. Pour construire cet espace sémantique, le modèle LSI part d un espace vectoriel de tous les termes d indexation et construit un espace d indexation de taille réduite k, par l'application de la décomposition en valeurs singulières SVD (Singular Value Decomposition) de la matrice termes-documents. Ces k dimensions capturent la sémantique des documents [Berry and Dumais, 1994] souvent caché (latente) à cause de la variabilité dans l'usage des mots. La requête utilisateur est aussi représentée par un vecteur dans cet espace. Une mesure de similarité est ensuite calculée entre le k-vecteur requête et chacun des k-vecteurs documents de la collection. Le système, grâce à ce modèle, pourra sélectionner les documents pertinents même s ils ne contiennent aucun mot de la requête. Décomposition en valeurs singulières La décomposition en valeurs singulières est un outil de factorisation des matrices rectangulaires. Elle a été découverte il y a plus de cent ans par Beltrami, mais n est devenu un outil numérique que depuis la fin des années 1960, quand G. Golub [Golub and Reinsch, 1970] a montré comment on pouvait la calculer de façon stable et (raisonnablement) efficace. Le théorème de base est le suivant : 25

35 Chapitre I La Recherche d Information Sémantique Théorème : Soit une matrice de rang. Il existe deux matrices orthogonales, et, telles que Où, et sont des valeurs singulières. Si on note les colonnes des matrices et, les vecteurs et sont, respectivement, les vecteurs singuliers droits et gauches associés à la valeur singulière. Il existe une version réduite de SVD appelée SVD réduite. C est une stratégie qui permet de conserver seulement les k plus grandes valeurs singulières. Le produit des matrices résultantes est une matrice : Selon le théorème de Eckart et Young [Eckart and Young, 1936], est la meilleure approximation de.ce théorème démontre que l erreur d approximation de par est donné par : Cette norme est un calcul des moindres carrés entre les vecteurs de la matrice originale et les nouveaux vecteurs correspondants dans la matrice. Cette façon de compresser la dimensionnalité pour obtenir une matrice de rang k projette les vecteurs originaux le plus près possibles des nouveaux vecteurs. Elle conserve un maximum d informations en fonction du k choisi. 26

36 Chapitre I La Recherche d Information Sémantique Exemple de calcule SVD d une matrice : Soit la matrice = Calcul de : On calcule les valeurs propres et les vecteurs propres de, on trouve : Les valeurs propres (ordre décroissant). Les vecteurs propres correspondants, formant une matrice qui doit être convertie en une matrice orthogonale. On accomplit cette opération par une procédure l'orthogonalisation de Gram Schmidt. On aura alors la matrice Calcul de : On calcule les valeurs propres et les vecteurs propres de, on trouve : Les valeurs propres (ordre décroissant). Les vecteurs propres correspondants formant une matrice avec l l'orthogonalisation de Gram Schmidt on obtient la matrice : Calcul de : Pour le calcul de, il suffit de prendre les valeurs propres non nulles de ou (ils sont les mêmes) et on les place sur la diagonale en ordre décroissant, on obtient la matrice : 27

37 Chapitre I La Recherche d Information Sémantique On peut calculer la SVD suivant l exemple ci-dessus ou simplement faire recours aux logiciels disponibles sur internet, tel que : -Bluebit Matrix Calculator -The JavaScript SVD Calculator -MathLab -Scilab Construction de l espace sémantique La SVD est appliquée pour résoudre différents problèmes linéaires dans différents domaines, tel que: les statistiques, traitement d image, analyse de signaux, compression de données,...etc. Dans le contexte de la RI : - est une matrice terme/documents, Les éléments de la matrice peuvent être binaires (présence / absence du terme dans le document) ou ils peuvent représentés les poids des termes, -chaque colonne de représente les coordonnées d un vecteur terme dans l espace réduit, -chaque colonne de représente les coordonnées d un vecteur document dans le même espace (voir la figure I.8), -quand une requête est introduite, elle sera transformée en un pseudo document comme suit : Les documents peuvent ainsi être comparés à la requête, en calculant la similarité entre les vecteurs documents et le vecteur. 28

38 Chapitre I La Recherche d Information Sémantique Vecteurs de termes Vecteurs de documents Figure I-8 SVD réduite La SVD réduite permet de capturer les modèles de données les plus importants et ignore ceux qui ne sont pas influents. Comme résultat, les termes et les documents qui sont sémantiquement liés se présentent proches dans l espace réduit. Exemple d une recherche d information en modèle LSI Soit une collection de 3 documents : d 1 : Shipment of gold damaged in a fire. d 2 : Delivery of silver arrived in a silver truck. d 3 : Shipment of gold arrived in a truck. La matrice termes/documents (les lignes représentent les termes et les colonnes représentent les documents), et le vecteur de requête se présentent comme suit : 29

39 Chapitre I La Recherche d Information Sémantique a arrived damaged delivery fire gold = = 1 in of shipment silver truck Après la décomposition en valeurs singulières réduite de tel que k=2 on obtient : = Les coordonnées des vecteurs termes sont les lignes de la matrice vecteurs documents sont les colonnes de la matrice. et les coordonnés des On calcule les coordonnées du vecteur requête dans l espace réduit On représente graphiquement les vecteurs dans l espace réduit comme suit : 30

40 Chapitre I La Recherche d Information Sémantique Figure I-9 Représentation de l espace vectoriel réduit On compare les vecteurs documents et le vecteur requête en calculant les produits scalaires : La similarité Les documents sont retournés dans l ordre suivant, commençant par le plus pertinent: Systèmes existants basés sur LSI Au début LSI s agissait d un outil de recherche d information [Deerwester and al., 1990] mais très rapidement son usage est devenu très varié. Parmi les domaines où LSI a été appliquée avec succès : - Le filtrage d'informations dans [Foltz and Dumais, 1992]. Ici, l'objectif était de trouver les notes techniques qui intéressent chaque utilisateur selon son profile en utilisant LSI. - La recherche d'informations multilingue dans [Dumais, 1997]. Dans ce papier, l auteur décrit un système de translation automatisé grâce à l apprentissage de LSI. - L'évaluation automatique de copies [Foltz, 1996]. Ici, il a été demandé aux sujets d écrire une synthèse à partir de textes d un domaine donné. Les copies sont classées par des juges humains. Il leur est demandé de juger l adéquation entre la copie et les textes. En parallèle, LSA s entraîne avec les textes et classe les copies en fonction de la proximité entre elles et chacun des textes. Les résultats de LSA sont comparables à ceux des humains. La corrélation entre les juges humains et LSA est proche de 0.6 pour la totalité des études, ce qui est similaire à la corrélation entre les corrections de deux humains pour l évaluation d un même texte. 31

41 Chapitre I La Recherche d Information Sémantique - La modélisation de l'acquisition [Landauer and Dumais, 1997], une expérimentation consistait à construire un espace sémantique général à partir d un large corpus de textes en anglais, puis à le tester sur la partie synonymes du TOEFL (Test Of English as a Foreign Language), qui est composée de 80 questions. A partir d un mot donné, il faut identifier parmi 4 mots, celui qui est le plus proche sémantiquement. LSA a passé le test en choisissant parmi les 4 mots celui pour lequel il y a la plus grande similarité entre son vecteur et celui du mot donné. LSA a obtenu un score de 51.5 alors que la moyenne des étudiants étrangers admis dans les universités américaines est de A notre connaissance, il s agit du premier système capable d effectuer un exercice standard sans avoir recours à des connaissances sémantiques supplémentaires. I.4. Conclusion Dans ce chapitre nous avons présenté les concepts de base de la recherche d information et nous avons décrit les méthodes qui ont incorporé la sémantique dans la RI : l indexation sémantique, l indexation conceptuelle et l indexation en sémantique latente. Malgré le très grand nombre de recherches qui sont faites, les systèmes de recherche d information présentent encore des lacunes au niveau sémantique et sont perfectibles à plus d un sens. Pour cette raison, des recherches sont toujours en cours. Certaines de ces recherches tentent d introduire des techniques pour améliorer les performances d un SRI. Nous nous plaçons dans une logique où nous apportons une contribution qui porte sur un modèle de représentation de connaissances appliqué avec succès dans la RI, à savoir, l Analyse Formelle de Concepts qui sera présenté dans le prochain chapitre. 32

42 Chapitre II Analyse Formelle de Concepts

43 Chapitre II II.1. Introduction Analyse Formelle de Concepts L Analyse Formelle de Concepts (AFC) [Wille, 1982], désignée par le terme anglophone Formal Concept Analysis (FCA), est une théorie qui constitue un pont entre les mathématiques et représentation de connaissances. C est la restructuration de la théorie des treillis en adéquation avec la philosophie de la pensée humaine. Elle vise à identifier des clusters de connaissance, appelés concepts formels, et à ordonner ces clusters sous la forme de treillis. Dans ce chapitre, nous commençons par une description intuitive de l AFC puis nous donnons les définitions formelles associées. Nous passons en revue les algorithmes de construction de treillis et nous introduisons les extensions de l AFC. Enfin, nous présentons des outils qui servent à construire et à manipuler les treillis de concepts formels. II.2. Présentation intuitive de l Analyse Formelle de Concepts L Analyse Formelle de Concepts se base sur la notion de concept formel qui est considéré du point de vue psychologique comme l unité de base de la pensée humaine. Le concept peut être défini comme un ensemble d objets et de leurs propriétés communes. Ces concepts formels sont extraits à partir d une relation binaire définie entre un ensemble d objet et un ensemble de propriétés (attributs). Cette relation est appelée contexte formel qui peut être représenté sous la forme d un tableau où les lignes correspondent aux objets et les colonnes correspondent aux propriétés. Les cases du tableau sont remplies comme suit : si le i ème objet satisfait la j ème propriété alors la case intersection de la ligne i et la colonne j contient, sinon la case est vide. Le tableau II-1 illustre un contexte formel qui représente une relation entre un ensemble d animaux {lion, moineau, aigle, lièvre, autruche} et certaines de leurs propriétés {prédateur, vole, oiseau, mammifère}. Tableau II-1 Exemple d un contexte formel Animal lion moineau aigle lièvre autruche Propriétés prédateur vole oiseau mammifère Un concept formel est une paire maximale (où A est un sous ensemble d objets et B est un sous ensemble de propriétés) telle que représente l ensemble de tout les d objets satisfaisant toutes les propriétés de B déjà satisfaites par tous les objets de A (par exemple, la paire <{moineau, aigle},{vole, oiseau}> est un concept formel). Dans un concept formel, A est appelé extension et est appelé intension. L ensemble des concepts formels se caractérisent par une relation d ordre partiel et forme une hiérarchie de concepts formels. On dit que si et 33

44 Chapitre II Analyse Formelle de Concepts seulement si (ou de façon duale ). est dit super-concept de et est dit sous-concept de A titre d exemple, le concept formel < {aigle}, {prédateur, vole, oiseau}> est un sous-concept du concept formel < {moineau, aigle}, {vole, oiseau}> et ce dernier concept formel est un super-concept du < {aigle}, {prédateur, vole, oiseau}>. L ensemble de tous les concepts formels présente une propriété algébrique importante : il constitue un treillis complet. Le treillis associé au contexte formel de l exemple précédent est représenté dans la figure II-1. Les sommets correspondent aux concepts formels et les arêtes à l ordre partiel entre ces concepts formels. Afin de ne pas surcharger le graphe, seules les intensions et extensions réduites ont été représentées. L intension réduite d un concept formel contient seulement les propriétés qui n apparaissent pas dans les intensions des concepts formels supérieurs. Réciproquement, l extension réduite d un concept formel contient seulement les objets qui n apparaissent pas dans les extensions des concepts formels inférieurs. La lecture de ce treillis se fait comme suit : les propriétés sont placées au plus haut dans le treillis et à chaque fois qu un nœud N est étiqueté par une propriété m, tous les descendants de N dans le treillis héritent la propriété m. De façon duale, les objets sont placés au plus bas dans le treillis et à chaque fois qu un nœud N est étiqueté par un objet g, g est hérité vers le haut et tous les ancêtres de N le partagent. Ainsi l extension d un concept formel associé au nœud est obtenue en considérant tous les objets qui apparaissent sur les descendants du nœud N dans le treillis et son intension est obtenue en considérant toute les propriétés qui apparaissent sur les ancêtres du nœud dans le treillis. mammifère lièvre prédateur vole moineau oiseau autruche lion aigle Figure II-1 Treillis des concepts formels 34

45 Chapitre II Analyse Formelle de Concepts II.3. Présentation mathématique de l Analyse Formelle de Concepts II Rappels et préliminaires Définition 1 (Relation binaire) Une relation binaire I entre deux ensembles M et N est un sous ensemble du produit Cartésien. Une telle relation est un ensemble de couples d l ments (m,n) aussi noté par min tels que et qui signifie que l l ment m est en relation I avec l l ment n. Définition 2 (Relation d ordre) Une relation binaire I sur un ensemble E est dite relation relation d ordre sur E, si elle vérifie les conditions suivantes pour tous : 1. (I est réflexive) 2. si (I est antisymétrique) 3. si (I est transitive) Une relation d ordre est souvent notée par et on dit : x est plus petit que y lorsque x y. Définition 3 (Ensemble ordonné) Un ensemble partiellement ordonné (ou ensemble ordonné) est un couple est un ensemble et est une relation d ordre sur E. où E Dans un ensemble ordonné, deux éléments x et y de E sont dits comparables lorsque, autrement ils sont dits incomparables. Un sous ensemble de dans lequel tous les éléments sont comparables est appelé chaîne. Un sous ensemble de dans lequel tous les éléments sont incomparables est appelé anti-chaîne. Définition 4 (Majorant, minorant, supremum, infimum) Soient un ensemble ordonné et S un sous ensemble de E. Un élément est dit majorant de S lorsque. De façon duale, est dit minorant de S lorsque. Le plus petit majorant (respectivementle plus grand minorant) de S, s il existe, est appel supremum ou borne supérieure (respectivement infimum ou borne inférieure) de S et noté (respectivement ). 35

46 Chapitre II Analyse Formelle de Concepts Dans le cas où S = {x, y}, et sont aussi notés par respectivement. Dans tout ensemble ordonné, lorsque le supremum (respectivement l infimum) existe, il est unique. Définition 5 (Treillis, treillis complet) Un treillis est un ensemble partiellement ordonné tel que existent pout tout couple d l ments. Un treillis est dit complet si et existent pour tout sous ensemble S de E. En particulier, un treillis complet admet un élément maximal (top) noté T et un élément minimal (bottom) noté. Définition 6 (Topologie) Une topologie dans est une famille de sous-ensemble de l ensemble fermée par rapport à une union arbitraire et une intersection finie et contenant l ensemble et E. Le couple est nommé «espace topologique», les éléments de sont appelés «points», les éléments de appelés «ensembles ouverts». Le complémentaire d un ensemble ouvert est un «ensemble fermé». Définition 7 (Fermeture) On appelle opérateur de fermeture sur un ensemble partiellement ordonné,, toute application qui vérifie les propriétés suivantes pour tout : 1. ( est extensive), 2. si alors ( est monotone croissante), 3. ( est idempotente). Un élément est dit fermé pour si et seulement si L ensemble des fermés dans un ensemble forme un treillis complet [Birkhoff, 1948]. étant donné un opérateur de fermeture sur E Définition 8 (Connexion de Galois) Soient et deux applications entre deux ensembles ordonnés et. forment une connexion de Galois entre si et seulement si v les conditions suivantes sont vérifiées pour tous et : 1. si alors, 2. si alors, 3. et. 36

47 Chapitre II Analyse Formelle de Concepts Les conditions données dans la définition précédente sont équivalentes à la formule suivante : II.3.2. Algèbre des concepts formels Définition 9 (Contexte formel) Un contexte formel est un triplet = (G,M,I) où G est un ensemble d objets, M est un ensemble de propriétés et I est une relation binaire complètement définie entre G et M et vérifiant I G M. Un couple (g, m) I (not aussi g I m) signifie que l objet g G possède (satisfait) la propriété m M. Définition 10 (Opérateur de dérivation de Galois) Soit = (G,M,I) un contexte formel. Pour tout A G et B M, on définit l opérateur ensembliste appelé opérateur de dérivation de Galois comme suit est l ensemble de propriétés communes à tous les objets de A et objets possédant toute les propriétés de B. est l ensemble des L opérateur de dérivation de Galois proposé par Wille en AFC est aussi appelé opérateur de suffisance [Duntsch and Gediga, 2003]. Cet opérateur permet de définir algébriquement la notion de concept formel tel que représenté dans la définition ci-après. Définition 11 (Concept formel) Soit un contexte formel. Un concept formel est une paire <A, B> tel que. A et B sont respectivement appelées extension (extent) et intension (intent) du concept formel <A, B>. L ensemble de tous les concepts formels (noté ) muni de la relation d ordre forme un treillis complet dont la structure est donné par le théorème fondamental de Ganter et Wille [Ganter and Wille, 1999]. Théorème ([Ganter and Wille, 1999]) La relation permet d organiser les concepts formels en un treillis complet appelé treillis de concepts formels ou encore treillis de Galois. Le supremum et l infimum dans sont donnés par : 37

48 Chapitre II Analyse Formelle de Concepts Le treillis de concepts formels est une représentation équivalente (isomorphe) des données contenues dans un contexte formel. La représentation graphique du treillis de concepts formels, sous la forme d un diagramme de Hasse, facilite la compréhension et l interprétation de la relation entre les objets et les propriétés d une part et entre objets ou propriétés d autre part. II.3.3. Logique de concepts formels L Analyse de Concepts Logiques (ACL) [Ferré, 2002] consiste à étendre les résultats de l AFC aux contextes logiques. Définition 12 (contexte logique) Un contexte logique, noté par, est un triplet où est un ensemble fini d objets, est une logique, et est une fonction de dans qui associe à chaque objet une formule d crivant les propri t s de l objet (ou une description logique). Un contexte logique est un contexte multivalué dans lequel les attributs sont des descriptions qui prennent comme valeurs des formules logiques décrivant les objets du contexte. Formellement, une logique est définie par le 6- uplet,t où : est un langage de formules logiques est la relation de déduction sur est l opérateur de conjonction est l opérateur de disjonction T est la tautologie dans est la contradiction dans Dans l'acl, la connexion de Galois se fait entre des ensembles d'objets et des formules. Les opérateurs de dérivation et entre et sont définis comme suit : ù 38

49 Chapitre II Analyse Formelle de Concepts est l expression par une formule logique des propriétés communes à tous les objets dans et est l ensemble de tous les objets de dont la description est subsumée par la formule. Les deux opérateurs forment une connexion de Galois entre et Un concept logique est une paire telle que et, est l extension du concept logique et est l intension du concept logique. Les concepts logiques peuvent être ordonnés selon l inclusion entre leurs extensions ou de manière équivalente selon la subsomption entre leurs intensions. L ensemble des concepts logiques d un contexte logique ordonnés de cette façon forme un treillis de concepts logiques. Exemple ([Ferré, 2002]): Un exemple de contexte logique est représenté par le tableau II-2 et le treillis de concepts logiques correspondant est représenté par la figure II-2. Les lettres h, f et c sont les abréviations respectives de homme, femme et chauve. Tableau II-2 Exemple de contexte logique objet description Seb Leo X Figure II-2 Exemple de treillis de concepts logiques 39

50 Chapitre II Analyse Formelle de Concepts II.4. Généralisation des opérateurs de dérivation de Galois Dans [Dubois and al., 2007], les auteurs ont introduit de nouveaux opérateurs de dérivation de Galois inspirée de la théorie des possibilités [Zadeh, 1978]. Ces opérateurs sont : - L operateur de possibilité noté, - L opérateur de nécessité noté N, - L opérateur de suffisance duale noté. Nous donnons ci-dessous la définition de ces 3 opérateurs. Soit un ensemble d objets. Définition 13 (Operateur de possibilité) L op rateur de possibilit objet de A : d signe l ensemble des propri t s satisfaites par au moins un Définition 14 (Opérateur de nécessité) L op rateur de nécessité les objets de A : d signe l ensemble des propri tés satisfaites uniquement par Définition 15 (Opérateur de suffisance duale). L op rateur de suffisance duale satisfaite par au moins un objet de : d signe l ensemble des propri t s qui ne sont pas 40

51 Chapitre II Analyse Formelle de Concepts Les opérateurs et sont obtenus de manière duale. Les paires telles que et caractérisent des sous-contextes indépendants, c'est-à-dire, qui n ont en commun ni objets ni propriétés à l intérieur du contexte initial [Djouadi and al., 2010]. II.5. Algorithmes de construction de treillis de concepts Pour construire un treillis de concepts formels, il faut d abord énumérer les rectangles maximaux (les fermés), ensuite trouver les relations d ordre partiel entre ces rectangles, et enfin représenter graphiquement le treillis (construction du diagramme de HASSE). En considérant la stratégie d acquisition de données à partir d un contexte formel, trois familles d algorithmes sont mises en évidence : 1. Les algorithmes batch qui considèrent la totalité du contexte dès le départ, 2. Les algorithmes incrémentaux qui considèrent le contexte ligne par ligne, 3. Les algorithmes d assemblage qui répartissent le contexte formel puis calculent les concepts formels correspondant à chaque partie ensuite font l assemblage. II.5.1. Les algorithmes batch Ils sont les algorithmes de la première génération. L entrée de ces algorithmes est le contexte formel tout entier. Ils calculent les concepts formels et l ordre entre ces concepts formels simultanément ou séquentiellement. On trouve dans cette catégorie l algorithme de Chein [Chein, 1969], l un des premiers algorithmes proposés, c est un algorithme itératif qui repose sur la propriété suivante : Propriété [Chein, 1969] Soit un contexte formel et et deux paires tel que : - G et M -. Le rectangle tel que : est un élément de si seulement si il est maximal. L algorithme construit le treillis des concepts formels comme suit : - Initialement, l algorithme part d un ensemble de paires représentant les lignes du contexte formel ( contient un seul élément de et ). - Un élément > de est obtenu en combinant deux éléments et de comme suit : et tel que et. 41

52 Chapitre II Analyse Formelle de Concepts - Les éléments de inclues dans au moins un élément de ne sont pas maximaux et sont donc supprimés. - L algorithme s arrête lorsque contient moins de deux éléments. Les éléments non supprimés après l arrêt de l algorithme sont les concepts formels du contexte formel considéré. Exemple Soit le contexte formel suivant [Guénoche, 1990]: Tableau II-3 Exemple de déroulement de l'algorithme de Chein: contexte formel d'entrée L application de l algorithme de Chein donne les résultats suivants : Tableau II-4 Exemple de déroulement de l algorithme de Chein: la trace de l'algorithme,,,,,,, Un autre algorithme dans cette catégorie est NextClosure [Ganter, 1984]. Il s appuie sur l ordre lexicographique entre ensembles d attributs pour calculer les fermés. Le calcul des fermés peut être appliqué aux attributs (NextIntent) auquel cas on obtient les intensions des concepts formels ou bien aux objets (NextExtent) auquel cas on obtient les extensions des concepts formels. L algorithme Bordat [Bordat, 1986] construit les concepts formels en s appuyant sur une structure d arbre pour garder les résultats intermédiaires. L algorithme Close-by-One [Kuznetsov, 1993] utilise une technique similaire à NextClosure pour la génération des 42

53 Chapitre II Analyse Formelle de Concepts concepts formels et une structure particulière appelée arbre CbO pour garder en mémoire les concepts formels générés. L algorithme Titanic [Stumme and al., 2002] utilise la notion de fréquence pour calculer les concepts formels sans faire d intersection entre les ensembles d attributs. II.5.2. Algorithmes incrémentaux Les algorithmes incrémentaux remédient au problème de la reconstruction du treillis dans le cadre de contextes dynamiques. Ces algorithmes effectuent des mises à jour locales du treillis après l'ajout d'un objet dans le contexte formel. A la différence des algorithmes batch, les algorithmes incrémentaux considèrent le contexte formel ligne par ligne (colonne par colonne) et construisent le treillis de concepts formels par ajouts successif de ligne (colonne) tout en conservant sa structure. Dans cette catégorie figure l algorithme de Norris [Norris, 1978] où on considère le tableau ligne à ligne : - Initialement L 1 ne contient qu une seule ligne où - Une étape dans cet algorithme consiste à construire L k connaissant et L k-1. - Une paire est soit étendu en si est inclus dans soit recopié et on ajoute à L k le rectangle si n est pas une intention d un rectangle L k. Exemple Considérant l exemple de contexte formel présenté dans le tableau II-3, le déroulement de l algorithme de Norris est comme suit : Tableau II-5 Exemple de déroulement de l algorithme de Norris: la trace de l'algorithme L1 L2 L3 L4 L5 L6 ab ab a ac ab b a ac c bcd ab b a ac c bcd d de ab b a ac c bcd d de ab b a ac c bcd d de abcde Dans cette même catégorie, on trouve l algorithme Galois [Carpineto and Romano, 1993] et l'algorithme de Godin [Godin and al., 1995]. 43

54 Chapitre II II.5.3. Algorithmes d assemblage Analyse Formelle de Concepts Le seul algorithme connu de cette famille est l algorithme Divide&Conquer [Valtchev and al., 2002] qui permet de diviser un contexte formel en deux parties verticalement ou horizontalement puis de calculer le treillis de concepts formels correspondant à chaque partie et enfin d assembler les treillis obtenus en un seul. La stratégie d assemblage de treillis est bien adaptée aux problèmes d intégration de vues partielles sur un domaine. Exemple Soit le contexte formel suivant : Tableau II-6 Exemple d'e déroulement de l'algorithme de Divide&Conquer: contexte formel d'entrée o m b c d e f g On le divise en deux contextes formels, puis on construit le treillis qui correspond à chacun d eux : Tableau II-7 Exemple d'e déroulement de l'algorithme de Divide&Conquer: les contextes formels résultants de la division a b c d A la fin, on assemble les deux treillis dans un seul comme suit : e f g 44

55 Chapitre II Analyse Formelle de Concepts Figure II-3 Treillis résultant de déroulement de l'algorithme de Divide&Conquer Le tableau suivant recense la complexité des algorithmes de construction de treillis : Tableau II-8 La complexité des algorithmes de construction de treillis Algorithme Chein Bordat Ganter Close By One Nourine Nouris Complexité en temps Le choix d un algorithme de construction de treillis doit être basé sur les propriétés des données à traiter. Dans [Kuznetsov and Obiedkov, 2002], les auteurs recommandent : -L utilisation de l algorithme de Godin pour les contextes petits et clairsemés. -L utilisation de Close by One et Norris pour les contextes denses. -L utilisation de l algorithme de Bordat pour les contextes d une densité moyenne et surtout quand il s agit de construire le diagramme. 45

56 Chapitre II II.6. OUTILS Analyse Formelle de Concepts Dans cette section, nous passons en revue les outils qui ont été développés pour construire, manipuler et visualiser des treillis de concepts formels. Nous nous limitons ici aux outils couramment utilisés en recherche académique, une liste plus exhaustive peut être consultée sur FCA homepage 3. II.6.1. ConImp Proposé en 1986 ConImp [Burmeister, 2003] abréviation de Contexts and Implications est l un des plus anciens outils de manipulation de treillis. Il est disponible sous DOS et Linux. Il fonctionne en mode texte et ne permet pas de visualiser les treillis. format entrée contexte : cxt format sortie contexte : cxt format entrée treillis : non format sortie treillis : bgr visualisation : non adresse : II.6.2. Galicia Galicia [Valtchev and al., 2003] présente certaines fonctionnalités avancées comme la manipulation de contextes relationnels, la fusion de treillis ou encore la construction d'icebergs de concepts formels. format entrée contexte : slf, bin.xml, ibm format sortie contexte : slf, bin.xml format entrée treillis : lat.xml format sortie treillis : lat.xml visualisation : oui adresse :

57 Chapitre II Analyse Formelle de Concepts Figure II-4 Interface de Galicia II.6.3. ConExp ConExp (Concept Explorer) [Yevtushenko, 2000] a d'abord été développé dans le cadre d une thèse de maîtrise sous la supervision du Professeur Tatyana Taran à l'université technique nationale d'ukraine «KPI» en Il supporte seulement les contextes binaires. Il est caractérisé par sa facilité de manipulation format entrée contexte : cex, cxt, csv, oal format sortie contexte : cex, cxt format entrée treillis : cex format sortie treillis : cex visualisation : oui adresse : conexp.sourceforge.net/ II.6.4. Toscana Parmi les logiciels les plus, récents, on distingue Toscana [Vogt and Wille, 1995]. Toscana est actuellement développé en Java (ToscanaJ) par des équipes des universités de Darmstadt en Allemagne et du Queensland d Australie. L'une des particularités de ToscanaJ est de construire et visualiser des treillis entrelacés. format entrée contexte : csx, cxt, csc (format Anaconda), xml (format Cernato) format sortie contexte : csx format entrée treillis : csx format sortie treillis : csx visualisation : oui, y compris nested-line diagrams adresse : toscanaj.sourceforge.net/ 47

58 Chapitre II Analyse Formelle de Concepts Figure II-5 Interface ToscanaJ II.7. Généralisation de l Analyse Formelle de Concepts La proposition initiale [Wille, 1982] est limitée à des contextes formels (relations) Booléens. C est à dire que : - Soit l objet g vérifie totalement la propriété m, - Soit l objet g ne vérifie pas complètement la propriété m, - Une seule des deux situations ci-dessus est exclusivement possible Il s avère que les données rencontrées dans le monde réel ne se présentent pas forcément sous la forme de contextes formels Booléens, elles peuvent être imprécises, incertaines, floues, vagues, partiellement renseignées...etc. Un exemple est illustré dans le tableau II-9. Tableau II-9 Exemple de contexte formelle non binaire Propriétés Anglais Marrié Jeune Objets Tinhinane Massile (0,1]? 0.7 Ali 0 (0.7 ;0.0) 0.6 Lilia [0.2,0.4] 1 48

59 Chapitre II Analyse Formelle de Concepts La première colonne du tableau II-9 indique le niveau de maîtrise de l Anglais. Ce niveau peut être connu de manière précise ou sous forme d intervalle. Dans la seconde colonne, Tinhinane est mariée et Lilia non. Cependant, nous savons rien pour Massile, rien ne peut affirmé qu'il est marié ou pas (cas totalement non informé). Ce cas illustre la présence d incomplétude et d incertitude. Le mariage de Ali, connaissance partielle (cas partiellement informé), est modélisé par la théorie des possibilités [Zadeh, 1978], la paire (0.7 ;0.0) exprime que la possibilité que Ali ne soit pas marié est de 0.0 et de 0.7 qu il le soit. La troisième colonne contient des valeurs appartenant à l intervalle [0, 1]. Elles indique le degré de satisfaction de la propriété graduelle Jeune. Il existe dans la littérature deux principales approches qui permettent de traiter ce type de contextes formels à savoir : - La théorie des grandeurs (échelle) conceptuelles - La théorie des ensembles flous. II.7.1. Théorie des grandeurs conceptuelles [Wolff, 2002] Pour pouvoir traiter un contexte multivalué, celui-ci doit être transformé en un contexte monovalué (binaire) équivalent. Définition 16 (Contexte formel multivalué) Un contexte formel multivalué est un quadruplet où est un ensemble d objets, est un ensemble de propriétés multivaluées, est l ensemble de valeurs prises par les propriétés et une relation ternaire entre et, telle que : Les notations et sont équivalentes et expriment que l objet satisfait la propriété m à un degré w. Cette étape de transformation s appelle échelonnage conceptuel [Ganter et Wille, 1999]. L échelonnage conceptuel (conceptual scaling) consiste à transformer chaque attribut multivalué en un ensemble d attributs Booléens (monovalués) qui forment un contexte monovalué appelé échelle conceptuelle (conceptual scale) de l attribut multivalué. Une échelle conceptuelle est un contexte formel dont les objets sont des valeurs et les attributs sont des attributs d échelle. Ce contexte permet de structurer le domaine de valeurs de cet attribut sous la forme d un treillis de concepts formels qui définit une hiérarchie entre les attributs d échelle. Une augmentation significative du nombre d attributs binaires dans le contexte transformé est observée quand on utilise les échelles conceptuelles. Cela résulte l augmentation du nombre de concepts formels dans le treillis associé. On se trouve donc face au problème d une complexité du diagramme de Hasse. Les diagrammes enchevêtrés ou nested-line diagram, sont utilisés pour pallier à ce problème. 49

60 Chapitre II Analyse Formelle de Concepts Ce diagramme repose sur une partition des attributs. Soit un contexte formel et une partition de M. Le principe consiste à construire le diagramme de Hasse du treillis et à remplacer chacun de ses nœuds par une copie du treillis II.7.2. Analyse Formelle de Concepts Flous Dans l Analyse Formelle de Concepts classique, la relation considérée est Booléenne. Pour prendre en compte des relations floues, l Analyse Formelle de Concepts Flous (AFCF) a été introduite. C est une application de la théorie des ensembles flous et elle consiste à étendre les résultats de l AFC aux contextes flous. Un exemple de contexte formel flou est illustré par le tableau II-10. Tableau II-10 Exemple d'un contexte formel flou Climat chaud froid Pluvieux humide Région R R R II Rappels sur la théorie des ensembles flous La théorie des ensembles flous [Zadeh, 1965] a été introduite par Lotfi Zadeh en L idée est de rapprocher la précision des mathématiques classiques et l imprécision du monde réel. Définition 17 (sous-ensemble flou) Soit X un univers de discours et soit x un élément quelconque de X. Un sous-ensemble flou de X est d fini comme l ensemble des couples : avec Ainsi, un sous-ensemble flou de est caractérisé par une fonction d appartenance qui associe, à chaque élément de un degré dans l intervalle[0, 1].Ce degré noté exprime la caractéristique de transition graduelle et non brutale entre l'appartenance complète et la non appartenance totale de l'élément x à l'ensemble A. Trois cas sont possibles : 1. si x n appartient pas ( non appartenance totale), 50

61 Chapitre II Analyse Formelle de Concepts 2. si x appartient partiellement à (plus se rapproche de 1, plus x appartient à A, 3. si x appartient entièrement à A (appartenance complète) Exemple Soit l'ensemble de personnes de taille moyenne, c'est à dire l'ensemble des personnes ayant une taille comprise entre 1m 60 et 1m80. En théorie des ensembles dits classiques, la fonction caractéristique de l ensemble renvoi : '0' pour les tailles hors de l intervalle [1m 60, 1m 80], '1' pour les tailles appartenant à cet intervalle. Ce qui fait qu'une personne mesurant 1m 59 ne sera pas considérée de taille moyenne, alors qu une personne plus grande d un centimètre 1m 60 l'est. En théorie des ensembles flous, on peut définir un ensemble flou des personnes de taille moyenne. Cet ensemble sera caractérisé par une "fonction d appartenance" qui,contrairement à une fonction caractéristique classique, peut renvoyer des valeurs dans un intervalle [0,1]. Ces valeurs représente le degrés d'appartenance à l'ensemble des personnes de tailles moyenne. Par exemple une personne d'une taille de 1m 60 aura un degré d'appartenance égale à '1' et une personne mesurant 1m 59 aura un degré d'appartenance de '0,9' cm 180 cm Taille cm Taille Figure II-6 Représentation graphique d'une fonction d'appartenance caractérisant un ensemble flou A Des opérations sur les sous-ensembles flous ont été définies : Egalité Deux sous-ensembles flous A et B de X sont égaux, si leurs fonctions d appartenance prennent la même valeur pour tous les élément x de X. 51

62 Chapitre II Analyse Formelle de Concepts Formellement A = B si et seulement si : Complément Le complémentaire d un sous-ensemble flou A de X noté est défini par : Inclusion Soit A et B deux sous-ensembles flous de X. Si pour n importe quel élément x de X, x appartient toujours moins à A qu à B, alors on dit que A est inclus dans B ( ). Formellement, si et seulement si : Intersection Afin de généraliser l'intersection (et par extension la conjonction de propositions) sur les sous-ensembles flous, les normes triangulaires (t-normes) ont été définis: Définition 17 (t-norme) Une t-norme (appelée aussi norme triangulaire) est une fonction qui possède les propriétés suivantes Commutativité : Associativité : Monotonie : si ou 1 est l l ment neutre : de plus, elle assure que Il existe une infinité de normes, les plus courantes sont données dans le tableau cidessous. Tableau II-11 Les t-normes les plus courantes Auteur Zadeh Lukasiewicz Weber t-norme 52

63 Chapitre II Analyse Formelle de Concepts L'intersection des deux ensembles flous et, est donnée par : Union L'union (et par extension la disjonction de propositions) est généralisée sur les sousensembles flous, par les conormes triangulaires (t-conormes) définis comme suit: Definition 18 (t-conorme) Une t-conorme (appelée aussi conorme triangulaire) est une fonction qui possède les propriétés suivantes Commutativité : Associativité : Monotonie : si ou 0 est l l ment neutre : de plus, elle assure que, et. Il existe une infinité de conormes, les plus courantes sont données dans le tableau cidessous. Tableau II-12 Les t-conormes les plus courantes Auteur Zadeh Lukasiewicz Weber t-conorme L'union des deux ensembles flous et, est donnée par : 53

64 Chapitre II Analyse Formelle de Concepts Les implications floues Une implication dans un cas classique (c'est à dire quand les valeurs et des deux propositions et prennent des valeurs Booléennes) peut rendre vrai ou faut. Une extension floue de cette implication a été proposée lorsque les valeurs des proposions p et q varient entre 0 et 1. Toute implication floue est une fonction (notée ) définie par : et elle est d autant plus vraie (respectivement fausse) que son résultat est proche de 1 (respectivement. 0). Les implications floues se divisent principalement en deux familles: les S implications et les R-implications que nous présentons ci-après. S-implication L appellation S-implication vient de l expression anglaise Strong implication. On définit la classe des S-implication à partir de l expression : ((non p) ou q) de la manière suivante: R-implication = (1- p q) La seconde classe d implications floues est la R-implication, ainsi dénommées parce qu elles utilisent le principe de résiduation. Une R-implication est définie comme suit : = Sup [0, 1] {u [0, 1] (p u) q } II Contexte formel flou et Concepts formels flous L analyse de concepts formels floue repose sur la notion de contexte formel flou. Un contexte formel flou comporte une relation binaire floue entre un ensemble d objets et un ensemble d attributs. Formellement, un contexte formel flou ou L-contexte est un tuple où la relation floue est une fonction définie. Une relation floue I est représentée sous forme d une table, généralement les lignes représentent les objets et les colonnes représentent les propriétés. Chaque cellule de la table exprime une valeur appartenant à L ACF floue consiste à induire tous les concepts formels flous où est un ensemble flou est un ensemble flou et et. 54

65 Chapitre II Analyse Formelle de Concepts Pollandt [Pollandt, 1997] et Belohlavek [Belohlavek, 1999] définissent l opérateur de dérivation comme suit : est une R-implication. représente un degré de vérité de la propriété satisfaite par tous les objets de représente un degré de vérité de l objet satisfaisant toutes les propriétés de L ensemble de tous les concepts formels flous est aussi équipé d une relation d ordre définie comme suit : ssi ou. L ensemble de ces concepts formels flous forme un treillis complet défini par et II.8. Conclusion Ce chapitre porte essentiellement sur l analyse formelle de concepts qui permet d extraire des concepts formels qui ne sont rien d autres que des clusters de connaissances. L analyse des concepts formels a été appliqué dans plusieurs domaines : la biologie, la sociologie,...etc. La recherche d information a été l un domaine qui a été rapidement intégré. Nous allons voir dans le prochain chapitre comment le treillis de concepts formels est utilisé en RI et nous présentons quelques travaux effectués dans ce cadre. 55

66 Chapitre III Analyse Formelle de Concepts et recherche d'information

67 Chapitre III III.1. Introduction Analyse Formelle de Concepts et Recherche d'information L évidente analogie entre la relation binaire Objets Propriétés caractérisant l AFC et la relation binaire Documents Termes caractérisant la RI a suscité un intérêt pour l utilisation de l AFC dans le cadre de la RI. La première formalisation détaillée de l utilisation de treillis pour la recherche d'information est datée de Mooers [Mooers, 1958]. Cependant, la notion de treillis n a pas attirée l attention de la communauté de la RI, pendant longtemps dominée par les modèles mathématiques basés sur les espaces vectoriels. L intérêt aux treillis a été de nouveau stimulé par Godin et al. [Godin and al., 1989] qui a développé un système de recherche d'information basé sur des treillis termes / documents. Le système de Godin a été basé sur le texte, sans les représentations graphiques des treillis, en raison des limitations techniques de l'époque. Depuis lors, un certain nombre de chercheurs ont proposé des structures en treillis pour la recherche de documents, tandis que d'autres ont étudié le treillis de concepts formels pour la recherche d'information spécifique au domaine. Dans les premiers travaux, les collections de documents ont été représentées sous forme de contextes formels. Les objets correspondent aux documents et les propriétés aux termes d indexation de ces documents. Les concepts formels sont interprétés comme des paires réponse, requête où la requête correspond à l intension du concept formel tandis que la réponse correspond à son extension. Dans ce chapitre, nous présentons les différentes façons d utiliser les treillis de concepts formels dans la recherche d information. Nous décrivons en premier lieu des approches classiques, c'est-à-dire celles utilisés quand il s agit de collections de taille non élevée. Ensuite, nous présentons des approches dédiées au web où le nombre de documents à traiter est très important. Enfin, nous terminons par des approches conçues pour la recherche dans des domaines spécifiques. III.2. Approches classiques de recherche dans le treillis de concepts formels D après Carpineto et Romano [Carpineto and Romano, 2004], l AFC peut être utilisée dans la recherche d information pour plusieurs fins: la reformulation de requêtes, la recherche par interrogation et par navigation, la recherche en utilisant un thésaurus, la combinaison de plusieurs vues de données semi-structurées, la délimitation de l'espace de recherche avec des contraintes de l'utilisateur et enfin le classement des résultats de recherche. Dans la suite nous décrivons comment le treillis est utilisé pour atteindre ces fins. III.2.1. La reformulation (raffinement) de requête Le raffinement de la requête est l une des applications les plus naturelles du treillis de concepts formels. Il repose sur les deux assertions suivantes : 56

68 Chapitre III Analyse Formelle de Concepts et Recherche d'information 1. Un concept formel d un treillis quelconque peut être interprété comme une paire réponse, requête où la requête correspond à l intension du concept formel et la réponse correspond à l extension du concept formel. 2. Un déplacement à partir d un nœud du treillis (i.e. une requête), vers le haut (respectivement vers le bas) en suivant les arêtes du treillis, produit tous les raffinements (respectivement élargissements) minimaux de la requête. Dans [Carpineto and Romano, 1998], les auteurs ont proposé un système permettant le raffinement de requête par treillis, le système s appelle REFINER. Les auteurs construisent une partie du treillis centrée autour du concept formel correspondant à la requête, qui est le plus général contenant tous les termes de la requête. L'utilisateur peut alors affiner sa recherche en explorant les prédécesseurs ou les successeurs directs du concept formel requête. III.2.2. La recherche par interrogation et par navigation Deux paradigmes majeurs de recherche ont été développés afin de retrouver une information dans une collection de documents [Kolmayer, 1998]. Ceux sont : la recherche par interrogation et la recherche par navigation. Dans la recherche par interrogation, l'utilisateur fournit une description de l'information recherchée et le système récupère des éléments qui correspondent à cette description, ce paradigme a été longtemps utilisé et il est le cœur de la plupart des systèmes commerciaux. Le paradigme de navigation, en revanche, n a reçu d intérêt qu avec l'avènement d Internet. Dans la recherche par navigation, l'utilisateur explore une structure dans laquelle les informations extraites du corpus ont été organisées pour localiser et récupérer des éléments d'intérêt. Dans le cadre de la recherche d information par treillis de concepts formels, la recherche par interrogation consiste à identifier la requête en spécifiant les termes d indexation qui décrivent les documents à trouver. La requête est ensuite insérée dans le treillis grâce aux algorithmes de construction incrémentale des treillis de concepts formels. Les documents pertinents correspondent alors au concept formel le plus général incorporant les termes spécifiés dans la requête. La recherche par navigation utilisant le treillis de concepts formels, consiste à explorer la structure hiérarchique de treillis visualisée par un diagramme de Hasse. Ce dernier offre une interface de navigation permettant de se déplacer d un concept formel à un autre. Chacun de ces paradigmes a ses forces et ses limites. L interrogation est souple et efficace, mais il est plus difficile pour l'utilisateur car il n est souvent pas capable de formuler de bonnes requêtes surtout s il n'est pas familiarisé avec le domaine. En plus la quantité de documents retournés en réponse à une requête ne peut souvent pas être contrôlée. De son coté la recherche par navigation permet d explorer l espace d'informations. Elle permet à l'utilisateur d'exercer un contrôle complet sur les informations à afficher. Les principaux inconvénients de navigation sont que l'utilisateur peut se perdre dans l'espace d'information, que certaines performances (par exemple, le rappel et le temps de recherche) peuvent être faibles, et que l'organisation de l'information est prédéfinie et n'est pas facile à modifier. La recherche par interrogation et par navigation se complètent donc mutuellement. La 57

69 Chapitre III Analyse Formelle de Concepts et Recherche d'information combinaison entre ces deux approches, permettra de maximiser l'efficience et l'efficacité, en minimisant la complexité des interactions entre l'utilisateur et le système. La combinaison de ces deux modes peut être réalisée en utilisant le treillis de concepts formels, il sert d espace de recherche commun et assure la cohérence des résultats de recherche entre l interrogation et la navigation. De plus, le passage d un mode à l autre peut se faire à tout moment pendant la recherche. Cette dernière se ramène ainsi à effectuer une combinaison libre de (i) spécification directe de requête, résultant en un saut dans le concept formel le plus générale incorporant les termes de la requête, et (ii) la navigation libre en suivant les liens entre les concepts formels du treillis. Carpineto et Romano [Carpineto and Romano, 1996] ont développé un système qui permet la recherche par interrogation et par navigation dans un treillis de concepts formels. Ce système consiste en deux composante GALOIS et ULYSSES. GALOIS est responsable d organiser les informations extraites du corpus en une structure de treillis. Cependant, ULYSSES sert d une interface graphique qui permet l'accès et la récupération de l'information contenue dans la structure construite à l aide de la première composante. III.2.3. Utilisation contextuelle de thésaurus Dans les treillis de concepts formels, les éventuelles relations sémantiques entre les termes sont ignorées et chaque requête est strictement décrite par les termes présents dans les documents. L'utilisation d'un thésaurus permet de prendre en compte les relations sémantiques entre les termes et de créer de nouvelles requêtes plus significatives. L'utilisateur peut ainsi localiser l'information d une manière plus efficace et rapide, en partie à cause d une navigation amélioré (la proximité des concepts formels dans le treillis étant liée à des facteurs sémantiques) et en partie à cause d interrogation concentrée (comme les termes de concept formel peut être spécialisé / généralisé en utilisant le thésaurus). Une évaluation expérimentale de l'efficacité de la récupération d'un treillis de concepts formels amélioré par thésaurus est décrite dans [Carpineto and Romano, 1996]. Un thésaurus peut être intégré dans un treillis de concepts formels soit : 1. En élargissant explicitement le contexte original avec les termes de thésaurus impliqués par les termes présents dans le treillis. 2. En prenant en compte la relation d'ordre du thesaurus lors de la construction du treillis Uta Priss [Priss, 1997] examine d'autres façons possibles dont un contexte formel et un thésaurus peuvent être fusionnés dans un contexte élargi. Elle suggère également que l'utilisateur doit avoir la possibilité de combiner interactivement des concepts formels à partir multiple thésaurus ou facettes du thésaurus, à l'aide d'opérateurs Booléens [Priss, 2000]. 58

70 Chapitre III Analyse Formelle de Concepts et Recherche d'information III.2.4. La combinaison de plusieurs vues de données semistructurées Lorsque les données peuvent être classées selon plusieurs axes (par exemple, fonctionnel, géographique,...), il peut être pratique pour l'utilisateur d'introduire de nouveaux attributs de façon progressive, en se basant sur les informations affichées par le système en réponse aux attributs déjà introduits. Dans le cadre de l AFC, cette approche a été mise en œuvre dans [Cole and Eklund, 2001] par une technique d imbrication et d agrandissement (zooming), par laquelle l'utilisateur peut combiner les treillis correspondant à chaque vue partielle et se concentrer sur la vue à laquelle il s intéresse. Pour visualiser la combinaison des vues partielles, les diagrammes enchevêtrés sont utilisés. III.2.5. Délimitation de l'espace de recherche avec des contraintes de l'utilisateur La délimitation est une fonctionnalité qui sert à aider l'utilisateur à concentrer sa recherche sur les parties pertinentes d'un grand treillis de concepts formels [Carpineto and Romano, 1995]. L'utilisateur peut appliquer dynamiquement des contraintes que doivent respecter les documents recherchés, l'espace de recherche sera délimité en conséquence. Les contraintes sont exprimées en relations d'inégalité entre la description des concepts formels acceptés et une conjonction particulière des termes. La contrainte, par exemple, provoque que le système élague du treillis de concepts formels tous les concepts formels dont l'intention est soit supérieur ou incomparable avec (en d'autres termes, tous les concepts formels qui ne sont pas au-dessous de ). III.2.6. Classement des résultats de la recherche Des documents n apparaissant pas dans le même concept formel que la requête peuvent être pertinents. Cependant, leurs pertinence est inférieure à ceux dans lesquels la requête apparait. De ce fait, un classement de l ensemble de documents en réponse s impose pour refléter cette différence de pertinence. La structure hiérarchique des treillis a été exploitée pour déduire automatiquement un tel classement. [Djouadi, 2012] propose une approche déterministe pour le classement des résultats d une requête en s appuyant sur la distance entre les concepts formels. Alors que les poids des termes dans les documents constituent une information très importante, les précédentes approches de la RI basées sur le treillis de concepts formels ne considèrent que les relations Booléennes. Pour prendre en compte les poids des termes lors d une recherche dans un treillis, il a été proposé d étendre les connexions de Galois au cas flou [Latiri and al., 2004]. Une autre limite des systèmes présentés auparavant, est que les requêtes sont limitées à une forme conjonctive. [Djouadi, 2011] a proposé d utiliser les nouveaux opérateurs de dérivation décrits dans [Dubois and al., 2007] afin d exprimer la disjonction et la négation. 59

71 Chapitre III Analyse Formelle de Concepts et Recherche d'information III.3. Approches de recherche par treillis dédiées au web Pendant ces dernières années, de nouvelles approches de recherche d information par treillis ont émergé. Il a été constaté que les SRI utilisant les treillis deviennent complexes quand il s agit de grandes masses d informations. C est pour cette raison que ces nouvelles approches proposent d utiliser l AFC à un méta niveau, c est-à-dire au dessus d un moteur de recherche classique. Ces méta-moteurs servent d intermédiaire entre l utilisateur et les moteurs de recherche tels que Google et Yahoo. Leur objectif est de diminuer la charge informationnel de l utilisateur en améliorant la présentation des résultats de recherche de ces moteurs. Ces approches fonctionnent suivant le même principe : d abord l utilisateur formule sa requête qui sera transmise à un moteur de recherche externe. Ce dernier retourne les résultats de recherche, puis un treillis de concepts formels est construit à partir des mots du titre et de l extrait (résumé) des documents retournés. Ce type d approche est implémenté dans plusieurs systèmes opérationnels. Dans ce qui suit, nous allons passer en revue ces systèmes, en présentant les fonctionnalités qu ils offrent à l utilisateur. III.3.1. CREDO Le système CREDO [Carpineto and Romano, 2004], acronyme de Conceptual REorganisation of DOcuments, ou son adaptation CREDINO pour les PDA [Carpineto and Romano, 1996], utilise la structure de treillis pour organiser l ensemble des documents retournés par un moteur de recherche externe de façon à ce que l utilisateur ait une vision globale de l espace de recherche et pourra ainsi naviguer aisément parmi les pages retournées. L architecture générale de ce système est présentée dans la figure III-1. Afin d atteindre son objectif CREDO procède comme suit : - Interaction avec le moteur de recherche : L interaction entre CREDO et le moteur de recherche est gérée par le protocole SOAP (Simple Object Access Protocol ). La requête doit d abord être encodée puis émise vers le moteur de recherche. CREDO collecte les 100 documents retournés par le moteur de recherche. Chaque document retourné est composé d un titre, d un extrait et d une URL (Uniform Resource Locator). Un exemple est présenté dans la figure III-2. - Indexation des documents retournés : Un problème majeur de la construction de treillis des concepts formels des documents sélectionnés est la génération de certains concepts dépourvus de sens en raison de mauvaises combinaisons de termes dans les documents. Une façon de résoudre ces problèmes est de décrire un document par un ensemble limité de mots. CREDO considère alors, seulement les informations contenues dans les résultats retournés par le moteur de recherche. Il se concentre sur les éléments qui décrivent le mieux le contenu des documents à savoir le titre et extrait. 60

72 Chapitre III Analyse Formelle de Concepts et Recherche d'information Transformation de la requête Analyse des documents retournés Moteur de recherche Web Indexation Construction du treillis Visualisation du treillis CREDO Figure III-1 Architecture générale de CREDO Titre URL Extrait Figure III-2 Format de résultat émis par un moteur de recherche Chaque document est indexé alors par deux ensembles de termes, un pour le titre et un autre pour l extrait. 61

73 Chapitre III Analyse Formelle de Concepts et Recherche d'information - Construction de la hiérarchie : CREDO construit un premier niveau de la hiérarchie en exploitant le contexte document mots du titre. Cependant, il est probable que de nombreux documents ne partagent aucun terme avec les autres documents, restants ainsi dissociés. CREDO utilise donc une approche hybride, c'est-à-dire, l utilisation d un contexte document (mots du titre + de l extrait). Ce dernier va servir à la construction des autres niveaux de la hiérarchie. Un algorithme spécifique est proposé pour construire une hiérarchie à partir de deux contextes. De toute évidence, la structure résultante n'est pas un vrai treillis de concepts formels, dans le sens où il ne peut pas être considéré comme le treillis de concepts formels d'un contexte spécifique. - Visualisation des résultats et interaction avec la hiérarchie: Après la construction de la hiérarchie, CREDO présente les résultats à l utilisateur via une interface illustrée dans la figure III-3. Le panneau de gauche présente les intensions des concepts formels du premier niveau du treillis (les fils directs de ). Lorsque l utilisateur sélectionne une intension, les pages en extension du concept formel sont listées sur le panneau de droite et les intensions des fils directs du concept formel sélectionnés sont affichées sur le tableau de gauche. Le treillis est donc présenté sous forme d arbre qui sert de support à l exploration de l ensemble des documents. L accès aux documents se fait en sélectionnant des concepts formels de plus en plus spécifiques, auxquels sont rattachés des documents. Un intérêt majeur du treillis est l héritage multiple entre concepts formels, un même concept formel, et donc un même ensemble de documents, est atteignable par plusieurs chemins (i.e. un concept formel avec héritage multiple se retrouve dupliqué dans l arbre). Comme CREDO permet à l'utilisateur de naviguer à travers les résultats de la requête, cela peut être considéré comme une forme de raffinement de requêtes. 62

74 Chapitre III Analyse Formelle de Concepts et Recherche d'information Figure III-3 Résultats de la requête leonard + bernstein dans CREDO III.3.2. FooCA Le principe de base de FooCA [Koester, 2006] est de fournir à l utilisateur une vue d ensemble sur les résultats retournés par un moteur de recherche. En plus, le système propose de guider et d assister l utilisateur lors du processus de recherche au lieu d'ignorer ses compétences humaines, telles que sa compréhension intuitive du concept formel recherché. L utilisateur initie la recherche en saisissant une requête et en paramétrant un certain nombre d options. Le système évalue ces paramètres et émis la requête sans modification à un moteur de recherche (Yahoo, Google). FooCA interagit avec ce moteur via une API (Application Programming Interface) d accès spécialisée mise en œuvre par ce dernier. Le moteur de recherche fournit une liste ordonnée des documents comme résultat de recherche puis FooCA, à la différence des autres systèmes, organise et visualise le résultat sous forme d un contexte formel (voir la figure III- 4). A ce niveau, l utilisateur peut encore raffiner sa recherche. 63

75 Chapitre III Analyse Formelle de Concepts et Recherche d'information Figure III- 4 Interface du système FooCA L idée est d utiliser les extraits retournés comme résultat (titres en cas d absence d extraits) pour extraire les descripteurs des documents sélectionnés. Après l extraction de ces descripteurs, le système génère un contexte formel où les URLs représentent des objets et les descripteurs des propriétés. L utilisateur peut naviguer dans le tableau représentant le contexte formel soit pour atteindre le document voulu soit pour modifier sa requête. Ainsi, grâce à un clique souris, il peut ajouter/supprimer un attribut pour mieux spécifier son besoin d information, ou il peut lancer carrément une nouvelle requête avec de nouveaux attributs. FooCA permet à l utilisateur de mieux contrôler sa recherche en lui offrant la possibilité de paramétrer un certain nombre d opérations et méthodes qui sont généralement automatiques dans la plus part des moteurs de recherche. Parmi ces fonctionnalités : - Le choix du moteur de recherche à utiliser : L utilisateur a le choix de spécifier le moteur de recherche à utiliser ou d utiliser plusieurs et générer le contexte formel qui correspond à chacun d eux. Il pourra donc naviguer sur plusieurs contextes. A priori, FooCA peut intégrer n importe quel moteur de recherche qui peut fournir une liste séquentielle des documents jugés pertinents et les extraits qui vont avec. Actuellement, les moteurs de recherche Yahoo et Google sont intégrés avec succès. 64

76 Chapitre III Analyse Formelle de Concepts et Recherche d'information - Choix de la langue de recherche : FooCA donne la possibilité de choisir entre l anglais et l allemand. D autre langues peuvent être facilement intégrées, à la mesure que le moteur de recherche utilisé le permet. - Option d indexation Le système offre la possibilité de supprimer ou non les descripteurs correspondants aux mots vides et donne aussi une possibilité de lemmatiser. L utilisateur peut en plus, spécifier le nombre de caractères minimum n des descripteurs, alors tout mot dont le nombre de caractères est inferieur à n va être supprimé. -Clarification of du contexte Une clarification d attributs est possible. Un contexte peut être clarifier-attribut à un contexte, où est une relation d équivalence Exemple : Le contexte à droite est une clarification d attributs de contexte à gauche Tableau III-1 Exemple de clarification : le contexte formel initial 65

77 Chapitre III Analyse Formelle de Concepts et Recherche d'information Tableau III-2 Exemple de clarification : le contexte formel résultant de la clarification du contexte présenté dans le tableau III-1 Une clarification d objets n est pas mise en œuvre puisque chaque objet correspond à une page web (document), donc il ne peut pas être supprimé. - Raffinement de requête par l utilisateur La principale différence entre le processus de raffinement de FooCA et le raffinement manuel des moteurs de recherche standards, est la liste d attributs fournis. Typiquement, l'utilisateur n'a pas une idée claire à propos des termes qui sont nécessaires pour raffiner sa recherche. Utilisant FooCA, l'utilisateur sera en mesure d explorer les attributs liés aux contextes des documents retournés. - Réduction du contexte L'utilisateur peut réduire le contexte pour faciliter la visualisation de l ensemble des résultats retournés par le moteur de recherche en augmentant le nombre d'objets pour les attributs. - Classement des attributs Les objets sont pré-classés par le moteur de recherche. FooCA combine ce classement d objets avec un classement d attributs. L'objectif est de créer une zone diagonale de croix dans le contexte à partir du coin supérieur gauche au coin inférieur droit. Ainsi, faciliter la lecture du contexte. Les attributs sont classés selon le nombre d'objets auquel ils sont liés et la somme des positions de classement des objets liés. - Exportation du contexte formel FooCA offre une interface d'exportation du contexte formel en utilisant le format Burmeister (CXT). L utilisateur pourra donc visualiser le treillis sous son logiciel de visualisation préféré. 66

78 Chapitre III Analyse Formelle de Concepts et Recherche d'information -Visualisation de la hiérarchie de concepts formels FooCA permet de visualiser le contexte formel sous une forme graphique. Chaque cercle représente un concept formel, et les lignes entre les concepts formels représentent leurs relations sous-concept, super-concept. Lorsque l utilisateur clique sur un concept formel, les pages web correspondantes s ouvrent dans de nouvelles fenêtres du navigateur. III.3.3. CreChainDo Figure III-5 Représentation graphique de treillis dans FooCA CreChainDo [Nauer and Toussaint, 2008], reprend le même principe de CREDO avec des fonctionnalités similaires à celle à FooCA. Cependant, le processus de RI proposé dans CreChainDo implémente un contrôle de pertinence explicite dans le sens où l utilisateur peut évaluer si un concept formel du treillis est pertinent ou pas, cela sert à modifier le contexte utilisé pour construire le treillis. Un concept formel C est pertinent, si l utilisateur estime qu une requête Q, formée de la conjonction de tout les mots composant l intension de C, est susceptible de retourner de nouveaux documents pertinents. Un concept formel C est non pertinent si l utilisateur estime que tous les documents contenus dans son extension ne sont pas pertinents. L architecture de CreChainDo est représentée dans la figure suivante : 67

79 Chapitre III Analyse Formelle de Concepts et Recherche d'information Figure III-6 Architecture générale du système CreChainDo CreChainDo offre les fonctionnalités suivantes : - Rejeter un concept formel non pertinent Pour éliminer le problème d apparition de concepts formels non pertinents, qui résultent de la dispersion du vocabulaire des extraits des documents retournés par le moteur de recherche, CreChainDo propose de nettoyer la hiérarchie et éliminer le bruit en offrant la possibilité de supprimer directement les concepts formels non pertinents. - Accepter un concept formel pertinent Dans CreChainDo, accepter un concept formel C permet d étendre la sous-hiérarchie de la racine C. Ce qui génère des sous-concepts formels plus spécifiques que C par la construction d un nouveau treillis. Ainsi, l utilisateur peut contrôler la profondeur de la hiérarchie et le degré de spécialisation. 68

80 Chapitre III Analyse Formelle de Concepts et Recherche d'information Figure III-7 L interface de CreChainDo en réponse à une requête sur "carpineto romano". III.4. Approches appliquées dans des domaines spécifiques III.4.1. Systèmes de recherche de courriers électroniques Conceptual Manager (CEM) [Cole and Stumme, 2000] est un exemple de système de recherche de courriers électroniques. Il a été développé pour permettre une meilleure gestion des courriers électroniques et par conséquence améliorer et faciliter leur recherche. Dans les systèmes de gestion de courriers électroniques classiques, nous avons deux répertoires, par exemple, l un pour stocker les messages envoyés par des amis et l autre pour les messages envoyés par des collègues. Dans le cas où le courriel est reçu par un ami et un collègue en même temps, l utilisateur doit choisir de mettre ce message dans l un des deux répertoires. Le problème se pose dans le cas où l utilisateur veut retrouver ce message. Doit-il chercher dans le premier répertoire ou dans le second? Ce genre de problème n apparait plus avec CEM qui remplace les répertoires par les concepts formels. Dans ce cas, le courriel peut apparaitre dans plusieurs concepts formels, ainsi l utilisateur peut y accéder par plusieurs chemins. CEM utilise le contexte formel pour structurer les courriers électroniques. Les objets correspondent aux courriers électroniques et les propriétés sont des noms familiers à l utilisateur (catchwords ). La relation d incidence est générée d une façon semi-automatique en utilisant un algorithme pour reconnaitre des mots dans les différentes sections d un (corps, objet,...) et suggère des relations entre ces mots et les courriers électroniques. L utilisateur peut accepter ces suggestions ou les modifier et il peut définir de nouveaux mots en tant que propriétés de ces courriers électroniques. 69

81 Chapitre III Analyse Formelle de Concepts et Recherche d'information Pour assurer une attribution semi automatique des propriétés, l ensemble de propriétés M est doté d une relation d ordre partiel telle que : Cela va permettre à l utilisateur d attribuer des propriétés spécifiques aux courriers électroniques et le système se charge d attribuer les propriétés générales. En plus de l attribution semi-automatique des attributs, CEM offre les fonctionnalités suivantes : - Assiste l'utilisateur dans la construction la navigation et la modification de la hiérarchie de propriétés. - Réduction de la complexité du treillis Comme nous l avons introduit dans le chapitre III, les échelles conceptuelles (conceptual scales) sont appliquées pour des contextes multivalués. Mais dans le cas de ce système, ils étaient appliqués afin de réduire la complexité de la visualisation de treillis. Les échelles conceptuelles sont utilisées pour grouper les propriétés «en relation». Ces groupes de propriétés sont déterminés par l utilisateur. - Navigation dans l'espace conceptuel des courriers électroniques CEM offre à l utilisateur la possibilité de naviguer dans l espace conceptuelle des courriers électroniques (treillis) afin de chercher par exemple les collections de courriers électroniques thématiquement liés. Grâce à l utilisation des échelles conceptuelles, l utilisateur peut naviguer dans un diagramme enchevêtré ce qui entraine une recherche plus aisée comme le montre la figure III-8. Figure III-8 Interface de CEM 70

82 Chapitre III III.4.2. Systèmes de recherche d images Analyse Formelle de Concepts et Recherche d'information Nous présentons ImageSleuth [Ducrou and al., 2006] comme un exemple de systèmes de recherche d images. C est un système qui exploite le treillis de concepts formels pour la représentation et la navigation dans une collection d'images annotées. Un contexte formel est construit à partir d une collection d'images comme objets et de leurs caractéristiques comme propriétés. Ces caractéristiques peuvent être des informations annotées à la main ou des informations graphiques automatiquement extraites. Plusieurs treillis de concepts formels peuvent être générés représentant un contexte de recherche différent, l'un pour la forme de l'image, un autre pour la couleur et luminance, et un troisième pour le contenu sémantique. Vu la nature des objets traités, le diagramme de Hasse correspondant au treillis de concepts formels n est pas affiché. Pour permettre de visualisé les images, un seul concept est affiché à la fois avec les concepts formels voisins supérieurs et inférieurs. ImageSleuth offre les possibilités suivantes pour naviguer dans le treillis de concepts formels: - Restriction de l'ensemble de propriétés considérées Cette fonctionnalité permet de se concentrer sur les caractéristiques importantes pour la recherche en cours. ImageSleuth offre des ensembles prédéfinis de propriétés couvrant les différents aspects de l image. L utilisateur peut combiner ces propriétés, les inclure ou les supprimer durant la recherche. - Se Déplacer vers les concepts formels voisins supérieurs et inférieurs. - Recherche par propriétés propriétés. L utilisateur peut accéder ici directement aux images ayant un certain nombre de - Cherchez des objets similaires (requête par un exemple) Au lieu de définir un ensemble de propriétés comme requête, un ensemble d'objets A est défini comme échantillon. La fonction de requête par un exemple calcule les propriétés communes de ces images et retourne toutes les images ayant ces propriétés en se plaçant sur le concept formel ayant ces propriétés comme intention. - Recherche de concepts formels similaires Des concepts formels similaires peuvent êtres retournés grâce à une mesure de similarité définie. 71

83 Chapitre III Analyse Formelle de Concepts et Recherche d'information Figure III-9.Interface du système ImageSleuth III.4.3. Systèmes de recherche dans un code source Une localisation de concept dans un code source revient à identifier des parties du code qui correspondent à une fonctionnalité spécifique. Le système présenté dans [Poshyvanyk and Marcus, 2007] exploite le treillis de concepts formel pour procéder à cette localisation. L architecture générale de ce système est représenté par la figure III-10. Ce système procède comme suit : - Création d'un corpus d'un système logiciel Le code source est parsé utilisant un niveau de granularité définit par le développeur (méthodes ou classes). Un corpus est crée de façon que chaque méthode et /ou classe correspondra a un document. Seuls les identificateurs et commentaires sont extraits du code source. - Indexation Le corpus est indexé utilisant la méthode LSI (Latent Semantic Indexing), ce qui permet de créer une représentation de corpus sous forme d un sous espace vectoriel réduit. Dans cette étape, on capture les informations sémantiques importantes des identifiants, des commentaires et de leurs relations avec le code source. 72

84 Chapitre III Analyse Formelle de Concepts et Recherche d'information - La formation de la requête Un développeur sélectionne un ensemble de termes qui décrivent le concept auquel il s intéresse (pour exemple, «print page»). Cet ensemble de mots constitue la requête initiale. Un outil de vérifications d orthographe analyse tout les termes de la requête en utilisant le vocabulaire du code source (généré par LSI). Si un mot de la requête n'est pas présent dans le vocabulaire, l'outil suggère des mots similaires et supprime le mot erroné. - Classement des documents LSI permet de générer un classement de document en se basant sur leurs degrés de similarité avec la requête et cela dans un ordre décroissant. - Application de l'analyse de concept formel Les n premiers documents retournés vont constituer les objets d un contexte formel et les k premiers attributs présents dans les n premiers documents retournés sont sélectionnés pour être des propriétés du contexte formel. Ainsi un treillis de concept est crée. - L utilisation du treillis Le treillis résultant est présenté à l utilisateur, ce dernier peut naviguer et raffiner sa requête en cas de besoin. Autrement, il peut formuler une toute nouvelle requête en se basant sur le treillis déjà présenté. Code source Requête Utilisateur Treillis de concepts formels Moteur de Recherche Constructeur du corpus Résultats classés Sélecteur d attributs Contexte formel Analyse Formelle de Concepts Figure III-10. Architecture générale du système présenté dans [Poshyvanyk and Marcus, 2007] 73

85 Chapitre III III.5. Conclusion Analyse Formelle de Concepts et Recherche d'information L évidente analogie entre la relation binaire Objets Propriétés caractérisant l AFC et la relation binaire Documents Termes caractérisant la RI a rapidement entrainé l utilisation de l AFC dans la RI. Dans ce chapitre, nous avons présenté les différentes manières d utiliser le treillis de concepts formels dans la recherche d information. L application de l AFC dans la RI a donné de bons résultats et elle a permis d améliorer plusieurs fonctionnalités, telle que la possibilité de concevoir un système combinant la recherche par navigation et par interrogation. Cependant, la recherche par treillis est basée sur la seule information qui est la présence ou l absence d un terme dans un document et l'augmentation des corpus textuels entraine la génération de treillis complexes. Dans ce présent travail, nous étendons le treillis de concepts formels sémantiquement et nous proposons un modèle formel pour sa réduction. 74

86 Chapitre IV Contribution : Réduction de complexité et extension sémantique du treillis des concepts formels

87 Chapitre IV IV.1. Introduction Contribution L'analyse formelle de concepts est une méthode qui vise à découvrir tous les regroupements possibles d éléments ayant des traits en commun. Cette méthode est centrée autour de la notion de concept, qui peut être défini comme un groupement d individus et de leurs propriétés communes. La recherche d information était parmi les applications phares de l'afc, puisque la matrice terme/document utilisée dans la RI peut naturellement être considérée comme un contexte formel. L'AFC a été utilisée pour améliorer plusieurs fonctionnalités de la RI : la reformulation de requêtes [Carpineto and Romano, 1998], la recherche par interrogation et par navigation [Carpineto and Romano, 1996], la combinaison de plusieurs vues de données semi-structurées [Cole and Eklund, 2001], la délimitation de l'espace de recherche avec des contraintes de l'utilisateur [Carpineto and Romano, 1995], le classement des résultats [Djouadi, 2012],...etc. Malgré les améliorations qu'elle apporte sur les performances des processus de recherche d'information, l'application de l'afc dans la RI révèle un certain nombre de problèmes, à savoir : - La complexité des treillis générés à partir des corpus de tailles élevées. - L'absence de sémantique dans les treillis de concepts formels terme/document. En effet, la complexité d'un treillis est due au grand nombre de concepts formels générés à partir d'un corpus volumineux. Dans un treillis complexe et lors d'une recherche par navigation, l'utilisateur se trouve face à une sorte de surcharge cognitive et une structure de treillis difficile à comprendre, ce qui entraine un temps de recherche élevé. Pour une recherche par interrogation, parcourir un grand nombre de concepts engendrera un temps de recherche important. Un autre problème, est que plus le nombre de concepts à générer est grand, plus le temps consommé par le processus de construction de treillis est élevé. La complexité des treillis fût l'un des problèmes étudié par la communauté de l'afc. Dans le cadre de la recherche d'information, Cheung et Vogel [Cheung and Vogel, 2005] ont proposé une approche formelle basée sur la notion de congruence. Dans un contexte formel, ils proposent de collapser les termes sémantiquement équivalents en un seul terme ce qui résulte en un contexte appelé contexte formel collapsé dont le treillis correspondant est un treillis quotient du treillis initial. Néanmoins, comme le montre Krupka [Krupka, 2012], les résultats théoriques de cette approche sont faux. En effet, la relation d'équivalence définie sur le treillis collapsé n'est pas une congruence. D'autre part, il s'avère que certains concepts dépourvus de sens ou plusieurs concepts sémantiquement équivalents peuvent être générés, en raison de : (i) mauvaises combinaisons de termes dans les documents et (ii) à cause de la limitation de la relation dans le contexte formel à une simple relation d'occurrence sans prendre en considération les relations sémantiques qui peuvent exister entre les termes. Une approche proposée pour résoudre ce problème est la construction d'un treillis de concepts formels amélioré par un thésaurus [Carpineto and Romano, 1996]. Cependant, comme toute approche utilisant un thesaurus ou un vocabulaire contrôlé dans le processus de recherche d'information, l'approche présentée par [Carpineto and Romano, 1996] fonctionne mieux lorsque les sujets traités sont étroitement définis et la terminologie normalisée ce qui n'est pas souvent le cas. 75

88 Chapitre IV Contribution Dans le cadre de ce travail, nous apportons une contribution par rapport aux deux problèmes présentés ci-dessus. Nous proposons une réduction par congruence pour apporter une solution concernant la complexité des treillis générés à partir de corpus volumineux. Cette contribution sera présentée à travers la section IV.2. En second lieu, nous proposons d'utiliser la méthode LSI pour aboutir à une sémantique augmentée dans un treillis de concepts formels. Cette contribution sera présentée à travers la section IV.3 tandis que les sections IV.4 et IV.5 illustrent respectivement un exemple d'application est une évaluation expérimentale de notre approche. IV.2. Réduction par congruence IV.2.1. Rappels mathématiques Dans ce qui suit, nous allons rappeler quelque notions mathématiques en rapport avec notre proposition. Un morphisme ou homomorphisme est défini en général comme étant une application entre deux ensembles munis d'une même espèce de structure, qui respecte cette structure. Ainsi, un homomorphisme relatif à un ordre est défini comme suit: Définition 19 (Homomorphisme relatif à un ordre) Soient et deux ensembles partiellement ordonnés. Une application entre et est un homomorphisme relatif à un ordre ou homomorphisme d'ordre si pour tout et de, Si un homomorphisme d'ordre est bijectif, il sera appelé isomorphisme d'ordre. Définition 20 (Relation d'équivalence) Soit un ensemble. La relation binaire est dite une relation d'équivalence sur E si pour tout 1. ( est réflexive) 2. si ( est symétrique) 3. si ( est transitive) Définition 21 (Classe d'équivalence) que: Soit un ensemble. est une relation d'équivalence sur E. Le sous-ensemble tel ={ a} est appelé classe d'équivalence de. Nous rappelons dans ce qui suit une notion capitale dans notre travail qui est la congruence. 76

89 Chapitre IV Contribution La congruence dans la langue est le fait de coïncider ou de s ajuster parfaitement. En algèbre, une congruence (ou une relation de congruence) est une relation d'équivalence dans une structure algébrique. Cette relation devra être compatible avec cette structure. Chaque relation de congruence a une structure quotient correspondante dans laquelle les éléments sont des classes d'équivalence de cette relation. Un exemple typique d'une congruence est la Congruence modulo n. Deux entiers a et b sont dits congruents modulo n, où n est un entier supérieur ou égal à 2, si le reste de la division euclidienne de a par n est égal à celui de la division de b par n. Exemple Les entiers 10 et 4 admettent une division sur 2, c'est à dire le reste de division Euclidienne de chacun d'eux sur 2 est égale à 0. Par contre les entiers 5 et 9 n'admettent pas une division sur 2, c'est à dire le reste de division Euclidienne de chacun d'eux sur 2 est égale à 1. On dis que 10 est congru à -4 modulo 2, et aussi 5 est congru à 9 modulo 2, et on écrit,. Cette relation de congruence regroupe les entiers en deux classes d'équivalences : les nombres paires et les nombres impaires. Ces deux classes forment la structure quotient Z/2Z. La notion de congruence a été étendue aux treillis par Gratzer [Gratzer, 1978] comme suit: Définition 22 (congruence de Gratzer) [Gratzer, 1978] Une congruence dans un treillis L est une relation d'équivalence dans qui est compatible avec le join et le meet. Autrement dit,, Figure IV-1 Exemple d'une congruence de Gratzer 77

90 Chapitre IV Contribution Définition 23 (treillis quotient) On appelle treillis quotient de L modulo le treillis noté tel que : Il a été prouvé que le treillis quotient est homomorphique au treillis L [Gratzer, 1978]. Dans la figure IV-1, un exemple d'une congruence de Gratzer est présenté. Les classes d'équivalence sont entourées par des cercles grisés. A titre d'exemple, u2 u3. Nous remarquons que la définition d'une congruence donnée par Gratzer est limitée à une congruence qui préserve le join et le meet. Dorfer [Dorfer, 1995] a donné par la suite une caractérisation plus générale de la notion de congruence dans un treillis que nous rappelons ci- après. Définition 24 (congruence) [Dorfer, 1995] Une congruence dans un treillis L est une relation d'équivalence dans si et seulement si, Cette définition fait appel à la notion de convexité d'ensemble ordonné que nous définissons ci-après: Définition 25 (convexité) Un sous-ensemble ordonné A est convexe si et seulement si: avec Dans la figure IV-2, un exemple d'une congruence de Dorfer est présenté. A titre d'exemple, u2 u3. Dans cet exemple, nous pouvons facilement vérifier que la congruence de Dorfer présentée n'est pas une congruence de Gratzer. En effet, nous avons et mais n'est pas équivalent à, donc par la définition 22, n'est pas une congruence de Gratzer. 78

91 Chapitre IV Contribution Figure IV-2 Exemple d'une congruence de Dorfer IV.2.2. Proposition théorique Afin de réduire la complexité d'un treillis de concepts formels, nous proposons d'utiliser la notion de congruence. La relation de congruence permet de réduire le treillis de départ en un treillis quotient dont les éléments sont des classes d'équivalence induites par cette relation. Dans le cadre de ce travail, nous proposons plus particulièrement une nouvelle relation de congruence (équivalence entre les concepts formels) qui permettra de générer un treillis quotient qui préserve l'ordre entre les concepts du treillis de départ. Nous appellerons cette congruence, congruence d'ordre et nous la définissons comme suit. Définition 26 (congruence d'ordre ) Une congruence d'ordre est une relation d'équivalence dans un treillis tel que pour tout : Figure IV-3 Exemple d'une congruence d'ordre 79

Montrer encore