Exploitation de hiérarchies sémantiques construites à partir du Trésor de la Langue Française informatisé (TLFi) pour la recherche d images



Documents pareils
Ressources lexicales au service de recherche et d indexation des images

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Une méthode d apprentissage pour la composition de services web

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

RI sociale : intégration de propriétés sociales dans un modèle de recherche

Forthcoming Database

An Ontology-Based Approach for Closed-Loop Product Lifecycle Management

Big Data et Graphes : Quelques pistes de recherche

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Classification Automatique de messages : une approche hybride

Big Data et Graphes : Quelques pistes de recherche

1 Description générale. Résumé

Indexation sémantique au moyen de coupes de redondance minimale dans une ontologie

Ingénierie et gestion des connaissances

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Une plate-forme open-source de recherche d information sémantique

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Entreposage de données complexes pour la médecine d anticipation personnalisée

Évaluation d une architecture de stockage RDF distribuée

Hervé Couturier EVP, SAP Technology Development

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Dafoe Présentation de la plate-forme UIMA

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

Les modes de recherche sur le Web 2.0

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

Formula Negator, Outil de négation de formule.

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

How to Login to Career Page

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Techniques d interaction dans la visualisation de l information Séminaire DIVA

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Construction et maintenance d une ressource lexicale basées sur l usage

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

AGROBASE : un système de gestion de données expérimentales

SQL Parser XML Xquery : Approche de détection des injections SQL

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Qualité de la conception de tests logiciels : plate-forme de conception et processus de test

Editing and managing Systems engineering processes at Snecma

Utilisation des tableaux sémantiques dans les logiques de description

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Proposition des cadres d évaluation adaptés à un système de RI personnalisé

Sécuristation du Cloud

Une Ontologie De Domaine Pour L enrichissement Sémantique D une Base De Données

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Consolidation de réseaux lexico-sémantiques par des inférences déductives et inductives

Évaluation de G-LexAr pour la traduction automatique statistique

La base de données dans ArtemiS SUITE

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

SEMIN- Gestion des couleurs sous R. Michel BAYLAC. MNHN Département Systématique et Evolution OSEB

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Une approche pour l extraction automatique de structures sémantiques de documents XML

MODERN LANGUAGES DEPARTMENT

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

TEXT MINING Tour d Horizon

L hypertexte, le multimédia, c est quoi?

Forge. Présentation ( )

Language requirement: Bilingual non-mandatory - Level 222/222. Chosen candidate will be required to undertake second language training.

Visualizing Start-up Firm Trajectories on Kohonen Maps

Prototype de canal caché dans le DNS

BIG Data et R: opportunités et perspectives

Recherche d information textuelle

POSITION DESCRIPTION DESCRIPTION DE TRAVAIL

Bigdata et Web sémantique. les données + l intelligence= la solution

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Once the installation is complete, you can delete the temporary Zip files..

Sens, synonymes et définitions

Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS

BNP Paribas Personal Finance

Intégration de la dimension sémantique dans les réseaux sociaux

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

DSL. Domain Specific Language. À l'aide des technologies Eclipse Modeling. Goulwen Le Fur Le 23 novembre 2012

Modèles graphiques probabilistes pour la reconnaissance de formes

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Base de données relationnelle et requêtes SQL

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Protection de la vie privée basée sur des ontologies dans un système Android

Stage Ingénieur en développement logiciel/modélisation 3D

Instaurer un dialogue entre chercheurs et CÉR: pourquoi? Me Emmanuelle Lévesque Centre de génomique et politiques Université McGill

ICA Congress, Brisbane 2012 Thème général : Les temps qui changent. La confiance et les archives*

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

! Text Encoding Initiative

Introduction aux bases de données

Ordonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative

La solution idéale de personnalisation interactive sur internet

UML est-il soluble dans les méthodes agiles?

Formation à la recherche documentaire sur le web

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

Introduction aux concepts d ez Publish

Introduction aux bases de données: application en biologie

Cette Leçon va remplir ces attentes spécifiques du curriculum :

Notice Technique / Technical Manual

Réflexion sur la mise en place d'un système mobile d'aide à la navigation destiné aux services d'urgence basée sur une solution libre.

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

Transcription:

Exploitation de hiérarchies sémantiques construites à partir du Trésor de la Langue Française informatisé (TLFi) pour la recherche d images Inga Gheorghita 1,2,3 (1) Université de Lorraine, ATILF UMR 7118, Nancy F-54000, France (2) CNRS, ATILF UMR 7118, Nancy F-54000, France (3) XILOPIX, 2 rue de Nancy, Épinal F-88000, France inga.gheorghita@atilf.fr RÉSUMÉ. Les systèmes de recherche d images actuels proposent les résultats de la recherche sous forme d une simple liste d images. Or, cette présentation n est pas toujours pratique, surtout lorsque les utilisateurs n ont pas une idée précise de ce qu ils recherchent, car ils sont alors amenés à parcourir plusieurs pages avant de trouver les images désirées. Dans cet article, nous décrivons un système de recherche d images qui exploite de hiérarchies sémantiques construites à partir du Trésor de la Langue Française informatisé (TLFi). L avantage d un tel système est qu il recherche les images associées et présente les résultats de façon structurée selon les domaines auxquels les concepts de la requête de recherche peuvent faire référence. Afin de valider notre approche, nous avons lancé plusieurs requêtes composées de concepts de différents domaines pour évaluer les performances de l application et présentons à la fin une analyse des résultats obtenus. ABSTRACT. The current image retrieval systems propose search results as a simple list of images. However, this presentation is not always practical, especially when users do not have a clear idea of what they are looking for as they are brought to browse through several pages before finding the desired images. In this paper we describe an images retrieval system, which exploits the semantic hierarchies constructed from the Treasury of the French Language computerized. The advantage of such system is that it researches the associated images and presents the results in a structured way according to the domains of search concept. In order to validate our approach, we have launched several queries composed of concepts from different domains to evaluate the performance of the application and we present at the end the analysis of the obtained results. MOTS-CLÉS : hiérarchies sémantiques, recherche d images, domaines, TLFi KEYWORDS : semantic hierarchies, image retrieval, domains, TLFi 1. Introduction L utilisation de ressources lexicales est très répandue dans le domaine de l indexation et de la recherche d images. Compte tenu du coût de la construction de nouvelles ressources lexicales, plusieurs travaux essaient d utiliser les ressources lexicales existantes pour améliorer l accès à de grands fonds d images, voire même de construire automatiquement de nouvelles ressources. En analysant les différentes approches qui utilisent des ressources lexicales dans le domaine de l indexation et de la recherche textuelle d images, nous avons constaté que les principaux avantages apportés par des ressources lexicales concernaient les suivantes: - La reformulation automatique des requêtes (Hollink et al., 2007). Puisque les requêtes de recherche sont souvent très courtes ou ambiguës, l extension des requêtes en utilisant les relations sémantiques permet d améliorer les résultats de recherche. - La structuration des résultats (Popescu et al., 2007). Au lieu d une simple liste d images, les résultats sont proposés sous forme d ensembles d images structurés pour chaque sens du concept principal de la requête. Par exemple, pour la requête chien les images seront

regroupées par catégorie de chiens. Ce fait peut être très utile si l utilisateur n a aucune idée sur la catégorie de chiens qu il recherche. - L interaction avec l utilisateur (Popescu & Grefenstette, 2008). Le système Olive propose à l utilisateur des termes proches de sa requête pour affiner la recherche. - L interprétation sémantique du contenu en utilisant les ontologies (Liu et al., 2009), (Aspura et al.,2011), (Khalid & Noah, 2011). Dans ces cas les ontologies sont construites automatiquement à partir de Wikipedia ou de Dbpedia (Auer et al., 2007). Cependant, parmi les ressources habituellement utilisées dans l'indexation et la recherche d'images (WordNet, thésaurus et ontologies), les dictionnaires de langue ne sont en général pas mentionnés. Ceci est probablement dû au fait que l'accès aux sources (SGML / XML) des dictionnaires n'est pas toujours possible. En outre, dans les dictionnaires, les connaissances sont le plus souvent encodées implicitement, ce qui ne facilite pas leur utilisation par les applications de traitement automatique du langage naturel (Ide & Véronis, 1995). Cependant, l'avantage d un dictionnaire réside dans sa structure hyperonymique s appuyant en général sur la notion de domaines des définitions. Le but de cet article est de montrer que les connaissances dictionnairiques, en particulier les domaines des définitions, peuvent améliorer le processus de recherche d'images. Pour le prouver, nous présentons un algorithme de recherche d'images préalablement indexées automatiquement à l'aide de hiérarchies sémantiques construites à partir du Trésor de la Langue Française informatisé (TLFi) (Dedien & Pierrel, 2003). 2. Hiérarchies sémantiques Afin de pouvoir utiliser les connaissances du TLFi dans le domaine d indexation et de recherche d images, nous avons proposé dans un premier temps une approche de construction automatique de hiérarchies sémantiques pour les entrées du dictionnaire (Gheorghita & Pierrel, 2012) (cf. figure 1). Figure 1. Exemple de hiérarchies sémantiques pour le vocable ANANAS. Ce fait nous a permis d organiser les connaissances sous forme des arbres hiérarchiques composés de nœuds de trois types : nœud domaine, nœud lexème, nœud lemme. Suivant le type, la structure des données du nœud est différente. Pour le nœud domaine, la structure de données est limitée au nom du domaine et son identifiant dans la base de données. La structure du nœud lexème est composée du nom du lexème et de son type et celle du nœud lemme contient le nom du lemme, son identifiant, le nom du lexème, son poids, sa position dans la définition du TLFi, l identifiant de la définition, le domaine, le type. Les nœuds lemmes ainsi que les nœuds lexèmes peuvent être de deux types, I ou II. Les nœuds lemmes de type I sont des nœuds de hiérarchies sémantiques utilisés pour l indexation et la recherche

d images. Les nœuds lemmes de type II ne font pas partie de hiérarchies sémantiques, toutefois ils participent activement pour la création de celles-ci. Les nœuds lexèmes de type I sont des nœuds pour lesquels les hiérarchies sémantiques ont été construites et ceux de type II sont des nœuds utilisés pour la construction de hiérarchies sémantiques de trois niveaux (cf. figure 1, ananas->broméliacées->plante). Dans les hiérarchies, les nœuds sont reliés par des relations sémantiques de 4 types : - relation «is-a» (relation hyperonymique) - relation «TA» (relation d association) associe le lexème avec les lemmes de sa définition qui n ont pas été utilisés pour la construction de hiérarchies sémantiques - relation «TA_location» (relation d association de lieu) indique le lieu géographique - relation «in_domain» indique le domaine d utilisation du lexème Les relations sémantiques permettent d'expliciter les relations entre les mots-clés et aussi de les désambiguïser, si nécessaire. 3. Indexation d images Afin de rechercher les images, nous avons tout d abord proposé un algorithme d indexation automatique d images qui explore les descriptions textuelles associées aux images. Pour ce faire, le système d indexation s appuie sur les relations sémantiques entre les mots-clés en utilisant les hiérarchies sémantiques construites. Le but de l algorithme est de déterminer automatiquement à partir des descriptions textuelles des images composées d une liste de mots-clés, les termes d indexation qui correspondent aux concepts principaux qui y sont représentés. Pour évaluer l exactitude de l indexation, nous avons utilisé un corpus constitué de 503 images avec leurs descriptions textuelles extraites de Getty images 1, appartenant aux différents domaines (ex. flore, faune, architecture, jeux, sport, etc.). L évaluation a été réalisée par un seul documentaliste. L objectif était d évaluer les termes d indexation déterminés par notre algorithme pour chaque image en précisant s ils correspondent ou non aux concepts représentés dans l image. En analysant les résultats de l évaluation, nous avons obtenu que 91,51 % des termes d indexation ont été déterminés correctement tandis que 8,48 % des termes ont été déterminés incorrectement. 4. Algorithme de recherche d images Nous décrivons dans cette section notre algorithme de recherche d'images. Le but de l'algorithme est de trouver dans la base de données toutes les images pertinentes comme réponse à une requête de recherche d un utilisateur. Cet algorithme recherche les images qui ont été indexées automatiquement en se basant sur la description textuelle associée aux images et à l'aide de hiérarchies sémantiques construites à partir du TLFi. S appuyant sur cette indexation, notre algorithme de recherche à partir d une requête utilisateur est le suivant : 1. Lemmatisation et annotation morphosyntaxique des mots-clés de la requête de recherche d utilisateur en utilisant Morphalou 2, puis filtrage par élimination des mots-clés appartenant aux catégories autres que Nom. 2. Pour chaque mot-clé de la requête, construction de ses arbres hiérarchiques en utilisant notre algorithme de construction automatique de hiérarchies sémantiques. 1 http://www.gettyimages.fr/ 2 Morphalou (http://www.cnrtl.fr/lexiques/morphalou/) est un lexique ouvert des formes fléchies du français qui contiennent 539,413 formes fléchies, appartenant à 68,075 lemmes.

3. À partir des relations de filiations obtenues lors de la construction des arbres hiérarchiques pour chaque mot-clé, extraction des relations où les nœuds fils et les nœuds pères représentent les mots-clés de la requête. SI telles relations ont été déterminées ALORS POUR CHAQUE relation «in_domain» RÉPÉTER sélection des images indexées au nœud fils de la relation déterminée POUR CHAQUE relation «is-a» RÉPÉTER sélection des images indexées au nœud fils de la relation déterminée POUR CHAQUE relation «TA» RÉPÉTER sélection des images indexées au nœud père de la relation déterminée SINON détermination dans les hiérarchies sémantiques de l ensemble des identifiants des nœuds pour chaque mot-clé de la requête POUR CHAQUE identifiant du nœud de cet ensemble RÉPÉTER détermination de son type SI le nœud est de type «lexème I» ALORS sélection de toutes les images indexées à ce nœud SI le nœud est de type «lemme I» et son nœud père est de type «domaine» ALORS sélection des images indexées aux nœuds fils de ce nœud SI le nœud est de type «lemme I» et son nœud père est de type «lexème I» ALORS sélection des images indexées aux nœuds pères de ce nœud FIN POUR CHAQUE FINSI 4. Les images trouvées sont groupées selon le domaine du nœud auquel elles ont été indexées. S il n y a qu un seul domaine ALORS le nom du domaine n est pas affiché SI le nom du domaine est générique 3 ALORS le nom du domaine n est pas affiché S il y a plusieurs domaines différents et le domaine générique ALORS tout d abord seront présentées les images du domaine générique sans présenter le nom du domaine et ensuite seront affichés les autres domaines dans l ordre dans lequel ils ont été trouvés 5. Les résultats de la recherche sont présentés à l utilisateur sous forme d une mosaïque d images pour chaque domaine auquel les images trouvées peuvent appartenir. 5. Évaluation Nous avons évalué notre système de recherche d images en calculant la précision des résultats de recherche en fonction du domaine. Le but est d évaluer la qualité des résultats de recherche obtenus, en déterminant si les images trouvées par le système sont ou non pertinentes pour la requête de recherche dans le domaine sélectionné. 3 Dans le TLFi les domaines associés aux définitions indiquent le domaine pour lequel le sens d un lexème est valide. Les domaines des définitions signifient que le lexème donné a un sens particulier dans ce domaine. Dans le cas si une définition est sans domaine, son sens est générique et peut être appliqué à tous les autres domaines. Ainsi, nous avons attribué aux définitions sans domaine le domaine nommé générique.

Pour mesurer la qualité de la recherche, nous avons calculé les valeurs de la précision et du rappel pour 34 concepts (ex. lion, aigle, peur, trottinette, etc.) appartenant à des domaines différents (ex. architecture, flore, faune, sport, etc.). Pour ce faire, nous avons utilisé un corpus constitué de 503 d images indexées préalablement en utilisant les arbres hiérarchiques construits à partir du TLFi. 5.1. Analyse des résultats de l évaluation En analysant les résultats de cette évaluation, nous avons constaté que la précision de la recherche est plus élevée que le rappel, c'est-à-dire que l algorithme trouve les images pertinentes, mais pas la totalité des celles-ci. La principale cause est que, lors de l indexation, les images n ont pas été indexées par tous les termes des hiérarchies sémantiques auxquels elles auraient dû être indexées. Par contre, nous avons obtenu une précision et un rappel égaux à 1 pour les requêtes comme lion dans le domaine numismatique, nénuphar dans le domaine générique, etc. ce qui signifie que l algorithme, ne faisant aucune erreur, a trouvé la totalité des images pertinentes à la requête. Toutefois, pour certaines requêtes (ex. football dans le domaine sports, dauphin dans le domaine technologie, etc.) la précision et le rappel sont égaux à 0 parce que les images proposées ne correspondaient pas au concept principal de la requête d utilisateur ou au domaine pour lequel elles ont été trouvées. Une analyse plus détaillée des résultats est présentée par la suite. 5.1.1. Domaines erronés En analysant les résultats de la recherche, nous avons rencontré des cas où les images proposées pour un domaine ne correspondaient pas tout à fait à celui-ci. La figure 2 cidessous représente les images trouvées pour le concept dauphin dans le domaine technologie. Si toutes ces images trouvées ne correspondent pas au concept dauphin du domaine technologie, c est en fait parce qu elles n ont pas été correctement indexées. Figure 2. Exemple des images trouvées pour le concept dauphin du domaine technologie. Même si les images représentent bien le concept de la requête, elles ne correspondent pas ici au domaine dans lequel elles ont été indexées. C est dû au processus de l indexation qui a trouvé une relation d association entre les mots-clés de la description textuelle d images et les termes des hiérarchies sémantiques. Ici, la relation d association dauphin-tête, dans la définition du TLFi du lexème DAUPHIN : «Tuyau d'écoulement d'une fontaine, représentant la tête d'un dauphin», a provoqué l indexation de l image au terme dauphin du domaine technologie. Un autre problème concerne le domaine générique pour les vocables polysémiques. Dans le TLFi pour le vocable TULIPE il existe un lexème dont la définition pour le domaine botanique est «Plante bulbeuse de la famille des Liliacées, caractérisée par une haute tige

droite et lisse, de longues feuilles lancéolées, engainantes, de grandes fleurs terminales, généralement solitaires, évasées en urne, formées de six divisions vivement colorées, au fond panaché de noir, de bleu, garni d'un gros pistil et d'étamines rayonnantes, et qui est très appréciée pour l'ornementation» et des lexèmes dont les définitions tiennent de domaine générique comme «Fleur de cette plante, utilisée pour sa valeur ornementale». Ainsi, lors de l indexation d images, en fonction des relations d hyperonymie trouvées entre les motsclés de l image et les termes des hiérarchies sémantiques comme tulipe-fleur ou tulipe-plante, certaines images ont été indexées au domaine générique et botanique. Toutefois, entre les images appartenant à ces deux domaines il n existe pas de différences visuelles majeures (cf. figure 3). Même si le TLFi précise bien la différence entre tulipe-plante et tulipe-fleur, cellelà n est toutefois pas perçue par les annotateurs des images, ce qui, ensuite, ne permet pas l indexation correctement d images à ces deux domaines. Figure 3. Résultats de la recherche pour le concept tulipe. C est le même cas pour le concept désert qui peut appartenir au domaine générique et géographie, mais la différence visuelle est difficilement saisissable. 5.1.2. Relations d association Nous avons constaté que lors de la recherche d images les relations d association contribuent à l augmentation du rappel, mais n améliorent pas la précision. Ainsi pour le concept homme le système nous propose aussi une image d un étang, car dans des hiérarchies sémantiques construites à partir du TLFi au terme étang 4 est associé le terme homme. C est le même cas pour le concept tomate pour lequel le système trouve des images qui représentent des spaghettis sauce tomate à l italienne. Cela vient du fait que dans des hiérarchies construites au terme italien 5 du domaine art culinaire est associé le terme tomate. Les images trouvées pour le concept tomate ont une précision et un rappel égaux à 0, car l évaluateur a estimé que les images trouvées ne correspondaient pas au concept de la requête, le domaine art culinaire n étant pas représentatif du concept. Toutefois, dans le cas où plusieurs domaines auraient été trouvés pour ce concept, les images du domaine art culinaire auraient alors pu être évaluées positivement, car cela montrerait la diversité des domaines auxquels le concept donné peut appartenir. 5.2. Avantages et désavantages de notre approche de recherche d images 5.2.1. Structurations des résultats de recherche selon les domaines La structuration des images trouvées selon les domaines du concept recherché permet de montrer à l utilisateur les différents sens du concept et d affiner sa recherche en fonction de 4 La définition du lexème ÉTANG dans le TLFi est «Étendue d'eau généralement stagnante, d'une faible profondeur, située dans une cuvette naturelle ou creusée par l'homme». 5 La définition du lexème ITALIEN dans le TLFi pour le domaine art culinaire est «Accommodé à l'huile d'olive, à la sauce tomate et au parmesan».

ses besoins d information. La figure 4 représente un exemple des résultats de recherche pour le concept avocat, en utilisant notre système. Ainsi, l utilisateur a la possibilité de parcourir seulement les images du domaine qui l intéresse. Figure 4. Résultats de la recherche pour le concept avocat. Les systèmes classiques proposent les résultats de recherche sous forme d une simple liste ordonnée selon la pertinence des images pour la requête. Ce type d affichage ne permet pas d avoir une vision de la diversité des images présentées sans parcourir l ensemble des images. Ainsi, par exemple dans Google Images l utilisateur intéressé par les images du lion comme signe astrologique trouvera ces images seulement à partir de la page 8. Il doit donc soit parcourir toutes les images précédentes, avant de trouver celles qui l intéressent, ce qui est fastidieux, soit reformuler sa requête, ce qui n est pas évident quand l utilisateur n a pas une vision claire de ce qu il recherche. 5.2.2. Recherche associative d images Nous avons vu lors de l évaluation que les relations d association contribuent à la baisse de la précision de recherche. Toutefois, les relations d association de lieu (ex. Afrique, Asie, Europe, etc.) peuvent être exploitées dans la recherche d images afin d assurer une recherche associative. On sait que l homme pense de manière associative, en combinant certains concepts selon sa propre expérience (ex. hiver-neige, été-soleil). Ainsi, une recherche associative permet de trouver pour un concept donné toutes les images qui sont liées par une relation d association de lieu. Par exemple, pour le concept Afrique on retrouve des images d oiseaux (tisserin), d animaux (lion, jaguar), de plantes (ananas, lotus) d Afrique. Cela permet à l utilisateur de se faire une idée générale sur la flore et la faune de l Afrique, dans le cas où il n a pas une image précise de ce qu il recherche. 5.2.3. Requêtes complexes Notre système permet aussi une recherche complexe en combinant plusieurs concepts. Toutefois, il propose les images qui ont été indexées par tous les concepts de la requête, ce qui ne le différencie pas d autres systèmes. Dans le cas des requêtes dont les mots-clés sont liés par la relation d hyperonymie comme fleur-tulipe, le système propose seulement les images correspondantes au concept le plus spécifique tulipe. 5.3. Conclusion Nous avons proposé un nouvel algorithme de recherche d images, qui contrairement aux systèmes existants, structure les réponses (images trouvées) selon les domaines auxquels le concept recherché peut appartenir. Cela introduit un niveau d interaction avec l utilisateur, qui permet à ce dernier de parcourir seulement les images du domaine qui l intéresse. De plus, ce type de structuration des résultats de recherche, en utilisant les connaissances du TLFi, permet aussi à l utilisateur d avoir immédiatement une idée générale sur la diversité des images, particulièrement dans le cas de concepts ambigus. Les résultats obtenus lors de l évaluation de notre système sont assez satisfaisants. Le système retrouve les images avec une précision

élevée. Un autre avantage de notre système est que, grâce aux relations d association, par exemple celles de lieu, il est capable de retrouver des images qui n ont pas été forcement indexées par le concept recherché (ex. lion-afrique), même si cela peut conduire à faire baisser la précision, car la relation d association est subjective. Au terme de cette expérimentation, nous pouvons conclure que les domaines du TLFi sont applicables à la recherche d images et apportent un nouveau type de structuration des résultats de recherche qui n est pas encore exploité par les systèmes existants. Références Aspura, Y. I., Khalid, M., Noah, S. A., & Abdullah, S. N. 2011. Towards a multimodality ontology image retrieval. Proceedings of the Second international conference on Visual informatics: sustaining research and innovations, 382-393. Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., & Ives, Z. 2007. Dbpedia: A nucleus for a web of open data. Proceedings of the 6th international The semantic web and 2nd Asian conference on Asian semantic web conference, 722-735. Busan, Korea. Chandramouli, K., Kliegr, T., Nemrava, J., Svatek, V., & Izquierdo, E. 2008. Query Refinement and user Relevance Feedback for contextualized image retrieval. Visual Information Engineering, 453-458. Dedien, J., & Pierrel, J. -M., 2003. Le Trésor de la Langue Française Informatisé : un exemple d informatisation d un dictionnaire de langue de référence, In Journal TAL (Traitement Automatique des Langues), 44 (2), 11-37. Gheorghita, I., & Pierrel, J. -M., (2012). Towards a methodology for automatic identification of hypernyms in the definitions of large-scale dictionary, In Proceedings of the 8th conference on International Language Resources and Evaluation (LREC 2012), Istanbul. Hollink, L., Schreiber, G., & Wielinga, B. 2007. Patterns of semantic relations to improve image content search. Journal Web Semantics: Science, Services and Agents on the World Wide Web, 5 (3), 195-203. Hsu, M. -H., Tsai, M. -F., & Chen, H. -H. 2008. Combining WordNet and ConceptNet for Automatic Query Expansion: A Learning Approach. Proceedings of the 4th Asia information retrieval conference on Information retrieval technology, 213-224. Hsu, M. -H., & Chen, H. -H. 2006. Information Retrieval with Commonsense Knowledge. Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, 651-652. Seattle, W A, USA. Khalid, Y. I., & Noah, S. A. 2011. A framework for integrating DBpedia in a multi-modality ontology news image retrieval system. International Conference on Semantic Technology and Information Retrieval (STAIR), 144-149. Lenat, D. B. (1995). CYC: A Large-Scale Investment in Knowledge Infrastructure. Magazine Communications of the ACM, 38 (11), 33-38. Leung, C. H., & L, Y. 2011. Comparison of Different Ontology-Based Query Expansion Algorithms for Effective Image Retrieval. FGIT-SIP, 260, 291-299. Leung, C. H., & Li, Y. 2011. CYC based query expansion framework for effective image retrieval. 4th International Congress on Image and Signal Processing (CISP), 3, 1353-1357. Liu, H., & Singh, P. 2004. Conceptnet a practical commonsense reasoning tool-kit. BT Technology Journal, 22 (4), 211 226. Liu, H., Tong, H., & Tong, Q. 2009. A Method for Semantic-based Image Retrieval. Proceedings MIPPR 2009: Automatic Target Recognition and Image Analysis, 7495. Yichang, China. Miller, G. A. (1995). WordNet: A Lexical Database for English. Communications of the ACM, 38 (11), 39-41. Popescu, A., & Grefenstette, G. 2008. A Conceptual Approach to Web Image Retrieval. LREC 2008. Marrakech, Morocco. Popescu, A., Grefenstette, G., & Moëllic, P. A. 2007. Improving Image Retrieval Using Semantic Resources. Springer Studies in Computational Intelligence, 93, 75-96.