MODELISATION ET EXPERIENCE POUR L INDEXATION SYMBOLIQUE D IMAGES SUR LE WEB



Documents pareils
Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

Traitement bas-niveau

Business Intelligence

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Formats d images. 1 Introduction

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Business Intelligence avec Excel, Power BI et Office 365

: seul le dossier dossier sera cherché, tous les sousdomaines

Nom de l application

Apprentissage Automatique

Cours Base de données relationnelles. M. Boughanem, IUP STRI

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Introduction : présentation de la Business Intelligence

INF6304 Interfaces Intelligentes

Intégration de la dimension sémantique dans les réseaux sociaux

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

La recherche d'information sur Internet

Introduction au Data-Mining

Windows Internet Name Service (WINS)

Méthodes d évolution de modèle produit dans les systèmes du type PLM

Information utiles. webpage : Google+ : digiusto/

Développement d un interpréteur OCL pour une machine virtuelle UML.

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Nouveau Web Client marquant, Cumulus Video Cloud, optimisations de la base de données, et plus..

données en connaissance et en actions?

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Pourquoi l apprentissage?

Techniques d interaction dans la visualisation de l information Séminaire DIVA

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

Freeway 7. Nouvelles fonctionnalités

Big Data et Graphes : Quelques pistes de recherche

Université de Bangui. Modélisons en UML

LES GRANDES ETAPES DE CREATION D UN WEB DESIGN

Créer le schéma relationnel d une base de données ACCESS

LIVRE BLANC Décembre 2014

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

Géométrie discrète Chapitre V

Analyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1

Guide de l utilisateur du Centre de gestion des licences en volume LICENCES EN VOLUME MICROSOFT

Mesure agnostique de la qualité des images.

Dossier I Découverte de Base d Open Office

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Travailler avec les télécommunications

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Traitement numérique de l'image. Raphaël Isdant

Bases de Données. Plan


BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES

Rappel sur les bases de données

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Pourquoi archiver les s

Modules Multimédia PAO (Adobe)

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

La rémunération des concepteurs. en théâtre au Québec. de 2004 à 2006

Créer une base de données vidéo sans programmation (avec Drupal)

SAP BusinessObjects Web Intelligence (WebI) BI 4

Concevoir et déployer un data warehouse

Recherche bibliographique

Sécuristation du Cloud

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Chapitre 1 : Introduction aux bases de données

Entrepôt de données 1. Introduction

Programmes des classes préparatoires aux Grandes Ecoles

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

La classification automatique de données quantitatives

IFT2255 : Génie logiciel

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE

1S9 Balances des blancs

BUSINESS INTELLIGENCE

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

UE 8 Systèmes d information de gestion Le programme

IBM SPSS Direct Marketing

INFO 364 : Bases de Données Projet Professeur : Esteban Zimányi Assistants : Pierre Stadnik et Mohammed Minout Année Académique :

Les algorithmes de base du graphisme

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

Utiliser Access ou Excel pour gérer vos données

Référencement naturel

INTRODUCTION AU DATA MINING

Bases de données documentaires et distribuées Cours NFE04

Évaluation et implémentation des langages

Détection des points d intérêt et Segmentation des images RGB-D. Présentée par : Bilal Tawbe. Semaine de la recherche de l UQO

demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs de recherche?

Utiliser un tableau de données

Télé-Procédure de Gestion d Incidents : Spécifications et Prototype.

Optimiser le référencement naturel de son site web

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

Les dessous des moteurs de recommandation

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Création de maquette web

N. Paparoditis, Laboratoire MATIS

Transcription:

UNIVERSITE JOSEPH FOURIER GRENOBLE I U.F.R EN INFORMATIQUE ET MATHEMATIQUES APPLIQUEES MR 2 INFORMATIQUE : Intelligence, Interaction et Information Projet présenté par : Isavella DIOLETI Sous la responsabilité de : Philippe Mulhem et Mohammed Belkhatir MODELISATION ET EXPERIENCE POUR L INDEXATION SYMBOLIQUE D IMAGES SUR LE WEB Présenté et soutenu le 21 juin 2005 Jury : Mme Joëlle Coutaz M. Yves Denneulin M. Jérôme Euzenat Mme Cécile Roisin Responsables: M. Philippe Mulhem M. Mohammed Belkhatir Laboratoire de Communication Langagière et Interaction Personne Système UMR CNRS/UJF/INPG EQUIPE MRIM i

i

Remerciements Pour commencer, je tiens à remercier mes parents qui m ont toujours soutenu dans mes choix professionnels et sans lesquels je ne serais pas là aujourd hui. D autre part, comment ne pas citer Philippe qui m a fait confiance et qui m a permis de découvrir un domaine passionnant de l informatique. Je le remercie vivement de m avoir proposé ce sujet et de m avoir encadré pendant toute cette année. Un grand merci également à Mohammed, qui m a beaucoup aidé pendant cette année. Je remercie aussi les membres de l équipe MRIM pour leur aide morale et technique. Ce mémoire est dédié à toutes ses personnes qui permettent à ma vie d être agréable. ii

iii

Résumé Le travail présenté dans cadre de ce stage a pour sujet l'indexation d'images sur le Web en vue de faciliter leur recherche. Dans le but d améliorer l indexation des images et après un état de l'art sur ce sujet, notre proposition est basée sur les systèmes de recherche d images d approche signal/sémantique fortement couplée puisque ce sont des systèmes qui permettent une description plus riche et complète de l image. Le modèle proposé utilise le contexte d occurrence textuel d une image dans une page Web comme source d enrichissement de la caractérisation symbolique des images obtenue par un processus existant. Des termes et des relations qui décrivent le contenu visuel de l image sont extraits automatiquement pour être ensuite fusionnés dans sa description. Nous avons visé à l intégration des termes plus spécifiques qui correspondent mieux au contenu sémantique de l image. En même temps nous avons eu comme objectif la correction des index potentiellement erronés qui ont été introduits par l étiquetage automatique et le renforcement des descripteurs de l image. Au niveau expérimental nous avons évalué notre proposition sur des images annotées extraites du Web. iv

v

TABLE DE MATIERES REMERCIEMENTS RESUME TABLE DE MATIERES TABLE DES FIGURES II IV VI VIII 1 INTRODUCTION 1 1.1 Systèmes de recherche d informations 1 1.2 Systèmes de recherche d images 1 1.2.1 Modèle de recherche d informations 2 1.2.2 Composantes principales d un SRIm 3 1.3 Points supplémentaires d un système de recherche d images sur le Web. 5 1.4 Objectifs et organisation du rapport 6 2 ETAT DE L ART SUR LES SIRM 9 2.1 Approche signal 9 2.1.1 QBIC 9 2.1.2 Web-WISE 12 2.1.3 Conclusion sur les SRIms d approche signal 14 2.2 Approche sémantique automatique 14 2.2.1 Les systèmes de recherche à base textuelle sur le Web (Google, Altavista) 15 2.2.2 Visual Keywords 16 2.2.3 Conclusion sur les SRIms d approche sémantique automatique 18 2.3 Approche signal/sémantique automatique faiblement couplée 18 vi

2.3.1 ImageRover 18 2.3.2 IFind 22 2.3.3 Conclusion sur les SRIms d approche signal/sémantique automatique faiblement couplée 25 2.4 Approche signal/sémantique automatique fortement couplée 25 2.4.1 Le modèle EMIR² 26 2.4.2 SIR 29 2.5 Conclusion 33 3 PROPOSITION 35 3.1 Introduction 35 3.2 Objectifs Hypothèses 35 3.3 Etapes Problèmes 36 3.4 Modélisation 36 3.4.1 Localisation de la zone d extraction du texte de la page Web 36 3.4.2 Extraction de termes structurés 40 3.4.3 Définition d une représentation commune des termes structurés et du graphe conceptuel de l image 46 3.4.4 Intégration dans le graphe conceptuel de l image 51 3.5 Conclusion 60 4 EXPERIMENTATIONS 61 4.1 Estimation de l impact du contexte de l image 61 4.1.1 Attributs du marqueur de l image dans la page Web 61 4.1.2 Texte accompagnant l image 62 4.2 Evaluation qualitative 64 vii

4.2.1 Implantation des étapes 64 4.2.2 Evaluation des résultats 66 4.2.3 Mesures d évaluation qualitative 66 4.2.4 Evaluation des résultats pour une page Web 68 4.3 Conclusion 70 5 CONCLUSIONS ET PERSPECTIVES 71 5.1 Apports 71 5.2 Travaux futurs 72 6 BIBLIOGRAPHIE 73 TABLE DES FIGURES figure 1 : Architecture générale d'un SRIm....3 figure 2: Interface de QBIC...11 figure 3: Structure générale de Web-WISE....12 figure 4: Exemple de recherche d images avec Google...16 figure 5: Indexation par agrégations spatiales des mots clés...17 figure 6: Image Rover structure générale...19 figure 7: SRIm IFind...23 figure 8: Représentations des graphes conceptuels...26 figure 9:Représentation multi-facettes du contenu d une image dans EMIR²...27 figure 10: Exemple de représentation d une image dans EMIR²-GC...28 figure 11: Treillis des concepts...29 figure 12: Page Web dans navigateur...37 figure 13: Extrait du code HTML de la page Web...38 figure 14: Treillis de concepts visuels sémantiques enrichi (nouveaux éléments en gros).48 figure 15: Cas de correspondances entre les graphes de termes structurés et les sousgraphe de G...57 figure 16 : Etapes de l implantation du processus...64 figure 17 :Pseudocode pour l implantation du calcul des valeurs de µ TOT...65 figure 18 : Changement de direction depuis le concept c ID pour atteindre le concept ce...67 figure 19 : Extrait du texte avec l image de la page Web traitée...69 viii

ix

1 Introduction 1.1 Systèmes de recherche d informations La recherche d information (Information Retrieval) est le champ du domaine informatique qui s occupe de la représentation, du stockage, de l organisation et de l accès aux informations [1]. Ces dernières années ont vu une explosion du volume des données accessibles par les utilisateurs d ordinateurs surtout à cause de l énorme croissance du Web [6]. De grandes quantités de données sont accessibles au public, mais la détection efficace des informations pertinentes reste toujours une tâche très difficile. La complexité des données a augmenté et les systèmes qui les traitent doivent s adapter aux changements. Les systèmes de recherche d informations (SRI) sont dédiés à permettre l accès aux documents par leur contenu. Leur but est de fournir des réponses qui correspondent aux besoins des utilisateurs. Un utilisateur interagit avec un SRI en représentant son besoin d information sous forme d une requête. Ensuite, le système effectue une recherche dans une base de documents. Les documents retrouvés sont ceux qui ont été jugés pertinents par le système (pertinence système [2]). D autre part, la satisfaction de l utilisateur est fortement liée à la correspondance entre la pertinence système et la pertinence utilisateur [2] qui est son jugement de pertinence sur le document retrouvé. Les aspects principaux d un système de recherche d images (SRIm) sont présentés dans la suite, avant d aborder la spécificité de la recherche des images sur le Web et d indiquer les objectifs et l organisation de ce rapport. 1.2 Systèmes de recherche d images La notion d un document a beaucoup évolué depuis qu il a pris la forme électronique. Les documents actuels contiennent plusieurs types de media (texte, son, image, vidéo). Pourtant la recherche d informations a été orientée pendant longtemps vers les informations textuelles. Une raison fondamentale est que la majorité des documents étaient historiquement du texte. D autre part la technologie disponible jusqu'à présent ne facilitait pas le traitement de grands nombres de données non textuelles. En conséquence les systèmes de recherche pour d autres types de media ont évolués postérieurement que les SRI textuels. Le media qui nous intéresse dans ce rapport est l image. Le nombre d informations visuelles augmente de plus en plus et la croissance du Web a beaucoup contribué à ce fait. L implémentation d outils pour la gestion des bases de données visuels peut rendre leur exploitation plus efficace. De nombreux domaines peuvent profiter de systèmes de recherche d images (SRIm) efficaces : l éducation où les informations visuelles peuvent servir comme outils d enseignement les professionnels pour lesquels la récupération des informations visuelles est primordiale (journalistes, architectes etc.) la protection de propriété intellectuelle qui peut être mieux assurée avec des systèmes de recherche d images efficaces et précis. 1

Sans des outils de recherche les informations visuelles seront inaccessibles et donc inutilisables. Avant d étudier les cas particuliers des systèmes, nous présentons d abord le modèle de recherche d information qui est défini pour tous les systèmes d information, et ensuite la structure générale d un SRIm ainsi que ses tâches principales. Puis nous précisons les points supplémentaires qui doivent être pris en compte pour la mise en place des systèmes de recherche d images sur le Web. 1.2.1 Modèle de recherche d informations Un système de recherche d informations est une instance d un modèle de recherche d information. Un modèle de recherche d information est composé de quatre éléments : un modèle de document, un modèle de requêtes, une fonction de correspondance et un modèle de connaissances [2]. Dans le cas particulier des systèmes de recherche d images le document est en fait l image et le but est de définir un modèle pour l indexation et la recherche d images. Donc le modèle d un système de recherche d images consiste en un modèle de représentation d images, un modèle des requêtes, une fonction de correspondance et un modèle de connaissances (figure 1). Le modèle de représentation d images est aussi appelé langage d indexation. Il exprime le contenu des images dans un formalisme de représentation des connaissances. La définition de ce formalisme est critique, car elle détermine la performance du système. Si les images sont bien représentées, la recherche devient plus efficace et la pertinence du système approche mieux celle de l utilisateur. L essentiel est de maintenir une représentation compacte afin d éviter une augmentation indésirable du coût de calcul ; en même temps il faut qu elle soit assez expressive pour décrire le contenu des images précisément. Le modèle de requête permet l expression du besoin de l utilisateur. Il s agit de la définition d un langage formel pour la formulation des requêtes. Ce langage doit être expressif et il doit prendre en compte le contexte d application du système. Il est important de considérer le domaine de connaissances traitées par le système ; en même temps le niveau de connaissances des utilisateurs doit aussi imposer des contraintes sur le modèle de requêtes. Le système doit traiter des requêtes complexes et simples selon le niveau de l utilisateur (expert/novice). La fonction de correspondance définit de manière formelle le degré de similarité entre les modèles de requête et de représentation d images. Elle évalue la pertinence de chaque image pour une requête. Le modèle de connaissances décrit un espace thématique couvert par les images considérées. Dans ce contexte se formulent les requêtes et le contenu sémantique des images est représenté. Ce modèle prend aussi en compte les connaissances externes qui peuvent enrichir le nombre de réponses du système, par exemple en incluant un thésaurus qui pourra relier des génériques ou des spécifiques aux mots de la requête. 2

Interface Requêtes Images Résultats Système de recherche d images (SRIm) Interprétation Base de connaissances Indexation Collection de données Analyse de données Représentation des requêtes (langage de requête) Calcul de correspondance Base de données Représentation du contenu des images (langage d indexation) Modèle de requêtes Modèle de recherche d information Fonction de correspondance Modèle de connaissances Modèle de documents (contenu) figure 1 : Architecture générale d'un SRIm. 1.2.2 Composantes principales d un SRIm Les phases principales d un SRIm sont l indexation et l interrogation, présentées cidessous. Chacune de ces phases a plusieurs composantes qui exécutent les tâches essentielles du système. a) Indexation Le but de l indexation dans les systèmes de recherche d information est de créer à partir de chaque document initial, une instance du modèle de document ; c est-à-dire de 3

représenter le contenu sémantique d un document sous la forme d un index. De cette façon la recherche des documents par rapport à un besoin particulier de l utilisateur sera faite en fonction de ce contenu ; un document sera considéré comme pertinent si et seulement si son contenu correspond aux besoins de l utilisateur. Dans le cas particulier des SRIms il s agit bien évidemment de représenter le contenu d une image pour qu elle puisse correspondre aux besoins des utilisateurs. La phase d indexation d un SRIm commence par la collection des données. Le système acquiert les images, mais aussi d autres informations comme le nom de l archive de l image ou le texte qui l accompagne si elle se situe dans un document. Ensuite le système fait l analyse de ces données. Premièrement le système réalise l extraction des caractéristiques de l image. Selon le modèle de représentation de l image du système, les caractéristiques définies sont extraites. On distingue les caractéristiques textuelles qui décrivent les concepts sémantiques de haut niveau et les caractéristiques visuelles qui font la description du contenu de l image, comme couleurs, texture, ou formes. Les attributs visuels sont obtenus par des techniques de vision par ordinateur. D autres données, les métas informations, les dimensions de l image ou le type du fichier, peuvent être considérées par l étape d indexation. Un bon choix des descripteurs d images est critique pour que le système soit efficace puisque les techniques d indexation deviennent inutilisables si la dimension des descripteurs augmente beaucoup [3]. Il y a des solutions pour assurer que ces techniques fonctionnent bien : soit diminuer le nombre des dimensions des attributs, soit éliminer les caractéristiques qui sont les moins importantes. Dans cette phase de détermination des descripteurs d image, il faut faire un compromis entre l expressivité, qui est assuré par un grand nombre des caractéristiques et la performance du système, qui est réduite par le grand nombre de dimensions des descripteurs. Il faut aussi noter ici que le bon choix des descripteurs affecte non seulement la phase d indexation mais aussi la procédure d établir le degré de correspondance entre la requête et chaque image dans la base des données du système. Une fois que les descripteurs sont choisis, chaque image est associée à un index qui contient toutes ses caractéristiques. Dans plusieurs systèmes une vignette est également crée chaque image que le système utilise ensuite pour présenter les résultats à l usager en lui démontrant en gros, le contenu visuel de l image retrouvée. Tous les index et les informations collectés sont stockés dans la base de données du système. La base est utilisée dans la phase d interrogation pour récupérer les images stockées et ensuite déterminer leur correspondance avec la requête. Dans quelques SRIm une base de connaissances est utilisée. Cette base contient les connaissances du domaine et elle peut aussi inclure des informations supplémentaires, comme un thésaurus par exemple. b) Interrogation La phase d interrogation est liée à l interaction d un utilisateur avec le système, une fois que l indexation des documents est terminée. L utilisateur exprime son besoin d information au système et ce dernier lui fourni des réponses. Cette phase commence par la réception de la requête de l utilisateur. Une fois que la requête est formulée, le système la récupère et la transmet vers une composante d interprétation des requêtes. Elle est transformée selon le modèle de requête du système, pour qu il puisse la comparer avec les index des images de la base. Il faut noter que puisque les SRIm donnent souvent plusieurs options à l utilisateur pour la formulation de 4

sa requête, la composante d interprétation traite à la fois des entrées visuelles ou textuelles. Dès que la requête est traduite en représentation interne, le système calcule le degré de similarité entre chaque image et cette requête. La fonction de correspondance est un formalisme défini pour évaluer cette similarité. La composante du système où l usager formule son besoin d informations et le système affiche les réponses est l interface. Son rôle principal est de permettre l interaction entre l utilisateur et le système. Ils existent plusieurs façons d interagir avec un SRIm. Les services qu un utilisateur attend d un système de recherche d images dépendent de ses besoins particuliers quand il fait sa recherche. En tous cas un système doit comprendre les services suivants : Recherche par interrogation en forme des requêtes : l utilisateur pose une demande sous forme de requête au système. Navigation : depuis un ensemble des catégories proposées par le système, l utilisateur cherche lui-même à retrouver l image désirée en navigant dans la base de connaissances Ainsi selon ses besoins, l utilisateur peut effectuer une requête précise, ou naviguer pour trouver les images qui lui conviennent le mieux quand il fait une recherche un peu plus vague ou alors explorer lui-même le contenu de la base des connaissances. La requête que l utilisateur doit fournir dépend du système d extraction ; si le système traite du texte l utilisateur doit introduire une requête sous la forme des mots clés ou une description textuelle de l image [3]. Sinon la requête peut être une description des attributs visuels de l image désirée. Mais une combinaison entre les deux façons de formuler la requête est possible. Pour les requêtes exprimées en termes des attributs visuels, ils existent plusieurs approches : Requête par exemples : l utilisateur fait un choix parmi des exemples d images proposées par le système Requêtes par des icônes sémantiques : l utilisateur pose des icônes représentatives dans les endroits qu il souhaite sur un canevas Requêtes par des dessins : l utilisateur dessine les schémas principaux de l image désirée Dans l étape d interrogation le bouclage de pertinence est une façon pour le système de prendre en compte les choix de l utilisateur. L adaptation de la requête selon les choix ou les modifications de l utilisateur sur les résultats fournis par le système contribue au raffinement de la recherche. Elle peut être aussi utilisée pour réduire les dimensions des caractéristiques et donc pour diminuer le temps d extraction des résultats. 1.3 Points supplémentaires d un système de recherche d images sur le Web. Les systèmes de recherche d images sur le Web fonctionnent de la même façon que les systèmes décrits plus haut, mais ils comprennent quelques composantes supplémentaires 5

et ils doivent résoudre des problèmes qui ressortent du fait que ces systèmes font la recherche sur le Web. Un système qui fait la collection des images par le Web, contient une composante qui s occupe de la collection des données. Cette tâche s effectue hors ligne sinon le temps de réponse à l utilisateur serait trop long. Le résultat est une collection des données diverses (images, adresses URL, contexte textuel) effectué par un robot qui traverse le Web. Toutes les informations récupérées du Web, sont ensuite transformées avant d être stockées dans la base de données du système de même que les index des images, leurs adresses URL, les descripteurs et peut être leurs vignettes [3]. En ce qui concerne la collection et le stockage des données, il y a plusieurs points à considérer. Un des sujets essentiels est de raccourcir le plus possible la durée de cette collection, mais en même temps il faut couvrir une partie suffisante du Web. Une façon de couvrir mieux le Web est d obtenir un ensemble des URL retrouvés par des sites de recherche populaires ou de partitionner le Web selon les noms Internet et les codes des pays. L adresse URL initial d où ce module va commencer sa navigation peut aussi augmenter effectivement la couverture du Web. Sur le Web les documents sont susceptibles d être modifiés. En conséquence, les données doivent être mises à jour régulièrement sinon la performance du système est mise en question. Il faut aussi prévoir le traitement effectif des liens particuliers (ex. animations flash, pages interactives) [3]. Le stockage d index des images doit viser à la réduction de l espace exigé et à la saisie rapide des données. De ce fait, le processus d indexation est très important à cause du grand nombre des images sur le Web.. L extraction des caractéristiques visuelles se fait de la même façon que dans les SRIm. Seulement l extraction des attributs textuels varie un peu. La recherche du texte associé à l image se fait dans des endroits différents de la page Web, comme le marqueur de l image ou le titre de la page Web; selon la position du texte dans la page ou sa fréquence d occurrence son poids équivalent est estimé. Donc les principes d un SRIm sont les mêmes pour les systèmes de recherche d images sur le Web. Il faut adapter quelques composantes pour traiter les données à la collection et l extraction des caractéristiques. L essentiel c est de conserver l efficacité du système qui est mise en question à cause de la taille du Web. Il faut essayer de couvrir le plus possible du Web et en même temps n augmenter pas trop le temps de collection et de réponse. C est pour cette raison qu une bonne technique d indexation peut vraiment améliorer la performance du système en termes de précision et de temps de réponse. 1.4 Objectifs et organisation du rapport Notre cadre de travail est les systèmes de recherche d images, en particulier nous sommes intéressés aux systèmes qui font la recherche d images sur le Web. L objectif principal de notre projet est d enrichir l indexation des images par intégration d annotations textuelles et de descriptions symboliques relationnelles extraites automatiquement. Comme source d enrichissement nous utilisons le contexte d occurrence textuel des images dans des pages Web. Nous voulons fusionner ses descriptions symboliques avec les caractéristiques visuelles d une image afin de diminuer l ambiguïté du contenu au niveau signal. Après cette introduction aux systèmes de recherche d images dans ce premier chapitre le chapitre 2 contient l état de l art sur les systèmes actuels de recherche d images. Ils sont 6

classifiés selon leur indexation et c est surtout cet aspect des systèmes qui va être décrite. Les conclusions après l étude des systèmes sont également incluses dans ce chapitre. Dans le troisième chapitre notre proposition pour l enrichissement du vocabulaire d indexation des images est analysée et la modélisation du problème et de cette proposition est illustrée. Enfin la partie expérimentale de notre projet est incluse dans le quatrième chapitre. De plus nous concluons et nous donnons quelques perspectives à ce travail. 7

8

2 Etat de l art sur les SIRm Ce chapitre présente un état de l art des SRIm en s intéressant principalement à l aspect d indexation. Nous examinons les types de descripteurs qui sont utilisés pour caractériser le contenu des images et comment ces systèmes intègrent ces descripteurs pour faire la recherche d images. On distingue quatre approches principales des systèmes selon le type de caractéristiques qui sont extraites pour chaque image : Approche signal : les SRIm de cette approche, utilisent uniquement le contenu visuel pour indexer et rechercher une image. Le niveau de description est proche du signal (couleurs, textures, formes, positions). Approche sémantique automatique: dans ce cas le niveau de représentation est plus élevé. Une image est décrite par des termes symboliques qui expriment sont contenu sémantique. Approche signal /sémantique automatique faiblement couplée : il s agit des SRIm qui adoptent une description de l image au niveau signal et au niveau sémantique en même temps. Ces deux niveaux de description sont nettement séparés et forment juste un ensemble des descripteurs d une image. Approche signal /sémantique automatique fortement couplée : cette dernière approche utilise aussi deux niveaux de description d une image (signal, sémantique), mais contrairement à l approche mixte faiblement couplée elle ne se restreint pas à juste ajouter les termes visuels et sémantiques. Dans cette approche les systèmes essayent d un part exprimer les relations sémantiques entre termes et d autre part associer les attributs visuels en utilisant ces relations. Dans la suite nous décrirons quelques systèmes représentatifs de chaque approche, avant de les comparer à la fin du chapitre. 2.1 Approche signal Les SRIm qui appartiennent à cette catégorie [16,10,11,28] considèrent les caractéristiques élémentaires des images afin de décrire une image. Ces caractéristiques (comme couleurs, texture, formes) sont extraites par des techniques de vision par ordinateur et sont utilisées pour les processus d indexation et de recherche d images. Nous décrivons d abord le système QBIC, un des premiers SRIm de l approche signal. Dans les années qui ont suivi les SRIm d approche signal ont commencé à s orienter vers la recherche sur le Web. Nous allons décrire un SRIm qui fait la recherche sur le Web, le système Web-WISE. 2.1.1 QBIC Le système QBIC a été développé par IBM Research Division, Almaden Research Center[16] pour effectuer la recherche des images par leur contenu visuel. Bien que QBIC réalise aussi la recherche des vidéos, nous sommes intéressés ici aux contributions de ce système liées aux images fixes. QBIC comprend deux processus principaux ; la création d une base d images indexées et l interrogation pour retrouver des images pertinentes par rapport au besoin d un utilisateur. Le modèle des données en QBIC distingue deux niveaux de représentations d images fixes : 9

Les scènes qui sont définies comme des images en couleurs Les objets qui sont des parties d une scène. L identification des objets dans les images est faite en combinant des méthodes de segmentation d image semi-automatiques avec un modèle de avant/arrière plan mais qui fonctionne seulement pour des catégories d images restreintes. Pour chaque scène ou objet identifié, le système extrait un ensemble de caractéristiques (la couleur, la texture et la forme), afin de décrire le contenu visuel de la scène ou de l objet. En ce qui concerne la couleur, un histogramme de couleur de K éléments est construit pour chaque objet et chaque scène. Des couleurs similaires sont regroupées et une couleur est choisie comme représentative pour chaque dimension de l histogramme. QBIC a expérimenté différentes tailles de groupages (K=256 ou K=64 dimensions) [17]. Chaque composante de l histogramme est le pourcentage de pixels qui sont les plus similaires à la couleur représentative de la composante. Les caractéristiques de formes utilisées par le système sont la circularité, l excentricité, l orientation de l axe principal et un ensemble de moments invariants sur un total de 20 dimensions. Enfin les caractéristiques de textures considérées sont des représentations du contraste, de la granularité et de leur direction. Le contraste décrit l intensité de la texture, la granularité mesure son échelle et la direction indique si la texture a une direction particulière. Le vecteur des attributs de texture est de trois dimensions. Tous ces vecteurs sont stockés dans la base de données du système. Le modèle d indexation adopté est celui des arbres R*, un modèle d indexation multidimensionnelle. Comme le nombre de caractéristiques est assez élevé, un processus de filtrage est défini. Il a pour but principal de réduire le nombre de dimensions des vecteurs, tout en gardant les attributs essentiels pour décrire suffisamment le contenu d une image. Plus r r X ' = f X ' [17] précisément il vise à obtenir un vecteur de dimensionnalité réduite ( ) depuis le vecteur original X r '. Pour la couleur un attribut supplémentaire est calculé, la valeur de couleur moyenne x v de chaque image. Quant aux attributs de formes, des transformations préservant la distance, comme les transformations Karhunen Loeve (KL), Discrete Fourier (DFT) ou Discrete Cosine (DCT) [17], sont utilisés pour traduire n-d vecteurs de caractéristiques en n-d vecteurs. Ces derniers gardent les informations les plus essentielles dans leurs premiers coefficients et ce sont ces coefficients qui indexent l image. Pour la phase d interrogation, QBIC propose des requêtes basées sur les différents attributs visuels d une scène ou d un objet. Selon la requête de l utilisateur le système estime la similarité entre la requête et une image d une façon différente. Des fonctions de distance entre le vecteur de la requête et celui d une image sont définies pour chaque cas particulier. Quand la recherche est basée sur la distribution des couleurs dans l image, le système calcule une fonction de distance entre les vecteurs des couleurs moyennes x v et r v de l image et de la requête afin de déterminer un ensemble initial d images. En fait cette distance sert comme filtre, appliqué aux images de la base de données. La distance 2 est définie comme une simple distance Euclidienne entre les vecteurs tris d avg dimensionnels des couleurs moyennes : 2 r v r v t r v d x, r = x r x r (1) avg ( ) ( ) ( ) 10

Une fois que la distance entre valeurs moyennes est estimée, le système utilise cet ensemble d images et calcule la distance quadratique (équation 2) entre les vecteurs de tous les attributs, mais uniquement pour les images appartenant à ce petit ensemble. d K K r ( x', r ) = aij ( xi ' rj )( xi ' rj ) 2 r hist i j (2) où chaque valeur a ij indique la similarité entre les caractéristiques i et j des vecteurs. La mesure de similarité pour les requêtes des formes est la distance Euclidienne pondérée entre les attributs correspondants. Il faut noter ici que les vecteurs x r de l image et r r de la requête, sont déjà de dimensionnalité réduite. Donc la formule de distance est : d r r n 2 2 ( x, r ) ( xi yi ) = ( ai ( x r )) + m i= 1 i= 1 r r r n i= m+ 1 r r r ( a ( x )) r r où a i x est la i eme caractéristique transformée. Seulement un sous-ensemble m des caractéristiques transformées sont considérés pour estimer la distance entre une image et la requête. Dans ce cas le filtrage est fait directement sur les vecteurs x r et la similarité est calculée pour ces vecteurs de dimensionnalité réduite. La fonction de correspondance pour les requêtes par texture est la distance Euclidienne pondérée dans un espace de trois dimensions des attributs de texture. Toutes ces différentes fonctions de similarité sont utilisées selon les différents types de requêtes que QBIC propose. Le premier type des requêtes sont les requêtes directes où l utilisateur peut choisi les attributs visuels de l image qu il cherche (figure 2). D abord il y a des requêtes sur des couleurs où l utilisateur sélectionne la distribution de la couleur qu il souhaite dans l image par des sliders. Les requêtes par texture sont formulées par la sélection d une texture parmi un ensemble d exemples. Enfin l utilisateur peut faire un dessin de la forme d un objet qu il souhaite que l image contienne et ainsi formuler sa requête. QBIC propose également des requêtes par images exemples. L utilisateur sélectionne une image parmi un ensemble présenté par le système et il demande une image similaire à celle qu il a choisi. i 2 (3) figure 2: Interface de QBIC. QBIC est un des premiers systèmes qui a introduit la notion de recherche d images par leur contenu visuel. Il combine les techniques du domaine de la vision par ordinateur avec celles du domaine des bases de données. Le système considère aussi les problèmes 11

qui découlent de la grande dimensionnalité des vecteurs en proposant des algorithmes de réduction des dimensions. De plus en utilisant des fonctions de distance ou par réduction immédiate des dimensions, un filtrage initial des images est réalisé, ce qui permet à obtenir un ensemble qui contient quelques faux résultats mais des résultats pertinents ne sont pas ignorés. Pourtant QBIC, étant un SRIm basé que sur le contenu visuel des images, est loin d intégrer les interprétations différentes d une image. Malgré que cette approche offre des méthodes automatiques pour l extraction des attributs visuels et une indexation fidèle au contenu de l image, elle est assez éloignée du niveau de description que les humains utilisent pour formuler leurs besoins d information. Comme conséquence la tâche de diminuer cet écart entre les deux niveaux de description incombe à l utilisateur, ce qui peut poser des problèmes selon son niveau de compétences. 2.1.2 Web-WISE Web-WISE est un SRIm développé par le Département d Informatique de Wayne State University à Detroit [10] pour la recherche des images sur le Web. La figure 3 présente sa structure générale. Ce système est un système représentatif des SRIm à l approche signal qui est implémenté pour faire la collection des images sur le Web. Il est un bon exemple de SRIm sur le Web qui permet l interaction de l utilisateur par des requêtes par images exemples. Interrogation Interface Agent de requêtes Indexation Base de données URLs docs et images WWW Agent intenet indexes images Vignettes Agent d analyse figure 3: Structure générale de Web-WISE. Web-Wise comprend trois modules principaux : un agent internet qui traverse le Web pour faire la collection des images, un agent d analyse qui extrait les caractéristiques des images et un agent de requête qui reçoit les requêtes par l interface et gère la réponse du système. Nous exposons en détail les composantes et la structure du système. L agent internet traverse automatiquement le Web en suivant des liens hypertexte où il récupère des documents et des images. Cet agent analyse les documents retrouvés pour extraire des images et leurs URLs. Il rend une liste des URLs des images collectées à la base de données du système. 12

L agent d analyse extrait les caractéristiques visuelles depuis les images collectées qui sont en JPEG. Les images sont divisées en blocs et pour chacun de ces blocs, le système extrait les caractéristiques de couleur et de texture directement par DCT coefficients [10]. Un histogramme de couleur est calculé pour exprimer la distribution de la couleur dans l image. Les histogrammes de couleur sont construits depuis les DC coefficients des blocs. Le système utilise les histogrammes globaux mais aussi les histogrammes locaux pour obtenir la couleur dominante locale. Les histogrammes globaux sont représentés dans l espace de couleurs HSV. L agent d analyse fait une transformation de l espace de couleur YCbCr que le format JPEG utilise en HSV, car ce dernier correspond mieux au système visuel humain. La composante teinte (Hue), reflète le spectre moyen de la couleur, la Saturation sa clarté et la luminance (Value) sa brillance. L agent d analyse calcule les histogrammes globaux pour les composantes de teinte et de saturation. Afin de réduire le nombre de dimensions des caractéristiques de l image, les histogrammes sont quantifiés. Pour l extraction des histogrammes locaux l image est divisée en 16 blocs et les valeurs dominantes de teinte et de saturation sont extraites pour chaque bloc. Dans le cas des histogrammes locaux l image est représentée par un vecteur de 32 dimensions, 2 dimensions par bloc. Les caractéristiques de texture d une image sont reconstruites par les coefficients AC et l image est divisée en 16 blocs. Pour tous ces blocs leurs intensités moyennes sont calculées. Ces valeurs reflètent le degré de variation de l image originale pour chaque bloc. La distribution spatiale de la texture est représentée par un vecteur de 16 dimensions. L ensemble de toutes ces caractéristiques extraites compose un vecteur de quarante dimensions qui représente l image, dont 16 pour la teinte, 8 pour la saturation et 16 pour la texture, quand on est dans le cas des histogrammes globaux. L agent d analyse stocke tous les vecteurs des images dans la base de données du système. Leurs vignettes sont également extraites et stockées. Les deux premiers modules de Web-WISE implémentent la phase d indexation du système. En ce qui concerne la phase d interrogation, un agent de requêtes et une interface sont développés. L agent de requêtes reçoit les requêtes de l utilisateur par l interface et les traduit en une représentation interne. Le système propose des requêtes par images exemples. Ensuite il sélectionne l ensemble des images candidates de la base de données. Pour réduire le nombre de candidats rentrés, et de cette façon, améliorer le temps de réponse du système, un seuil est défini pour garder seulement des images particulièrement similaires. L objectif est de rendre à l utilisateur les k images les plus proches à la requête [10]. L agent calcule les valeurs de distance et de similarité entre une requête Q et une image candidate I. Afin de souligner la contribution particulière de chaque caractéristique trois fonctions D h, D s et D t sont calculées, correspondant aux distances entre Q et I par rapport à la teinte, la saturation et la texture, respectivement. D h, D s et D t sont définis par la formule suivante : M 1 ( u() i, v() i ) min i= 0 D ( u, v) = (4) M 1 M 1 min u( j), v( k) i= 0 k = 0 La fonction de similarité est calculée par la formule ci-dessus : 13

( Q, T ) s = 1 (5) ( 1+ ( ad ( h, h ) + bd ( s, s ) + cd ( t, t ) ) h Q T s Q T Les coefficients a, b et c sont les poids déterminant l importance de chaque caractéristique. L utilisateur peut les modifier sur l interface du système. La valeur de c est zéro par défaut puisque Web-WISE utilise la texture comme caractéristique optionnelle. L interface permet à l utilisateur de choisir entre des images exemples pour initialiser sa demande. Il peut aussi préciser des paramètres qui définissent les attributs visuels qui l intéressent le plus. En plus il peut choisir entre le calcul de l histogramme global ou local de l image. Un ensemble de vignettes des images candidates constitue la réponse du système. Pour chaque image son degré de similarité à la requête est aussi affiché. L interface du système n offre pas beaucoup de possibilités d interaction; le système donne à l utilisateur strictement le choix entre des images exemples proposées. De ce fait il n a pas le choix de formuler une requête exprimée selon ses besoins particuliers. En conséquence seulement les besoins d informations plus généraux bénéficient du système et des recherches avec des critères plus variés ne sont pas permises. De plus la définition des paramètres de la formule de similarité par l utilisateur exige une bonne connaissance du domaine d analyse d image. Mais pour la plupart des utilisateurs ce n est pas le cas. Finalement le système n utilise pas la technique de bouclage de pertinence, une technique qui améliore beaucoup la précision de la réponse du système puisqu il s approche après chaque boucle aux images pertinentes selon l utilisateur. En conclusion Web-WISE propose une approche concrète pour un système de recherche d images sur le Web ce qui le distingue principalement de QBIC. Il assigne des tâches comme la collection et l analyse de données à des agents différents qui sont dessinés spécifiquement pour le traitement des données provenant du Web. Mais sa description de l image n est pas très riche, puisqu il utilise notamment la couleur comme caractéristique visuel. Même la texture, une caractéristique utilisée fréquemment dans l analyse d image est considérée comme un attribut optionnel. 2.1.3 Conclusion sur les SRIms d approche signal Dans cette partie deux systèmes représentatifs de l approche signal étaient présentés. Cette approche a l avantage de se baser sur le contenu brut de l image. De ce fait l extraction des caractéristiques peut se faire automatiquement ce qui mène à une indexation cohérente avec le contenu de l image. De plus de grands nombres de données visuelles peuvent être traités puisque ce sont des processus automatiques. Le défaut principal des SRIm d approche signal et le fait que l utilisateur doit se mettre qu niveau du système afin d exprimer son besoin d information. Celui-ci exige de sa part une connaissance très précise de ce qu il cherche, ce qui n est pas toujours le cas. Souvent l utilisateur ne sait pas exactement ce qu il cherche et surtout, il ne doit pas être obligé de savoir des détails sur les attributs visuels d une image, comme par exemple le pourcentage d une couleur. C est pour ces raisons que des systèmes de description symbolique d images ont été développés. Nous présentons quelques SRIm d approche sémantique. 2.2 Approche sémantique automatique L approche sémantique automatique pour l extraction des caractéristiques d une image intègre une sémantique associée aux pixels des images, par l utilisation de mots clés qui décrivent les concepts de l image. Des formalismes plus riches que les mots clés ont été développés pour créer un réseau sémantique associé au contenu de l image et pour mieux t Q T 14

représenter les caractéristiques de haut niveau de l image. Nous distinguons deux approches pour l indexation et recherche d images par une description symbolique: SRIms qui indexent et recherchent d images selon leur contexte textuel. Ces systèmes extraient des mots clés du texte qui accompagne l image et les utilisent ensuite pour faire l indexation et la recherche d images. SRIms qui indexent et recherchent d images par annotations symboliques [27, 18]. Ces systèmes utilisent les caractéristiques visuelles de l image pour l indexer par des étiquettes symboliques. 2.2.1 Les systèmes de recherche à base textuelle sur le Web (Google, Altavista) Dans ce paragraphe on s intéresse à deux des systèmes les plus populaires pour la recherche d images sur le Web : Google et Altavista. Google [4] est un SRI qui inclut une option pour la recherche d images sur le Web. C est un système qui offre une large couverture du Web (presque 880 millions d images indexées et 4 milliards pages Web visités [6]). Les index sont mis à jour régulièrement. Pour déterminer le contenu graphique d'une image, Google analyse le texte de la page qui entoure l'image, le titre de l'image et de nombreux autres critères. Google applique également des algorithmes pour éliminer les doublons (images identiques) [4]. L utilisateur formule une requête textuelle et le système présente les résultats triés par ordre croissant de pertinence. En présentant les vignettes des images dans un cadre, Google affiche à la fois l'image et la page qui la contient, ce qui permet d'apprécier l'image dans son contexte. Des méta-informations sur les images et leurs liens sont aussi inclus dans les réponses. Le système donne aussi un choix de recherche avancée, auquel l utilisateur peut spécifier plusieurs paramètres de sa recherche, nommément la taille de l image, son format, un domaine particulier de recherche. Il peut également choisir entre des images en couleurs, en noir et blanc ou en niveau de gris. Il faut aussi noter que le temps de réponse est très court [6]. Les résultats fournis sont pertinents par rapport aux requêtes assez variées comme l ont montré des évaluations [6]. Similairement à Google le système de recherche d images de Altavista [5] ne base pas sa recherche sur les descripteurs du contenu visuel de l image. Les images retournées sont celles qui contiennent des mots clés de la requête dans leur nom de fichier, l attribut ALT et texte entourant l image [5]. Sa couverture du Web est moins grande que celle de Google, pourtant son temps de réponse est assez rapide. Les requêtes sont textuelles et l utilisateur a le choix entre la définition de plusieurs facteurs de la requête. Il peut choisir entre photos et graphiques, préciser la taille de l image et les sources de la recherche (Web, collections d images). Les critères que l utilisateur peut définir sont plus limités que ceux de Google. Les résultats sont représentés par les vignettes des images et en même temps leurs liens sont fournis. Ce type de systèmes offre des outils pratiques pour la recherche d images sur le Web. Leur grand avantage par rapport aux systèmes d approche signal est qu ils expriment les concepts sémantiques des images. En conséquence ces systèmes peuvent répondre à des requêtes d un niveau de représentation près de celui des usagers. Ils offrent une formule riche pour l expression des requêtes et leurs réponses sont très rapides. En plus ce sont des systèmes opérationnels qui couvrent un grand nombre de données et un vaste domaine de connaissances, car le contexte des images sur le Web est très varié. L indexation des images se fait automatiquement. Malgré tout, l inconvénient de ces 15

systèmes est qu ils ne prennent pas en compte le contenu de l image, tel que les caractéristiques visuelles. La précision de cette indexation en est compromise par la nature du Web qui introduit un degré d incertitude élevé. Les termes extraits dépendent de la qualité du contexte et très souvent ne correspondent pas au le vrai contenu de l image. Si le texte qui accompagne une image ne décrit pas son contenu, l indexation de cette image n est pas valide et le système n a pas des moyens de vérifier si cette correspondance entre texte et image est pertinente. En conséquence les résultats obtenus sont sans rapport avec le besoin d information de l utilisateur comme dans l exemple illustré dans la figure 4. Nous constatons que pour une requête sur «cathédrale jaune» nous obtenons beaucoup d images dont le contenu n a rien avoir avec cette requête. figure 4: Exemple de recherche d images avec Google Dans le but d améliorer la qualité d indexation et de recherche symbolique d images, une autre approche est l annotation symbolique des images par des termes sémantiques. C est le cas du système suivant. 2.2.2 Visual Keywords Le SRIm Visual Keywords [18], utilise des mots clés visuels pour l indexation et la recherche des images. Visual keywords sont des prototypes visuels spécifiés pour exprimer le contenu sémantique d une image. Avant de commencer le processus d indexation, le système construit un vocabulaire et un thésaurus des termes par un ensemble d images avec un contenu visuel sur un domaine particulier. Les images spécimens sont divisées en régions, chacune desquelles est assignée avec des sous-étiquettes et des étiquettes, composant le vocabulaire et le thésaurus respectivement. Le système extrait des attributs visuels de couleur (modèle YIQ) et de texture (filtres Gabor) [18] pour caractériser les mots clés visuels de chaque région. L ensemble des attributs forme un vecteur : 16

c ( s, v ),( s, v ),...,( s, v ),... (6) i : i1 i1 i2 i2 ij ij où c i sont les étiquettes des concepts, s ij sont les sous-étiquettes des instances spécifiques d un concept i, et v ij sont les vecteurs des régions ij. Le processus d indexation est illustré dans la figure 5: figure 5: Indexation par agrégations spatiales des mots clés L image à indexer est d abord découpée en blocs de pixels qui sont ensuite représentés par un vecteur τ des caractéristiques. Pour chaque région (p,q) le vecteur τ pq est comparé avec les vecteurs v ij des mots clés visuels afin de déterminer l ensemble des termes qui indexent l image. Le résultat de chaque comparaison est un vecteur de regroupement flou µ τ pq, v ) et tous ces vecteurs forment la carte d évaluation des termes (TEM Type ( ij Evaluation Map [18]). A son tour cette carte est segmentée par la carte d agrégation spatiale (SAM Spatial agregation map [18]). Chaque pixel de la carte SAM S(a,b) fait une agrégation spatiale de mots clés visuels v ij dans les pixels de l espace TEM T(p,q) couverts par (a,b) : S ( a, b, i, j) = T ( p, q, i, j) (7) ( p, q) ( a, b) Ensuite une agrégation supplémentaire est effectuée en utilisant les sous-étiquettes s ij pour les mots clés v i qui décrivent une instance spécifique d un concept c i pour agréger parmi les mots clés qui partagent des concepts identiques: C ( a, b, i) = S( a, b, i, j) (8) j Le système utilise une méthode de formulation des requêtes, appelé QVC (Query by Visual Constraints), les requêtes par contraintes visuelles introduites par l utilisateur. Il définit des mots clés visuels en choisissant leurs icônes correspondantes par une palette. En plus il définit la position spatiale de l icône en dessinant une boite dans un canevas. Plus de contraintes peuvent être introduites pour formuler des requêtes complexes. Pour chaque requête ξ un ensemble d images relatives R est calculé. Le terme visuel de requête (VQT, Visual Query Term [18]) ξ (, π ( a, b)) spécifie un ensemble R avec les v ij 17

mots clés v ij et une extension spatiale π ( a, b) ; ainsi la similarité floue d une image x de la base de données est calculée comme : µ ( x, R) = S( a, b, i, j) (9) ξ En conclusion ce système propose une approche qui exploite le contenu sémantique des images ce qui permet d exprimer des concepts de haut niveau et leurs positions dans l image. La recherche d images par des termes sémantiques est plus proche au langage des humains et corresponde plus directement à leurs besoins d information. Pourtant le système ignore le contenu brut de l image, qui décrit précisément l image et dont l indexation est automatique. Malgré que l annotation des images ne soit pas manuelle, les mots clés visuels sont extraits depuis un ensemble d image d un domaine très restreint. Donc si les images à indexer n appartiennent pas dans ce domaine, leur indexation sera insuffisante voire fausse. 2.2.3 Conclusion sur les SRIms d approche sémantique automatique Les SRIm d approche sémantique utilisent un langage de recherche plus proche à celui de l usager ; de ce fait l utilisateur ne doit pas formuler son besoin d information par des termes non familiers et il peut se servir d un formalisme riche pour le décrire. Les SRIms de cette approche ont aussi des inconvénients. D une part les SRIm qui fonctionnent sur le Web sont très sensibles au contexte d une image, dont la qualité n est pas toujours assurée. Conséquemment les termes d indexation ne sont pas fiables par rapport au contenu de l image. D autre part, les systèmes qui font l annotation symbolique restent plus fidèles au contenu visuel des images, mais ils ont l inconvénient de ne fonctionner que pour un domaine très restreint. Une fois que le contenu d une image sort de ce domaine, ces systèmes sont incapables d associer des étiquettes sémantiques à cette image. Afin de surmonter les problèmes causés par les deux approches (signal et sémantique) les systèmes de recherche d images se sont dirigés vers une approche mixte, c'est-à-dire une approche qui combine les deux niveaux d interprétation d une image : visuel et symbolique. 2.3 Approche signal/sémantique automatique faiblement couplée Les systèmes de cette catégorie [12,15,29,30] indexent une image non seulement selon ses caractéristiques visuelles mais aussi avec des termes qui décrivent son contenu sémantique. Dans cette approche mixte d indexation, le couplage des caractéristiques consiste juste à ajouter des termes aux indexes des attributs visuels. Donc ce couplage est considéré faible puisque les attributs ne se combinent pas entre eux, ils sont simplement empilés dans l index de l image. Ci dessous deux systèmes basés sur cette approche sont présentés : le système ImageRover et le système IFind. 2.3.1 ImageRover ImageRover est un SRIm sur le Web qui a été développé par le Département d Informatique de l Université de Boston [12, 13]. Il consiste de deux sous-systèmes principaux : le sous-système d indexation et celui d interrogation. L architecture de tout le système est illustrée dans la figure 6. 18