MODELISATION ET EXPERIENCE POUR L INDEXATION SYMBOLIQUE D IMAGES SUR LE WEB

Transcription

1 UNIVERSITE JOSEPH FOURIER GRENOBLE I U.F.R EN INFORMATIQUE ET MATHEMATIQUES APPLIQUEES MR 2 INFORMATIQUE : Intelligence, Interaction et Information Projet présenté par : Isavella DIOLETI Sous la responsabilité de : Philippe Mulhem et Mohammed Belkhatir MODELISATION ET EXPERIENCE POUR L INDEXATION SYMBOLIQUE D IMAGES SUR LE WEB Présenté et soutenu le 21 juin 2005 Jury : Mme Joëlle Coutaz M. Yves Denneulin M. Jérôme Euzenat Mme Cécile Roisin Responsables: M. Philippe Mulhem M. Mohammed Belkhatir Laboratoire de Communication Langagière et Interaction Personne Système UMR CNRS/UJF/INPG EQUIPE MRIM i

2 i

3 Remerciements Pour commencer, je tiens à remercier mes parents qui m ont toujours soutenu dans mes choix professionnels et sans lesquels je ne serais pas là aujourd hui. D autre part, comment ne pas citer Philippe qui m a fait confiance et qui m a permis de découvrir un domaine passionnant de l informatique. Je le remercie vivement de m avoir proposé ce sujet et de m avoir encadré pendant toute cette année. Un grand merci également à Mohammed, qui m a beaucoup aidé pendant cette année. Je remercie aussi les membres de l équipe MRIM pour leur aide morale et technique. Ce mémoire est dédié à toutes ses personnes qui permettent à ma vie d être agréable. ii

4 iii

5 Résumé Le travail présenté dans cadre de ce stage a pour sujet l'indexation d'images sur le Web en vue de faciliter leur recherche. Dans le but d améliorer l indexation des images et après un état de l'art sur ce sujet, notre proposition est basée sur les systèmes de recherche d images d approche signal/sémantique fortement couplée puisque ce sont des systèmes qui permettent une description plus riche et complète de l image. Le modèle proposé utilise le contexte d occurrence textuel d une image dans une page Web comme source d enrichissement de la caractérisation symbolique des images obtenue par un processus existant. Des termes et des relations qui décrivent le contenu visuel de l image sont extraits automatiquement pour être ensuite fusionnés dans sa description. Nous avons visé à l intégration des termes plus spécifiques qui correspondent mieux au contenu sémantique de l image. En même temps nous avons eu comme objectif la correction des index potentiellement erronés qui ont été introduits par l étiquetage automatique et le renforcement des descripteurs de l image. Au niveau expérimental nous avons évalué notre proposition sur des images annotées extraites du Web. iv

6 v

7 TABLE DE MATIERES REMERCIEMENTS RESUME TABLE DE MATIERES TABLE DES FIGURES II IV VI VIII 1 INTRODUCTION Systèmes de recherche d informations Systèmes de recherche d images Modèle de recherche d informations Composantes principales d un SRIm Points supplémentaires d un système de recherche d images sur le Web Objectifs et organisation du rapport 6 2 ETAT DE L ART SUR LES SIRM Approche signal QBIC Web-WISE Conclusion sur les SRIms d approche signal Approche sémantique automatique Les systèmes de recherche à base textuelle sur le Web (Google, Altavista) Visual Keywords Conclusion sur les SRIms d approche sémantique automatique Approche signal/sémantique automatique faiblement couplée 18 vi

8 2.3.1 ImageRover IFind Conclusion sur les SRIms d approche signal/sémantique automatique faiblement couplée Approche signal/sémantique automatique fortement couplée Le modèle EMIR² SIR Conclusion 33 3 PROPOSITION Introduction Objectifs Hypothèses Etapes Problèmes Modélisation Localisation de la zone d extraction du texte de la page Web Extraction de termes structurés Définition d une représentation commune des termes structurés et du graphe conceptuel de l image Intégration dans le graphe conceptuel de l image Conclusion 60 4 EXPERIMENTATIONS Estimation de l impact du contexte de l image Attributs du marqueur de l image dans la page Web Texte accompagnant l image Evaluation qualitative 64 vii

9 4.2.1 Implantation des étapes Evaluation des résultats Mesures d évaluation qualitative Evaluation des résultats pour une page Web Conclusion 70 5 CONCLUSIONS ET PERSPECTIVES Apports Travaux futurs 72 6 BIBLIOGRAPHIE 73 TABLE DES FIGURES figure 1 : Architecture générale d'un SRIm....3 figure 2: Interface de QBIC...11 figure 3: Structure générale de Web-WISE figure 4: Exemple de recherche d images avec Google...16 figure 5: Indexation par agrégations spatiales des mots clés...17 figure 6: Image Rover structure générale...19 figure 7: SRIm IFind...23 figure 8: Représentations des graphes conceptuels...26 figure 9:Représentation multi-facettes du contenu d une image dans EMIR²...27 figure 10: Exemple de représentation d une image dans EMIR²-GC...28 figure 11: Treillis des concepts...29 figure 12: Page Web dans navigateur...37 figure 13: Extrait du code HTML de la page Web...38 figure 14: Treillis de concepts visuels sémantiques enrichi (nouveaux éléments en gros).48 figure 15: Cas de correspondances entre les graphes de termes structurés et les sousgraphe de G...57 figure 16 : Etapes de l implantation du processus...64 figure 17 :Pseudocode pour l implantation du calcul des valeurs de µ TOT...65 figure 18 : Changement de direction depuis le concept c ID pour atteindre le concept ce...67 figure 19 : Extrait du texte avec l image de la page Web traitée...69 viii

10 ix

11 1 Introduction 1.1 Systèmes de recherche d informations La recherche d information (Information Retrieval) est le champ du domaine informatique qui s occupe de la représentation, du stockage, de l organisation et de l accès aux informations [1]. Ces dernières années ont vu une explosion du volume des données accessibles par les utilisateurs d ordinateurs surtout à cause de l énorme croissance du Web [6]. De grandes quantités de données sont accessibles au public, mais la détection efficace des informations pertinentes reste toujours une tâche très difficile. La complexité des données a augmenté et les systèmes qui les traitent doivent s adapter aux changements. Les systèmes de recherche d informations (SRI) sont dédiés à permettre l accès aux documents par leur contenu. Leur but est de fournir des réponses qui correspondent aux besoins des utilisateurs. Un utilisateur interagit avec un SRI en représentant son besoin d information sous forme d une requête. Ensuite, le système effectue une recherche dans une base de documents. Les documents retrouvés sont ceux qui ont été jugés pertinents par le système (pertinence système [2]). D autre part, la satisfaction de l utilisateur est fortement liée à la correspondance entre la pertinence système et la pertinence utilisateur [2] qui est son jugement de pertinence sur le document retrouvé. Les aspects principaux d un système de recherche d images (SRIm) sont présentés dans la suite, avant d aborder la spécificité de la recherche des images sur le Web et d indiquer les objectifs et l organisation de ce rapport. 1.2 Systèmes de recherche d images La notion d un document a beaucoup évolué depuis qu il a pris la forme électronique. Les documents actuels contiennent plusieurs types de media (texte, son, image, vidéo). Pourtant la recherche d informations a été orientée pendant longtemps vers les informations textuelles. Une raison fondamentale est que la majorité des documents étaient historiquement du texte. D autre part la technologie disponible jusqu'à présent ne facilitait pas le traitement de grands nombres de données non textuelles. En conséquence les systèmes de recherche pour d autres types de media ont évolués postérieurement que les SRI textuels. Le media qui nous intéresse dans ce rapport est l image. Le nombre d informations visuelles augmente de plus en plus et la croissance du Web a beaucoup contribué à ce fait. L implémentation d outils pour la gestion des bases de données visuels peut rendre leur exploitation plus efficace. De nombreux domaines peuvent profiter de systèmes de recherche d images (SRIm) efficaces : l éducation où les informations visuelles peuvent servir comme outils d enseignement les professionnels pour lesquels la récupération des informations visuelles est primordiale (journalistes, architectes etc.) la protection de propriété intellectuelle qui peut être mieux assurée avec des systèmes de recherche d images efficaces et précis. 1

12 Sans des outils de recherche les informations visuelles seront inaccessibles et donc inutilisables. Avant d étudier les cas particuliers des systèmes, nous présentons d abord le modèle de recherche d information qui est défini pour tous les systèmes d information, et ensuite la structure générale d un SRIm ainsi que ses tâches principales. Puis nous précisons les points supplémentaires qui doivent être pris en compte pour la mise en place des systèmes de recherche d images sur le Web Modèle de recherche d informations Un système de recherche d informations est une instance d un modèle de recherche d information. Un modèle de recherche d information est composé de quatre éléments : un modèle de document, un modèle de requêtes, une fonction de correspondance et un modèle de connaissances [2]. Dans le cas particulier des systèmes de recherche d images le document est en fait l image et le but est de définir un modèle pour l indexation et la recherche d images. Donc le modèle d un système de recherche d images consiste en un modèle de représentation d images, un modèle des requêtes, une fonction de correspondance et un modèle de connaissances (figure 1). Le modèle de représentation d images est aussi appelé langage d indexation. Il exprime le contenu des images dans un formalisme de représentation des connaissances. La définition de ce formalisme est critique, car elle détermine la performance du système. Si les images sont bien représentées, la recherche devient plus efficace et la pertinence du système approche mieux celle de l utilisateur. L essentiel est de maintenir une représentation compacte afin d éviter une augmentation indésirable du coût de calcul ; en même temps il faut qu elle soit assez expressive pour décrire le contenu des images précisément. Le modèle de requête permet l expression du besoin de l utilisateur. Il s agit de la définition d un langage formel pour la formulation des requêtes. Ce langage doit être expressif et il doit prendre en compte le contexte d application du système. Il est important de considérer le domaine de connaissances traitées par le système ; en même temps le niveau de connaissances des utilisateurs doit aussi imposer des contraintes sur le modèle de requêtes. Le système doit traiter des requêtes complexes et simples selon le niveau de l utilisateur (expert/novice). La fonction de correspondance définit de manière formelle le degré de similarité entre les modèles de requête et de représentation d images. Elle évalue la pertinence de chaque image pour une requête. Le modèle de connaissances décrit un espace thématique couvert par les images considérées. Dans ce contexte se formulent les requêtes et le contenu sémantique des images est représenté. Ce modèle prend aussi en compte les connaissances externes qui peuvent enrichir le nombre de réponses du système, par exemple en incluant un thésaurus qui pourra relier des génériques ou des spécifiques aux mots de la requête. 2

13 Interface Requêtes Images Résultats Système de recherche d images (SRIm) Interprétation Base de connaissances Indexation Collection de données Analyse de données Représentation des requêtes (langage de requête) Calcul de correspondance Base de données Représentation du contenu des images (langage d indexation) Modèle de requêtes Modèle de recherche d information Fonction de correspondance Modèle de connaissances Modèle de documents (contenu) figure 1 : Architecture générale d'un SRIm Composantes principales d un SRIm Les phases principales d un SRIm sont l indexation et l interrogation, présentées cidessous. Chacune de ces phases a plusieurs composantes qui exécutent les tâches essentielles du système. a) Indexation Le but de l indexation dans les systèmes de recherche d information est de créer à partir de chaque document initial, une instance du modèle de document ; c est-à-dire de 3

14 représenter le contenu sémantique d un document sous la forme d un index. De cette façon la recherche des documents par rapport à un besoin particulier de l utilisateur sera faite en fonction de ce contenu ; un document sera considéré comme pertinent si et seulement si son contenu correspond aux besoins de l utilisateur. Dans le cas particulier des SRIms il s agit bien évidemment de représenter le contenu d une image pour qu elle puisse correspondre aux besoins des utilisateurs. La phase d indexation d un SRIm commence par la collection des données. Le système acquiert les images, mais aussi d autres informations comme le nom de l archive de l image ou le texte qui l accompagne si elle se situe dans un document. Ensuite le système fait l analyse de ces données. Premièrement le système réalise l extraction des caractéristiques de l image. Selon le modèle de représentation de l image du système, les caractéristiques définies sont extraites. On distingue les caractéristiques textuelles qui décrivent les concepts sémantiques de haut niveau et les caractéristiques visuelles qui font la description du contenu de l image, comme couleurs, texture, ou formes. Les attributs visuels sont obtenus par des techniques de vision par ordinateur. D autres données, les métas informations, les dimensions de l image ou le type du fichier, peuvent être considérées par l étape d indexation. Un bon choix des descripteurs d images est critique pour que le système soit efficace puisque les techniques d indexation deviennent inutilisables si la dimension des descripteurs augmente beaucoup [3]. Il y a des solutions pour assurer que ces techniques fonctionnent bien : soit diminuer le nombre des dimensions des attributs, soit éliminer les caractéristiques qui sont les moins importantes. Dans cette phase de détermination des descripteurs d image, il faut faire un compromis entre l expressivité, qui est assuré par un grand nombre des caractéristiques et la performance du système, qui est réduite par le grand nombre de dimensions des descripteurs. Il faut aussi noter ici que le bon choix des descripteurs affecte non seulement la phase d indexation mais aussi la procédure d établir le degré de correspondance entre la requête et chaque image dans la base des données du système. Une fois que les descripteurs sont choisis, chaque image est associée à un index qui contient toutes ses caractéristiques. Dans plusieurs systèmes une vignette est également crée chaque image que le système utilise ensuite pour présenter les résultats à l usager en lui démontrant en gros, le contenu visuel de l image retrouvée. Tous les index et les informations collectés sont stockés dans la base de données du système. La base est utilisée dans la phase d interrogation pour récupérer les images stockées et ensuite déterminer leur correspondance avec la requête. Dans quelques SRIm une base de connaissances est utilisée. Cette base contient les connaissances du domaine et elle peut aussi inclure des informations supplémentaires, comme un thésaurus par exemple. b) Interrogation La phase d interrogation est liée à l interaction d un utilisateur avec le système, une fois que l indexation des documents est terminée. L utilisateur exprime son besoin d information au système et ce dernier lui fourni des réponses. Cette phase commence par la réception de la requête de l utilisateur. Une fois que la requête est formulée, le système la récupère et la transmet vers une composante d interprétation des requêtes. Elle est transformée selon le modèle de requête du système, pour qu il puisse la comparer avec les index des images de la base. Il faut noter que puisque les SRIm donnent souvent plusieurs options à l utilisateur pour la formulation de 4

15 sa requête, la composante d interprétation traite à la fois des entrées visuelles ou textuelles. Dès que la requête est traduite en représentation interne, le système calcule le degré de similarité entre chaque image et cette requête. La fonction de correspondance est un formalisme défini pour évaluer cette similarité. La composante du système où l usager formule son besoin d informations et le système affiche les réponses est l interface. Son rôle principal est de permettre l interaction entre l utilisateur et le système. Ils existent plusieurs façons d interagir avec un SRIm. Les services qu un utilisateur attend d un système de recherche d images dépendent de ses besoins particuliers quand il fait sa recherche. En tous cas un système doit comprendre les services suivants : Recherche par interrogation en forme des requêtes : l utilisateur pose une demande sous forme de requête au système. Navigation : depuis un ensemble des catégories proposées par le système, l utilisateur cherche lui-même à retrouver l image désirée en navigant dans la base de connaissances Ainsi selon ses besoins, l utilisateur peut effectuer une requête précise, ou naviguer pour trouver les images qui lui conviennent le mieux quand il fait une recherche un peu plus vague ou alors explorer lui-même le contenu de la base des connaissances. La requête que l utilisateur doit fournir dépend du système d extraction ; si le système traite du texte l utilisateur doit introduire une requête sous la forme des mots clés ou une description textuelle de l image [3]. Sinon la requête peut être une description des attributs visuels de l image désirée. Mais une combinaison entre les deux façons de formuler la requête est possible. Pour les requêtes exprimées en termes des attributs visuels, ils existent plusieurs approches : Requête par exemples : l utilisateur fait un choix parmi des exemples d images proposées par le système Requêtes par des icônes sémantiques : l utilisateur pose des icônes représentatives dans les endroits qu il souhaite sur un canevas Requêtes par des dessins : l utilisateur dessine les schémas principaux de l image désirée Dans l étape d interrogation le bouclage de pertinence est une façon pour le système de prendre en compte les choix de l utilisateur. L adaptation de la requête selon les choix ou les modifications de l utilisateur sur les résultats fournis par le système contribue au raffinement de la recherche. Elle peut être aussi utilisée pour réduire les dimensions des caractéristiques et donc pour diminuer le temps d extraction des résultats. 1.3 Points supplémentaires d un système de recherche d images sur le Web. Les systèmes de recherche d images sur le Web fonctionnent de la même façon que les systèmes décrits plus haut, mais ils comprennent quelques composantes supplémentaires 5

16 et ils doivent résoudre des problèmes qui ressortent du fait que ces systèmes font la recherche sur le Web. Un système qui fait la collection des images par le Web, contient une composante qui s occupe de la collection des données. Cette tâche s effectue hors ligne sinon le temps de réponse à l utilisateur serait trop long. Le résultat est une collection des données diverses (images, adresses URL, contexte textuel) effectué par un robot qui traverse le Web. Toutes les informations récupérées du Web, sont ensuite transformées avant d être stockées dans la base de données du système de même que les index des images, leurs adresses URL, les descripteurs et peut être leurs vignettes [3]. En ce qui concerne la collection et le stockage des données, il y a plusieurs points à considérer. Un des sujets essentiels est de raccourcir le plus possible la durée de cette collection, mais en même temps il faut couvrir une partie suffisante du Web. Une façon de couvrir mieux le Web est d obtenir un ensemble des URL retrouvés par des sites de recherche populaires ou de partitionner le Web selon les noms Internet et les codes des pays. L adresse URL initial d où ce module va commencer sa navigation peut aussi augmenter effectivement la couverture du Web. Sur le Web les documents sont susceptibles d être modifiés. En conséquence, les données doivent être mises à jour régulièrement sinon la performance du système est mise en question. Il faut aussi prévoir le traitement effectif des liens particuliers (ex. animations flash, pages interactives) [3]. Le stockage d index des images doit viser à la réduction de l espace exigé et à la saisie rapide des données. De ce fait, le processus d indexation est très important à cause du grand nombre des images sur le Web.. L extraction des caractéristiques visuelles se fait de la même façon que dans les SRIm. Seulement l extraction des attributs textuels varie un peu. La recherche du texte associé à l image se fait dans des endroits différents de la page Web, comme le marqueur de l image ou le titre de la page Web; selon la position du texte dans la page ou sa fréquence d occurrence son poids équivalent est estimé. Donc les principes d un SRIm sont les mêmes pour les systèmes de recherche d images sur le Web. Il faut adapter quelques composantes pour traiter les données à la collection et l extraction des caractéristiques. L essentiel c est de conserver l efficacité du système qui est mise en question à cause de la taille du Web. Il faut essayer de couvrir le plus possible du Web et en même temps n augmenter pas trop le temps de collection et de réponse. C est pour cette raison qu une bonne technique d indexation peut vraiment améliorer la performance du système en termes de précision et de temps de réponse. 1.4 Objectifs et organisation du rapport Notre cadre de travail est les systèmes de recherche d images, en particulier nous sommes intéressés aux systèmes qui font la recherche d images sur le Web. L objectif principal de notre projet est d enrichir l indexation des images par intégration d annotations textuelles et de descriptions symboliques relationnelles extraites automatiquement. Comme source d enrichissement nous utilisons le contexte d occurrence textuel des images dans des pages Web. Nous voulons fusionner ses descriptions symboliques avec les caractéristiques visuelles d une image afin de diminuer l ambiguïté du contenu au niveau signal. Après cette introduction aux systèmes de recherche d images dans ce premier chapitre le chapitre 2 contient l état de l art sur les systèmes actuels de recherche d images. Ils sont 6

17 classifiés selon leur indexation et c est surtout cet aspect des systèmes qui va être décrite. Les conclusions après l étude des systèmes sont également incluses dans ce chapitre. Dans le troisième chapitre notre proposition pour l enrichissement du vocabulaire d indexation des images est analysée et la modélisation du problème et de cette proposition est illustrée. Enfin la partie expérimentale de notre projet est incluse dans le quatrième chapitre. De plus nous concluons et nous donnons quelques perspectives à ce travail. 7

18 8

19 2 Etat de l art sur les SIRm Ce chapitre présente un état de l art des SRIm en s intéressant principalement à l aspect d indexation. Nous examinons les types de descripteurs qui sont utilisés pour caractériser le contenu des images et comment ces systèmes intègrent ces descripteurs pour faire la recherche d images. On distingue quatre approches principales des systèmes selon le type de caractéristiques qui sont extraites pour chaque image : Approche signal : les SRIm de cette approche, utilisent uniquement le contenu visuel pour indexer et rechercher une image. Le niveau de description est proche du signal (couleurs, textures, formes, positions). Approche sémantique automatique: dans ce cas le niveau de représentation est plus élevé. Une image est décrite par des termes symboliques qui expriment sont contenu sémantique. Approche signal /sémantique automatique faiblement couplée : il s agit des SRIm qui adoptent une description de l image au niveau signal et au niveau sémantique en même temps. Ces deux niveaux de description sont nettement séparés et forment juste un ensemble des descripteurs d une image. Approche signal /sémantique automatique fortement couplée : cette dernière approche utilise aussi deux niveaux de description d une image (signal, sémantique), mais contrairement à l approche mixte faiblement couplée elle ne se restreint pas à juste ajouter les termes visuels et sémantiques. Dans cette approche les systèmes essayent d un part exprimer les relations sémantiques entre termes et d autre part associer les attributs visuels en utilisant ces relations. Dans la suite nous décrirons quelques systèmes représentatifs de chaque approche, avant de les comparer à la fin du chapitre. 2.1 Approche signal Les SRIm qui appartiennent à cette catégorie [16,10,11,28] considèrent les caractéristiques élémentaires des images afin de décrire une image. Ces caractéristiques (comme couleurs, texture, formes) sont extraites par des techniques de vision par ordinateur et sont utilisées pour les processus d indexation et de recherche d images. Nous décrivons d abord le système QBIC, un des premiers SRIm de l approche signal. Dans les années qui ont suivi les SRIm d approche signal ont commencé à s orienter vers la recherche sur le Web. Nous allons décrire un SRIm qui fait la recherche sur le Web, le système Web-WISE QBIC Le système QBIC a été développé par IBM Research Division, Almaden Research Center[16] pour effectuer la recherche des images par leur contenu visuel. Bien que QBIC réalise aussi la recherche des vidéos, nous sommes intéressés ici aux contributions de ce système liées aux images fixes. QBIC comprend deux processus principaux ; la création d une base d images indexées et l interrogation pour retrouver des images pertinentes par rapport au besoin d un utilisateur. Le modèle des données en QBIC distingue deux niveaux de représentations d images fixes : 9

20 Les scènes qui sont définies comme des images en couleurs Les objets qui sont des parties d une scène. L identification des objets dans les images est faite en combinant des méthodes de segmentation d image semi-automatiques avec un modèle de avant/arrière plan mais qui fonctionne seulement pour des catégories d images restreintes. Pour chaque scène ou objet identifié, le système extrait un ensemble de caractéristiques (la couleur, la texture et la forme), afin de décrire le contenu visuel de la scène ou de l objet. En ce qui concerne la couleur, un histogramme de couleur de K éléments est construit pour chaque objet et chaque scène. Des couleurs similaires sont regroupées et une couleur est choisie comme représentative pour chaque dimension de l histogramme. QBIC a expérimenté différentes tailles de groupages (K=256 ou K=64 dimensions) [17]. Chaque composante de l histogramme est le pourcentage de pixels qui sont les plus similaires à la couleur représentative de la composante. Les caractéristiques de formes utilisées par le système sont la circularité, l excentricité, l orientation de l axe principal et un ensemble de moments invariants sur un total de 20 dimensions. Enfin les caractéristiques de textures considérées sont des représentations du contraste, de la granularité et de leur direction. Le contraste décrit l intensité de la texture, la granularité mesure son échelle et la direction indique si la texture a une direction particulière. Le vecteur des attributs de texture est de trois dimensions. Tous ces vecteurs sont stockés dans la base de données du système. Le modèle d indexation adopté est celui des arbres R*, un modèle d indexation multidimensionnelle. Comme le nombre de caractéristiques est assez élevé, un processus de filtrage est défini. Il a pour but principal de réduire le nombre de dimensions des vecteurs, tout en gardant les attributs essentiels pour décrire suffisamment le contenu d une image. Plus r r X ' = f X ' [17] précisément il vise à obtenir un vecteur de dimensionnalité réduite ( ) depuis le vecteur original X r '. Pour la couleur un attribut supplémentaire est calculé, la valeur de couleur moyenne x v de chaque image. Quant aux attributs de formes, des transformations préservant la distance, comme les transformations Karhunen Loeve (KL), Discrete Fourier (DFT) ou Discrete Cosine (DCT) [17], sont utilisés pour traduire n-d vecteurs de caractéristiques en n-d vecteurs. Ces derniers gardent les informations les plus essentielles dans leurs premiers coefficients et ce sont ces coefficients qui indexent l image. Pour la phase d interrogation, QBIC propose des requêtes basées sur les différents attributs visuels d une scène ou d un objet. Selon la requête de l utilisateur le système estime la similarité entre la requête et une image d une façon différente. Des fonctions de distance entre le vecteur de la requête et celui d une image sont définies pour chaque cas particulier. Quand la recherche est basée sur la distribution des couleurs dans l image, le système calcule une fonction de distance entre les vecteurs des couleurs moyennes x v et r v de l image et de la requête afin de déterminer un ensemble initial d images. En fait cette distance sert comme filtre, appliqué aux images de la base de données. La distance 2 est définie comme une simple distance Euclidienne entre les vecteurs tris d avg dimensionnels des couleurs moyennes : 2 r v r v t r v d x, r = x r x r (1) avg ( ) ( ) ( ) 10

21 Une fois que la distance entre valeurs moyennes est estimée, le système utilise cet ensemble d images et calcule la distance quadratique (équation 2) entre les vecteurs de tous les attributs, mais uniquement pour les images appartenant à ce petit ensemble. d K K r ( x', r ) = aij ( xi ' rj )( xi ' rj ) 2 r hist i j (2) où chaque valeur a ij indique la similarité entre les caractéristiques i et j des vecteurs. La mesure de similarité pour les requêtes des formes est la distance Euclidienne pondérée entre les attributs correspondants. Il faut noter ici que les vecteurs x r de l image et r r de la requête, sont déjà de dimensionnalité réduite. Donc la formule de distance est : d r r n 2 2 ( x, r ) ( xi yi ) = ( ai ( x r )) + m i= 1 i= 1 r r r n i= m+ 1 r r r ( a ( x )) r r où a i x est la i eme caractéristique transformée. Seulement un sous-ensemble m des caractéristiques transformées sont considérés pour estimer la distance entre une image et la requête. Dans ce cas le filtrage est fait directement sur les vecteurs x r et la similarité est calculée pour ces vecteurs de dimensionnalité réduite. La fonction de correspondance pour les requêtes par texture est la distance Euclidienne pondérée dans un espace de trois dimensions des attributs de texture. Toutes ces différentes fonctions de similarité sont utilisées selon les différents types de requêtes que QBIC propose. Le premier type des requêtes sont les requêtes directes où l utilisateur peut choisi les attributs visuels de l image qu il cherche (figure 2). D abord il y a des requêtes sur des couleurs où l utilisateur sélectionne la distribution de la couleur qu il souhaite dans l image par des sliders. Les requêtes par texture sont formulées par la sélection d une texture parmi un ensemble d exemples. Enfin l utilisateur peut faire un dessin de la forme d un objet qu il souhaite que l image contienne et ainsi formuler sa requête. QBIC propose également des requêtes par images exemples. L utilisateur sélectionne une image parmi un ensemble présenté par le système et il demande une image similaire à celle qu il a choisi. i 2 (3) figure 2: Interface de QBIC. QBIC est un des premiers systèmes qui a introduit la notion de recherche d images par leur contenu visuel. Il combine les techniques du domaine de la vision par ordinateur avec celles du domaine des bases de données. Le système considère aussi les problèmes 11

22 qui découlent de la grande dimensionnalité des vecteurs en proposant des algorithmes de réduction des dimensions. De plus en utilisant des fonctions de distance ou par réduction immédiate des dimensions, un filtrage initial des images est réalisé, ce qui permet à obtenir un ensemble qui contient quelques faux résultats mais des résultats pertinents ne sont pas ignorés. Pourtant QBIC, étant un SRIm basé que sur le contenu visuel des images, est loin d intégrer les interprétations différentes d une image. Malgré que cette approche offre des méthodes automatiques pour l extraction des attributs visuels et une indexation fidèle au contenu de l image, elle est assez éloignée du niveau de description que les humains utilisent pour formuler leurs besoins d information. Comme conséquence la tâche de diminuer cet écart entre les deux niveaux de description incombe à l utilisateur, ce qui peut poser des problèmes selon son niveau de compétences Web-WISE Web-WISE est un SRIm développé par le Département d Informatique de Wayne State University à Detroit [10] pour la recherche des images sur le Web. La figure 3 présente sa structure générale. Ce système est un système représentatif des SRIm à l approche signal qui est implémenté pour faire la collection des images sur le Web. Il est un bon exemple de SRIm sur le Web qui permet l interaction de l utilisateur par des requêtes par images exemples. Interrogation Interface Agent de requêtes Indexation Base de données URLs docs et images WWW Agent intenet indexes images Vignettes Agent d analyse figure 3: Structure générale de Web-WISE. Web-Wise comprend trois modules principaux : un agent internet qui traverse le Web pour faire la collection des images, un agent d analyse qui extrait les caractéristiques des images et un agent de requête qui reçoit les requêtes par l interface et gère la réponse du système. Nous exposons en détail les composantes et la structure du système. L agent internet traverse automatiquement le Web en suivant des liens hypertexte où il récupère des documents et des images. Cet agent analyse les documents retrouvés pour extraire des images et leurs URLs. Il rend une liste des URLs des images collectées à la base de données du système. 12

23 L agent d analyse extrait les caractéristiques visuelles depuis les images collectées qui sont en JPEG. Les images sont divisées en blocs et pour chacun de ces blocs, le système extrait les caractéristiques de couleur et de texture directement par DCT coefficients [10]. Un histogramme de couleur est calculé pour exprimer la distribution de la couleur dans l image. Les histogrammes de couleur sont construits depuis les DC coefficients des blocs. Le système utilise les histogrammes globaux mais aussi les histogrammes locaux pour obtenir la couleur dominante locale. Les histogrammes globaux sont représentés dans l espace de couleurs HSV. L agent d analyse fait une transformation de l espace de couleur YCbCr que le format JPEG utilise en HSV, car ce dernier correspond mieux au système visuel humain. La composante teinte (Hue), reflète le spectre moyen de la couleur, la Saturation sa clarté et la luminance (Value) sa brillance. L agent d analyse calcule les histogrammes globaux pour les composantes de teinte et de saturation. Afin de réduire le nombre de dimensions des caractéristiques de l image, les histogrammes sont quantifiés. Pour l extraction des histogrammes locaux l image est divisée en 16 blocs et les valeurs dominantes de teinte et de saturation sont extraites pour chaque bloc. Dans le cas des histogrammes locaux l image est représentée par un vecteur de 32 dimensions, 2 dimensions par bloc. Les caractéristiques de texture d une image sont reconstruites par les coefficients AC et l image est divisée en 16 blocs. Pour tous ces blocs leurs intensités moyennes sont calculées. Ces valeurs reflètent le degré de variation de l image originale pour chaque bloc. La distribution spatiale de la texture est représentée par un vecteur de 16 dimensions. L ensemble de toutes ces caractéristiques extraites compose un vecteur de quarante dimensions qui représente l image, dont 16 pour la teinte, 8 pour la saturation et 16 pour la texture, quand on est dans le cas des histogrammes globaux. L agent d analyse stocke tous les vecteurs des images dans la base de données du système. Leurs vignettes sont également extraites et stockées. Les deux premiers modules de Web-WISE implémentent la phase d indexation du système. En ce qui concerne la phase d interrogation, un agent de requêtes et une interface sont développés. L agent de requêtes reçoit les requêtes de l utilisateur par l interface et les traduit en une représentation interne. Le système propose des requêtes par images exemples. Ensuite il sélectionne l ensemble des images candidates de la base de données. Pour réduire le nombre de candidats rentrés, et de cette façon, améliorer le temps de réponse du système, un seuil est défini pour garder seulement des images particulièrement similaires. L objectif est de rendre à l utilisateur les k images les plus proches à la requête [10]. L agent calcule les valeurs de distance et de similarité entre une requête Q et une image candidate I. Afin de souligner la contribution particulière de chaque caractéristique trois fonctions D h, D s et D t sont calculées, correspondant aux distances entre Q et I par rapport à la teinte, la saturation et la texture, respectivement. D h, D s et D t sont définis par la formule suivante : M 1 ( u() i, v() i ) min i= 0 D ( u, v) = (4) M 1 M 1 min u( j), v( k) i= 0 k = 0 La fonction de similarité est calculée par la formule ci-dessus : 13

24 ( Q, T ) s = 1 (5) ( 1+ ( ad ( h, h ) + bd ( s, s ) + cd ( t, t ) ) h Q T s Q T Les coefficients a, b et c sont les poids déterminant l importance de chaque caractéristique. L utilisateur peut les modifier sur l interface du système. La valeur de c est zéro par défaut puisque Web-WISE utilise la texture comme caractéristique optionnelle. L interface permet à l utilisateur de choisir entre des images exemples pour initialiser sa demande. Il peut aussi préciser des paramètres qui définissent les attributs visuels qui l intéressent le plus. En plus il peut choisir entre le calcul de l histogramme global ou local de l image. Un ensemble de vignettes des images candidates constitue la réponse du système. Pour chaque image son degré de similarité à la requête est aussi affiché. L interface du système n offre pas beaucoup de possibilités d interaction; le système donne à l utilisateur strictement le choix entre des images exemples proposées. De ce fait il n a pas le choix de formuler une requête exprimée selon ses besoins particuliers. En conséquence seulement les besoins d informations plus généraux bénéficient du système et des recherches avec des critères plus variés ne sont pas permises. De plus la définition des paramètres de la formule de similarité par l utilisateur exige une bonne connaissance du domaine d analyse d image. Mais pour la plupart des utilisateurs ce n est pas le cas. Finalement le système n utilise pas la technique de bouclage de pertinence, une technique qui améliore beaucoup la précision de la réponse du système puisqu il s approche après chaque boucle aux images pertinentes selon l utilisateur. En conclusion Web-WISE propose une approche concrète pour un système de recherche d images sur le Web ce qui le distingue principalement de QBIC. Il assigne des tâches comme la collection et l analyse de données à des agents différents qui sont dessinés spécifiquement pour le traitement des données provenant du Web. Mais sa description de l image n est pas très riche, puisqu il utilise notamment la couleur comme caractéristique visuel. Même la texture, une caractéristique utilisée fréquemment dans l analyse d image est considérée comme un attribut optionnel Conclusion sur les SRIms d approche signal Dans cette partie deux systèmes représentatifs de l approche signal étaient présentés. Cette approche a l avantage de se baser sur le contenu brut de l image. De ce fait l extraction des caractéristiques peut se faire automatiquement ce qui mène à une indexation cohérente avec le contenu de l image. De plus de grands nombres de données visuelles peuvent être traités puisque ce sont des processus automatiques. Le défaut principal des SRIm d approche signal et le fait que l utilisateur doit se mettre qu niveau du système afin d exprimer son besoin d information. Celui-ci exige de sa part une connaissance très précise de ce qu il cherche, ce qui n est pas toujours le cas. Souvent l utilisateur ne sait pas exactement ce qu il cherche et surtout, il ne doit pas être obligé de savoir des détails sur les attributs visuels d une image, comme par exemple le pourcentage d une couleur. C est pour ces raisons que des systèmes de description symbolique d images ont été développés. Nous présentons quelques SRIm d approche sémantique. 2.2 Approche sémantique automatique L approche sémantique automatique pour l extraction des caractéristiques d une image intègre une sémantique associée aux pixels des images, par l utilisation de mots clés qui décrivent les concepts de l image. Des formalismes plus riches que les mots clés ont été développés pour créer un réseau sémantique associé au contenu de l image et pour mieux t Q T 14

25 représenter les caractéristiques de haut niveau de l image. Nous distinguons deux approches pour l indexation et recherche d images par une description symbolique: SRIms qui indexent et recherchent d images selon leur contexte textuel. Ces systèmes extraient des mots clés du texte qui accompagne l image et les utilisent ensuite pour faire l indexation et la recherche d images. SRIms qui indexent et recherchent d images par annotations symboliques [27, 18]. Ces systèmes utilisent les caractéristiques visuelles de l image pour l indexer par des étiquettes symboliques Les systèmes de recherche à base textuelle sur le Web (Google, Altavista) Dans ce paragraphe on s intéresse à deux des systèmes les plus populaires pour la recherche d images sur le Web : Google et Altavista. Google [4] est un SRI qui inclut une option pour la recherche d images sur le Web. C est un système qui offre une large couverture du Web (presque 880 millions d images indexées et 4 milliards pages Web visités [6]). Les index sont mis à jour régulièrement. Pour déterminer le contenu graphique d'une image, Google analyse le texte de la page qui entoure l'image, le titre de l'image et de nombreux autres critères. Google applique également des algorithmes pour éliminer les doublons (images identiques) [4]. L utilisateur formule une requête textuelle et le système présente les résultats triés par ordre croissant de pertinence. En présentant les vignettes des images dans un cadre, Google affiche à la fois l'image et la page qui la contient, ce qui permet d'apprécier l'image dans son contexte. Des méta-informations sur les images et leurs liens sont aussi inclus dans les réponses. Le système donne aussi un choix de recherche avancée, auquel l utilisateur peut spécifier plusieurs paramètres de sa recherche, nommément la taille de l image, son format, un domaine particulier de recherche. Il peut également choisir entre des images en couleurs, en noir et blanc ou en niveau de gris. Il faut aussi noter que le temps de réponse est très court [6]. Les résultats fournis sont pertinents par rapport aux requêtes assez variées comme l ont montré des évaluations [6]. Similairement à Google le système de recherche d images de Altavista [5] ne base pas sa recherche sur les descripteurs du contenu visuel de l image. Les images retournées sont celles qui contiennent des mots clés de la requête dans leur nom de fichier, l attribut ALT et texte entourant l image [5]. Sa couverture du Web est moins grande que celle de Google, pourtant son temps de réponse est assez rapide. Les requêtes sont textuelles et l utilisateur a le choix entre la définition de plusieurs facteurs de la requête. Il peut choisir entre photos et graphiques, préciser la taille de l image et les sources de la recherche (Web, collections d images). Les critères que l utilisateur peut définir sont plus limités que ceux de Google. Les résultats sont représentés par les vignettes des images et en même temps leurs liens sont fournis. Ce type de systèmes offre des outils pratiques pour la recherche d images sur le Web. Leur grand avantage par rapport aux systèmes d approche signal est qu ils expriment les concepts sémantiques des images. En conséquence ces systèmes peuvent répondre à des requêtes d un niveau de représentation près de celui des usagers. Ils offrent une formule riche pour l expression des requêtes et leurs réponses sont très rapides. En plus ce sont des systèmes opérationnels qui couvrent un grand nombre de données et un vaste domaine de connaissances, car le contexte des images sur le Web est très varié. L indexation des images se fait automatiquement. Malgré tout, l inconvénient de ces 15

26 systèmes est qu ils ne prennent pas en compte le contenu de l image, tel que les caractéristiques visuelles. La précision de cette indexation en est compromise par la nature du Web qui introduit un degré d incertitude élevé. Les termes extraits dépendent de la qualité du contexte et très souvent ne correspondent pas au le vrai contenu de l image. Si le texte qui accompagne une image ne décrit pas son contenu, l indexation de cette image n est pas valide et le système n a pas des moyens de vérifier si cette correspondance entre texte et image est pertinente. En conséquence les résultats obtenus sont sans rapport avec le besoin d information de l utilisateur comme dans l exemple illustré dans la figure 4. Nous constatons que pour une requête sur «cathédrale jaune» nous obtenons beaucoup d images dont le contenu n a rien avoir avec cette requête. figure 4: Exemple de recherche d images avec Google Dans le but d améliorer la qualité d indexation et de recherche symbolique d images, une autre approche est l annotation symbolique des images par des termes sémantiques. C est le cas du système suivant Visual Keywords Le SRIm Visual Keywords [18], utilise des mots clés visuels pour l indexation et la recherche des images. Visual keywords sont des prototypes visuels spécifiés pour exprimer le contenu sémantique d une image. Avant de commencer le processus d indexation, le système construit un vocabulaire et un thésaurus des termes par un ensemble d images avec un contenu visuel sur un domaine particulier. Les images spécimens sont divisées en régions, chacune desquelles est assignée avec des sous-étiquettes et des étiquettes, composant le vocabulaire et le thésaurus respectivement. Le système extrait des attributs visuels de couleur (modèle YIQ) et de texture (filtres Gabor) [18] pour caractériser les mots clés visuels de chaque région. L ensemble des attributs forme un vecteur : 16

27 c ( s, v ),( s, v ),...,( s, v ),... (6) i : i1 i1 i2 i2 ij ij où c i sont les étiquettes des concepts, s ij sont les sous-étiquettes des instances spécifiques d un concept i, et v ij sont les vecteurs des régions ij. Le processus d indexation est illustré dans la figure 5: figure 5: Indexation par agrégations spatiales des mots clés L image à indexer est d abord découpée en blocs de pixels qui sont ensuite représentés par un vecteur τ des caractéristiques. Pour chaque région (p,q) le vecteur τ pq est comparé avec les vecteurs v ij des mots clés visuels afin de déterminer l ensemble des termes qui indexent l image. Le résultat de chaque comparaison est un vecteur de regroupement flou µ τ pq, v ) et tous ces vecteurs forment la carte d évaluation des termes (TEM Type ( ij Evaluation Map [18]). A son tour cette carte est segmentée par la carte d agrégation spatiale (SAM Spatial agregation map [18]). Chaque pixel de la carte SAM S(a,b) fait une agrégation spatiale de mots clés visuels v ij dans les pixels de l espace TEM T(p,q) couverts par (a,b) : S ( a, b, i, j) = T ( p, q, i, j) (7) ( p, q) ( a, b) Ensuite une agrégation supplémentaire est effectuée en utilisant les sous-étiquettes s ij pour les mots clés v i qui décrivent une instance spécifique d un concept c i pour agréger parmi les mots clés qui partagent des concepts identiques: C ( a, b, i) = S( a, b, i, j) (8) j Le système utilise une méthode de formulation des requêtes, appelé QVC (Query by Visual Constraints), les requêtes par contraintes visuelles introduites par l utilisateur. Il définit des mots clés visuels en choisissant leurs icônes correspondantes par une palette. En plus il définit la position spatiale de l icône en dessinant une boite dans un canevas. Plus de contraintes peuvent être introduites pour formuler des requêtes complexes. Pour chaque requête ξ un ensemble d images relatives R est calculé. Le terme visuel de requête (VQT, Visual Query Term [18]) ξ (, π ( a, b)) spécifie un ensemble R avec les v ij 17

28 mots clés v ij et une extension spatiale π ( a, b) ; ainsi la similarité floue d une image x de la base de données est calculée comme : µ ( x, R) = S( a, b, i, j) (9) ξ En conclusion ce système propose une approche qui exploite le contenu sémantique des images ce qui permet d exprimer des concepts de haut niveau et leurs positions dans l image. La recherche d images par des termes sémantiques est plus proche au langage des humains et corresponde plus directement à leurs besoins d information. Pourtant le système ignore le contenu brut de l image, qui décrit précisément l image et dont l indexation est automatique. Malgré que l annotation des images ne soit pas manuelle, les mots clés visuels sont extraits depuis un ensemble d image d un domaine très restreint. Donc si les images à indexer n appartiennent pas dans ce domaine, leur indexation sera insuffisante voire fausse Conclusion sur les SRIms d approche sémantique automatique Les SRIm d approche sémantique utilisent un langage de recherche plus proche à celui de l usager ; de ce fait l utilisateur ne doit pas formuler son besoin d information par des termes non familiers et il peut se servir d un formalisme riche pour le décrire. Les SRIms de cette approche ont aussi des inconvénients. D une part les SRIm qui fonctionnent sur le Web sont très sensibles au contexte d une image, dont la qualité n est pas toujours assurée. Conséquemment les termes d indexation ne sont pas fiables par rapport au contenu de l image. D autre part, les systèmes qui font l annotation symbolique restent plus fidèles au contenu visuel des images, mais ils ont l inconvénient de ne fonctionner que pour un domaine très restreint. Une fois que le contenu d une image sort de ce domaine, ces systèmes sont incapables d associer des étiquettes sémantiques à cette image. Afin de surmonter les problèmes causés par les deux approches (signal et sémantique) les systèmes de recherche d images se sont dirigés vers une approche mixte, c'est-à-dire une approche qui combine les deux niveaux d interprétation d une image : visuel et symbolique. 2.3 Approche signal/sémantique automatique faiblement couplée Les systèmes de cette catégorie [12,15,29,30] indexent une image non seulement selon ses caractéristiques visuelles mais aussi avec des termes qui décrivent son contenu sémantique. Dans cette approche mixte d indexation, le couplage des caractéristiques consiste juste à ajouter des termes aux indexes des attributs visuels. Donc ce couplage est considéré faible puisque les attributs ne se combinent pas entre eux, ils sont simplement empilés dans l index de l image. Ci dessous deux systèmes basés sur cette approche sont présentés : le système ImageRover et le système IFind ImageRover ImageRover est un SRIm sur le Web qui a été développé par le Département d Informatique de l Université de Boston [12, 13]. Il consiste de deux sous-systèmes principaux : le sous-système d indexation et celui d interrogation. L architecture de tout le système est illustrée dans la figure 6. 18

29 Interrogation WWW client Interface client Interprétation Serveur de requêtes Base de données Indexation Collection et analyse des données robot WWW Serveur de la base des données Calcul de correspondance Module des indexes PCA Serveur des indexes figure 6: Image Rover structure générale La collection des données s effectue par des robots. Ces robots se composent de modules pour l extraction des caractéristiques des images. Les modules qui analysent l image consistent des sous-modules, chacune desquelles s occupe de l extraction d un caractéristique spécifique. Pour les attributs visuels la distribution de la couleur et de la texture est estimée pour N sous-images [12]; les distributions sont calculées pour l image originale et pour cinq de ces régions : centre, au-dessus droite, au-dessus gauche, bas droite et bas gauche. Les informations extraites sont stockées dans un vecteur X qui contient tous les sous-vecteurs x i calculés par chaque sous-module. Si le nombre de sousmodules est M avec N sous-images, l index d une image est composé de n=n*m sousvecteurs : x1 x2 X = (10)... x n La distribution de couleur est estimée en construisant des histogrammes de couleurs dans l espace L*u*v de couleurs. Pour chacune des sous-images les histogrammes de couleurs sont quantifiés dans un espace de couleurs de 64 dimensions et ensuite normalisés. ImageRover possède trois sous-modules pour l extraction des caractéristiques de texture [13]; plus précisément le système calcule l orientation de texture, la distribution des caractéristiques harmoniques et des informations sur l aspect indéterministe de 19

30 texture. L orientation de texture est estimée en utilisant des pyramides à quatre niveaux. Les histogrammes d orientation sont calculés pour chaque niveau. Comme le nombre de dimensions est 16 pour chaque histogramme, le vecteur de direction de texture à 64 dimensions (4 niveaux fois 16 dimensions). Le système calcule aussi des histogrammes à quatre échelles en utilisant les transformés de Fourier pour déterminer la distribution des caractéristiques harmoniques de texture. Finalement l aspect aléatoire de la texture est représenté par un vecteur de 15 dimensions. Tous ces attributs visuels forment des sous-vecteurs (leur ensemble est : trois sousvecteurs de 64 dimensions pour la couleur et un sous-vecteur de 15 dimensions pour la texture) qui décrivent le contenu visuel de l image. Image Rover intègre aussi des caractéristiques textuelles pour mieux exprimer le contenu sémantique de l image. Image Rover utilise la méthode LSI (Latent Semantic Indexing) [14] pour créer des index associés au contenu sémantique des documents HTML qui contiennent les images. Cette méthode associe statistiquement des mots aux concepts d un document. Les index sont construits par décomposition en valeurs singulières (SVD). Pour chaque document HTML un histogramme de mots est créé en fonction de leur fréquence d occurrence dans la page Web. Le système assigne des poids différents aux termes qu il récupère dans les marqueurs spécifiques du document (par exemple dans le titre de la page, les «headers» ou dans les attributs alt du marqueur de l image). En plus des poids sont associés aux mots qui apparaissent avant ou après une image. Ces poids sont calculés en fonction de la position des mots par rapport à l image et selon leur distance de l image. La formule que le système utilise pour pondérer les mots est : poids.0 pos / dist = ρ e 2 (11) où pos est la position du mot dans la page par rapport à l image, ρ est un coefficient dont la valeur a été définie de sorte que les mots plus près de l image soient favorisés et dist est le nombre de mots maximal qui sont considérés pour la pondération ; il faut noter que la valeur de dist pour les mots qui apparaissent avant l image est 10 et pour ceux qui apparaissent après elle est 20. Le système considère donc que les mots correspondants à une image peuvent se présenter plutôt après l image elle-même. Cette façon de pondérer les mots, assure le fait que des images qui se situent à des endroits différents dans un document n auront pas les mêmes index LSI. Tous les termes collectés et pondérés forment une matrice reliant les termes avec l image. Les poids des termes sont normalisés afin d éviter le biais du résultat par des termes trop rares ou trop fréquents. La matrice est ensuite décomposée en un ensemble de vecteurs linéairement indépendants. Le grand nombre de dimension des vecteurs formulés est diminué en choisissant les k dimension les plus importants qui composent finalement les indexes LSI des images. Ces sous-vecteurs seront combinés avec les sous-vecteurs des attributs visuels pour créer un vecteur global, l index qui décrira l image. Cependant la dimensionnalité des sous-vecteurs de chaque image est assez élevée. Par conséquent le système réduit le nombre de dimensions par l analyse en composantes principales [12]. Les vecteurs et les valeurs propres sont calculés pour chacun des sousvecteurs x i afin de représenter la distribution des spécimens parmi les dimensions. De cette façon l image sera indexée par l ensemble des sous-vecteurs x i qui auront une dimensionnalité réduite. La partie d interrogation de Image Rover est implémentée par un sous-système avec une architecture serveur-client. Pour effectuer une recherche un client se connecte au serveur de requêtes (plusieurs clients peuvent se connecter à la fois). Il formule sa requête et 20

31 attends sa réponse. Le serveur des requêtes envoie les informations, spécifiées par l utilisateur, au serveur de la base de données qui sert de module de communication entre le serveur de requêtes et la base. Une fois qu un ensemble d images est sélectionné le serveur d index construit un arbre k-d depuis les index des images. Il reçoit une représentation de la demande de chaque client par le serveur de requêtes, et il lui rend les k plus proches voisins de la requête. Les résultats sont fournis aux clients par une interface présentée comme un document HTML. La distance de Minkowski Lm [13] normalisée est utilisée entre deux sous-vecteurs x r i et y r i, qui correspondent à une région particulière de chaque image, extraits des vecteurs X r et Y r de deux images de la base de donnés qui est : r r ~ r r Lm ( xi, yi ) Lm ( xi, yi ) = (12) ( i) µ m où le coefficient de normalisation images de la base de données : ( i) r r µ = E, (13) m [ L ( x y )] m i i (i) µ m est calculé par la probabilité de distribution des (i) La valeur µ m est calculée hors ligne pour toute la base de données et reste relativement invariante à l introduction de nouvelles images dans la base. Donc si l utilisateur a spécifié comme requête un ensemble de S images, une valeur particulière de m pour le i eme sous-vecteur pourra minimiser la distance moyenne entre les images. Alors m est défini comme : ( i) m i = arg min n m (14) ( i) ~ r r où n = E[ L ( p, q )] P r, Q r S (15) m m i i Pour le cas d exemples multiples une distance pondérée est introduite : ~ L m1( x1, y1) ~ L m2 ( x2, y2 ) δ ( X, Y ) = ( w1, w2,..., wi,..., wn ) (16)... ~ Lmn ( xn, yn ) où w i sont les poids de correspondance. L interface de Image Rover propose uniquement des requêtes par l exemple. Afin d initialiser la requête le système présente un ensemble d images aléatoires que l utilisateur a l option de changer. Puis il sélectionne les images qu il considère relatives à sa recherche et rend ses préférences au système. Les résultats sont triés par ordre décroissant de similarité et les vignettes des images représentées sont des liens aux images originales. Cette procédure de bouclage de pertinence peut être répétée jusqu à ce que l utilisateur soit satisfait par la réponse. L utilisateur peut aussi spécifier le degré de précision pour chaque recherche parmi «haute», «moyenne» et «bas», et de la sorte contrôler le rapport entre vitesse et précision de la réponse. Image Rover est un système qui est destiné à la recherche d images sur le Web. Il a des techniques efficaces pour collationner des images dans un contexte de grand nombre de données comme celui du Web (32 robots récupèrent plus d un million d images par mois 21

32 [12]). En plus les techniques adoptées pour réduire les dimensions des index sont importantes, vu la taille du Web et le nombre possible d images à stocker. Image Rover prend en compte l aspect du contenu sémantique de l image, en incluant le texte qui décrit les concepts qui composent l image. Enfin c est un système qui implémente la technique de bouclage de pertinence, ce qui peut améliorer considérablement la qualité des résultats fournis par le système. Malgré tout, Image Rover a des limites. D abord l interface n offre que des requêtes par images exemples. Bien que cette option puisse servir aux utilisateurs qui font une recherche générale et qui ont envie de naviguer dans la base de données du système, elle ne favorise pas ceux qui vont formuler une requête plus précise. Dans un autre aspect de Image Rover, la façon dont le système intègre les caractéristiques textuelles avec les attributs visuels de l image n est pas très efficace. Leur intégration est faible car le système se limite à ajouter les attributs textuels au vecteur qui indexe l image. Ainsi, les termes qui décrivent un concept de l image, ne sont pas fortement couplés avec les attributs visuels décrivant le même concept en termes du niveau signal. En plus de cela, les termes collectés ne sont pas organisés de sorte qu ils puissent exprimer le contenu sémantique d une image de manière plus riche (par exemple un treillis qui représente les relations générique - spécifique entre termes, exprimer des relations entre objets de l image). Donc il s agit vraiment d un système qui accumule les deux niveaux de représentation sans les combiner réellement. De ce fait le système accumule également les inconvénients des deux approches puisqu il ne s oriente pas vers l exploitation de ces approches. Par exemple le fait qu une image est décrite par des termes symboliques, enlève les ambiguïtés introduites par la description au niveau signal. En conséquence les requêtes peuvent être explicites et riches, ce qui n est certainement pas le cas pour Image Rover, qui utilise simplement les requêtes par l exemple. Le système suivant essaye de mieux intégrer les deux approches de description d une image IFind IFind [15] est un système de recherche d images basé sur le Web qui intègre des caractéristiques visuelles avec des mots clés. Ces derniers forment un réseau sémantique associé aux images de la base de données du système ce qui distingue ce système de Image Rover où les caractéristiques textuelles étaient simplement ajoutées aux index des images. L aspect le plus intéressant de IFind est qu il utilise un algorithme d apprentissage pour enrichir son vocabulaire, qui s oriente vers l automatisation du processus d indexation symbolique. La phase d extraction des caractéristiques et d indexation de chaque image est combinée avec celle de l interrogation. Le système enrichi son vocabulaire et adapte ses index avec toutes les requêtes introduites. L architecture générale et les processus d indexation et d interrogation du système sont illustrés dans la figure 7. 22

33 figure 7: SRIm IFind La première phase de la partie indexation du système est la création des index symboliques des images. L ensemble de mots clés liés avec les images de la base de données du système constitue la base sémantique du système [15]. Chaque lien est pondéré afin d indiquer la correspondance entre le contenu sémantique de l image et le mot clé en question. Plusieurs mots clés peuvent être associés avec une image. Le système a deux façons d obtenir des termes et de les ajouter dans son vocabulaire. Une première approche est d extraire les mots clés par le document HTML qui contient l image. Ces termes sont récupérés par le nom d archive et le alt marqueur dans les marqueurs de l image, mais aussi par le titre du document. Le système assigne des poids à ces termes en fonction de leur correspondance avec le contenu de l image ; une liste par ordre décroissant de correspondance des termes pondérés est formulée. La deuxième source que IFind utilise pour récupérer des termes est les requêtes des utilisateurs. Quand l utilisateur sélectionne un ensemble d images qu il considère pertinentes parmi celles que le système a fourni comme réponse, le système associe les mots clés de cette requête avec les images choisies. Le système organise les images dans des catégories prédéfinies de manière manuelle. C'est-à-dire que le classement initial des images n est pas automatique, bien que l intégration de nouvelles images s effectue automatiquement. IFind utilise un algorithme pour extraire le contenu sémantique des images en fonction de leurs caractéristiques visuelles. Pour chaque catégorie d image un vecteur des caractéristiques représentatives est calculé en définissant un centroïde de toutes les images de cette catégorie. Le système associe de plus à chaque catégorie un ensemble de mots clés distinctifs, collectés parmi ceux qui indexent les images qui composent cette catégorie. Les vecteurs des attributs visuels d une nouvelle image sont comparés avec ceux de toutes les catégories et de cette façon l image est classée dans la catégorie dont les vecteurs ont la plus petite distance avec ceux de l image. Dès que l image est classée elle est indexée par les mots clés représentatifs de 23

34 la catégorie. Malgré que cet algorithme d intégration des images ne donne pas une indexation initiale très fiable des images, le système va ensuite améliorer la qualité des indexes en les adaptant selon les requêtes des utilisateurs. Si jamais une image ne satisfait les critères d aucune catégorie, elle est stockée dans la catégorie «inconnue». Nous décrirons maintenant la phase d interrogation du système qui a la particularité de contribuer à l indexation en même temps. L utilisateur formule une requête sur l interface du système. L interface de IFind offre trois façons de formuler une requête ; l utilisateur peut exprimer sa demande par des mots clés, il a aussi le choix de définir sa requête par des images exemples et finalement il peut simplement naviguer dans la base des images du système parmi des catégories prédéfinies. Quand l utilisateur exprime sa requête par des mots clés le système emploie une technique d apprentissage pour enrichir son réseau sémantique et en même temps améliorer la qualité de ses réponses. Donc, les mots clés de la requête initiale sont utilisés pour estimer un ensemble initial des images. Cet ensemble est déterminé en suivant les liens des termes aux images associées dans le réseau sémantique. Depuis ces images des vecteurs d entraînement x ni sont calculés pour chaque caractéristique i de l image et aussi un vecteur π qui représente le degré de correspondance pour chaque image. Ainsi le système peut fournir un ensemble initial des images pertinentes à la requête, en considérant uniquement leurs attributs visuels. Une fois que les résultats sont présentés à l utilisateur, le système récupère son choix des images pertinentes et non pertinentes. Ensuite le réseau sémantique est adapté. C'est-àdire que : Des nouveaux termes sont ajoutés dans le réseau. Les termes ajoutés sont liés avec les images choisies comme pertinentes par l utilisateur, avec une pondération élevée. Les poids des mots clés déjà associés aux images pertinentes sont également augmentés contrairement à ceux des termes des images non pertinentes, qui sont diminués. De ce fait le système enrichi son vocabulaire et améliore la qualité de ces indexes selon les choix de l utilisateur. Après l adaptation du réseau sémantique, les poids des attributs visuels sont à leur tour adaptés et ensuite le système calcule les nouveaux vecteurs x ni et π afin de préciser le nouveaux ensemble des images correspondantes à cette nouvelles requête. Puis le système estime une fonction de distance unifiée (pour les attributs visuels et les termes) comme mesure du degré de correspondance pour une image j et les images fournis par le bouclage de pertinence. Les résultats du bouclage de pertinence cette fois sont basés sur les caractéristiques de bas niveau ainsi que sur ceux de haut niveau. La distance est calculée selon la formule suivante [15]: G j 1 I = I + 2 log( 1 π j ) D j β 1 S jk γ 1 S jk (17) N R k N R A1 N N k N N A2 où D j et la distance calculée par les attributs visuels, N R et N N sont le nombre des images positives et négatives respectivement, I 1 est le nombre de mots clés communs entre l image j et les images positives, I 2 est le nombre de mots clés communs entre l image j et les images négatives, A 1 et A 2 sont le nombre total des mots clés associés avec les images positives et négatives respectivement, et finalement S ij est la distance Euclidienne des 24

35 attributs visuels entre les images i et j [15]. Les coefficients β et γ sont des paramètres de pondération. Cette formule mesure la distance entre une image et les images qui sont les résultats du bouclage de pertinence. Elle compare donc l image avec celles que l utilisateur a jugé comme pertinents et non pertinents pour les différents attributs des images, visuels et mots-clé. Dès que la distance de chaque image est calculée, les résultats sont fournis à l utilisateur qui peut recommencer un nouveau bouclage de pertinence. IFind exprime le contenu sémantique des images autant que leurs attributs visuels. Son aspect le plus intéressant est qu il utilise les requêtes des utilisateurs et le bouclage de pertinence comme méthode d apprentissage. Il intègre de cette façon de nouveaux termes et améliore leur précision puisqu il prend en compte les choix des utilisateurs. Cette technique permet, après plusieurs interactions avec le système, de réduire l écart entre la pertinence utilisateur et celle du système. Il faut aussi noter dans les points positifs du système la variété des choix pour la formulation des requêtes. Ainsi l utilisateur peut faire sa demande selon ses besoins particuliers, en choisissant entre des requêtes précises ou entre la navigation dans la base du système. L intégration des mots clés est très faible : les termes décrivent toute l image et ils ne sont pas associés directement avec des concepts qu elle contienne et non plus avec les attributs visuels. De plus, bien que l enrichissement du vocabulaire et l apprentissage sont réalisés de manière très originale, le fait que ce sont des procédures qui dépendent des choix des utilisateurs peut poser des problèmes. Si les utilisateurs ont une mauvaise notion de pertinence ou s ils ne servent pas bien du système, l apprentissage aura un effet contraire sur la précision et la qualité des réponses ; au lieu de les améliorer il va les rendre plus faibles. Enfin cette adaptativité du système aux utilisateurs pourrait le rendre trop personnalisé, s il se corrige chaque fois par rapport à un utilisateur particulier, ce qui n est pas le cas souhaité pour les SRIm adressés au grand public Conclusion sur les SRIms d approche signal/sémantique automatique faiblement couplée Les systèmes d approche signal/sémantique automatique faiblement couplée permettent une représentation plus globale d une image et facilitent l interaction des utilisateurs avec le système car ils expriment leurs besoins d informations en termes symboliques, ce qui est plus proche de leur description de l image. Pourtant, il y a avec ces systèmes toujours un gouffre entre la description au niveau signal et celle au niveau sémantique ce qui peut résulter en l accumulation des ambiguïtés sur la description de l image introduites par chaque approche. De plus le vocabulaire d indexation symbolique est assez limité donc l indexation n est pas considérablement enrichie par rapport à celle des SRIm d approche symbolique. En conséquence ces systèmes ne peuvent toujours pas traiter un grand nombre de besoins d informations des utilisateurs. Les systèmes qui suivent essayent de combiner fortement les deux approches afin de désambiguïser la description du contenu d une image. 2.4 Approche signal/sémantique automatique fortement couplée Dans les paragraphes suivants nous explorons des systèmes qui combinent les aspects visuels d une image avec son contenu sémantique [19,31]. Les deux niveaux de description d une image sont couplés de telle façon qu une région de l image est annotée par un terme symbolique mais aussi par des attributs visuels. De plus les relations entre 25

36 les objets qui composent une image sont exprimés. Donc il ne s agit plus d une accumulation de caractéristiques ; par contre les attributs visuels sont annotés et sont reliés entre eux. D abord nous présentons un modèle pour la représentation des images et ensuite un système de recherche basé sur une extension de ce modèle Le modèle EMIR² EMIR² (Extended Model for Image Representation and Retrieval) [9,32], est un modèle étendu pour la représentation des images. Il utilise le formalisme des graphes conceptuels [9] comme modèle opérationnel pour la recherche d informations. Avant de présenter le modèle d EMIR², une courte introduction sur les graphes conceptuels est faite. Un graphe conceptuel est un graphe bipartite dont les nœuds sont soit des concepts soit des relations conceptuelles. Les nœuds du graphe sont reliés entre eux par des arcs orientés. Dans une représentation graphique les concepts sont décrits par des rectangles et les relations par des cercles (figure 8). Dans le cas d une représentation alphanumérique, les concepts sont mis entre des crochés et les relations entre parenthèses. MAN ON BOAT [MAN] (ON) [BOAT] figure 8: Représentations des graphes conceptuels Pour un concept c, type(c) dénote son type et référent(c) son référent [9]. Type(r) indique le type d une relation conceptuelle r. Chaque ensemble des entités des concepts et des relations est organisé dans une hiérarchie qui forme un réseau de types muni d une relation d ordre partiel. Ainsi chaque ensemble, celui des concepts et celui des relations, est représenté par un treillis. Dans le modèle d EMIR², l image est considérée comme un objet multi-vues [8], c'est-àdire qu il y a plusieurs différentes interprétations qui la décrivent (figure 9). L image se compose d objets images, des entités abstraites qui décrivent les sous-images qui la constituent. On fait d abord la distinction entre la vue physique et la vue logique de l image. La vue physique est décrite par l ensemble des caractéristiques générales de l image, tels que la dimension, la résolution, le format de représentation (GIF, JPEG, etc.) La vue logique consiste de 4 vues : La vue structurelle : c est la décomposition de l image en objets images et elle contient qu un seul type de relation : la relation de composition La vue spatiale : elle décrit les objets spatiaux associés aux objets images et les relations qui indiquent leurs positions relatives. La vue perceptive : elle regroupe l ensemble des attributs visuels des objets images, comme couleur, texture et brillance. Il faut noter que cette vue n a pas de relations spécifiques entre objets perceptives. 26

37 La vue symbolique : elle représente le contenu sémantique de l image, en associant des objets symboliques aux objets images, ainsi que par des relations entre objets symboliques. Image Vue Physique Vue Symbolique Vue Perceptive Vue Structurelle Vue Spatiale Vue Logique figure 9:Représentation multi-facettes du contenu d une image dans EMIR² Le formalisme des graphes conceptuels permet une représentation homogène de tous les éléments d un SRIm, le modèle des documents et de requête, la fonction de correspondance et la base de connaissances. Ce formalisme des graphes est appliqué au modèle de multi-vues d une image en introduisant une base canonique pour chaque vue, ainsi que pour l ensemble de la vue de l image (canon global) [8]. La base de connaissances est modélisée par les treillis de relation et de concepts mais aussi par les marqueurs individuels. La requête et les documents sont traduits en graphes conceptuels et leur correspondance est évaluée en projetant les deux graphes. La figure 10 montre un exemple de cette représentation d une image dans EMIR²-GC où l imagé est composée de trois objets image, que la relation de la facette symbolique F_sy les associe aux concepts sémantiques «bateau», «personne» et «chapeau». Les relations de la facette spatiale F_sp associe les objets spatiaux OS entre par des relations spatiales comme «dans». 27

38 F_sy BATEAU comp OI F_sp OS dans F_sp OS IMAGE comp OI F_sy comp OI F_sy PERSONNE CHAPEAU porter figure 10: Exemple de représentation d une image dans EMIR²-GC Pour résumer les éléments sont utilisés pour une modélisation avec les graphes conceptuels: 1. Un canon global [8], mais aussi un canon pour chacune des vues de l image, qui contient les éléments suivants : Une hiérarchie de types T, c'est-à-dire un treillis de types de concepts T C et un treillis de types de relations conceptuelles T RE. La figure 11 montre comme exemple le treillis des concepts. Un ensemble des marqueurs individuels I Un ensemble de graphes conceptuels B, la base canonique Une relation de conformité C 2. Une relation φ qui traduit un graphe conceptuel en une formule du prédicat du premier ordre. 3. Une fonction de correspondance qui est l opérateur de projection π des graphes conceptuels. 28

39 Tc IMAGE T_VUE PHYSIQUE OBJET IMAGE T_VUE PERCEPTIVE T_VUE SYMBOLIQUE OBJET SPATIAL c figure 11: Treillis des concepts EMIR² est un modèle qui permet de représenter le contenu sémantique d une image ainsi que ses attributs visuels et qui est basé sur le formalisme des graphes conceptuels. C est un formalisme riche pour décrire plusieurs aspects d une image. Les graphes conceptuels ont le grand avantage d exprimer tous les aspects d un système de recherche. Mais le modèle est loin d être implémenté pour la recherche efficace sur le Web. La création des réseaux sémantiques reste toujours une procédure semi automatique, voire manuelle, et ce problème est critique à résoudre pour les SRIm sur le Web SIR Le système de recherche d images SIR[19] est un SRIm à l approche signal/sémantique fortement couplée, puisqu il utilise un modèle de représentation d images qui combine les attributs visuels avec son contenu sémantique. Ce modèle de représentation, inspiré du modèle EMIR vu précédemment, est utilisé pour faire l indexation et la recherche d images. Nous présentons d abord le modèle d indexation d images ; celui considère qu une image consiste en un niveau physique (où elle est représenté comme une matrice de pixels) et en un niveau conceptuel. Le dernier est une combinaison des facettes qui correspondent aux différentes vues de l image. Le formalisme adopté pour représenter le niveau conceptuel de l image est (comme dans EMIR²) celui des graphes conceptuels. 29

40 - facette objet La facette objet décrit l image comme un ensemble d objets images (IO) qui représentent des entités visuelles dans l image. Les étiquettes des autres facettes sont assignées aux objets images contenus dans cette facette. - facette sémantique visuelle Cette facette assigne des étiquettes sémantiques visuelles à chaque objet de l image. Les étiquettes sont des concepts visuels sémantiques appris par un ensemble d images d entraînement par un réseau de neurones. Les caractéristiques de bas niveau sont extraites pour chaque objet de ces images et elles sont associées avec un concept visuel sémantique. Quand le réseau traite une image, les résultats de reconnaissance sont agrégés vers les objets image et l image est caractérisée par un vecteur de concepts visuels sémantiques, chacune associée avec une valeur de reconnaissance. Le modèle de la facette sémantique visuelle consiste en tous les types de concepts visuels sémantiques organisés dans un treillis avec un ordre partiel de générique/spécifique et une relation qui les associe avec les objets images. est l ensemble de types des concepts visuels sémantiques sous forme de treillis (ex : «hut», «sky»). Le graphe conceptuel de base pour cette facette est : [Io]->(sct)->[T ], où T :le concept le plus générique du treillis des concepts visuels sémantiques Io : objet image sct : relation qui associe au Io un type de concept sémantique - facette signal couleurs La facette signal couleurs assigne à chaque objet une étiquette qui exprime son attribut de couleur. Un ensemble de catégories de couleurs Cat est défini selon un système formel de catégorisation et de nomination de couleurs. Le système utilise un espace de couleurs de 11 catégories C i Cat ; chaque objet image est indexé selon deux types de structures conceptuelles qui représentent sa distribution de couleur, les concepts d indexation signal booléens et les concepts d indexation signal quantifiés. Les graphes conceptuels de base pour chaque type sont : [Io]->(b_c)->[bc] et [Io]->(q_c)->[qc], BC : concepts d indexation signal booléens QC : concepts d indexation signal quantifiés b_c : relation couleur booléenne q_c : relation couleur quantifiée bc BC et qc QC, où Les concepts d indexation signal booléens sont représentés dans le modèle de représentation d image du système SIR par un vecteur v B [ i], i [ 1, C Cat ], Cat étant l ensemble des catégories de couleurs et C Cat le nombre de ces catégories. Les valeurs de ce vecteur sont des booléens qui indiquent si une catégorie de couleurs est présente ou pas. Quant aux concepts d indexation signal quantifiés ils sont aussi représentés par un vecteur v i, i 1, dont les valeurs indiquent le pourcentage des pixels qui [] [ ] Q C Cat correspondent à chaque catégorie de couleurs 30

41 - facette signal textures La facette signal textures assigne des étiquettes de texture aux objets image. Les textures sont classées dans un espace de 11 catégories de haut niveau. Dans chacune de ces catégories des mots de textures qui décrivent le mieux le type de texture particulière sont proposées. Elles forment l ensemble des catégories de textures tw. Le graphe de base pour la facette des textures est : [Io]->(ind_tx)->[tic], tic TIC, où TIC : concepts d indexation texture ind_tx : relation texture Les concepts d indexation texture sont représentés par un vecteur t [ i], i [ 1, 11], dont les éléments sont des booléens qui indiquent si un objet image est caractérisé par une distribution de texture qui correspond au mot tw i de texture appartenant à l ensemble tw. - facette spatiale La facette spatiale défini les relations spatiales entre deux objets de l image. Dans le but de modéliser les données spatiales le système prend en compte quatre espaces de modélisation et de représentation : L espace euclidien qui regroupe les coordonnées des pixels de l image. A partir de cette information, toutes les connaissances relatives aux autres espaces de modélisation peuvent être déduites. L espace topologique qui est relié aux notions de continuité et de connexion. Etant donné deux objets image Io1 et Io2, trois relations exhaustives et pertinentes sont définies : (P,Io1,Io2): Io1 est une partie de Io2 (T, Io1,Io2) : Io1 touche Io2 (est connecté de manière externe ou chevauche) (D, Io1,Io2) : Io1 est déconnecté de Io2. L espace vectoriel qui regroupe l ensemble des relations directionnelles : Droite (D), Gauche (G), Haut (H) et Bas (B). Ces relations sont invariantes aux transformations géométriques basiques telles que la translation ou le changement d échelle. L espace métrique, où l ensemble des relations de distances floues Proche (P) et Loin (L) est considéré. La partie interrogation du système utilise le même formalisme comme modèle des requêtes. L utilisateur peut exprimer des besoins d informations qui combinent le contenu sémantique de l image avec un type d attribut visuel (couleur ou texture). Nous présentons dans la suite le modèle des requêtes et la façon dont le système traite les requêtes. Pour chaque facette signal des structures de requêtes sont définies. Il faut noter que le modèle pour la facette visuelle sémantique est le même. Pour la facette des couleurs le système distingue les types de concepts de requêtes signal booléens et quantifiés. Dans le premier cas il y a trois catégories de requêtes : 31

42 les requêtes qui permettent une conjonction de catégories de couleurs les requêtes qui permettent une disjonction de catégories de couleurs et les requêtes qui permettent une négation de catégories de couleurs. Pour les requêtes signal quantifiés deux types de catégories sont définis : les requêtes «Au Plus» qui correspondent à des besoins d information comme : «une image avec du ciel nuageux», traduit en «Au Plus 25% cyan» et les requêtes «Au Moins» qui traitent des besoins d information comme «une image avec de l eau d un lac», traduit en «Au Moins 25% gris» Dans le cas des requêtes sur les textures le système propose trois catégories de requêtes : les And concepts textures (ATCs) par une conjonction de mots de textures les Or concepts textures (OTCs) par une disjonction de mots de textures les No concepts textures (NTCs) par une négation de mots de textures Pour tous ces types de requêtes des graphes de base sont définis, qui sont utilisés pour traduire une requête afin qu elle soit comparable aux index des images. Selon les différents types de requêtes les concepts des couleurs (ou des textures) sont organisés dans des treillis pour que le système puisse retrouver les images correspondantes. Par exemple dans le cas d une requête de type And les concepts d indexation signal booléens sont organisés dans un treillis And et le concept signal de type And est comparé avec ses équivalents dans le treillis And afin de déterminer les images pertinentes. Le processus se varie un peu pour les requêtes sur les concepts signal quantifiés. La correspondance entre une requête et une image est spécifiée dans le cas des requêtes sur les couleurs par l utilisation d une projection adaptée pour des raisons de coûts de calcul. Dans le cas des requêtes sur les textures la pertinence d une image selon une requête est donnée par une combinaison de mesures d exhaustivité et de spécificité. La mesure d exhaustivité EV ( q, i) considère l ensemble q( i) de toutes les projections possibles du graphe de la requête q sur le graphe de l image i, l importance I d un concept sémantique selon sa position et sa taille dans l image et finalement elle prend en compte l importance des probabilités de reconnaissance à posteriori des concepts correspondant (sémantiques et textures) par la fonction Cpt _ Match. Tous ces facteurs s expriment dans la fonction suivante : EV (18) ( q, i) MAX q() i q _ concept _ q, i _ concept _ ii( i ) Cpt _ Match( + TCq _ concept _ q, TCi _ concept _ icpt _ Match( TCi, TCq) = i, q) Quant à la fonction de spécificité ( q i) SV, l importance des sujets de la requête dans l image est considérée en minimisant les longueurs des chemins entre les concepts sémantiques et textures du graphe de la requête q et de celui de l image i : SV (19) ( q, i) = MIN q() i q _ concept _ q, i _ concept _ ii( i ) + Path _ ( + TCq _ concept _ q, TCi _ concept _ ipath _ Tex( TCi, TCq) Sem i, q ) 32

43 Le système SIR présente une approche pour la recherche et l indexation de l image qui combine les caractéristiques de bas niveau avec le contenu sémantique de l image. De ce fait l indexation de l image est plus riche car il y a plusieurs aspects de sont contenu qui sont décrit et d un autre côté ce couplage du niveau signal avec la sémantique permet aux utilisateurs d exprimer des besoins d information plus complexes en proposant des requêtes précises. L usager peut chercher des images avec des critères qui combinent la sémantique et les attributs visuels ce qui facilite son interaction avec le système. De plus comme SIR utilise le formalisme des graphes conceptuels comme modèle de représentation des images et des requêtes, l indexation et la recherche d image sont assez expressives. Pourtant la complexité de représentation des images est assez élevée et de plus son vocabulaire d indexation est relativement limité puisque les concepts visuels sémantiques ne sont pas suffisants pour couvrir le vaste domaine des besoins d informations des utilisateurs. Enfin il y a un grand degré d incertitude dans la reconnaissance d un concept sémantique ce qui résulte à une indexation dont la qualité est redoutable. 2.5 Conclusion Pour récapituler, les SRIms existants adoptent une des approches suivantes pour l indexation et la recherche des images. Approche signal automatique : Indexation et recherche d images basées sur leur contenu visuel Approche sémantique automatique : Indexation et recherche d images par des termes symboliques qui expriment leur contenu sémantique Approche signal/sémantique automatique : Indexation et recherche d images basées sur leur contenu visuel et leur contenu sémantique. Chacune de ces approches offre des avantages particuliers ; un SRIm qui fait la recherche et l indexation basé sur l approche signal automatique donne la possibilité de gérer de grandes bases d images car l extraction des caractéristiques est automatique. D autre part les SRIm à l approche sémantique automatique offrent une description de l image très proche de celle de l utilisateur, ce qui facilite l interaction des usagers avec le système. Enfin le grand avantage de l approche signal/sémantique automatique est qu elle permet une description plus riche et complète de l image. Pourtant chaque approche a ses inconvénients. Les SRIms à l approche signal automatique exigent une grande charge cognitive de l utilisateur puisqu il n y a pas de description du contenu sémantique de l image. Quant aux SRIms à l approche sémantique automatique, ils ne prennent pas en compte le contenu visuel de l image et ils sont sensibles à la qualité du contexte. Enfin les SRIms à l approche signal/sémantique automatique ont l inconvénient d avoir un vocabulaire très limité. De plus quand les caractéristiques visuelles et symboliques sont faiblement couplées, les ambiguïtés issues de chaque description restent irrésolues. D un autre part, quand le couplage est fort la complexité de représentation augmente. Pour améliorer la qualité d indexation des images nous nous basons sur l approche signal/sémantique automatique, en essayant d enrichir le vocabulaire d indexation. Dans le chapitre suivant nous présentons les objectifs et la modélisation de notre proposition. 33

44 34

45 3 Proposition 3.1 Introduction Comme nous l avons présenté dans les parties précédentes, les SRIms existants adoptent plusieurs approches pour l indexation et la recherche des images. Notre cadre de travail va se baser sur l approche signal/sémantique automatique pour indexer et faire la recherche d images sur le Web, car nous considérons que cette approche offre une description plus riche et plus détaillée de l image. Parallèlement elle rend l interaction avec le système plus facile pour les utilisateurs puisqu ils expriment leur besoin d information par des termes symboliques. Pour améliorer la qualité d indexation des images nous nous basons sur l approche signal/sémantique automatique, en essayant d enrichir le vocabulaire d indexation. Nous combinons la description au niveau signal de l image avec sa description symbolique et nous ajoutons des éléments au vocabulaire d indexation symbolique qui décrivent le contenu sémantique de l image. Dans ce chapitre, nous présentons tout d abord (partie 3.2) les objectifs ainsi que les hypothèses de notre proposition. Les différentes étapes du problème sont ensuite illustrées (partie 3.3) avant d aborder la modélisation de la proposition (partie 3.4). 3.2 Objectifs Hypothèses L objectif principal est d enrichir une indexation signal/sémantique automatique des images par des termes plus spécifiques car nous nous basons sur l hypothèse que des termes plus spécifiques décrivent plus fidèlement les images. Comme source d enrichissement du vocabulaire d indexation nous considérons le contexte d occurrence textuel des images dans des pages Web. Le texte qui accompagne une image dans une page Web ainsi que certains marqueurs de la page Web (par exemple le marqueur de l image) seront utilisés comme sources d extraction de termes. Des termes plus spécifiques décrivant les éléments des images (par exemple «cathédrale») ou des termes des relations entre les objets (par exemple «cathédrale jaune») sont d un intérêt primordial puisque le but ultime est de pouvoir les intégrer au vocabulaire existant qui index l image. Dans le cadre de ce travail, nous utilisons le modèle de représentation d images du système SIR[19], nous considérons qu une image est indexée par un graphe conceptuel G. Elle est décrite selon le modèle de représentation du système qui indexe une image avec quatre facettes : une facette sémantique visuelle qui assigne des étiquettes sémantiques visuelles à chaque objet de l image une facette couleur qui assigne à chaque objet une étiquette qui exprime son attribut de couleur une facette texture qui assigne des étiquettes de texture une facette spatiale qui défini les relations spatiales entre les objets de l image 35

46 Il faut noter que dans le cadre de ce travail nous sommes limités aux trois premières facettes des graphes conceptuels. Nous n avons pas traité la facette spatiale, ce qui pourrait être un travail futur. Pour enrichir le vocabulaire qui indexe l image avec un graphe conceptuel selon le modèle décrit ci-dessus, nous allons utiliser le texte qui accompagne l image dans une page Web. La raison pour laquelle nous utilisons le texte comme source d enrichissement est que nous considérons qu il décrit à un certain degré le contenu de l image. C'est-à-dire que certains éléments du texte de la page Web permettent de définir une représentation du contenu de l image plus spécifique. Notre but principal est d intégrer des éléments du texte à la représentation de l image. Les éléments du texte doivent décrire le contenu visuel d une image et exprimer des relations entre les objets qu elle contient. Ils seront extraits de la page Web qui contient l image et seront intégrés ensuite dans le graphe conceptuel qui décrit une image pour enrichir sa représentation. 3.3 Etapes Problèmes Notre objectif est d enrichir le vocabulaire d indexation de l image, en utilisant comme source d enrichissement le contexte d occurrence textuelle de l image dans une page Web. Nous extrayons des éléments du texte de la page Web pour les intégrer ensuite dans la description de l image. Le premier problème à résoudre est la localisation de la zone d extraction du texte de la page Web ; c est à dire qu il faut définir les endroits d où les éléments du texte sont extraits. D un côté nous allons utiliser les attributs alt et src du marqueur de l image ; de plus il faut définir la zone textuelle qui sera choisie par l ensemble du texte qui accompagne l image dans la page Web. Ensuite nous allons extraire les éléments du texte. Avant de les extraire nous définissons des patrons morphologiques qui correspondent à des groupes de mots qui décrivent le contenu visuel de l image. Puisque nous avons une description de l image par un graphe conceptuel, le vocabulaire extrait doit s accorder avec celui des graphes conceptuels. Une fois que les éléments du texte seront extraits, nous devons définir une représentation commune des éléments du texte et du graphe conceptuel de l image afin de pouvoir les comparer. Enfin la dernière étape sera l intégration des éléments du texte dans le graphe conceptuel de l image. Cette étape consiste en deux pas principaux ; d abord il faut déterminer la correspondance entre les deux parties (le graphe conceptuel et les éléments du texte) et ensuite il faut les fusionner. Dans la suite les solutions proposées pour chaque étape seront présentées. 3.4 Modélisation Localisation de la zone d extraction du texte de la page Web La première étape est de définir la zone d extraction des éléments du texte de la page Web. Nous utilisons des attributs du marqueur de l image dans la page Web, mais aussi le texte qui l accompagne. Le marqueur d une image dans une page Web contient plusieurs attributs. Ceux qui nous intéressent sont l attribut alt et l attribut src. 36

47 L attribut src spécifie la localisation de la ressource de l image, et en général il a un rapport avec le contenu visuel de l image. Il faut noter ici que comme l attribut src n est pas du texte, mais une URL, avant de le traiter il faudra le transforme en texte. En ce qui concerne l attribut alt, c est l attribut qui offre une description brève de l image [20] et de ce fait son contenu est souvent pertinent pour le contenu de l image. Quant à la zone textuelle prise en compte, nous nous basons sur l hypothèse que quand un texte accompagne une image dans une page Web, sa partie qui se trouve plus près de l image a un plus grand rapport avec le contenu de cette image. Nous faisons de plus la distinction entre le texte avant et le texte après l image, comme dans [14], car nous supposons que l occurrence de mots pertinents par rapport au contenu de l image n est pas similaire dans le texte qui précède à celle dans le texte qui suit une image dans une page Web. Voici un exemple d une page Web comme présenté dans un navigateur Web (figure 12) et dont le code HTML est illustré dans la figure 13.. figure 12: Page Web dans navigateur 37

48 <table width="650" cellpadding="0" cellspacing="0" border="0" bgcolor="#6699cc"> <tr> <td bgcolor="white" width="530"> <img src="images/top_title_bar_new.gif" width="465" height="65" alt="" border="0" usemap="#title_bar"><br> </td> <td bgcolor="#6699cc" width="120"> <img src="images/spacer.gif" width="120" height="10" alt="" border="0"> </td> </tr> </table> <table width="650" cellpadding="0" cellspacing="0" border="0"> <tr> <td width="15"> <td width="80%" valign="top">  <br> <table cellpadding="0" cellspacing="0" align="right" border="0" width="235"><tr><td rowspan="2"> </td> <td> <img src="images/1004hongkong.jpg" width="230" height="150" alt="image: The Hong Kong harbor at night." border="0"> </td></tr> <tr><td bgcolor="#cccccc" valign="top" width="225"><div class="caption" style="paddingleft:5px;">the Hong Kong harbor at night.<br><br>photograph Jean-Pierre Lescourret/CORBIS </div></td></tr><tr><td> </td></tr></table><p class="title">hong Kong<br> <span class="author">by Jan Morris</span></p> <p>hong Kong is our century exemplifiedhistorically, ethnically, architecturally, socially, economically, aesthetically and, above all, sensually. It is a place you feel. Founded by Europeans, developed by Asians, governed by Chinese, designed and run by entrepreneurs, architects, economists, and adventurers from the four corners of the world, in its streets and waterways you may sense the turning of the Earth itself.</p> figure 13: Extrait du code HTML de la page Web On voit que la page Web contient d autres images mais celle que nous allons étudier est la dernière. Le marqueur de l image contient les attributs src et alt. Dans l attribut src il y a l URL de l image et dans l attribut alt il y a une description de cette image : <img src="images/1004hongkong.jpg" width="230" height="150" alt="image: The Hong Kong harbor at night." border="0"> Nous constatons que : L attribut src «images/1004hongkong.jpg» a besoin d un traitement afin de pouvoir extraire les mots qu il contient. L attribut alt par contre contient du texte en format habituel et donc il peut être considéré comme tel. 38

49 Le texte qui accompagne l image (grisé dans la figure 13) a un rapport avec son contenu visuel et de plus celui qui se situe juste après l image dans cet exemple particulier est le plus pertinent (dans le code HTML le texte qui suit immédiatement l image est :The Hong Kong harbor at night). Pour chaque endroit d extraction du texte de la page Web sur les attributs du marqueur de l image et le texte qui l accompagne, nous définissons une valeur imp(t) [0,1], où t est le mot extrait, qui exprime la probabilité qu un mot t extrait d un endroit particulier de la page Web décrit une région de l image. La valeur imp(t) donne une estimation de la pertinence d un mot au contenu visuel de l image. Nous définissons la valeur imp(t) selon les endroits différents d extraction de mots d une page Web. La signification de cette valeur dépend de l endroit mais elle exprime toujours la probabilité qu un mot soit pertinent. Attribut alt du marqueur de l image qui contient une description brève del image L attribut alt qui se trouve dans le marqueur de l image dans le code HTML de la page Web est un des endroits d extraction du texte. A chaque mot extrait de l attribut alt une valeur imp alt (t) est assignée, afin de préciser l impact de ce mot à la description de l image. La valeur imp alt (t) [0,1] exprime la probabilité qu un mot t provenant de l attribut alt décrit une région de l image. imp alt ( _ pert t _ dans _ alt) ( t) = P t (20) Nous calculons la probabilité que le mot t est pertinent (t_pert) étant donné qu il se trouve dans l attribut alt (t_dans_alt). Attribut src du marqueur de l image qui spécifie l URL de l image Avant de pouvoir calculer la valeur pour l attribut src il faut le transformer en texte car comme nous avons vu précédemment il est en format d une URL. Une fois qu il sera transformé, on peut définir la valeur qui exprime l impact de chaque mot extrait de cet attribut. La valeur imp src (t) [0,1] exprime la probabilité qu un mot t provenant de l attribut src décrit une région de l image. Pour cela, nous calculons la probabilité que le mot t est pertinent (t_pert) étant donné qu il se trouve dans l attribut src (t_dans_src). imp src ( t _ pert t _ dans _ src) ( t) = P (21) Texte accompagnant l image Pour tous les mots extraits du texte accompagnant l image dans une page Web, nous définissons également une valeur qui exprime leur impact. La valeur imp(t) est dans ce cas une fonction qui exprime la probabilité qu un mot t décrit une région de l image quand il se trouve à une distance x de l image dans le texte qui l accompagne. Nous distinguons l impact d un mot quand il se situe après que quand il se trouve avant l image (fonction 22). imp txt () t impact = impact AVt APt (x), x (x), x [ N, 1] [ 1, N] (22) 39

50 où N est le nombre de mots pris en compte avant et après l image, et ( t _ pert t _ a _ x) impact AVt ( x) = P, (23) ( t _ pert t _ a _ x) impact APt ( x) = P, (24) Propriétés des fonctions impact AVt et impact APt impact AVt : [ N, 1] [0, 1]. impact APt : [ 1, N ] [0, 1]. Pour ces deux fonctions nous considérons une «fenêtre» textuelle de N mots avant et N mots après l image. A chaque mot extrait nous assignons une valeur entre [0, 1] qui indique la probabilité que ce mot, étant à une distance x de l image, décrit le contenu visuel de l image. Ce sont des fonctions de densité de probabilité qui définissent la distribution de la variable aléatoire discrète x, qui est la distance en mots du mot t de l image, à valeurs dans [-N,-1] et [1,N] avec la propriété respectivement: 1 impact AVt ( x) = 1, x [ N, 1] x= N N ( ) = [ ] impact APt x 1, x 1, N x= 1 impact AVt croissante pour x [ N, 1] impact décroissante pour x 1, N APt [ ] Donc la valeur imp(t) varie selon l endroit d extraction de mots de la manière suivante : imp imp() t = imp imp imp ( t) [ 0, 1] alt src txt () t () t (x) Si t vient de l attribut alt Si t vient de l attribut src Si t vient du texte Au cas où un mot t aurait plusieurs occurrences dans la page Web, la valeur imp(t) qui lui sera assignée, est le maximum de tout les imp(t) calculés des différentes occurrences de ce mot, car dans notre approche nous considérons qu il s agit de la meilleure description de l image. Le résultat de cette étape et donc, pour un mot t, la probabilité imp(t) qu il décrit effectivement une région de l image considérée Extraction de termes structurés Cette étape concerne l extraction de termes structurés des endroits spécifiés dans l étape précédente c est à dire des attributs alt et src du marqueur de l image et du texte qui l accompagne. Un terme structuré T = {( t, imp( t) )} consiste en un ensemble de couples composés d un mot et de sa valeur imp(t), qui indique sa pertinence par rapport au contenu visuel de l image. (25), 40

51 Le but principal de notre projet est de relier les parties textuelles au graphe conceptuel qui décrit l image. L objectif est d extraire des termes qui décrivent le contenu visuel de l image, mais qui auront en même temps un rapport avec la représentation de l image par le graphe conceptuel. Nous devons nous adapter au vocabulaire des graphes conceptuels qui décrivent une image, car nous nous sommes basés sur l hypothèse que l image qui se trouve dans la page Web est également décrite par un graphe conceptuel. Nous cherchons donc des termes structurés qui décrivent des éléments d un graphe conceptuel pour pouvoir dans la suite les intégrer dans le vocabulaire des graphes. Les mots appartenant à chaque terme structuré doivent décrire des objets physiques dont l image est composée, les caractéristiques visuelles ainsi que les relations entre ces objets. Les caractéristiques visuelles d un objet sont sa couleur et sa texture. En conséquence nous nous orientons vers l extraction des éléments du texte qui peuvent exprimer des concepts visuels et des relations entre ces concepts et pour ceci nous utilisons des patrons morhologiques. a) Catégorisation du vocabulaire initial des graphes conceptuels D abord il faut catégoriser le vocabulaire initial des graphes conceptuels. Ceci est essentiel car ce vocabulaire va guider le choix de nos patrons pour l extraction de termes structurés. Les patrons, qui sont définis à l étape suivante, doivent non seulement servir comme outil d extraction mais aussi pour filtrer le texte. Nous utilisons le vocabulaire initial des graphes pour définir les patrons de telle façon qu après leur application au texte, nous aurons extrait uniquement les éléments qui sont capables d exprimer des concepts visuels sémantiques et/ou des relations entre ces concepts. Nous catégorisons les éléments du graphe et ensuite nous allons définir les patrons en fonction de ces catégories. On distingue les différents éléments qui composent un graphe : les concepts objets, couleurs, textures et les relations. Le vocabulaire d un graphe consiste donc en quatre ensembles [19]: : ensemble de types des concepts visuels sémantiques sous forme de treillis (ex : «hut», «sky») Cat : ensemble des catégories de couleurs (ex : «red», «yellow») tw : ensemble des catégories de textures (ex : «uniform», «lined») R : ensemble de relations entre concepts avec { sct, ind tx} R = RI SI _, où RI SI = { b _ c, q _ c}, b_c et q_c sont les relations couleurs binaire et quantifié respectivement sct est la relation qui associe à chaque objet image son concept sémantique ind _ tx est la relation texture et L ensemble du vocabulaire initial des graphes consiste en l union de tous les ensembles mentionnés ci-dessus. V = Cat tw R (26) 41

52 Nous utilisons le vocabulaire des graphes ainsi catégorisé, pour définir des patrons morphologiques d extraction du texte. Chaque ensemble du vocabulaire aura un ensemble de patrons équivalents, qui permettra l extraction des termes structurés correspondant aux éléments de cet ensemble. b) Définition des patrons morphologiques pour les termes structurés Afin de pouvoir extraire des termes structurés nous devons définir des patrons morphologiques. Ces patrons vont assurer que les termes structurés décrivent le contenu visuel de l image et qu ils expriment des relations entre les objets de l image équivalentes à celles décrites dans son graphe conceptuel. Il faut noter que comme nous allons traiter des pages Web anglophones, les règles morphologiques sur lesquelles les patrons ont été basés sont celles de la langue anglaise. Ce choix n a pas d impact sur la généralité de notre proposition, puisqu il faudra simplement adapter les patrons d extraction du texte à la langue du texte de la page Web. En se basant sur chacune des différentes facettes du graphe qui indexe l image nous définissons un ensemble de patrons qui permettra l extraction de termes structurés correspondants à cette facette. Dans le cadre de notre projet nous travaillons sur les facettes visuelle sémantique, signal couleurs et signal textures des graphes conceptuels. Nous distinguons donc trois types de patrons : Patrons pour les objets physiques afin d extraire l équivalent de types des concepts visuels sémantiques d un objet image dans les graphes (facette visuelle sémantique comme définie dans le modèle de représentation de l image du système [19]) Patrons pour les relations couleurs qui permettront l extraction des termes structurés correspondants à des concepts visuels sémantiques et leurs relations couleurs (facette signal couleurs [19]) Patrons pour les relations textures attribués aux objets de l image dans le graphe conceptuel (facette signal textures [19]) Les éléments du texte correspondant à chaque type de patron appartiennent à des catégories grammaticales différentes. Une catégorie grammaticale définit un ensemble de mots ayant des attributs spécifiques. Puisque nous voulons extraire des mots qui potentiellement feront partie d un graphe conceptuel, nous distinguons les catégories grammaticales suivantes : nom : catégorie grammaticale de mots variables qui désignent une personne, un animal, une chose, une catégorie, un ensemble, une idée. Cette catégorie définit l ensemble de noms noun. adjectif : catégorie grammaticale de mots qui quantifient ou déterminent un nom. L ensemble adjective regroupe les mots de cette catégorie. Les catégories grammaticales définies ci-dessus contiennent tous les éléments du texte qui satisfont les contraintes de chacune. Dans notre cadre de travail nous ne voulons extraire que des mots correspondants aux éléments d un graphe conceptuel. De ce fait nous définissons un sous-ensemble pour chaque catégorie grammaticale en introduisant des contraintes supplémentaires qui permettront l extraction des mots correspondants 42

53 avec le vocabulaire V de graphes, comme défini dans l étape précédente. Les éléments des patrons doivent appartenir à un de ces ensembles, inspirés de chaque sous-ensemble du vocabulaire des graphes. De cette façon les patrons serviront comme filtres qui assureront l extraction d éléments textuels qui peuvent décrire le contenu visuel de l image. Nous considérons les catégories morphologiques de base suivantes : - noun : l ensemble de noms qui décrivent des concepts visuels sémantiques. noun est un sous-ensemble de l ensemble noun défini par la catégorie grammatical des noms avec le contrainte qu il doit contenir des éléments qui expriment des concepts visuels sémantiques (par exemple «hut», «sky» etc). Cette contrainte est introduite en calculant la similarité, par la fonction similarité O entre les éléments de noun et les éléments de l ensemble du vocabulaire des graphes selon une ontologie O et en gardant les éléments qui ont une similarité supérieure à un seuil : { n n noun sc : similaritéo ( n, F( )) } noun = sc seuil. La fonction F ( ): chaîne _ caractères sc permet de traduire un concept visuel sémantique sc en une chaîne de caractères qui exprime ce concept de l ontologie O. - adjective Co : l ensemble des adjectifs qui désignent des attributs de couleur aux noms. Cet ensemble provient de l ensemble adjective avec la contrainte que ses éléments doivent exprimer des attributs de couleurs. Cette contrainte est introduite en calculant la similarité, par la fonction similarité O entre les éléments de l ensemble adjective et les éléments de l ensemble Cat du vocabulaire des graphes selon une ontologie O et en gardant les éléments qui ont une similarité supérieure à un seuil Co défini pour les éléments de cette catégorie: adjective = a a adjective C Cat : similaritéo a, G C seuil. Co { ( ( )) } Co La fonction G C i : Cat chaîne _ Co ( ) caractères i Co permet la traduction d une catégorie de couleurs C i Cat en chaîne de caractères qui correspond à cette catégorie. i Co - adjective Tx : l ensemble des adjectifs qui désignent des attributs de texture aux noms. Cet ensemble est généré de l ensemble adjective avec la contrainte que ses éléments doivent exprimer des attributs de couleurs. Cette contrainte est introduite en calculant la similarité, par la fonction similaritéo entre les éléments de l ensemble adjective et les éléments de l ensemble tw du vocabulaire des graphes selon une ontologie O et en gardant les éléments qui ont une similarité supérieure à un seuil Tx : adjective Tx { a a adjective tw tw : similarité ( a G( tw )) seuil } = O,. Tx Tx ( ) tx i La fonction G tw i : tw permet la traduction d une catégorie de couleurs tw i tw en chaîne de caractères qui correspond à cette catégorie. Tx i Tx 43

54 Si on regroupe tous les ensembles de catégories grammaticales, on obtient l ensemble de catégories grammaticales auxquelles les éléments des patrons appartiennent : cat _ gr = noun adjective Co adjective Nous définissons un patron comme une liste d éléments qui appartiennent à une des catégories grammaticales définies ci-dessus : P i = [ elemij ], elem ij cat _ gr mots. L ensemble mots contient tous les éléments du texte qui n appartient pas à l ensemble cat _ gr mais qui occurrent potentiellement entre les éléments textuels qui nous intéressent. Nous considérons l ensemble dictionary, contenant tous les mots du vocabulaire anglais. Dans ce cas nous définissons l ensemble mots comme : mots = { m m dictionary m cat _ gr} Avec cette forme de patrons nous pouvons traiter des cas comme a car with yellow color, avec un patron du type : Pi = [ mots noun mots adjectiveco mots]. Dans la suite nous présentons les patrons qui permettent l extraction des différents éléments textuels correspondants aux éléments du vocabulaire des graphes conceptuels. Tx Patrons pour les concepts visuels sémantiques Cette catégorie de patrons permet l extraction des termes structurés qui expriment des objets physiques dans l image (par exemple arbre, ciel). Les patrons sont inspirés par le graphe de base de la facette visuelle sémantique et ils seront utilisés pour l extraction des éléments du texte qui expriment des concepts visuels sémantiques. De ce fait les éléments des patrons appartiendront à la catégorie grammaticale noun qui permettra l extraction des mots exprimant des concepts visuels sémantiques. Nous définissons un ensemble des patrons P pour les concepts sémantiques visuels : { P P P } P =,..., (27) 1, 2 n où P = elem ], elem noun mots, i [ is ij j [ 1, s] Nous donnons deux exemples de patrons possibles pour cette catégorie: P 1 =[ noun ]. Ce patron extrairait le mot «car» dans la phrase suivante: He is driving a car. P 2 =[ noun noun ] Dans la phrase «He is driving a family car».le patron P 2 extrairait les mots «family car». Patrons pour les concepts visuels sémantiques et leurs attributs de couleur Les patrons de cette catégorie seront utilisés pour l extraction de termes structurés qui décrivent un objet physique en lui attribuant une couleur. Ce type de patrons est basé sur le graphe de la facette signal couleurs du graphe conceptuel de l image et doit permettre l extraction de termes structurés qui expriment un concept visuel sémantique et sa 44

55 relation couleur. Les éléments de ce type de patrons appartiendront aux catégories grammaticales noun où adjective. Tous les cas de groupes nominaux qui décrivent des relations couleurs sont regroupés dans un ensemble de patrons : Co { P P P } P =,..., (28) Co1, Co2 Com où P i = elem ], i [ 1, m] et elem noun adjective mots Co [ ij Co ij P Co, j [ 1, h] Nous présentons quelques exemples de patrons appartenant à l ensemble défini en dessus : P Co1 =[ adjective noun ]. C Par exemple: He is driving a yellow car.( mots extraits: «yellow car») P Co2 =[ noun mots adjective mots]. C Dans la phrase «He is driving a car with blue color.» le patron P Co2 récupéra les mots en foncé. Co Patrons pour les concepts visuels sémantiques et leurs attributs de texture L ensemble des patrons de cette catégorie consiste en éléments qui assurent l extraction des termes structurés décrivant des objets physiques et leurs attributs de texture. Ce type de patrons est basé sur le graphe de la facette signal textures et permettra l extraction des termes structurés qui expriment un concept visuel sémantique et un concept texture. Les éléments de ce type de patrons appartiendront aux catégories grammaticales noun où adjectivetx Tx et tous les cas forment l ensemble P de patrons pour les relations texture : { P P P } P =,..., (29) Tx1, Tx2 Txk où P i = elem ], i [ 1, k] et elem noun adjective mots Tx [ ij Voici quelques exemples indicatifs des patrons de ce type : P Tx1 =[ adjective noun ]. Tx ij Tx, j [ 1,d ] Par exemple dans la phrase «There was a uniform sky» ce patron va extraire les mots «uniform sky». P Tx2 =[ adjective noun noun ]. Tx Dans une phrase comme «It s a bumpy country road.» le patron P Tx2 va extraire les mots «bumpy country road». Récapitulatif En regroupant tous les types de patrons définis ci dessus nous obtenons l ensemble des patrons P,correspondant à toutes les facettes du graphe de l image, est défini par : P = P P P (30) Co Tx Tx 45

56 c) Application des patrons au texte pour extraire un ensemble de termes structurés L application des patrons au texte résulte en un ensemble de termes structurés T STR conformes morphologiquement aux contraintes des facettes du graphe de l image. Il faut noter que les patrons sont appliqués, mais uniquement les couples de mots qui appartiennent à l ensemble cat _ gr sont extraits. Tous les éléments de l ensemble mots sont ignorés pendant l extraction. Chaque terme structuré est un ensemble de couples dont le nombre dépend du patron appliqué. Comme nous sommes intéressés non seulement à l extraction des termes structurés mais de plus, à la pertinence d un mot pour la description de l image, selon son endroit d extraction nous voulons indiquer ce degré de pertinence pour chaque mot. Rappelons que la valeur qui indique la pertinence d un mot est son impact et donc chaque mot extrait du texte forme un couple qui consiste en le mot t extrait et en sa valeur imp(t), c'est-à-dire de sa probabilité d être pertinent par rapport au contenu de l image. STR { T STRi T = } ( 31) où T {( t, imp( t )} STRi = avec étant un mot et imp étant l impact du mot selon ij ij t ( ) sa position dans la page Web (attribut alt, src, ou texte). ij Les mots tij TSTRi, TSTRi TSTR forment le vocabulaire des termes structurés VT qui consiste en les sous-ensembles suivants : - V { t t noun } =. est l ensemble contenant les mots qui expriment des ij ij V concepts visuels sémantiques. Tous les mots de ce sous-ensemble appartiennent à la catégorie grammaticale de noun. - V { t t adjective } Co =. est l ensemble contenant les mots qui expriment les ij ij Co V Co catégories de couleurs. Les mots de VCo sont des éléments de l ensemble adjectiveco de la catégorie grammaticale des adjectifs de couleur. - V { t t adjective } Tx =. est l ensemble contenant les mots qui expriment les ij ij catégories de textures. Chaque élément de adjective Tx. V T = V V V (32) Co Tx Tx V Tx V Tx t ij appartient à la catégorie grammaticale Alors chaque terme structuré et défini : T STRi {( tij, imp( tij )} imp ( ) [ 0,1] t ij =,avec t et t ij ij V T Définition d une représentation commune des termes structurés et du graphe conceptuel de l image Afin de pouvoir établir une correspondance entre chaque terme structuré et des parties du graphe G qui indexe l image, nous choisissons de définir une représentation commune des deux. Nous allons donc traduire les termes structurés en graphes conceptuels. Pour cela nous définissons d abord le nouveau treillis des concepts qui intègre les nouveaux concepts issus du texte dans le treillis initial des graphes et ensuite nous définissons les graphes de base pour chaque facette du graphe conceptuel de l image. 46

57 E a) Treillis de concepts sémantiques enrichi des graphes T D un côté nous avons le vocabulaire des graphes conceptuels qui est V = Cat tw R. D un autre côté nous avons l ensemble de termes structurés de l étape précédente T STR = { T STRi }, et leur vocabulaire VT Tous les éléments du vocabulaire des termes structurés sont des mots qui expriment des concepts visuels ou des relations. Pour obtenir les graphes équivalents de chaque terme structuré, nous devons définir un treillis de concepts, un treillis des relations et les graphes de base qui vont générer tous les graphes possibles. Le treillis des concepts enrichi est le résultat de l intégration des éléments du vocabulaire des termes structurés dans le treillis des concepts original des graphes conceptuels. L intégration des nouveaux éléments dépend selon différents ensembles du vocabulaire des termes structurés. Le treillis des concepts pour tous le vocabulaire est basé sur les ensembles du vocabulaire initial des graphes mais il est enrichi par les éléments de V T. Nous définissons d abord le treillis des concepts visuels sémantiques. Nous utilisons le treillis initial des concepts visuels sémantiques et nous y ajoutons les éléments du T sous-ensemble des concepts visuels sémantiques t ij. Avant la phase d intégration nous transformons chaque élément t de l ensemble V, qui est une chaîne de caractères, au ij concept tij qu il exprime. Ensuite nous intégrons les éléments selon une relation qui défini un ordre partiel dans le treillis et signifie «est spécifique de». L intégration des nouveaux éléments dans le treillis se fait en utilisant la relation selon l ontologie O pour déterminer si un concept provenant du vocabulaire est spécifique où générique d un concept de l ensemble initial de concepts visuels sémantiques des graphes conceptuels : ij E ( t ) = t t T t V f, où T ij ij ij V E V est le concept le plus générique du treillis des concepts visuels sémantiques enrichi T E. La fonction permet la traduction d un mot appartenant à la catégorie grammaticale noun en un concept qui E peut être inclus dans le treillis des concepts visuels sémantiques enrichi des graphes T : f : noun. E T Le résultat d intégration des nouveaux concepts visuels sémantiques est donc le treillis des concepts sémantiques enrichi T E (figure 14). Dans l exemple illustré ci-dessous nous avons l intégration de deux nouveaux concepts «husband» et «cathedral» dans le treillis initial des concepts visuels sémantiques des graphes conceptuels. T f 47

58 T C Image E T Io people ground building individual crowd man husband hut tower cathedral C figure 14: Treillis de concepts visuels sémantiques enrichi (nouveaux éléments en gros) Les éléments des ensembles VCo et VTx qui désignent respectivement des couleurs et des textures ne seront pas utilisés pour améliorer le vocabulaire d indexation car notre but est d enrichir l indexation symbolique de l image. Il s agit de plus d espaces de catégories de couleurs et de textures que dans notre approche il n y a pas d intérêt à modifier. De ce fait les nouveaux éléments de couleurs ou de textures issus du vocabulaire de termes structurés seront traduits en la catégorie de couleur ou de texture équivalente en utilisant les fonctions f Co et ftx respectivement. Ces fonctions trouvent depuis la chaîne de caractères qui exprime un attribut de couleur ou de texture la catégorie qui lui correspond dans les ensembles Cat et tw respectivement. f Co : adjective Cat et f : adjective tw. Co Tx b) Traduction des termes structurés en graphes conceptuels Tx En ce qui concerne les graphes de base nous définissons un graphe pour chaque facette en équivalence avec les facettes des graphes conceptuels dans [19]. - facette sémantique visuelle enrichie Le graphe de base, d où tous les graphes de cette facette sont obtenus par spécialisation est : E [ Io] ( sct) [, val] T où Io est un objet image E T est le type de concept le plus générique du treillis des concepts sémantiques visuels enrichi E T associé au concept T. et val est une notation qui nous permet de décrire que cette valeur val est E sct est une relation qui associe au Io un type de concept sémantique. 48

59 Da ns le cas où un mot t ij d un terme structuré appartiendrait à V (l ensemble du vocabulaire des termes structurés avec des mots exprimant des concepts visuels sémantiques) nous le traduirons en le graphe suivant : [ Io] ( sct) t, imp( t )] [ k ij E avec tk T. Le concept t k est obtenu du mot tij par une fonction f qui traduit la chaîne de caractères du mot t en un concept ij t k : f : noun ( ) =tk t ij T E f (33). - facette signal couleurs Quand un mot t ij d un t erme structuré appartient à V Co, le sous-ensemble du vocabulaire des termes structurés qui contient des éléments exprimant des couleurs, nous le traduirons au graphe suivant : [ Io] ( b _ c) [ bc] où bc est le concept d indexation signal booléen équivalent au mot t ij du terme structuré. Pour traduire le mot t ij en catégorie de couleur équivalente nous utilisons une fonction f Co qui traduit la chaîne de caractères du mot t ij en la catégorie de couleur équivalente : f Co ( ij ) Ci t = (34), f : adjective Cat Co C Les concepts couleurs sont représentés dans le modèle de représentation d image du v i, i 1,, Cat étant l ensemble des catégories de système SIR par un vecteur [] [ ] B C Cat couleurs et C Cat le nombre de ces catégories. Alors le mot t ij d un terme structuré indique que la catégorie de couleur C i existe dans une région de l image. Ce fait est représenté dans un vecteur v Ba de la manière suivante : 1, pour v Ba [] i = 0, sinon C i (35). - facette signal textures Quand un mot t ij d un ter me structuré appartient à l ensemble V Tx du vocabulaire des termes structurés, qui contient les éléments exprimant des caractéristiques de texture, nous le traduirons au graphe suivant : [ Io] ( ind _ tx) [ tic] où tic est le concept d indexation texture équivalente au mot du terme structuré. Pour traduire le mot t en catégorie de texture équivalente tw nous utilisons une fonction ij i t ij 49

60 f Tx qui traduit la chaîne de caractères du mot t ij en la catégorie de texture tw i équivalente : f Tx ( ij ) twi t = (36), f : adjective tw Tx Tx Les concepts textures sont également représentés dans le modèle SIR par un vecteur t [] i, i [ 1,11], dont les éléments correspondent à des mots de textures appartenant à l ensemble tw. Alors le mot t ij d un terme structuré indique qu une région de l image est caractérisée par un mot de texture tw i. Ce fait est représenté dans un vecteur t a de la manière suivante : t a [] i 1, pour = 0, sinon tw i (37). c) Résultats de traductions des termes structurés en graphes conceptuels. Quand tous les termes structurés sont traduits en graphes conceptuels, nous obtenons l ensemble de graphes issus de ces termes : A = { a i } où a i est le graphe obtenu par le terme structuré T STR. i Chaque graphe aicontiendra une facette visuelle sémantique enrichie et éventuellement une des autre s facettes (couleurs et/ou textures). Les graphes de base qui vont former chaque graphe a i qu on obtient donc par la traduction des termes structurés en graphes conceptuels sont : [ Io] ( E ) [ T, val] sct est le graphe qui décrit un objet image par un concept visuel sémantique. Par exemple le terme structuré : [( house, imp( house) )] généra le graphe : [ Io] ( sct) [ house, imp( house)] [ ] ( ) [ ] E Io sct T, val ( b _ c) [ bc] Un terme structuré comme : [( red, imp( red )), ( house, imp( house) )] va générer le graphe : [ Io] ( sct) [ hous e, imp( house) ] ( b _ c) [< c : 0, : 0,..., r gn :1,... > ] 50

61 [ Io E [ T, val] ] ( sct) ( ind _ tx) [ tic] Un terme structuré comme : [( uniform, imp( uniform) ), ( sky, imp( sky) )] va générer le graphe : [ Io] ( sct) [ sky, imp( sky) ] ( ind _ tx) [< B : 0, C : 0,... U :1,... > ] Intégration dans le graphe conceptuel de l image De l étape précédente nous avons un ensemble de graphes A = { a i } qui sont le résultat de traduction de termes structurés en graphes conceptuels. En plus nous avons le graphe conceptuel G qui décrit l image qui consiste en un ensemble de sous-graphes g k. Nous définissons qu un sous-graphe est une partie du graphe G de l image qui a la forme suivante : [ Io] ( sct) [ T ] ( b _ c) [ bc] ( ind _ tx) [ tic], un graphe qui décrit un objet image par un concept visuel sémantique avec un attribut de couleur graphe et un attribut de texture Pour pouvoir intégrer les éléments textuels dans le graphe G qui indexent l image nous devons d abord définir la correspondance entre les graphes des termes structurés et les sous-graphes du graphe G. C'est-à-dire qu il faut détecter à quelles parties du graphe G les graphes a i correspondent. Ensuite il faut choisir parmi les graphes correspondants les meilleurs couples de graphes. Une fois que ce couple de graphes correspondants sera trouvé, nous pourrons les fusionner. Dans cette dernière étape nous allons enfin intégrer les éléments extraits du texte et comme ça enrichir la représentation du contenu d une image. a) Similarité entre graphes provenant de termes structurés et des sous graphes de l image Comme décrit précédemment nous avons l ensemble des graphes A et le graphe G de l image. Nous déterminons la similarité entre deux graphes ai et g k en prenant en compte trois facteurs : La similarité entre les concepts visuels sémantiques de deux graphes a i et g k qui indique le niveau de correspondance sémantique entre les deux graphes. Cette correspondance est essentielle pour pouvoir dans la suite enrichir la description de l image. l impact des concepts des graphes issus des termes structurés selon leur position dans le texte qui indique la pertinence d un mot extrait du texte par rapport au contenu d une région de l image La valeur d impact d un mot indique la 51

62 probabilité qu un mot décrit une région de l image selon sa position dans la page Web qui contient l image. la valeur de la probabilité de reconnaissance d un concept dans le graphe de l image qui démontre la certitude qu un concept décrit le contenu d une région de l image Nous voulons renforcer surtout les concepts sémantiques du graphe G. Ceci est lié au fait que les descripteurs visuels sont calculés à partir de méthodes d extraction automatiques avec des résultats précis et auxquels nous attribuons beaucoup de confiance. Par contre l annotation symbolique n a pas des résultats aussi satisfaisants et le texte peut être utilisé comme une source d extraction des concepts sémantiques avec une probabilité de reconnaissance plus élevée que celle des concepts extraits depuis l image. Pour renforcer la description symbolique de l image nous devons prendre en compte les trois facteurs ci-dessus. Même si deux concepts ont une similarité sémantique (selon le treillis de concepts visuels sémantiques), la certitude que chaque concept décrit le contenu visuel de l image joue un rôle pour le calcul de cette similarité. Un concept avec un grand impact ou une grande probabilité de reconnaissance, doit être considéré différemment qu un concept dont les valeurs d impact ou de reconnaissance sont très petites. Pour la suite, nous présentons tout d abord la définition des fonctions d appartenance floues à partir des trois facteurs développés ci-dessus. Une fois ces fonctions floues définies, nous expliquons comment nous estimons la similarité entre deux graphes conceptuels. 1. Définition des fonctions d appartenance floues Le but principal de cette partie est de combiner (i)la valeur d impact d un concept extrait du texte imp, (ii)la valeur de probabilité de reconnaissance r d un concept dans le ( ) t ij E graphe et (iii) la similarité entre deux concepts selon le treillis T dans une valeur qui caractérisera le degré de similarité entre deux graphes. Nous avons choisi d utiliser des ensembles flous, qui sont une généralisation de la théorie des ensembles avec une relation d appartenance transformée en une fonction à valeurs da ns [0,1]. La fonction d appartenance d un élément à un ensemble flou A d un univers U, notée µ A associe chaque élément de l univers avec sa plausibilité d appartenir à A [21]. Nous définissons une fonction d appartenance à partir de chaque facteur ce qui nous permettra dans la suite de les fusionner afin d établir une similarité entre deux graphes. Notons U l univers (discret) des concepts visuels sémantiques enrichis. U = V où V est l ensemble des concepts visuels sémantiques généré par l ensemble V contenant les mots extraits du texte qui expriment des concepts visuels sémantiques. Sur cet univers nous définissons des ensembles flous en prenant en compte la similarité entre deux concepts selon le treillis des concepts visuels sémantiques enrichi, l impact d un concept issu d un terme structuré et la probabilité de reconnaissance d un concept. Nous définissons une fonction d appartenance qui dénote la plausibilité qu un concept c appartient à la description par un concept donné d'une région de l'image. Selon U 52

63 l origine de ce dernier concept nous distinguons deux cas pour la fonction d appartenance : fonction d appartenance quand le concept donné appartient au graphe de l image Dans le premier cas, le concept donné qui décrit la région de l image vient du graphe conceptuel G. Autrement dit il s agit d un concept visuel sémantique sc qui a été reconnu avec une probabilité r. La fonction d appartenance µ ( sc ) ( c ) : U [0,1], qui associe à un élément c de l univers U sa plausibilité d appartenir à la description d une région de l image décrite par un concept sc donné, est définie par: E r si c générique / égal desc selon T E µ ( sc ) ( c ) = min( r + ε ( c,sc ),1) si c spéfique desc selon T (38) 0 si non - La formule ci dessus indique que si le concept c est le même ou un générique du concept sc la valeur de probabilité de reconnaissance du concept sc lui est assignée. Nous propageons la probabilité de reconnaissance d un concept spécifique à ses génériques. Considérons par exemple une image indexée par les concepts «chien» et = chien, personne. «personne». Nous avons donc : { } D un autre côté supposons que nous avons les concepts suivants extraits du texte : V = { chien, animal, homme, griffon}. Notre univers de concepts est : { } U = chien, animal, homme, personne, griffon. Dans cet exemple le fait d avoir reconnu le concept «chien» dans l image nous permet aussi de dire que nous avons reconnu le concept plus générique de «animal», en supposons que cette relation existe dans le treillis. - Si c est plus spécifique que sc nous voulons qu il soit plus renforcé, puisque notre objectif est l intégration des annotations plus spécifiques dans l indexation de l image. L octroi d une prime aux concepts spécifiques nous permet de renforcer le fait qu ils appartiennent à la description d une région de l image. Le degré de renforcement dépend de la spécificité du concept c ; c'est-à-dire que les concepts les plus spécifiques auront une plus grande valeur d appartenance. La spécificité d un concept est exprimée par la longueur du chemin entre les deux concepts dans le treillis des concepts sémantiques visuels enrichi T E. Nous définissons une fonction ε : T E [0,1] qui intègre cette notion de similarité sémantique entre les concepts. La fonction ε : T E [0,1] est définie comme la longueur du chemin ( long _ chem ) entre les deux concepts normalisée par le plus long chemin long _ chem( T, ) dans le treillis long _ chem( c, sc ), = long _ chem( T, ) ( c sc ) ε (39) E T. La valeur calculée depuis la fonction ε est ajoutée à la valeur de probabilité de reconnaissance du concept le plus générique. Dans l équation (39) nous choisissons la 53

64 valeur minimale entre + ε ( c,sc ) [0,1]. r et 1 afin d avoir des résultats dans l intervalle de La fonction ε donne des valeurs qui favorisent les spécifiques en leur assignant une plausibilité d appartenance plus grande qu aux concepts plus génériques. Si on considère l exemple présenté ci-dessus, le concept «homme» est plus renforcé étant donné que le concept «personne» a été reconnu dans l image car il est plus spécifique. - Dans le cas où il n y a pas de correspondance sémantique entre le concept donné et le concept c (ni spécifique/ni générique) nous assignons au dernier une valeur d appartenance nulle. C'est-à-dire que le fait que le concept sc décrit une région de l image, ne renforce pas la plausibilité que c le fait également. fonction d appartenance quand le concept donné vient du texte qui accompagne l image Dans ce cas nous calculons la valeur d appartenance d un concept c à la description de l image quand le concept donné vient du texte, c est à dire qu il a été généré par un terme t extrait d un endroit de la page Web qui contient l image. Le concept t V est ij t, imp ( ) associé avec la valeur d impact du terme ij. La fonction d appartenance µ V ( t ) ( c ) : U [0,1] associe à un élément c de l univers U sc des concepts visuels sémantiques avec sa plausibilité d appartenir à la description d une région de l image par un concept t. Elle est définie par: µ sc imp( t ij ), si c géné ( c ) = min( imp( t ) + ε ( t,c ),1 ), si non rique / égal det si t ij selon spécifique V ( tsc ) ij sc 0 (40) De façon similaire au cas précédent, nous propageons la valeur d impact c T E de t selon T E imp ( t ij ) vers les concepts plus génériques. De plus nous favorisons également les concepts spécifiques par la fonction ε qui intègre la notion de similarité entre deux concepts selon le treillis E des concepts sémantiques visuels enrichi T. Dans notre exemple le concept «griffon» est plus renforcé que le concept «chien» étant donné que le concept «animal» est extrait du texte, puisque «griffon» est plus spécifique que «chien». Enfin les concepts qui n ont pas de correspondance sémantique ne sont pas considérés. Fonction d appartenance pour tous les éléments de l univers U Nous avons calculé la valeur d appartenance à la description d une rég ion de l image d un concept c selon un seul concept donné (provenant du graphe de l image ou du texte). Mais cette valeur d appartenance du concept c dépend de tous les concepts de l univers U. C'est-à-dire que nous voulons renforcer un concept en considérant la contribution de tous les concepts de l univers. Nous faisons la distinction entre les concepts issus du graphe et du texte, donc nous calculons séparément l impact de chacun de ces ensembles à l appartenance d un concept à la description de l image et seulement à la fin nous les allons intégrer. De cette façon nous associons avec chaque concept une valeur qui prend 54

65 en compte l effet des concepts issus du texte et du graphe de l image tout en considérant cet effet de manière différente. - Nous estimons l effet des concepts issus du graphe conceptuel de l image par la µ c qui est le résultat d agrégation des valeurs fonction d appartenance ( ) TOT _ µ ( ) d un concept c pour tous les concepts ( sck ) c sc. La valeur µ ( c ) k TOT _ pour chaque concept c U indique la contribution des concepts du graphe de l image au fait qu il décrit une région de cette image. Pour chaque élément de l univers U nous calculons donc une valeur qui indique la plausibilité qu il appartient à la description d une région de l image étant donné l ensemble des concepts visuels sémantiques du graphe de l image : c U j ( ) S ( µ ( c ), µ ( c ) µ ( c ) µ TOT _ c j = 2 ( sc1) j ( sc2) j,..., ( scn) j (41) L agrégation des fonctions d appartenance est réalisée en utilisant une t-conorme. Une t- conorme est une application commutative associative croissante de [ 0,1] 2 dans [ 0,1] [21] qui permet l agrégation des différentes valeurs floues. Nous utilisons des t-conormes car elles nous permettent d agréger les valeurs d appartenance en les renforçant en même temps. Nous utilisons en particulier la t-conorme probabiliste S 2 parce qu elle renforce considérablement les valeurs en prenant en compte l écart entre eux et de plus, elle donne des résultats favorables pour des valeurs similaires. ( a, b) = a + b ab S 2 (42) - Quant aux concepts provenant du texte, nous estimons également leur impact par une fonction µ c. Pour chaque élément de l univers U nous calculons une valeur TOT _V ( ) qui indique la plausibilité qu il appartient à la description d une région de l image étant donné l ensemble des concepts visuels sémantiques extraits du texte V. Cette fonction µ c est le résultat d agrégations des valeurs µ ( ) de chaque concept TOT _V U ( ) c pour tous les concepts t sck V : c j U ( c ) ( µ ( c ) µ ( c ) ( c ) V j S 2 V ( t ) j, V ( tsc2 ) j µ V ( t sc1 scn ) V ( t sck ) c µ _ =,..., (43) TOT De cette façon nous considérons la contribution de tou s les concepts ayant une correspondance sémantique avec le concept c, ce qui renforce le fait qu il appartient à la description de l image. Si on prend notre exemple, la valeur d appartenance pour le concept «griffon» dans les deux cas nous avons : ( ) ( ) µ ( griffon ) µ ( griffon ) µ griffon = 2 ( ) ( ) et TOT _ S chien, homme TOT _ V ( griffon ) S 2 ( µ V ( chien) ( griffon ), µ V ( animal) ( griffon ) µ ( homme) ( V, µ ( griffon ), µ ( griffon )) µ = V ( personne) j V ( griffon), griffon ) Dans ce cas particulier, le fait d avoir reconnu plusieurs concepts avec une correspondance sémantique va renforcer la valeur d appartenance du concept «griffon». 55

66 - Jusqu'à présent nous considérons la contribution des concepts provenant du graphe et celle des concepts provenant du texte séparément. Si on fusionne les deux fonctions c µ c nous obtenons la plausibilité d appartenance d appartenance µ ( ) et ( ) TOT _V TOT _V d un concept à la description de l image en prenant en compte tous les facteurs qui décrivent l image. Nous aurons ainsi une valeur qui indique la contribution des éléments du texte, des éléments du graphe et de la similarité entre les concepts. Pour tous les c U nous agrégeons donc les deux valeurs µ TOT _ ( c ) et µ TOT _V ( c ) pour obtenir une valeur d appartenance µ ( c ) d un concept à la desc ription d une région de l image, en prenant en compte l impact des concepts issus du texte et ceux issus du graphe conceptuel de l image. ( ) ( c ) µ ( c ) ( c ) µ TOT = S 2 TOT _, µ TOT _ Vsc (44). TOT 2. Estimation de la similarité entre deux graphes C onsidérons les graphes a i et g k suivants qui décrivent une région de l image par un concept visuel sémantique et un attribut de couleur : [ Io ] ( sct ) [ t ( ) i, µ t a i : ( ) [ ] TOT i b _ c bc g k [ Io] ( sct) [ sc k, µ TOT ( sck )] : ( b _ c) [ bck ] ( ind _ tx) [ tic ] i k ] le graphe généré depuis le terme structuré et le sous-graphe du graphe G de l image. Chaque concept visuel sémantique dans un graphe est associé avec sa valeur floue calculée à pa rtir des fonctions d appartenance µ TOT ( t i ) ou µ TOT ( sc k ). Leur valeur de similarité sim ik = min ( v [] j, v [] j ) sim ik est définie par : Ccat Ba B 2 k j= 1 Ccat ( t i, sc ) [ µ ( t ) + µ ( )] + ε 4 TOT i TOT sc k où v Ba, v B sont les vecteurs qui représentent les concepts couleurs dans les graphes de termes structurés et dans le graphe de l image respectivement. Rappelons que les vecteurs représentent les catégories de couleurs de façon binaire, donc la somme dans la valeur sim ik permet de garder le nombre de correspondances entre catégories de couleurs, divisé par le nombre des catégories de couleurs C Cat pour ne pas biaiser les résultats au cas où il n y a pas de correspondance. De ce fait nous renforçons la similarité entre des graphes qui ont les mêmes couleurs et si deux graphes n ont pas de correspondance au niveau des couleurs il n y a que leur correspondance au niveau sémantique qui sera prise en compte. Celle ci est calculée selon la fonction ε t, (39) qui estime la similarité entre les deux concepts valeurs floues pour chaque concept ( ) ( ) i sc k t i et sc k selon le treillis T E µ TOT t i et µ TOT ( sc k ). (45) T STRi, pondérée par les On voit que les concepts couleurs sont utilisés pour «guider» le choix des couples de graphes correspondants et qu ils renfo rcent leur sim ilarité si ils correspondent. Le cas des 56

67 graphes contenant des relations de textures est traité de façon similaire à celui des graphes avec des relations couleurs. 3. Etude de cas de similarité Entre chaque couple de graphes nous calculons donc leur valeur de similarité sim ik. Mais un graphe de termes ne correspond pas nécessairement uniquement à un sous-graphe de l image et vice versa. Nous avons distingué trois cas de correspondances possibles entre les graphes a i et les sous-graphes g k de G : un graphe a i correspond à un seul graphe g k, c'est-à-dire que entre les deux graphes il y a une similarité entre leurs concepts sémantiques visuels. un graphe a i correspond à n g graphes g. Dans ce cas le concept visuel sémantique du graphe a i correspond aux concepts visuels sémantiques de n g sous-graphes de l image. n a graphes a i correspon dent à un graphe g k, n a graphes issus de termes structurés ont des concepts sémantiques qui correspondent au concept sémantique d un sous-graphe g k de l image. k Le graphique en dessous montre ces différents cas de correspondance et les valeurs de similarité sim ik entre les couples de graphes: A a 1 a 2 a 3 a 4 a i sim 11 sim 22 sim sim 33 sim 43 sim ik 23 G g 1 g 2 g 3 g 4 g k figure 15: Cas de correspondances entre les graphes de termes structurés et les sous-graphe de G La figure 15 illustre un graphe bipartite K na,ng a g avec n et n le nombre de nœuds du graphe. L objectif est de déterminer les couples de meilleure correspondance c est les couples ( a i, g k ) pour lesquels leur valeur de similarité sim ik soit maximale. Pour l ensemble du gra phe K, nous choisissons de garder les couples correspondants dont na ng la valeur de similarité est la plus grande afin de les intégrer en suite dans la description de l image. Donc le résul tat de cette étape sera un ensemble SIM de couples de graphes conceptuels de meilleure correspondance SIM = {( a i, g k )} que dans la suite nous allons intégrer dans le graphe conceptuel pour enrichir la description de l image. 57

68 b) Fusion du graphe de termes structurés avec le sous-graphe correspondant du graphe de l image. Dans cette dernière étape nous intégrons les éléments extraits du texte dans la description de l image. Rappelons que notre objectif est de renforcer la description symbolique de l image, donc nous voulons renforcer uniquement les éléments qui expriment des concepts sémantiques et pas des attributs visuels comme couleurs etc. Comme on l a vu précédemment nous avons extrait des termes structurés de la page Web qui contient l image, ensuite nous les avons traduits en graphes conceptuels et nous les avons comparés au graphe qui décrit l image afin de trouver les sous-graphes auxquels chacun correspond le mieux. Le résultat de l étape précédente est un ensemble SIM de couples de graphes conceptuels de meilleure correspondance SIM = {( a i, g k )}. Cette étape consiste à fusionner les deux graphes ce qui se traduit en deux actions : garder le concept sémantique visuel le plus spécifique parmi les graphes conceptuels correspondants et l introduire dans le graphe g k, car nous considérons que un concept spécifique décrit plus précisément le contenu de l image renforcer la valeur floue qui indique le degré d appartenance à la description de l image du concept visuel sémantique du graphe g k puisque le fait d avoir extrait le même concept du texte qui accompagne l image indique avec une plus grande certitude que ce concept existe dans l image. Considérons un couple a i et g k de l ensemble SIM. Le processus suivant est similaire pour chaque couple de graphes conceptuels de l e nsemble SIM = {( a i, g k )}. Nous considérons uniquement la facette visuelle sémantique des graphes a i et g k car nous allons fusionner uniquement les concepts visuels sémantiques: [ Io ] ( sct) t, µ ( t )] la facette visuelle sémantique du graphe généré depuis [ i TOT i le terme structuré t ij et [ Io ] ( sct) sc, µ ( sc )] [ k TOT k la facette visuelle sémantique du sous-graphe du graphe G de l image. Il y a deux critères qui vont déterminer le choix du concept que nous allons introduire dans le graphe de l image. Premièrement il faut comparer la valeur µ TOT des deux concepts. Une grande valeur µ TOT signifie que le concept avec lequel elle est associée a été reconnu avec une grande plausibilité et en plus, il y a dans l univers de concepts plusieurs qui ont une relation sémantique avec lui. De ce fait cette valeur est le critère le plus important pour faire le choix entre les deux concepts afin de déterminer lequel sera intégré dans le graphe de l image. Le deuxième critère est la spécificité des concepts. Notre objectif est de garder celui qui est le plus spécifique entre les deux et ensuite de l intégrer dans le graphe g k. En considérant ces deux critères, nous définissons un seuil pour quantifier la différence entre les deux valeurs d appartenance ; si la différence entre les deux valeurs est en 58

69 dessous de ce seuil nous allons garder le concept le plus spécifique. Sinon nous gardons le concept dont la valeur µ est la plus grande. TOT Il faut noter ici que puisque nous avons déjà filtré les graphes correspondants selon leur valeur de similarité sim ik, nous supposons que les concepts ont un rapport sémantique entre eux, c'est-à-dire qu ils sont liés par une relation générique/spécifique. Mais même le cas où les deux concepts n ont pas de correspondance sémantique est considéré dans les deux dernières options présentées ci dessous. Nous avons donc les cas suivants : Cas de correspondance sé mantique ( µ TOT ( t i ) µ TOT ( sck ) seuilµ ) - si sck t i, le concept visuel sémantique du graphe g k est plus spécifique que celui du graphe a i, donc nous gardons le concept sc k. - si t i sck, le concept visuel sémantique du graphe a i est plus spécifique que celui du graphe g k, donc nous remplaçons le concept sc k par le concept t i. Cas sans correspondance sémantique ( µ TOT ( i ) µ TOT ( sck ) > seuil µ - si ( t ) ( s )> 0 µ TOT i µ TOT c k nous remplaçons le concept k t i. - si µ TOT ( sc ) µ TOT ( ti ) > 0 nous gardons le concept sc k. k ' TOT Ensuite il faut calculer la nouvelle valeur de ( c ) t ) sc par le concept µ qui indique la plausibilité d appartenance du concept sémantique c choisi dans la description de l image. Cette valeur sera choisie entre la valeur µ TOT ( t i ) du concept visuel sémantique t i et la valeur µ TOT ( sc k ) originale du concept sc k du graphe g k. La plus grande entre les deux sera la nouvelle valeur floue qui indique l appartenance du concept remplacé dans le graphe conceptuel G à la description de l image. µ ' TOT ( c ) ( sck ), si µ TOT ( sck ) µ TOT ( ti ) ( t ) µ ( sc ) ( t ) µ TOT > = µ TOT i, si TOT k µ TOT i A la fin nous obtenons le graphe g' k qui remplacera gk dans le graphe conceptuel G qui indexe l image. g' :[ Io ] ( sct) [ c, µ ' ( c )] k TOT où c est le concept le plus spécifique parmi les graphes a et les graphes g, et ( c ) µ ' TOT est la valeur qui indique la plausibilité d appartenance du concept c à la description d une région de l image. i k 59

70 3.5 Conclusion Nous avons utilisé donc le texte qui accompagne une image pour enrichir sa description au niveau sémantique. Malgré que nous ayons extrait des termes structurés, qui expriment des concepts sémantiques avec leurs attributs visuels, nous avons utilisé ces attributs uniquement pour établir une meilleure correspondance entre les deux parties qui décrivent l image, le graphe conceptuel et les graphes issus du texte. Le résultat de l intégration des nouveaux concepts dans la description de l image est une représentation du contenu sémantique de l image par des termes plus spécifiques. De ce fait l indexation de l image devient plus précise car son contenu est décrit plus explicitement. De plus cette nouvelle description de l image est renforcée par le fait qu un concept a été également retrouvé dans le texte, ce qui pourrait enlever des ambiguïtés introduites par la reconnaissance et l assignation automatique des concepts visuels sémantiques. Ce dernier aspect de notre proposition vise à la correction d index erronés qui occurrent parfois par les processus d indexation automatique. 60

71 4 Expérimentations Ce chapitre contient la partie expérimentale de notre projet. D abord nous présentons les résultats d une étude expérimentale effectuée sur 100 images dans des pages Web afin de définir les endroits d extraction des termes dans une page Web et d associer aux termes une valeur qui indique leur correspondance avec le contenu de l image selon leur endroit d extraction. Dans la deuxième partie du chapitre l évaluation qualitative des résultats obtenus est présentée. 4.1 Estimation de l impact du contexte de l image L étude a été faite sur 100 images dans des pages Web, choisis de manière aléatoire. Nous n avons pas considéré des catégories des pages Web, comme par exemple dans [22], dans le cadre de notre travail. Pour chaque page Web l étude comprend l estimation des mots pertinents au contenu visuel de l image contenus dans les attributs alt et src du marqueur de l image (étant donné que l attribut alt existe dans le marqueur de l image). En ce qui concerne le texte qui accompagne l image dans la page Web, une «fenêtre» de 100 mots avant et 100 mots après l image a été défini. Dans le cadre de cette «fenêtre» le nombre d occurrences de mots pertinents au contenu visuel de l image selon leur distance de l image a été calculé. Il faut noter que l estimation qu un mot est pertinent au contenu de l image a été faite uniquement par un sujet. Pour une étude plus complète il aurait fallu plusieurs sujets et un nombre de pages Web plus élevé, mais un projet comme ça sort du cadre de notre travail. Dans la suite les résultats de cette étude sont présentés Attributs du marqueur de l image dans la page Web D abord les résultats pour les attributs alt et src du marqueur de l image sont présentés pour l ensemble des pages Web. a) Attribut alt du marqueur de l image Dans les résultats obtenus nous avons calculé la probabilité qu un mot dans l attribut alt du marqueur de l image soit pertinent par rapport au contenu de l image étant donné que Ω = ensemble de mots dans alt l attribut alt existe. { } P alt où Web et N mots _ pert _ dans _ alt = P( mot _ pertinent mot _ dans _ alt) = (46) N N = N( Ω) mots _ dans _ alt N mots _ pert _ dans _ alt mot _ dans _ alt est le nombre de mots dans les attributs alt de toutes les pages le nombre de mots pertinents. Dans notre expérience la valeur de Palt est : P alt 0, 2265 b) Attribut src du marqueur de l image Dans les résultats obtenus nous avons calculé la probabilité qu un mot dans l attribut src du marqueur de l image soit pertinent par rapport au contenu de l image. Ω = ensemble de mots dans src { } 61

72 P alt où Web et N mots _ pert _ dans _ src = P( mot _ pertinent mot _ dans _ src) = (47) N N = N( Ω) mots _ dans _ src N mots _ pert _ dans _ src mot _ dans _ src est le nombre de mots dans les attributs src de toutes les pages le nombre de mots pertinents. Dans notre expérience la valeur de Psrc est : P src 0, 983 Le pourcentage exprime le nombre de pages dont l attribut, étant donné qu il existe, contient des mots pertinents au contenu visuel de l image. Page Web Pourcentage de mots pertinents Attribut alt 22,65 % Attribut src 9,83 % En général nous pouvons déduire que l attribut alt décrit bien le contenu de l image, ce qui est en accord avec son but initial qui est d offrir une description brève du contenu de l image. Par contre l occurrence de mots pertinents est moins grande dans l attribut src Texte accompagnant l image La zone textuelle choisie est dans une «fenêtre» de 100 mots avant et après l image. La taille de la «fenêtre» était choisie en considérant les différents types de pages Web et le fait que la quantité du texte qui accompagne une image est très varié. Nous considérons que 100 mots est un nombre qui permet des résultats plus ou moins non biaisés pour toutes les pages. En ce qui concerne le texte qui accompagne l image nous avons calculé la probabilité qu un mot étant à une distance x de l image mesurée en mots soit pertinent. Nous avons calculé la probabilité pour une distance de 100 mots avant et 100 mots après l image : P TEXT _ AV (48) P TEXT _ AP (49) où = P = P TEXT _ AV TEXT _ AP Nmots _ pert X ( mot pert dist( mot, image) = x) =, x [ 100,1] _ 1 x= 100 Nmots _ pert Nmots _ pert X ( mot _ pert dist( mot, image) = x) =, x [ 1,100] 100 Nmots _ pert X Nmots _ pert X est le nombre de mots pertinents pour une distance x de l image dist ( mot, image) est la distance entre un mot et l image mesurée en nombre de mots. x= 1 X 62

73 Les graphiques pour l ensemble des pages Web montrent la probabilité qu un mot soit pertinent au contenu de l image, selon sa distance de l image. La somme de cette probabilité est indiquée pour des intervalles de 10 mots pour avoir une idée plus générale de la décroissance de la pertinence de mots selon leur distance de l image. D abord les graphiques pour les résultats avec 100 mots avant l image sont présentés et ceux avec 100 mots après l image suivent après. a) 100 Mots avant l image 100 Pages Web- 100 mots avant l'image sur des intervalles de 10 mots somme sur intervalles de 10 mots 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 [1,10] [11,20] [21,30] [31,40] [41,50] [51,60] [61,70] [71,80] [81,90] [91,100] intervalles En observant les résultats pour l ensemble de pages Web pour 100 mots avant l image nous constatons que de manière générale la probabilité qu un mot soit pertinent au contenu de l image est décroissante avec la distance des mots. A l exception de deux intervalles (entre environ mots et 55-60) les valeurs de probabilité diminuent avec la distance. b) 100 Mots après l image 100 Pages Web-100 mots apres l'image sur des intervalles de 10 mots somme sur intervalles de 10 mots 0,25 0,2 0,15 0,1 0,05 0 [1,10] [11,20] [21,30] [31,40] [41,50] [51,60] [61,70] [71,80] [81,90] [91,100] intervalles Enfin pour l ensemble des pages Web et pour le cas de 100 mots après l image nous arrivons à la conclusion générale que la probabilité qu un mot soit pertinent selon sa distance de l image est décroissante par rapport à cette distance, comme dans le cas de 100 mots avant l image. Les résultats dans les deux cas montrent que la pertinence des mots diminue en fonction de leur distance de l image. Nous constatons quant même, que l occurrence de mots pertinents varie considérablement si le mot se situe avant ou après l image dans la page Web. En conséquence nous allons distinguer entre les deux cas et assigner des valeurs qui indiquent la pertinence d un mot différentes si le dernier se trouve avant ou après l image. 63

74 4.2 Evaluation qualitative Dans cette partie nous effectuons une évaluation qualitative des résultats obtenus par l implémentation de notre modèle, défini dans le chapitre 3, pour l indexation d une image dans une page Web. D abord nous définissons l implantation des étapes de la modélisation et ensuite nous introduisons des mesures pour l évaluation qualitative des résultats Implantation des étapes Les étapes réalisées sont effectuées à la fois manuellement et à la fois automatiquement car dans le cadre du mastère M2-R le temps était limité. Malgré ce fait, toutes les étapes ont été réalisées par une approche algorithmique. En conséquence si le temps le permettait, une implantation de l ensemble du processus est possible. Le processus commence par l acquisition manuelle des pages Web qui contiennent au moins une image dont les attributs respectent des contraintes spécifiés (largueur et longueur en dessus de 60 pixels, ratio de longueur sur largueur entre 0,2 et 5 comme en [24] et en format jpg car nous cherchons des images photographiques). L annotation automatique des images a été effectuée par une implantation inspirée du système VK [18] et ensuite le système SIR [19, 23] a généré le graphe conceptuel qui décrit l image. Les étapes d implantation et leurs étapes correspondantes comme définies dans la partie modélisation sont illustrées dans la figure Localisation de la zone d extraction du texte de la page Web Extraction automatique du texte (PERL) - attributs alt, src mots du texte avant/après l image Résultats : Fichiers texte 2. Extraction des termes structurés a) Analyse morphosyntaxique automatique (XIP) b) Application des patrons (PERL) c) Filtrage des mots par rapport au vocabulaire des graphes (26) (WordNet) Résultats : Fichiers format XIP Résultats :liste de couples de mots et leur imp (formule 25) Calcul avec la fonction de WordNet WordNet ::Similarity ::Path 3. Définition d une representation commune d) Calcul des valeurs de µ TOT (formules a) Construction du treillis des concepts enrichi Voir figure 17 Résultats: WordNet considéré comme le treillis b) Traduction des termes structurés en graphes Résultats: ensemble A (p. 50) 4. Intégration a) Calcul de similarité entre les graphes de A et les sous-graphes de G Résultats: ensemble SIM (p. 56) b) Construction du graphe enrichi selon les cas (p. 57) Résultats:graphe avec les nouveaux concepts et leurs valeurs µ TOT figure 16 : Etapes de l implantation du processus 64

75 L extraction du texte depuis les endroits spécifiés précédemment ( 3.4.1) est automatique et toutes les données textuelles sont traitées par le logiciel XIP (Xerox Incremental Parser) afin d obtenir leur analyse morphosyntaxique. Les patrons P 1 et P Co1 ( b) ) d extraction de termes structurés réalisés actuellement servent à l extraction des noms et des adjectifs. Les éléments de ce vocabulaire sont ensuite filtrés pour éliminer les termes qui ne peuvent pas exprimer des concepts visuels et leurs relations. Nous utilisons WordNet comme l ontologie O pour estimer la similarité entre les éléments du vocabulaire des graphes et ceux du texte (fonction similarité O p. 43). La mesure de similarité choisie est celle de path [ 26] de WordNet, car elle donne des valeurs dans l intervalle de [0,1]. Il faut noter que pour les adjectifs de couleurs (resp. textures) provenant du texte nous constatons s ils existent ou pas dans les catégories de couleurs (resp. textures) des graphes. Le calcul des valeurs de µ TOT a été simulé manuellement. La figure 17 illustre l algorithme en pseudocode de l étape 2c). type de variable champs début {String concept Numérique var }fin variable Usc, Vsc, liste en champs début pour i=0 à longueur(usc) fin pour µtot_(i) = calc_µt(usc[i],) µtot_vsc(i) = calc_µt(usc[i],v) /listes depuis les ensembles équivalents (voir p.52)/ µtot(i)= S2(µTOT_(i), µtot_vsc(i)) /fonction 43, S2 t-conorme function (44)/ fonction calc_µt(var1 en champs, liste2 en champs) en numérique variable µtot_v(0) = 0 début pour j=1 à longueur(liste2) /générique est traduit en «hypernyme» dans WordNet/ si var1.concept hypernyme de liste2[j].concept alors finsi µtot_v(j) = liste2[j].var fin figure 17 :Pseudocode pour l implantation du calcul des valeurs de µ TOT /calcul des fonctions 41, 42 avec l aide de WordNet/ /spécifique est traduit en «hyponyme» dans WordNet et path est la fonction de similarité dans WordNet qui implante la fonction (39)/ si var1.concept hyponyme de liste2[j].concept alors finsi µtot_v(j)=min((liste2[j].var+path(var1.concept,liste2[j].concept)),1) /pas de correspondance sémantique, négation de «synonyme» selon WordNet/ fin fonction fin pour si non(var1.concept synonyme de liste2[j].concept) alors finsi revoyer µtot_v ; µtot_v(j) = 0 µtot_v(j) = S2(µTOT_V(j), µtot_v(j-1)) /fonctions (41), (42)/ 65

76 L intérêt de cette étape est qu elle constitue une partie importante de notre proposition car elle permet de fusionner les facteurs décisifs pour effectuer le bon choix entre les graphes correspondants ensuite. De plus l illustration ci dessous constitue un exemple qui indique la manière dont toutes les étapes réalisées manuellement ont été simulées. L ontologie de WordNet nous sert également à générer les treillis des concepts. Pour notre expérience nous avons gardé WordNet comme le treillis des concepts enrichi et ses relations de hypernyme/hyponyme pour approximer les relations de générique/spécifique. La traduction des termes structurés en graphes conceptuels et leur intégration dans le graphe de l image ont été simulées manuellement tout en suivant un processus algorithmique équivalent à celui donné dans l exemple illustré dans la figure Evaluation des résultats Avant d introduire des mesures d évaluation des résultats il faut d abord définir nos objectifs et les associer à une propriété qui dans la suite servira de critère d évaluation. Un premier but de notre proposition est de corriger ou d éliminer les index de mauvaise qualité introduits par l indexation automatique ; en effet l étiquetage automatique génère souvent des index erronés et peu fiables par rapport au contenu actuel de l image. Notre approche est sensée être capable de corriger ces erreurs, c'est-à-dire que une fois le processus terminé on aura dû remplacer un concept visuel sémantique du graphe conceptuel de l image par un concept qui correspond mieux au contenu d une région de l image. Pour estimer la capacité de notre approche à corriger l indexation de l image nous introduisons la propriété de correction ; celle-ci est définie, pour un concept sémantique contenu dans le graphe conceptuel qui décrit l image, comme la capacité du concept à décrire plus correctement qu un concept initialement mis dans ce graphe une région de l image. Dans la suite nous proposons une mesure pour estimer la propriété de correction d un concept. Notre deuxième objectif est de rendre l indexation de l image plus précise. Le vocabulaire initial d indexation est trop restreint et il ne permet pas la description d une image par des termes très spécifiques. Par notre approche nous souhaitons remplacer les concepts visuels sémantiques par des concepts plus spécifiques selon le treillis des concepts enrichis. La propriété qui serre comme critère d estimation de la précision de notre approche est la spécificité Mesures d évaluation qualitative Nous avons déjà associé à chaque objectif une propriété. Notre but est atteint si cette propriété est respectée et afin d estimer ce fait nous introduisons des mesures d évaluation de chacune des propriétés. Pour une image nous considérons les éléments suivants : Le graphe conceptuel initial G I qui est le graphe qui indexait l image initialement Le graphe conceptuel enrichi G E qui est le résultat obtenu par l application de notre approche Le graphe conceptuel idéal G ID qui constitue la description idéale de l image 66

77 Le graphe idéal constitue la vérité terrain pour la description de l image. Nous formulons ce graphe en assignant à chaque région de l image un concept qui décrit mieux son contenu visuel, c'est-à-dire qu il est le plus spécifique et le plus correct selon notre avis. Le graphe idéal est défini pour avoir une base de comparaison des deux autres graphes afin d estimer leur propriété de correction. Autrement dit, pour vérifier si un concept décrit correctement une région de l image nous avons besoin du concept qui établi la vérité terrain. a) Correction La mesure cor ( G, G ID ) [ 0, 1], qui calcule la correction entre un graphe et le graphe idéal, estime la capacité de corriger un concept erroné par notre approche. Nous calculons la correction entre le graphe GE et le graphe G ID, ensuite la correction entre les graphes G I et G ID et on compare les deux valeurs afin d établir lequel satisfait mieux ce critère. Donc pour chaque objet image de la description de l image nous avons un couple de concepts visuels sémantiques correspondants depuis les graphes comparés. Dans le premier cas la mesure de correction est donnée par la formule suivante, où toutes les valeurs sont calculées pour l ensemble de couples de concepts correspondants c E et c I des graphes G E et G ID : cor ( G, G ) E ID = CE _ concept _ Ge, CID _ concept _ GID 1 2 long _ chem c 1 long _ chem T ( E, cid ) (, ) 1 Nc long _ chem c + long _ chem T (, ) changement (, ) Nc est le nombre total des concepts dans le graphe de l image qui normalise la mesure pour obtenir des valeurs dans l intervalle [0,1]. Dans cette formule nous calculons, pour chaque élément des deux graphes, la longueur du chemin long _ chem ( c, c E ID ), normalisée par le plus long chemin dans le treillis long _ chem( T, ), entre le concept ce du graphe enrichi et celui du graphe idéal cid. Ce facteur indique si notre indexation approche l indexation idéale de l image (les plus petites les valeurs le plus on s approche) Donc la soustraction de cette fraction de un est effectuée afin d obtenir des valeurs croissantes en fonction de la proximité du concept idéal. Le deuxième facteur correspond aux changements éventuels du chemin, c'est-à-dire qu il indique si pour atteindre le concept ce depuis le concept cid nous devons changer de direction dans le treillis comme illustré dans la figure suivante. T 1 (50) c changement c c ID c c c E c figure 18 : Changement de direction depuis le concept cid pour atteindre le concept ce 67

78 Ce facteur est nécessaire pour différentier la mesure de correction au cas où la longueur du chemin est la même entre deux concepts différents du treillis et un concept de G ID. Il est calculé à partir de la profondeur du concept où ce changement de direction ( ) c changement a lieu long _ chem T, c changement, et il est normalisé par la profondeur maximale d occurrence de ce concept dans le treillis. La plus grande la profondeur du concept de changement le plus on s approche du concept idéal. La même mesure est calculée entre le graphe initial G I et G ID ( ) cor G I, G ID et ensuite on compare les deux mesures. Notre approche est un succès selon le critère de correction si : ( G, G ) cor( G, G ) > 0 cor (51) E ID I ID b) Spécificité La mesure spec ( G, G ) [ 1, 1 ] E I, qui calcule la correction entre le graphe enrichi et le graphe initial, estime la capacité de notre approche à rendre l indexation de l image plus précise. Il faut noter que pour calculer cette mesure nous n avons pas besoin du graphe idéal car nous nous basons uniquement sur la notion de profondeur dans le treillis entre les concepts des deux graphes et de ce fait nous n avons pas besoin d avoir établi une vérité terrain. La plus grande la profondeur d un concept dans le treillis le plus il est spécifique. La mesure de spécificité entre les deux graphes est définie par la formule suivante : spec (52) ( G, G ) E I (, ce ) long _ ( _ chem( T ) 1 long _ chem T = C, E concept Ge CI concept GI Nc long, chem T, c La mesure de spécificité est calculée pour tous les couples de concepts c E et c I correspondants au même objet image, des graphes G E et G I. Une valeur négative veut dire qu on a échoué à rendre le graphe initial plus spécifique puisque le concept c E a une longueur du chemin dans le treillis moins grande que le concept c I. Par contre notre approche a respecté le critère de spécificité si la mesure de spécificité obtient des valeurs positives Evaluation des résultats pour une page Web Nous avons expérimenté sur une page Web qui contient une image ( I ) figure 19 ) et nous allons évaluer les résultats obtenus par les mesures définis dans le paragraphe précédent. Le vocabulaire initial d indexation des graphes conceptuels est : animal, beach, building, dune, field, fireworks, fence, flame, flower, grass, ground, = house, leaves, mountain, pebble, person, pillar, road, sky, skyscraper, stairs, trunk, wall, water, wood Pour l image nous présentons le graphe initial d indexation, le graphe enrichi et le graphe idéal. Afin d économiser de l espace nous présentons dans le tableau ci-dessous 68

79 uniquement les concepts visuels sémantiques des trois graphes puisque l évaluation des résultats se fait uniquement par rapport à ces concepts. L image à indexer est celle ci-dessus : Given the logistical thickets of moving an animal by air plus the fact that 80 percent of all U.S. travel is by car it s no surprise that most pets take road trips. (Amtrak, Greyhound, and most cruise ships allow only guide dogs.) Being a good car passenger, however, does not come naturally to all cats and dogs. Cats can get skittish in a moving vehicle. They usually do best in crates preferably draped with a cloth, to block the sight of scenery whizzing by, explains Dr. Jay Geasling, president of the American Animal Hospital Association Canines can be ideal car companions, especially when acclimated to vehicles as puppies. To introduce a grown dog to car travel, Dr. Geasling recommends a program similar to that for flying: A few months before the trip, start out by sitting together in the car, with the engine off. Then graduate to sitting there with the engine running. Slowly build up to taking short rides, and finally long rides. Before you leave on a big trip, it s a good idea to visit the vet to get a clean bill of health for your fellow traveler about ten days before you depart. (If an infectious disease is found, the animal will have to be hospitalized until well.) Request a written record showing the pet s weight, inoculations, and medications in case you have to document these for an out-of-town Photograph by Albert Moldvay figure 19 : Extrait du texte avec l image de la page Web traitée Le tableau suivant contient les concepts pour chaque objet image comme ils sont calculés pour chaque graphe. Dans le cas du graphe initial nous indiquons la valeur de probabilité de reconnaissance pour chaque concept et pour le graphe enrichi sa valeur de µ TOT. GRAPHE INITIAL GRAPHE ENRICHI GRAPHE IDEAL Io CONCEPT Rk Io CONCEPT MTOT Io CONCEPT 1 building 0,012 1 hospital 0, car 2 house 0,72 2 hospital 0, car 3 leaves 0,024 3 pet 0, car 4 pebble 0,024 4 pet 0, car 5 road 0,012 5 road 0, car 6 house 0,012 6 hospital 0, car 7 person 0,024 7 pet 0, dog 8 road 0,024 8 road 0, man 9 person 0,036 9 pet 0, dog 10 water 0, engine 0, car 11 water 0, engine 0, car 12 water 0, engine 0, car 13 water 0, engine 0, car 14 house 0, hospital 0, car 15 water 0, engine 0, car 16 animal 0, animal 0, dog tableau 1 : Concepts associés à chaque objet image pour les 3 graphes Le calcul des mesures d évaluation des résultats a été modifiée puisque dans notre expérience nous avons considéré WordNet comme le treillis des concepts. Nous normalisons par la valeur de profondeur maximale des concepts au lieu d utiliser la profondeur maximale du treillis. Les mesures de correction et de spécificité calculées sont présentées dans le tableau suivant : 69

80 G E /G I G E /G ID G I /G ID Spécificité 0, Correction - 0,2981 0,244 tableau 2 : Mesures d évaluation des graphes pour l image Nous constatons de première vue que nous avons réussi à rendre le graphe initial 15% plus spécifique. Nous arrivons à remplacer des concepts plus génériques par un de leurs spécifiques, comme par exemple pour l objet image Io1 où «building» a été remplacé par «hospital». Ceci est du au fait que nous avons bénéficié parmi tous ces éléments ceux qui étaient les plus spécifiques, ce qui nous a permis de rendre l indexation de l image plus précise. En ce qui concerne la capacité de correction, nous observons que nous avons réussi à corriger un certain nombre d index erronés. Dans l ensemble, selon la mesure de correction nous avons corrigé le graphe initial comme indiquent les valeurs dans le tableau 2. Le graphe enrichi contient des concepts sémantiques qui s approchent à ceux du graphe idéal 5% de plus que ceux du graphe initial. 4.3 Conclusion La première partie de nos expérimentations était consacrée à l instanciation de notre fonction qui détermine l impact des mots selon leur endroit d extraction de la page Web. L hypothèse de départ était que le texte qui accompagne une image a un rapport avec son contenu, et sa pertinence est décroissante en fonction de sa distance de l image. Les expériences ont validé cette hypothèse et quantifié cette pertinence à partir de la fonction d imp. En ce qui concerne notre proposition, nous avons effectué l expérimentation sur une page afin d évaluer la capacité du modèle proposé à spécifier et à corriger l index de l image. Avant tous nous avons défini des critères pour évaluer nos résultats expérimentaux par rapport à ces deux propriétés (spécificité et correction). Nous constatons d une première vue que notre approche donne des valeurs d appartenance d un concept à la description de l image assez élevées. Ceci est lié au fait que nous considérons tous les éléments (textuels ou provenant du vocabulaire du graphe) qui ont une correspondance sémantique, afin de calculer la valeur d appartenance pour chacun. C'est-à-dire que nous avons introduit des mesures qui prennent en compte tous les éléments ayant une correspondance sémantique ce qui résulte en un renforcement des étiquettes symboliques avec une plus grande certitude. En même temps, nous avons réussi à rendre le graphe initial plus spécifique, en remplaçant des concepts plus génériques par leur spécifiques. Quant à l aspect correction de notre proposition nous voyons que malgré que parfois les nouveaux concepts ne sont pas associés à l objet image correspondant selon le graphe idéal, nous avons au moins intégrer dans la description de l image des termes qui sont plus cohérents avec sont contenu sémantique. Nous avons effectué de cette façon une correction relative par rapport au graphe initial. Le fait qu un élément d indexation dépend des autres nous permet de corriger ceux qui sont incohérents avec le contenu de l image. Si l image contient un faux index il est dévalorisé par le fait qu il n a pas de correspondance sémantique avec plusieurs éléments. Par contre les éléments correspondants se renforcent mutuellement et ils deviennent plus fiables pour indexer l image. 70

81 5 Conclusions et perspectives Les approches existantes des SRIm ne proposent pas de solution satisfaisante pour l indexation des images. Le cadre de notre travail se situe dans des systèmes de recherche d images sur le Web. Notre objectif était de rendre l indexation des images plus riche et plus fidèle à leur contenu, c est à dire nous avons visé à l intégration des termes plus spécifiques dans la description de l image qui correspondent mieux à son contenu sémantique. En même temps nous avons eu comme objectif la correction des index potentiellement erronés qui ont été introduit par l étiquetage automatique et améliorer de cette façon l indexation de l image. Enfin nous voulions renforcer les descripteurs de l image qui sont pertinents par rapport à son contenu. Dans le but d améliorer l indexation des images, notre proposition est basée sur les systèmes de recherche d images à l approche signal/sémantique fortement couplé puisque ce sont des systèmes qui permettent une description plus riche et complète de l image. Nous utilisons la page Web qui contient l image comme source d enrichissement du vocabulaire d indexation. 5.1 Apports Le modèle proposé utilise le contexte d occurrence textuel d une image dans une page Web afin d extraire des nouveaux éléments à intégrer dans sa description, car nous sommes basés sur l hypothèse qu il y a une correspondance entre le contenu visuel de l image et le texte qui l accompagne. Nous avons choisi d abord les endroits d extraction du texte ; nous utilisons les attributs alt et src du marqueur de l image et une zone textuelle qui l accompagne. Nous associons à chaque endroit différent une valeur qui indique la pertinence d un élément textuel. Ensuite nous avons défini des patrons morphologiques afin d extraire des termes relationnels, c'est-à-dire des termes qui décrivent le contenu visuel de l image en équivalence avec les concepts et les relations dans le graphe conceptuel qui l indexe. Puis nous avons traduit les termes extraits en graphes conceptuels dans le but d établir une représentation commune entre les éléments textuels et ceux du graphe de l image. C est de cette façon que nous avons pu intégrer les nouveaux éléments dans la description de l image. Premièrement nous avons estimé la similarité entre les deux parties (graphe conceptuel et graphes issus des éléments textuels). Le calcul de cette similarité prend en compte la similarité sémantique entre les concepts tout en considérant l importance d un concept pour la description de l image, exprimée par les valeurs d appartenances floues introduites. L intérêt de cette étape est que tous les éléments ayant une correspondance sémantique se renforcent mutuellement, et de plus les plus spécifiques sont bénéficiés. De ce fait non seulement nous gardons des éléments plus spécifiques mais en plus, nous obtenons des éléments d une certitude d appartenance à la description de l image augmentée. Finalement nous avons fusionné les termes dans le graphe qui indexe l image, tout en gardant la même dimension de l index de l image. Dans la partie expérimentation, nous avons effectué une expérience sur 100 images dans de pages Web afin de valider notre hypothèse et d instancier les fonctions l impact du contexte de l image définies dans la partie modélisation. Nous avons également appliqué 71

82 notre proposition sur une page Web. Nous implanté les étapes initiales de notre modèle (extraction du texte de la page Web, application des patrons). Enfin nous avons introduit des mesures afin d évaluer les résultats de l expérience en estimant la capacité de notre proposition de rendre l indexation de l image plus spécifique et de corriger les index erronés. 5.2 Travaux futurs Dans le cadre des systèmes de recherche d images sur le Web une perspective qui parait intéressante serait l estimation de l impact du contexte d une image selon les différents types de pages Web, comme proposés dans [22]. Une étude expérimentale sur un grand nombre de pages classifiées selon leur contenu, pourrait servir pour adapter les valeurs d impact du texte à chaque type de page et obtenir ainsi des résultats plus fiables sur la pertinence des mots par rapport au contenu de l image. Une autre amélioration de l étape de localisation de la zone textuelle consiste en prendre en compte la structure des pages Web comme adopté dans [24, 25]. C'est-à-dire que l association des éléments textuels avec l image dans la page Web ne sera pas faite selon leur position par rapport à l image mais en fonction des unités élémentaires qui composent la page. La notion des documents structurés regroupe plusieurs types d éléments (textuels, visuels) en une unité structurelle du document selon une correspondance sémantique. Si ont exploite ce fait nous pourrons obtenir une indexation d images plus exhaustive et spécifique que celle des approches existantes. En ce qui concerne les patrons d extraction des termes structurés, nous nous sommes limités uniquement à un type dans notre implantation. L inclusion de patrons plus complexes qui considèrent les particularités linguistiques nous permettrait d enrichir le vocabulaire extrait du texte et améliorer éventuellement l indexation de l image. Une autre perspective est l extension du modèle défini pour inclure les relations spatiales du système SIR et les enrichir. Il faudra définir des patrons correspondants aux relations spatiales et adapter bien évidement les étapes de traduction en graphes et d intégration dans le graphe de l image. La similarité entre concepts dans la partie expérimentale a été évaluée en utilisant une fonction de similarité particulière de WordNet. Dans le cadre d une implantation complète du processus proposé dans la partie de la modélisation, nous pourrons expérimenter avec différentes fonctions afin de choisir celle qui distingue le mieux les concepts qui n ont pas de correspondance sémantique en prenant en compte toutes les nuances possibles d un mot. Chacune des propositions ci-dessus vise à étendre la portée et améliorer notre modèle d indexation d images du Web par intégration du contexte textuel à leur contenu. D un point de vue expérimental, l implantation complète de notre proposition permettra de réaliser des expériences dans un grand nombre de pages Web. Nous pourrons ainsi en déduire des conclusions plus complètes sur la qualité de notre proposition. Une fois l indexation d images réalisée, un véritable système de recherche d images intégrant la description au niveau signal/sémantique pourra être mis en œuvre. 72

83 6 BIBLIOGRAPHIE 1. Ricardo Baeza-Yates and Berthier Ribeiro-Neto Modern Information Retrieval, Addison-Wesley Publishings 2. Jean Martinet, Un modèle vectoriel relationnel de recherche d'information adapté aux images, Ph.D. thesis, Université Joseph Fourier, M.L.Kherfi and Ziou Université de Sherbrooke, A.Bernardi Laboratoires Universitaires Bell. Image Retrieval From the World Wide Web: Issues, Techniques, and Systems. ACM Computing Surveys, vol. 36, no 1, march Mourad Mechkour, Catherine Berrut, and Yves Chiaramella. Using conceptual graph framework for image retrieval. In International conference on MultiMedia Modeling (MMM`95), Singapore, pages , November Mourad Mechkour EMIR2 : un modèle étendu de représentation et de correspondance d'images pour la recherche d'informations : application à un corpus d'images historiques Thèse : Informatique : Grenoble 1 : 1995 ; J.F. Sowa IBM Systems Research Institute. Conceptual Structures: Information Processing in Mind and Machine. Addison-Wesley Publishing Company Gang Wei, Dongge Li & Sethi. Web-WISE: Compressed Image Retrieval over the Web. In Proceedings of the Multimedia Information Analysis and Retrieval, IARP International Workshop 1998, E.Di Sciascio, G. Mingolla, M. Mongiello, Politecnico di Bari. Content-based Image Retrieval over the Web using Query by Sketch and Retrieval Feedback. In Proceedings of the 4th International conference on Visual Information Systems 1999, Stan Sclaroff, Leonid Taycher, and Marco La Cascia. ImageRover: A Content-Based Image Browser for the World Wide Web. Proc. IEEE Workshop on Content-based Access of Image and Video Libraries,6/ Leonid Taycher, Marco La Cascia, and Stan Sclaroff. Image Digestion and Relevance Feedback in the ImageRover WWW Search Engine. Visual 1997, San Diego, 12/ Marco La Cascia, Saratendu Sethi, and Stan Sclaroff. Combining Textual and Visual Cues for Content-based Image Retrieval on the World Wide Web. IEEE Workshop on Content-based Access of Image and Video Libraries, June Ye Lu, Chunhui Hu, Xingquan Zhu, HongJiang Zhang, Qiang Yang. A Unified Framework for Semantic and Feature Based Relevance Feedback in Image Retrieval Systems. ACM MM Myron Flinker & al, Query by Image and Video Content: The QBIC System. Computer Innovative technology for computer professionals, IEEE Computer Society, Sept Vol. 28 No

84 17. C. Faloutsos & al., Efficient and effective Querying by Image Content. J. of Intelligent Information Systems, 3(3/4): , July Joo-Hwee Lim, Explicit Query Formulation with Visual Keywords, ACM MM (2000) Mohammed Belkhatir, Philippe Mulhem, Yves Chiaramella, Integrating Perceptual Signal Features within a Multi-facetted Conceptual Model for Automatic Image Retrieval, in ECIR, Sunderland, pp , April, Louis Gacogne, Eléments de Logique floue, (éditions Hermès 1997) 22. Alexander, Jane and Marsha Tate. "Teaching Critical Evaluation Skills for World Wide Web Resources." Wolfgram Memorial Library. Widener University. [24 October 1996] 23. Mohammed Belkhatir, Philippe Mulhem, Yves Chiaramella, Combining semantics and texture characterizations for precision-oriented automatic image retrieval, in European Conference on Information Retrieval, Deng Cai & al., Hierarchical Clustering of WWW Image Search Results Using Visual, Textual and Link Information, MM 04, October 10-16, 2004, New York, NY, USA. 25. Wang & al., Multi-Model similarity propagation and its application for Web image retrieval, ACM Multimedia 04, October 10-16, New York, NY USA. 26. Pedersen & al., WordNet::Similarity - Measuring the Relatedness of Concepts, In Proceedings of the Nineteenth National Conference on Artificial Intelligence (AAAI-04) pp , San Jose, CA. July, J. Jeon, V. Lavrenko, and R. Manmatha. Automatic image annotation and retrieval using cross-media relevance models. In ACM SIGIR 2003, M. S. Lew, "Next-generation web searches for visual content," IEEE Computer, vol. 33, pp , J. R. Smith. Integrated Spatial and Feature Image Systems: Retrieval, Analysis and Compression. PhD thesis, Graduate School of Arts and Sciences, Columbia University, New York, NY, M. Ortega, K. Porkaew, and S. Mehrotra, "Information retrieval over multimedia documents," Tech. Rep. TR-MARS-9911, University of California, Irvine, CA, Zhou, X.S. & Huang, T.S.: Unifying Keywords and Visual Contents in Image Retrieval. IEEE Multimedia 9(2) (2002) Ounis, I. & Pasca, M.: RELIEF: Combining expressiveness and rapidity into a single system. ACM SIGIR (1998)

Montrer encore