Système D Indexation et de Recherche d Images par le contenu



Documents pareils
Détection des points d intérêt et Segmentation des images RGB-D. Présentée par : Bilal Tawbe. Semaine de la recherche de l UQO

Classification Automatique de messages : une approche hybride

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

TP SIN Traitement d image

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

Ressources lexicales au service de recherche et d indexation des images

Traitement bas-niveau

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Big Data et Graphes : Quelques pistes de recherche

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Introduction aux concepts d ez Publish

Systèmes d information et bases de données (niveau 1)

Université de Bangui. Modélisons en UML

et les Systèmes Multidimensionnels

Technique de compression des images médicales 4D

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

données en connaissance et en actions?

R-ICP : une nouvelle approche d appariement 3D orientée régions pour la reconnaissance faciale

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Gestion electronique de document

Introduction aux SGBDR

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Les algorithmes de base du graphisme

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Formats d images. 1 Introduction

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Géométrie discrète Chapitre V

Hiver 2013 IMN 259. Introduction à l analyse d images. Par Pierre-Marc Jodoin

Extraction d informations stratégiques par Analyse en Composantes Principales

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Big Data et Graphes : Quelques pistes de recherche

Créer le schéma relationnel d une base de données ACCESS

LECTURE CRITIQUE. Accompagner les enseignants et formateurs dans la conception d une formation en ligne

Gestion collaborative de documents

Bases de données Cours 1 : Généralités sur les bases de données

N. Paparoditis, Laboratoire MATIS

La classification automatique de données quantitatives

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Détection et suivi d'objets dans une séquence d'images par contours actifs

Modules Multimédia PAO (Adobe)

Suivant les langages de programmation, modules plus avancés : modules imbriqués modules paramétrés par des modules (foncteurs)

Traitement d un AVI avec Iris

: seul le dossier dossier sera cherché, tous les sousdomaines

Traitement numérique de l'image. Raphaël Isdant

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique


INF6304 Interfaces Intelligentes

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Méthode de sureté de fonctionnement pour une maintenance efficace Application à un poste électrique (60/10KV)

Introduction à la B.I. Avec SQL Server 2008

MABioVis. Bio-informatique et la

1. l auditeur testera la présentation, le format et la transmission d un rapport d utilisation d un fournisseur.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

La stratégie de contenu. en pratique 30 OUTILS PASSÉS AU CRIBLE. Isabelle Canivet & Jean-Marc Hardy DESIGN

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Business & High Technology

Faculté des sciences de gestion et sciences économiques BASE DE DONNEES

Le Tag Management à l ère du Smart Data

WEA Un Gérant d'objets Persistants pour des environnements distribués

Régionalisation des régimes de perturbations et implications pour l aménagement dans un contexte de changement climatique

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Projet de Traitement du Signal Segmentation d images SAR

Intégration de la dimension sémantique dans les réseaux sociaux

Les structures de données. Rajae El Ouazzani

Tutoriel : utilisation de l outil de veille TaDaweb

Cours Base de données relationnelles. M. Boughanem, IUP STRI

FONCTION DE DEMANDE : REVENU ET PRIX

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

Groupe Eyrolles, 2004 ISBN :

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

TMS Enterprise Description des rapports

Audio pour HDSLR. «Comment obtenir un son professionnel en filmant avec un reflex numérique?»

PROJET BIGDATART DOSSIER DE PRESENTATION

TD : Codage des images

Optimisations des SGBDR. Étude de cas : MySQL

Infolettre #18 : Les graphiques avec Excel 2010

La nouvelle dimension de l analyse acoustique et vibratoire

Title Text. Outil intégré de collecte, d'analyse et de visualisation de données de mobilité

Nicolas VAN LABEKE LORIA/CNRS, Université Henri Poincaré - Nancy I, BP 239, F Vandoeuvre les Nancy Cedex,FRANCE vanlabek@loria.

Les outils actuels permettent-ils d automatiser la production de cartes? De quels outils dispose-t-on?

modélisation solide et dessin technique

Utilisation du logiciel ImageJ gratuit

Extraction de caractéristiques visuelles d'images médicales pour la recherche par similitude et l'aide au diagnostic

Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

Une méthode d apprentissage pour la composition de services web

IFT3913 Qualité du logiciel et métriques. Chapitre 2 Modèles de processus du développement du logiciel. Plan du cours

CI1 - A quel besoin répond un objet technique?

Object Removal by Exemplar-Based Inpainting

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Solutions SAP Crystal

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Livre Blanc WebSphere Transcoding Publisher

Business Intelligence

Transcription:

Système D Indexation et de Recherche d Images par le contenu 1 Houaria ABED, 1 Lynda ZAOUI Laboratoire : Systèmes, Signaux, Données Département Informatique, Faculté des Sciences Université des Sciences et de la Technologie d Oran - Mohamed Boudiaf - B.P.1505 EL M NAOUAR-ORAN (ALGERIE) Email:{ houaria_abed, Zaoui_lynda }@yahoo.fr Abstract. Dans cet article, nous présentons un système d indexation et de recherche d images par le contenu Requit. Chaque image est représentée par un arbre quaternaire et notre base d images est stocée en une structure de données appelée arbre quaternaire générique. Ce dernier permet de minimiser l espace de stocage par partage d informations entre les images et facilite les opérations entre elle. Keywords: Arbre quaternaire, Distance de similarité, Indexation d images 1 Introduction Un des problèmes rencontrés lors de la manipulation de grandes quantités d images est la structuration, le stocage et la recherche d informations. De ce fait en résulte un fort dynamisme de recherche dans le domaine de l indexation multimédia durant cette dernière décennie, donnant naissance à de nombreuses méthodes d indexation par le contenu, de recherche interactive et de navigation dans des bases d images ; dans le but de pouvoir les interroger d une manière ergonomique et intuitive pour l utilisateur. 2 Comment retrouver une image parmi un corpus d images? Deux approches de recherches sont envisagées: 2.1 Recherche d images par mot clés Une des attentes des utilisateurs dans le domaine de recherche d images se situe au niveau de sa sémantique c est pour cela que la plupart des systèmes de recherche 1

d images développés utilisent des mots clés ou des descripteurs textuelles pour caractériser chaque image de la base (ex : recherche d images sur Internet). Ce type de caractérisation comporte un certain nombre d inconvénients, en effet : La description textuelle est une opération longue, coûteuse et difficile à élaborée car l information externe est manuellement attachée par l utilisateur ce qui conditionne la qualité de recherche future, et puis elle ne décrit pas fidèlement le contenu de l image car elle se fait de manière automatique à partir du nom, de la légende ou du texte qui l entoure. La figure1 illustre bien donne les inconvenients de ce type de requête. En effet l utilisateur veut trouver des images qui contiennent une ou (des) voiture(s) avec le ciel cependant les premières images ne sont pas pertinenenes. Fig. 1. Un exemple de recherche d images dans Google Pour palier aux inconvénients de la recherche par mots clés, une deuxième approche a été proposée : la recherche par le contenu. 2.2 Recherche d images par le contenu Comme son nom l'indique, le principe de cette méthode est d'identifier des images à partir de leur contenu (c'est à dire à partir des données de l'image elles même et non à partir du texte associé aux images). L'indexation des images, qui se fait automatiquement, nécessite l'extraction des paramètres de celles ci au préalable. Ces paramètres "quantifient" la couleur, la texture, l'intensité ou bien encore les formes contenues dans l'image et fournissent une "signature" [6] de l'image. 2

3 Architecture générale d un système d indexation et de recherche d images par le contenu Deux aspects indissociables coexistent dans les systèmes de recherche d images par le contenu, l indexation et la recherche. La phase d indexation (hors-ligne) : Dans cette phase, des caractéristiques sont automatiquement extraites à partir de l image et stocées dans un vecteur numérique appelé descripteur visuel. Grâce aux techniques de la base de données, on peut stocer ces caractéristiques et les récupérer rapidement et efficacement. La phase recherche (On-line) : Dans cette étape, le système analyse une ou plusieurs requêtes émises par l utilisateur et lui donne le résultat correspond en une liste d images ordonnées, en fonction de la similarité entre leur descripteur visuel et celui de l image requête en utilisant une mesure de distance. La figure2 schématise le fonctionnant d un système de recherche et d indexationd images. Fig. 2. Le fonctionnant d un système de recherche et d indexation d images. 4 L indexation L indexation a pour but de substituer à une image un représentant (ou descripteur) moins encombrant qui la caractérise le mieux possible et de ne travailler que sur ce modèle lors de la recherche. Cela permettra une meilleure organisation des données, de limiter la quantité de données examinées durant une recherche, d y accéder rapidement et de confiner la recherche au maximum. 3

4.1 Les phases d indexation Un système d indexation comprend généralement deux phases de traitement : 4.1.1 Indexation logique L indexation logique consiste à extraire et à modéliser les caractéristiques de l image qui sont principalement la forme, la couleur et la texture. Chacune de ces caractéristiques pouvant être considérée pour une image entière ou pour une région de l image. 4.1.2. Indexation physique L indexation physique consiste à déterminer une structure efficace d accès aux données pour trouver rapidement une information. De nombreuses techniques basées sur des arbres (arbre-b, arbre-r, arbre quaternaire, ) ont été proposées. Pour qu un système de recherche d images soit performant, il faut que l indexation logique soit pertinente et que l indexation physique permette un accès rapide aux documents recherchés. 5 Structures d index arborescentes non équilibrées: Les Arbres Quaternaires L arbre quaternaire est une structure de données qui permet de représenter les images à deux dimensions. Elle est basée sur la décomposition récursive [8] de l image en quadrants réguliers selon un critère particulier (ex : homogénéité de la couleur des pixels ou homogénéité de la texture ). Cette méthode offre des avantages en terme de modification d image, en plus, on peut réduire dans certains cas la taille de l arbre si on révise le critère d uniformité d un quadrant. Par exemple on dira qu un quadrant est homogène si le pourcentage d une des couleurs est supérieur à un seuil de qualité, ce seuil de qualité évolue entre 51% (ce qui n est pas très significatif) et 100% (si on arrête la division uniquement quand la zone est totalement homogène, ce qui est le traitement par défaut). Fig. 3. Représentation d une image en arbre quaternaire 4

6 Arbre Quaternaire Générique L Arbre Quaternaire Générique [4] est une structure permettant de représenter et de gérer des images similaires dans une base de données d images organisées en arbres quaternaires. Cette structure minimise l espace de stocage d un ensemble d images tout en accélérant certaines opérations comme la comparaison ou la mise à jour de plusieurs images simultanément. Via cette structure un utilisateur peut facilement faire différentes opérations (modifier une image existante dans la base, insérer ou supprimer des images, extraire des images pour construire des séquences etc. ). 6.1 Principe 6.1.1 Partage entre images Le partage entre arbres quaternaires d images consiste à partager les régions similaires des images. Si un quadrant a la même valeur v dans un ensemble d images E qui est inclut dans l ensemble de toutes les images de la base E, alors cette valeur v sera stocée qu une seule fois dans la base. On a deux types de partages : Partage explicite : Dans ce cas l identificateur de chaque image partageant cette valeur apparaît explicitement dans la liste des images associées à cette valeur dans la base. Partage implicite : Dans le partage implicite chaque image i partage implicitement la valeur associée à son image mère, excepté lorsque l identificateur de l image i est associé explicitement avec une autre valeur. 6.1.2 Similarité entre images Les images sont regroupées, dans la base de données, en fonction d une distance de similarité entre les arbres quaternaires qui les représentent. Cette distance est basée sur plusieurs critères tels que : la structure de l arbre, la valeurs des nœuds etc.... 6.1.3 Arbre d images Les images représentées par un arbre quaternaire générique sont organisées à l aide d une structure particulière, l Arbre d image. A chaque fois qu une nouvelle image est insérée dans l arbre d image, elle est insérée comme fille de l image dont elle est la plus similaire, c'est à dire dont la distance entres l arbre quaternaire associé et celui de l image à insérer est la plus petite. Exemple1. La figure 4 présente un Arbre d Image organisant les images, u, v,w et y. On suppose que l image u est une image originale sur laquelle ont été appliqués des traitements dont les images v et w ont résultées. L image y correspond au résultat de l image w après traitement. 5

6.1.4. Nœuds génériques Fig. 4. Les images sont organisées en Arbre d'images La représentation et le stocage d un ensemble d images similaires sont effectués dans un arbre quaternaire générique, dont les nœuds sont appelés nœuds génériques. Chaque nœud générique n représente tous les nœuds n des arbres quaternaires des images de la base, et contient toute l information pour recomposer la valeur du nœud de même identification dans chaque arbre quaternaire Exemple2. La figure5 représente l Arbre Quaternaire Générique des images de la figure4 le nœud générique 0 contient une seule ligne de valeur Int : elle signifie que les nœuds 0 sont internes dans les arbres quaternaires de toutes les images de l ensemble Fig.5. L'arbre Quaternaire Générique des images de la figure4. 7 La recherche d images Dans le domaine de l imagerie, il existe plusieurs façons de mesurer la ressemblance entre images dans une base d images, à une image requête. La définition de la similarité dépend beaucoup de la manière avec laquelle l image est recherchée. 6

La définition générale de la distance entre des images représentées en arbres quaternaires. Cette distance, notée (i,j) [5], permet de mesurer la similarité entre les images i et j. 8 Distances de similarité basées sur les arbres quaternaires La recherche d image par le contenu est basée sur la similarité des caractéristiques visuelles des images. La fonction de distance utilisée pour évaluer la similarité entre images dépend des critères de la recherche mais également de la représentation des caractéristiques de l image. L idée principale est généralement d associer à chaque image un arbre quaternaire représentant les caractéristiques de l image, et de mesurer la similarité des images en utilisant une fonction de distance entre ces arbres. 8.1 Définition de la distance entre images La distance est une distance entre images représentée par des arbres quaternaires. La distance entre deux images i et j est définie par une somme de distance ( i, j) entre les nœuds des arbres quaternaires représentant les images i et j, pondérées par des coefficients C tel que C > 0 : ( i, j ) c ( i, j ) / K K c K Δ (i,j) est une distance normalisée entre les noeuds homologues des arbres quaternaire i et j. est l identificateur d un noeud pris parmi l union des identificateurs de nœuds apparaissant dans les arbres quaternaires des images i et j. C est un coefficient positif représentant le poids du noeud dans le calcul de la distance Chaque poids C est choisit selon l importance qu'on souhaite donner à certains quadrants d image par rapport à d autres dans le calcul de la distance. 7

8.2 Cas particuliers de la distance En fonction des différents poids C associés aux nœuds et de la distance choisie entre les nœuds, plusieurs types de distances peuvent être définies à partir de la distance : La distance T (T pour Tree) : Cette distance permet la comparaison de la structure de deux arbres quaternaires représentant des images, sans tenir compte de la valeur des nœuds feuilles la distance ( i, j) entre les nœuds d arbre quaternaire ne prend que 2 valeurs : 0 lorsque les deux noeud sont tous les deux internes ou tous les deux feuilles et 1 lorsque le noeud est feuille dans un arbre quaternaire et interne dans l autre ou lorsque le nœud existe seulement dans un arbre. La distance Q (Q pour quadrant) : Cette distance compare deux arbres quaternaires non seulement du point de vue de leur structure, mais également du point de vue des valeurs de leurs nœuds. La distance ( i, j) entre les nœuds d arbres quaternaires prend la valeur 0 lorsque tous les noeuds homologues sont tous les deux internes ou tous les deux feuilles avec la même valeur ; la valeur 1 lorsque le noeud est feuille dans un arbre quaternaire et interne dans l autre ou lorsque le nœud existe seulement dans un arbre et une valeur comprise entre ]0,1[ lorsque les deux nœuds sont à la même position mais leurs valeurs sont différentes Cette distance Q est utilisée dans notre prototype d indexation des images de la base. La distance V (V pour visuel): Lors du calcul de la distance entre deux images i et j, les arbres quaternaires de ces images sont complétés pour avoir la même structure. On ne tient compte alors que des valeurs des nœuds ( ( i, j) = 0 pour tous les noeuds internes ). 9 Implémentation Le système d indexation et de recherche d images (REQUIT) que nous avons développé en C++, permet de représenter des images Noir et Blanc, niveau de gris ou couleur, par des quadtree dont le critère de découpage est l homogénéité de la couleur. La base d images obtenue est stocée sous forme d un arbre quaternaire générique sans partage implicite (ARGSPI).Ce prototype permet à l utilisateur de choisir les opérations qu il désire effectuer sur la base d images telles que : Afficher une image, la stocer sous forme d arbre quaternaire, l insérer ou la supprimer de la base 8

Rechercher des images similaires à une image requête suivant différents critères (utilisation des distances T, Q, V) ou rechercher des images ayant des régions similaires. Réaliser des opérations sur les images telles que l Union, l intersection, ect.. La figure suivante schématise l architecture générale de REQUIT Fig.6. Architecture du système REQUIT 9.1 Stocage des images Les images peuvent être stocées sous le format QT (en quadtree). Le prototype permet la lecture des images en format QT et leur conversion en bmp. Nous donnons un exemple d images stocées en QT et leurs tailles correspondantes : 9

9.2 Recherche d images Différents types de recherches ont été implantés dans ce logiciel : - la recherche globale - la recherche par région - la recherche par niveaux. La similarité entre images est calculée en fonction des trois distances définies dans la section 8. 92.1 Recherche de similarité globale 10

10 Résultats et discussions Le prototype a été testé sur plusieurs types de bases d images couleurs et niveau de gris. L interprétation des résultats obtenus est donnée à travers les remarques suivantes : 1. Le taux de gain de stocage varie en fonction des tailles des bases. Le prototype est plus performant lorsque les tailles des bases sont importantes (voir figure 6). 2. Le gain de stocage augmente en fonction de la taille de la base. La figure 7 montre la variation du gain du taux de stocage en fonction de la taille des bases d images Gain 80,00% 70,00% 60,00% 50,00% 40,00% 30,00% 20,00% 10,00% 0,00% gain 60,00% 40,00% 20,00% 0,00% -20,00% -40,00% -60,00% 390 650 975 1300 1690 822 1318 1646 1726 1891 2056 2385-80,00% Image Tollari Taille Initiale images satellitaire niveau de gris taille initiale Fig.7 Variation du gain de stocage en fonction de la taille de la base d images 80 60 40 gain (%) 20 0-20 -40-60 Image Tollari Image nasa carte Image cartographiques images satellitaires niveau de gris 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 2400 2600 taille initile (Ko) Fig.8 Comparaison de différentes courbes Gain/Taille pour différentes bases d images 10 Conclusion Les systèmes de recherche d images par le contenu (Content-Based Image Retrieval systems) permettent de rechercher les images d une base de données en fonction de leurs caractéristiques visuelles. Dans ces systèmes, la requête est une image et le résultat de la requête correspand à une liste d images ordonnées en fonction de la similarité. Dans plusieurs domaines d application, l utilisation de descripteurs 11

résumant l information globale des images, tels que les histogrammes de couleurs des images entières, n offre pas toujours des résultats satisfaisants car cette description ne tient pas compte de la localisation des pixels et des régions d intérêt. Pour remédier à cette limite et tenir compte de la localisation des caractéristiques visuelles dans le calcul de la similarité des images, plusieurs approches ([1], [2], [3]) utilisent une structure spatiale, l arbre quaternaire (quadtree) [8].Une telle structure permet de stocer les caractéristiques visuelles des différentes régions d image et de filtrer les images en augmentant au fur et à mesure le niveau de détails. L utilisation de la distance entre images organisées en arbre quaternaires et stocées en arbre quaternaire générique, nous a permis d obtenir des résultats très satisfaisants. Comme perspectives nous tentons d extraire d autres caractéristiques de l image comme la texture, de les combiner afin d obtenir une meilleure description de l image améliorant ainsi la qualité de recherche future. References 1. AHMAD I., GROSKY W., Spatial Similarity-Based Retrievals and Image Indexing By Hierarchical Decomposition Int. Database Engineering and Applications Symposium (IDEAS), Montreal (Canada), (1997). http://www.cs.wayne.edu/billgrosy/papers97.htm. 2. LIN S., TAMER ÖZSU M., ORIA V., NG R., «An Extensible Hash for Multi-Precision Similarity Querying of Image Databases», Proc. of the 27th Int. Conf. on Very Large DataBase (VLDB 2001), Roma (Italy), 2001. 3. MALKI J., BOUJEMAA N., NASTAR C., WINTER A., «Region Queries without Segmentation for Image Retrieval by Content», 3rd Int. Conf. on Visual Information Systems (Visual 99), Amsterdam (The Netherlands), (1999). 4. M. Manouvrier. Objets de grande taille dans les bases de données. Thèse de doctorat informatique, université de paris, jan 2000 5. Geneviève Jomier, Maude Manouvrier,Vincent Oria,Marta Ruoz, «Indexation multiniveau pour la recherche globale et partielle d images par le contenu», coopération internationale CNRS-FONACIT/CDCH accord 11996 et projet PI-03-13-5028-2002. 6. NASTAR C., «Indexation d Images par le Contenu : un Etat de l Art», Compression et REprésentation des Signaux Audiovisuels (CORESA 97), Issy Les Moulineaux - France (1997) Journées CNET, http ://www-rocq.inria.fr/imedia/. 8. H.SAMET. The Design and Analysis of Spatial Data Structures. Addition Wesley, 1989. 12