INDEXATION des IMAGES Marine Campedel www.tsi.enst.fr/~campedel mars 2005
Plan du cours Généralités Méthodes Indexation textuelle Indexation par le contenu Récupération de l information (retrieval) Feedback utilisateur Évaluation des systèmes Démonstrations Conclusion
Généralités Quelques chiffres : INA : 500 000 h video + 600 000 h audio + 2 000 000 de photos 82 Milliards de photos par an dans le monde 390 Millions d images indexées par Google 4250 films commerciaux par an (UNESCO) Motivations : Conservation d un patrimoine (culturel, scientifique, ) Valorisation en facilitant l accès et l exploration Exploitation commerciale (photos numériques, TV numérique, )
Généralités : quelles images? biomédical, satellitaires, photos, 2D ou 3D, 3 catégories générales Images d art (auteur, titre, ) Images documentaires (reliées à un texte) Images ordinaires Centres d intérêts actuels : Audio-vidéo, multimédia, 3D
Généralités : les acteurs Acteurs industriels QBIC (IBM), Virage, Netra NewPhenix (CEA)
Généralités : les acteurs Acteurs académiques VisualSeek (Columbia), IMEDIA (INRIA, Rocquencourt), RETIN (ETIS, Cergy), KIWI (Insa, Lyon), DIVAN (INA) Nombreux projets européens et nationaux
Généralités : définition Objectif de l indexation : faciliter l accès à des bases de données en extrayant une information synthétique. Fouille de données (Data Mining), Extraction de connaissances, Vision artificielle
Généralités Catalogue : Exploitation de données globales sur le document visuel, indépendantes du contenu Classification : Exploitation d une caractéristique globale du document visuel Indexation Exploitation d une analyse fine du contenu du document visuel
Introduction 1980 : Annotation textuelle des images 1990 : Indexation par la couleur, la forme et la texture 1993 : Requête en utilisant la similarité des images 1997 : Requête par images exemplaires et mesure de la pertinence (relevance feedback) 2000 : apprentissage sémantique et adaptation à l utilisateur Enjeux actuels : annotation interactive, formalisation de la connaissance (ontologies), grosses bases de données (problèmes de stockage, de vitesse d accès, ), données hétérogènes,
Indexation d images à partir du texte
Indexation d images à partir du texte ROME (AFP), 2005-06-11 13:10:52 L'Italienne Clementina Cantoni arrive vendredi 10 juin sur le sol italien après 25 jours de détention en Afghanistan
Indexation d images à partir du texte
Indexation d images à partir du texte
Indexation d images à partir du texte Une image illustre un document mais le document ne décrit pas forcément l image ; Le texte accompagnateur d une image ne suffit généralement pas La richesse du contenu d une image dépend du domaine de connaissances de celui qui la regarde ; Nécessité de modéliser ce domaine Aspects subjectifs du contenu Plus facile de faire une description des objets contenus dans l image que des émotions qui en résultent
Indexation d images à partir du texte Avantages : exploite les outils d indexation textuelle, prise en compte plus aisée des aspects sémantiques. Inconvénients : vocabulaire limité difficultés de l annotation : définition du vocabulaire, temps d annotation >> temps réel, subjectivité, etc.
Indexation d images à partir du texte
Ontologies Nécessité de définir un langage de description Limité par le contexte de production Limite l utilisation Définition d ontologies : modélisation du contexte (objets/concepts et relations entre eux) de façon à lever toute ambiguïté d interprétation «Le problème fondamental est de respecter la diversité des langages et des représentations du monde, tout en permettant l'échange d'information.[ ] Identifier, modéliser les concepts d'un domaine, pertinents pour une/des applications, Se mettre d'accord, au sein d'une communauté, sur les termes employés pour se référer à ces concepts.»
Taxonomie / Nomenclature Réduction couramment utilisée : Classification Exemple : Corine Land cover Surfaces artificielles Surfaces cultivées Forêts et espaces semi naturels Surfaces humides eau Usine urbaine Transports Réseaux routiers Ports Aéroports
Indexation par le contenu : principe (1/2) Images Extraction de caractéristiques Requêtes utilisateur Sélection de caractéristiques Caractéristiques Caract.+ étiquettes Apprentissage Non supervisé Apprentissage supervisé Modèles Modèles étiquetés
Principe (2/2) Off-line : production d indexes issus de l analyse du contenu des images Extraction de caractéristiques pertinentes Réduction de la dimensionnalité Organisation par classification On-line : gestion des requêtes d un utilisateur «Gap sémantique» Relevance feedback
Extraction de caractéristiques (1/2) Caractéristiques : Spécifiques : points saillants, minuties, Générales : couleur, texture, forme Globale ou locale : Blocs arbitraires, segmentation, information topologique
Extraction de caractéristiques
Extraction de caractéristiques (2/2) Problème de représentation Caractéristiques numériques, symboliques, graphes, Invariances Translation, rotation, homothétie, non-linéaires?
Extraction de caractéristiques
Caractéristiques et notion de similarité
Images similaires?
Similarité de l information (1/5) Visuellement similaires?
Similarité de l information (2/5)
Similarité de l information (3/5) Deux images seront comparées par l intermédiaire des caractéristiques extraites Sim( Im1, Im2 ) = Sim( f(im1), f(im2) ), avec f la fonction d extraction des caractéristiques Mesures de similarités, distances (A) s( x, x ) = s( y, y ) > s( x, y ) (B) s( x, y ) = s( y, x ) (C) d( x, x) = 0 (D) d(x,y) = 0 x = y (E) d(x, y) <= d(x,z) + d(z,y) (F) d(x,y) <= max( d(x,z), d(z,y) ) similarité dissimilarité distance Ultra-métriqu
Similarité de l information (4/5) Distance euclidienne Distance euclidienne généralisée Malahanobis Chi2 Similarité en cosinus Combinaisons linéaires de similarités (ou distances)
Similarité de l information (5/5) Comparaison des caractéristiques après une transformation F «Truc du noyau» K(x,y) = < F (x), F (y)>, K semi-defini positif D(x,y) = <x,x> + <y,y> -2<x,y> devient D(F (x), F (y) ) = K(x,x) + K(y,y) -2K(x,y) Intérêt : la spécification de K définit implicitement F Intensivement utilisé pour ACP, la discrimination de Fisher, la classification SVM,
Réduction d information (1/2) Réduction de la dimensionnalité ACP Algorithmes de sélection Quantification (forme de clusterisation)
Réduction d information (2/2) Sélection = Mettre des poids sur chaque caractéristiques Automatiquement : Supervisé, non supervisé Supervisé, wrapper : SVM-RFE, Fisher, Non supervisé, filter : clusterisation des caractéristiques
Organisation de l information (1/2) Classification : données X (caractéristiques) et label Y Exemples : kppv, SVM, Bayes, arbres de décision (C45.1) Évaluation d une classification : Décompte des erreurs Validation croisée
Organisation de l information (2/2) Clusterisation : données X Partitionnement : kmeans Hiérarchique : arbres Minimiser la distance intra-classes et maximiser la distance inter-classes Évaluation : pas évidente Estimation du nombre de clusters : indexes de Calinsky, Davies Bouldin, Dunn, Mesure de la qualité?
Gestion de l information SGBD Systèmes de Gestion de Bases de données Gestion informatique : interaction avec les requêtes utilisateur, temps d accès, place mémoire, Relationnel : SQL, mysql Objet Relationnel-objet : Oracle, PostGreSQL
Requêtes Grande diversité Les systèmes imposent des types de requête : Recherche d une image dans une base Recherche d images similaires à une image exemplaire Recherche d images similaires à des images exemples et dissimilaires à d autres Recherche d images contenant une région de l image exemplaire
Feedback utilisateur (1/2) Défaut majeur des systèmes standards : l utilisateur doit s adapter au système Caractéristiques extraites automatiquement non intuitives Fossé entre la formulation des requêtes et le codage de l information Nécessité d adapter le système à l utilisateur Apprentissage : requêtes, mesures de similarités
Feedback utilisateur (2/2) Images Extraction de caractéristiques Requêtes utilisateur Sélection de caractéristiques Caractéristiques Caract.+ étiquettes Apprentissage Non supervisé Apprentissage supervisé Modèles Modèles étiquetés
Évaluation (1/2) Graphe de rappel-précision calculé en faisant varier le nombre de documents sélectionnés Documents pertinents Documents non pertinents Documents sélectionnés Documents non sélectionnés Documents trouvés et Documents oubliés : silence Documents hors contexte : bruit précision= documentstrouvés documentssélectionnés rappel = documentstrouvés documents pertinents
Évaluation (2/2) : autres critères Exploitation du rang de récupération Critère de validation de MPEG7 Rank*(k) = rang(k) si < K(q), 1.25K sinon AVR(q) : moyenne des rangs MRR(q) = AVR(q) 0.5( 1 + NG(q) ) NMRR(q) = MRR(q) / ( 1.25K 0.5(1+NG(q)) ) Critère final : moyenne des NMRR Notations : q = 1 requête ; k = une image pertinente pour la requête ; NG(q) nombre d images pertinentes pour la requête ; K limite de rang acceptable
Normalisation : MPEG 7 (1/2) MPEG : Motion Picture Expert group MPEG7 : A Multimedia Content Description Interface, normalisé en 2001 Standard de description du contenu de données multimédia + interprétation du sens de l information S appuie sur XML (langage à balises) Un éditeur gratuit d IBM (pour indexer des videos) www.alphaworks.ibm.com/tech/videoannex
Normalisation : MPEG 7 (2/2) Définitions de caractéristiques bas niveau : //www-iplab.ece.ucsb.edu/publications/01ieeemanjunath.htm Évaluation des caractéristiques sur des bases étiquetées manuellement
Démonstrations Images 3D : http://3d.csie.ntu.edu.tw/
Démonstrations
Démonstrations Ding-Yun Chen, Xiao-Pei Tian, Yu-Te Shen and Ming Ouhyoung, "On Visual Similarity Based 3D Model Retrieval", Computer Graphics Forum (EUROGRAPHICS'03), Vol. 22, No. 3, pp. 223-232, Sept. 2003
Démonstrations www-rocq.inria.fr/imedia/ikona Feedback utilisateur
Conclusion Indexation des images : problème non résolu Experts issus de domaines variés (informatique, traitement de l image, psycho visuel, apprentissage machine, ) Deux axes à étudier simultanément : Techniques d analyse d image donc d extraction et de comparaison de l information Pertinence de l information pour un utilisateur Produits commerciaux encore basiques quoique