08/10/2014 Acquisition et gestion de contenus numériques multimédia Introduction Valérie Gouet-Brunet et Michel Crucianu valerie.gouet@ign.fr, michel.crucianu@cnam.fr IGN / CNAM http://recherche.ign.fr/labos/matis/cours/master-siaw-mlv/ 8 Octobre 2014 Contenu du cours Introduction : motivations, paradigmes de recherche, descripteurs, indexation, applications Descripteurs d'images : descripteurs génériques globaux et locaux, descripteurs spécifiques Structures d'index multidimensionnels : Malédiction de la dimension, SR-tree, VA-file, LSH et variantes, indexation dans un espace métrique Recherche itérative, reformulation de requêtes Descripteurs de textes Recherche pluri-modale Catégorisation de bases d images 2 Valérie Gouet-Brunet / IGN 1
08/10/2014 Contexte Démocratisation de l imagerie numérique Grand public PC familial multimédia Appareil photo, magnétoscope numériques Numérisation et stockage de l information Plus pérenne que les bandes magnétiques Accès à l information plus facile Exemple 1 : IGN (plusieurs téraoctets pour la numérisation streetview du 12 ème arrdt de Paris) Exemple 2 : INA (240 000 h de vidéos numérisées, 800 000 h en 2015) Évolution des réseaux de communication Internet Télévision numérique Océan d images (fixes, animées) 3 Besoins des utilisateurs Avoir un aperçu du contenu de la base d images Partitionnement de la base résumé visuel de la base Naviguer dans la base «Chemins» pour la navigation Résumés alternatifs Détecter et reconnaître des composantes d images (visages, véhicules, ) Retrouver des images suivant différents critères Recherche d une image spécifique ou d un ensemble d images Recherche d une partie d image ou d un objet dans les images 4 Valérie Gouet-Brunet / IGN 2
08/10/2014 Indexation par le texte Par quoi indexer : mots-clés, graphes conceptuels, réseaux sémantiques Mots-clés : tournesol, soleil, Sud Approche la plus ancienne et la plus répandue Inconvénients Ambiguïté inhérente Subjectivité de l indexation Dépendance de la langue Coût de l annotation manuelle Dépendance du contexte Qualité de l annotation très variable 5 Indexation par le texte Agence photographique de la RMN Valérie Gouet-Brunet / IGN Dailymotion 6 3
08/10/2014 Indexation par le contenu visuel Indexation : extraction automatique de descripteurs significatifs et compacts, qui seront utilisés pour la recherche dans la collection ou pour la structuration de la collection Extraction de caractéristiques visuelles Signature (descripteur, index, empreinte) 7 Indexation par le contenu visuel Indexation : extraction automatique de descripteurs significatifs et compacts, qui seront utilisés pour la recherche dans la collection ou pour la structuration de la collection Prise en compte directe du contenu visuel mais manifestation possible du fossé sémantique Valérie Gouet-Brunet / IGN 8 4
08/10/2014 Indexation par le contenu visuel Recherche/ Détection / Reconnaissance Recherche d images, de parties d images ou d objets similaires Détection d objet est-ce que l objet X est présent dans l image? Reconnaissance d objet quel objet (ou classe d objet) est dans l image? Requête Recherche dans un grand volume de données? 9 Indexation par le contenu visuel Descripteurs des contenus visuels Domaine à l intersection de multiples disciplines Problème : bases d images volumineuses et/ou descripteurs coûteux Analyse d images Fouille de données Méthodes d accès pour les bases d images Statistique, Apprentissage automatique CBIR Content-Based Image Retrieval Bases de Données Variantes Psychologie, Neurosciences Théorie de l Information Interaction Homme-Machine CBCD (Content-Based Copy Detection), CBVR (Content-Based Video Retrieval), etc 10 Valérie Gouet-Brunet / IGN 5
08/10/2014 Domaines d application Applications scientifiques Imagerie satellitaire, aéroportée Exemples : OCS, suivi de l évolution de la végétation, évaluation de l impact des feux de forêt IGN Imagerie terrestre (streetview) Exemple : localisation basée image pour l aide à la navigation pédestre IGN IGN Imagerie médicale Exemple : quelles images indiquent une pathologie (but éducatif ou diagnostic) 11 Domaines d application Botanique Exemple : aide à l identification automatique de plantes Sécurité Exemples : biométrie (empreintes, iris), vidéosurveillance Pl ntnet M. Slaughter Valérie Gouet-Brunet / IGN 12 6
08/10/2014 Domaines d application Internet Exemples : commerce électronique, annotation et filtrage Web2.0 Design, publicité, architecture Like.com Exemples : rechercher texture spécifique pour l industrie textile, illustrer une publicité par une photo adéquate, détecter des tendances Audiovisuel Exemples : détection de copies (droits), retrouver un plan spécifique d un programme, annotation automatique de vidéos 13 Le CBIR dans l industrie Valérie Gouet-Brunet / IGN 14 7
08/10/2014 Définitions : descripteur, signature Descripteur d image Méthode d extraction du contenu visuel de l image (pertinent pour l application) Exemple : histogramme couleur Mesure de similarité associée Exemple : intersection d histogrammes Signature d image Vecteur numérique représentant le contenu visuel de l image Exemple : 1 vecteur de dimension 216 pour l histogramme couleur Espace de description (de représentation) des images 1 image = 1 ou plusieurs points dans un espace multimensionnel Espace de recherche dans la base d images Structuration de l espace de description pour une recherche efficace (index) 15 Définitions : index Qu est ce qu un index? Analyse d images Recherche d images par contenu visuel Bases de données En bases de données : l index d une base est une structure de données (multidimensionnelle) permettant de structurer la base pour un accès efficace aux données «Indexer une base d images» En image : l index d une image est sa signature «Indexer une image» 16 Valérie Gouet-Brunet / IGN 8
08/10/2014 Indexation d une image Traitement off-line Choix d un espace de représentation Calcul des descripteurs de l image dans cet espace Exemple : histogramme couleur de l image Définition d une mesure de similarité dans cet espace 17 Indexation d une base d images Construction de l index Stockage efficace des descripteurs en machine Structuration du nuage de points dans l espace des caractéristiques, pour réduire ultérieurement le coût de la requête Compromis entre Stockage des données (mémoire) Recherche dans l ensemble des données (temps de réponse) Index multidimensionnels B-tree, Kd-tree, R-tree, X-tree tables de hachage VA-files 18 Valérie Gouet-Brunet / IGN 9
08/10/2014 Architecture générale d un SRI SRI = Système de Recherche d Images Architecture client-serveur 19 Les SRI les mieux connus Quelques systèmes industriels QBIC (IBM, 1995) : http://wwwqbic.almaden.ibm.com ImageFinder (Attrasoft) : http://www.attrasoft.com Excalibur (Excalibur Technologies, 1996) : http://www.excalib.com Virage (Virage Technologies, 1996) : http://www.virage.com Milpix (2007) : http://www.milpix.com Idée Inc. (Visual Search Lab, Piximilar, TinEye) : http://labs.ideeinc.com Polar Rose (face recognition) : http://www.polarrose.com/ Reuters Labs (video search) : http://reuters.viewdle.com/searchm Bing (Microsoft, 2009) : http://www.bing.com Quelques systèmes académiques Ikona (INRIA Rocquencourt IMEDIA) : http://www-rocq.inria.fr/imedia/ Blobworld (Université de Californie Berkeley) Photobook (Massachussetts Institute of Technology) Viper (Université de Genève Computer Vision Group) SIMPLIcity (Stanford University) 20 Valérie Gouet-Brunet / IGN 10
08/10/2014 Principales difficultés 1. L invariance de la description Invariance possible à Translation, rotation image Changement de point de vue Changement d échelle Changement d illumination (interne, externe) Occultations Arrière-plans différents Caméras différentes (grand angulaire, etc.) Images de mauvaise qualité (processus d acquisition non maîtrisé, codage JPEG, etc.) Identifier les contraintes liées à l application Exemple : forts changement d échelle? D illumination? En inférer les changements auxquels les descripteurs doivent être invariants (ou au moins robustes) et les changements par rapport auxquels ils doivent être discriminants 21 Principales difficultés 2. La dimension de la description Dimension de la signature / Nombre de signatures par image Exemple 1 : 500 000 images décrites par un histogramme couleur décrit par un vecteur de dimension 216 recherche dans un espace de dimension 216 contenant 500 000 points Exemple 2 : 500 000 images décrites par 20 régions décrites par un vecteur de dimension 40 recherche dans un espace de dimension 40 contenant 10 millions (500 000 20) de points Déterminer le plus petit ensemble de grandeurs invariantes Problématique du passage à l échelle (bien connue en bases de données) 22 Valérie Gouet-Brunet / IGN 11
08/10/2014 Types de bases d images Bases génériques Contenu hétérogène (bases grand public, Internet, archives généralistes) 23 Types de bases d images Bases spécifiques Spécifiques à un domaine d application Contenu homogène (visages, empreintes digitales, imagerie satellite, monnaies ) 24 Valérie Gouet-Brunet / IGN 12
08/10/2014 Un exemple de descripteur L histogramme couleur Modélisation de la distribution des couleurs Couleur moyenne Histogramme des couleurs Moments Au préalable : choix d un espace de représentation des couleurs RVB, CMY, HSV, Lab, Luv, 25 Un exemple de descripteur L histogramme couleur Une signature couleur : l histogramme couleur Échantillonnage des couleurs de l image Ex : image codée sur 24 bits échantillonnée en 216 couleurs (= 6 6 6) Calcul de l histogramme pour chaque couleur : h(c) c 26 Valérie Gouet-Brunet / IGN 13
08/10/2014 Un exemple de descripteur L histogramme couleur Mesures de similarité entre histogrammes couleur Intersection d histogrammes Distances L 1 L 2 généralisée L 27 Un exemple de descripteur L histogramme couleur Acquisition et gestion http://www-rocq.inria.fr/imedia de contenus numériques multimédia / Introduction 28 Valérie Gouet-Brunet / IGN 14
08/10/2014 Paradigmes de recherche Initialisation de la recherche (problème de la page zéro) Recherche par l exemple Recherche itérative avec contrôle de pertinence Recherche par composition à partir d un thésaurus visuel 29 Initialisation de la recherche Initialisation aléatoire Présentation d un échantillon aléatoire d images Problème : les images montrées ne sont pas représentatives de la base Exemple : base Columbia (1440 images, 20 objets sous 72 points de vue) http://www-rocq.inria.fr/imedia 30 Valérie Gouet-Brunet / IGN 15
08/10/2014 Initialisation de la recherche Résumés visuels 1. Partitionner la base en classes Nombre de classes en général inconnu 2. Présenter à l utilisateur un bon représentant pour chaque classe Fournit un résumé de la base Facilite la recherche d une bonne image de départ Partitionnement et choix de représentants : traitements off-line http://www-rocq.inria.fr/imedia 31 Recherche par l exemple Objectif : retrouver les images similaires à une image exemple Paradigme le plus répandu et le mieux traité actuellement, de nombreuses applications y ont recours Méthode 1. Choix d un exemple (requête) par l utilisateur (image, partie d image) 2. Comparaison du descripteur de la requête avec ceux de la base Calcul de distances entre la requête et la base Parfois plusieurs descripteurs exemples (cas des descripteurs locaux ou des premières méthodes de contrôle de pertinence) 3. Recherche des images les plus proches Retourner l image la plus proche Retourner les k images les plus proches Retourner les images situées à une distance inférieure à une distance donnée ε p 32 Valérie Gouet-Brunet / IGN 16
08/10/2014 Recherche par l exemple globale Réponses classées par ordre de similarité visuelle décroissante Requête (ici l image entière) http://www-rocq.inria.fr/imedia 33 Recherche par l exemple locale Requête (ici une partie d image) http://www-rocq.inria.fr/imedia Valérie Gouet-Brunet / IGN 34 17
08/10/2014 Contrôle de pertinence Objectif : retrouver un ensemble d images pertinentes par rapport à la recherche en cours (caractérisées en général par des relations de similarité plus complexes) Principe : raffinement itératif exploitant les réponses de l utilisateur (qu on peut voir comme une recherche avec reformulation de requête) Étapes lors de chaque itération : 1. Le système montre des images candidates à l utilisateur 2. L utilisateur marque certaines des images comme étant des exemples positifs («ce que je cherche ressemble à ça») ou négatifs («ce que je cherche ne correspond pas à ça») 3. Le système affine son estimation de l ensemble d intérêt 35 Contrôle de pertinence : exemple Objectif : retrouver des peintures de Cézanne Disponible : description globale (couleur, texture, forme) Exemples positifs Exemples négatifs http://www-rocq.inria.fr/imedia 36 Valérie Gouet-Brunet / IGN 18
08/10/2014 Contrôle de pertinence : exemple (2) Réponses après plusieurs itérations : 12 images de peintures de Cézanne sur la première page http://www-rocq.inria.fr/imedia 37 Composition à partir de thésaurus Principe : construction d un représentant de l image mentale (la requête) par composition de prototypes de régions (thésaurus de régions) Exemple : recherche d un paysage urbain Formulation de la requête Composition logique correspondante Catégorie «régions à dominante verte» http://www-rocq.inria.fr/imedia 38 Valérie Gouet-Brunet / IGN 19
08/10/2014 Composition à partir de thésaurus (2) Résultat de la requête Exemples d images rejetées http://www-rocq.inria.fr/imedia 39 Valérie Gouet-Brunet / IGN 20