Bases de données multimédia Séance 1 : Introduction Michel Crucianu (Cnam) Valérie Gouet-Brunet (IGN) http://cedric.cnam.fr/~crucianm/bdm.html Contenu du cours Introduction : motivations, applications, paradigmes de recherche, descripteurs, indexation, évaluation Descripteurs d images : descriptions de l apparence visuelle, description issue des méta-données Index multidimensionnels : types de requêtes, types de méthodes, index centralisés ou distribués Recherche par similarité, recherche itérative avec contrôle de pertinence, recherche pluri-modale Catégorisation de bases d images : méthodes non supervisées et semi-supervisées, passage à l échelle 5 janvier 2015 Bases de données multimédia 2 CNAM 1
Planning prévisionnel 1 : Introduction 2 : Description des images (Valérie Gouet-Brunet) 3 : Structures d index 1 (Valérie Gouet-Brunet) 4 : Structures d index 2 (Valérie Gouet-Brunet) 5 : Structures d index 3 6 : Recherche itérative 7 : Recherche pluri-modale. Catégorisation d images 8 : Exposés des étudiants 5 janvier 2015 Bases de données multimédia 3 Contexte Croissance explosive de la production de contenus numériques Grand public : démocratisation de l imagerie numérique Industrie audiovisuelle : mondialisation des programmes Spécialisés : observation de la terre, vidéosurveillance, imagerie médicale Stockage numérique Forte diminution du coût par gigaoctet Croissance de la vitesse d accès Transmission / diffusion numérique Augmentation des débits Forte diminution du coût démocratisation diffusion / partage Très grands volumes de données multimédia à exploiter Intérêt croissant pour «big multimedia data», «multimedia analytics» 5 janvier 2015 Bases de données multimédia 4 CNAM 2
Besoins des utilisateurs Avoir un aperçu du contenu de la base d images Partitionnement de la base résumé visuel de la base Naviguer dans la base d images/vidéos «Chemins» pré-établis pour aider la navigation Résumés suivant des critères complémentaires Retrouver des images suivant différents critères Recherche d une image spécifique ou d un ensemble d images Recherche d une partie d image ou d un objet dans les images Découvrir les contenus redondants dans une base ou dans les réponses à une requête (par ex. variantes clip vidéo sur Youtube) Détecter et reconnaître des composantes (visages, véhicules, piétons, monuments ) et des situations 5 janvier 2015 Bases de données multimédia 5 Domaines d application Audiovisuel Exemples : détection de copies (droits), retrouver un plan spécifique d un programme, annotation automatique de vidéos Sécurité Exemples : biométrie (empreintes, iris), vidéosurveillance M. Slaughter Entrée Entrée Entrée Sortie Sortie Sortie 5 janvier 2015 Bases de données multimédia 6 CNAM 3
Domaines d application Internet Exemples : commerce électronique, annotation et filtrage Web2.0 Design, publicité, architecture Exemples : rechercher texture spécifique pour l industrie textile, illustrer une publicité par une photo adéquate, détecter des tendances Art, éducation Exemples : recherche encyclopédique d illustrations, d une œuvre d art spécifique Titre : Trickshot_Lambert Tags : le papillon Chaîne (catégorie) : sport Durée : 00:18 Pris le : 25 février 2007 Lieu : France Like.com Titre : Produce3 Tags : BILLARD POOL CLIP VIDEO POUR LE PLAISIR Durée : 02:23 Pris le : 03 novembre 2006 Lieu : France 5 janvier 2015 Bases de données multimédia 7 Domaines d application Bases d images satellitaires Exemples : suivre l évolution de la végétation, évaluer l impact des feux de forêt INRIA et IFN Bases d images botaniques Exemple : identifier les gènes qui interviennent dans une même chaîne de synthèse protéinique http://atlas.nrcan.gc.ca Bases d images médicales Exemple : quelles images indiquent une pathologie (but éducatif ou diagnostic) NASC http://arabidopsis.info 5 janvier 2015 Bases de données multimédia 8 CNAM 4
Recherche et fouille par le contenu Thématique émergente à l intersection de 3 grands domaines Apprentissage statistique Recherche / fouille par le contenu Analyse du contenu Bases de données 5 janvier 2015 Bases de données multimédia 9 Indexation par le texte Par quoi indexer : mots-clés, graphes conceptuels, Mots-clés : tournesol, soleil, Sud Approche la plus ancienne et la plus répandue Inconvénients Ambiguïté inhérente Dépendance du contexte Subjectivité de l indexation Dépendant de la langue Coût annotation manuelle Incomplétude inhérente Mots-clés : écusson,??? 5 janvier 2015 Bases de données multimédia 10 CNAM 5
Indexation par le contenu visuel Extraire automatiquement d une image des descripteurs significatifs et compacts, qui seront utilisés pour la recherche ou la structuration? Prise en compte directe du contenu visuel mais manifestation fréquente du fossé sémantique 5 janvier 2015 Bases de données multimédia 11 Types de bases multimédia Bases génériques Contenu hétérogène (bases grand public, Internet, archives généralistes) En général sans vérité-terrain naturelle Bases spécifiques Spécifiques à un domaine d application Contenu homogène (visages, empreintes digitales, monnaies ) En général avec vérité-terrain naturelle 5 janvier 2015 Bases de données multimédia 12 CNAM 6
Bases spécifiques : exemples 5 janvier 2015 Bases de données multimédia 13 Description du contenu visuel Séparation et description de caractéristiques h(c) Image : couleurs, textures, formes Vidéo : couleurs, textures, formes, mouvement c Identification de «composantes» Image : régions homogènes, points d intérêt, configurations ; objets, visages,... Vidéo : shots, régions à mouvement cohérent; scènes, personnes, objets, Manifestation du fossé sémantique (signal signification)! 5 janvier 2015 Bases de données multimédia 14 CNAM 7
Description du contenu audio Séparation et description de caractéristiques Temporelles, spectrales Description résumée ou séquence de descriptions Identification de «composantes» Séparation/segmentation voix/musique/bruit, événements sonores (exemples : but, explosion) 5 janvier 2015 Bases de données multimédia 15 Description des images : typologie Descripteurs génériques 1. Description globale (approximative) de l image 2. Description locale (potentiellement plus précise) Description de régions homogènes Description autour de points d intérêt Caractéristiques décrites : couleurs, textures, formes Descripteurs spécifiques Empreintes digitales : minuties Visages : EigenFaces, DSW Tendance actuelle : apprendre (deep learning), sur une grande base, des descripteurs adaptés à un type d images et / ou à un problème particulier à résoudre 5 janvier 2015 Bases de données multimédia 16 CNAM 8
Description globale de l image Description des couleurs Description des textures Description des formes Assembler les différents types de description pour décrire de façon plus complète chaque image 5 janvier 2015 Bases de données multimédia 17 Description locale de l image Segmentation en régions Détection de points d intérêt Description des régions Description (autour) des points Descripteurs de la région Descripteurs du point 5 janvier 2015 Bases de données multimédia 18 CNAM 9
Description des couleurs Choix d un espace de représentation des couleurs : RVB, CMY, HSV, Lab, Luv Critères : uniformité perceptive, Description par histogrammes couleur Échantillonnage des couleurs de l image Histogramme pondéré pour chaque couleur c : ~ M 1 N 1 1 h ( c) MN i0 j0 w( i, j) Pondération : variabilité ou uniformité locale Mesures de (dis)similarité entre histogrammes Métriques L 1, L 2, etc. Intersection d histogrammes f ( i, j) c h(c) c 5 janvier 2015 Bases de données multimédia 19 Recherche par similarité globale Description globale par histogrammes couleur pondérés Mesure de similarité L 1 5 janvier 2015 Bases de données multimédia 20 CNAM 10
Description des textures Principe : analyse spectrale en 2D 1. Basée sur la transformée de Fourier F( u) 2 R I( x) e i u x d x Inadaptée à la caractérisation de régions de forme quelconque 2. Basée sur les ondelettes Mieux adaptée à la caractérisation de régions de forme quelconque (analyse locale) Wf ( a, u, ) 1 ( x) R a x u a ( a,, ) f ( x) ( a,, ) 2 R u u ( x) d x 2 R ( x) d x 0 5 janvier 2015 Bases de données multimédia 21 x n n 1,, p 1 Description des formes Description globale : en général basée sur la détection de contours et la caractérisation de leur orientation Edge Orientation Histogram (EOH) Transformée de Hough Description de la forme d une région : nombreuses méthodes (voir [ZL04]), parmi lesquelles Moments (géométriques, Zernicke, Legendre, etc.) Spectre de la représentation en coordonnées polaires Curvature Scale-Space (CSS) Directional Fragment Histogram (DFH) [YB05] Description d une configuration de points Moments ACP à noyaux [Sah04] 5 janvier 2015 Bases de données multimédia 22 CNAM 11
Segmentation en régions homogènes Nombreuses méthodes, avec des objectifs et des domaines d applications différents [PP93] Critères d homogénéité suivant les objectifs, souvent liés à la couleur locale, parfois à la texture locale Segmentation grossière Segmentation fine http://lmb.informatik.uni-freiburg.de/people/siggelkow/ /biotim/ 5 janvier 2015 Bases de données multimédia 23 Détection de points d intérêt Point d intérêt = site «informatif» de l image Kitchen et Rosenfeld : détecteur de coins sur les contours 2 2 I xx I y 2 I xy I x I y I yy I x maximiser K 2 2 I 3 2 x I y Harris précis niveaux de gris : bonne robustesse 1. Calcul des dérivées premières, après lissage gaussien 2. Calcul de M (avec lissage gaussien) 2 I x I x I y M S I 2 x I y I y 3. Calcul des maxima locaux de 2 det M k trace M, k 0. 04 Harris précis couleur Harris Laplace, etc. /biotim/ 5 janvier 2015 Bases de données multimédia 24 CNAM 12
Caractérisation des points d intérêt Description photométrique locale autour d un point d intérêt détecté Objectifs : invariances (transformations affines, changement d illumination, changement de point de vue), parcimonie Descripteurs : Jet local : coefficients de la série de Taylor (jusqu à l ordre n) Invariants différentiels de Hilbert ; R généralisés à la couleur : HCP 2 R ordre 1 : G 2 G B 2 B SIFT [Low04], etc. R G R B 5 janvier 2015 Bases de données multimédia 25 Points d intérêt : exemple 1 Requête Description locale des points d intérêt Recherche par similarité entre ensembles de points 5 janvier 2015 Bases de données multimédia 26 CNAM 13
Points d intérêt : exemple 2 Requête 5 janvier 2015 Bases de données multimédia 27 Description par points d intérêt Avantages Recherche de parties ou d objets (élimination de l arrière-plan) Sélection dynamique de la requête (dite partielle) Robustesse aux transformations image Robustesse aux occultations Inconvénients Coûteux en temps de recherche Exemple : 500 000 images décrites par 300 points d intérêt décrits par un vecteur de dimension 17 recherche dans un espace de dimension 17 contenant 150 millions de points (500 000 300) Nécessité de structurer l espace de recherche avec un index multidimensionnel 5 janvier 2015 Bases de données multimédia 28 CNAM 14
Détection et reconnaissance d objets Méthodes en général basées sur Apprentissage supervisé (réseaux de neurones, SVM, boosting) Descripteurs locaux (et configuration spatiale) : robustesse à l occultation partielle et à différentes transformations. Couplage avec la forme Qu est-ce qui change pour la vidéo? Mouvement facilite la détection des objets en mouvement Redondance temporelle détection et reconnaissance plus robustes Des efforts à faire pour Reconnaissance d un nombre élevé de classes d objets (> 100 ) Rapidité de la reconnaissance http://cedric.cnam.fr/vertigo 5 janvier 2015 Bases de données multimédia 29 Visages : détection Méthodes en général basées sur Apprentissage supervisé (cascade de SVM, boosting [VJ01]) Descripteurs spécifiques (par ex. ondelettes de Haar) Des efforts à faire pour Détection de visages de profil Diminution du taux de faux positifs (sans augmenter excessivement le taux de faux négatifs) http://vasc.ri.cmu.edu/nnfacedetector/ 5 janvier 2015 Bases de données multimédia 30 CNAM 15
Visages : reconnaissance Méthodes en général basées sur Apprentissage supervisé (réseaux de neurones, SVM, boosting) Descripteurs spécifiques Des efforts à faire pour Reconnaissance de visages de personnes non coopératives Reconnaissance d un nombre élevé de visages différents Reconnaissance de visages de profil http://www.myheritage.com 5 janvier 2015 Bases de données multimédia 31 Recherche par contenu : paradigmes Initialisation de la recherche (problème de la page zéro) Requête externe (image fournie par l utilisateur) Résumés visuels Recherche par l exemple Globale, approximative Locale, précise (requêtes partielles) Recherche itérative avec contrôle de pertinence Raffinement itératif exploitant les réponses de l utilisateur Recherche par image mentale Recherche par composition à partir d un thésaurus visuel Recherche itérative d une image cible 5 janvier 2015 Bases de données multimédia 32 CNAM 16
Initialisation aléatoire Présentation d un échantillon aléatoire d images Problème : les images montrées ne sont pas représentatives de la base Exemple : base Columbia (1440 images, 20 objets sous 72 points de vue) 5 janvier 2015 Bases de données multimédia 33 Résumés visuels 1. Partitionner la base en classes Nombre de classes en général inconnu 2. Présenter à l utilisateur un bon représentant pour chaque classe Fournit un résumé de la base Facilite la recherche d une bonne image de départ Partitionnement et choix de représentants : traitements hors ligne (off-line) NASC http://arabidopsis.info 5 janvier 2015 Bases de données multimédia 34 CNAM 17
Recherche par l exemple Objectif : retrouver les images similaires à une image exemple Paradigme le plus répandu et le mieux traité actuellement, de nombreuses applications y ont recours Méthode 1. Choix d un exemple (requête) par l utilisateur (image, partie d image) 2. Comparaison du descripteur de la requête avec ceux de la base Calcul de distances entre la requête et la base Parfois plusieurs descripteurs exemples (cas des descripteurs locaux ou des premières méthodes de contrôle de pertinence) 3. Recherche des images les plus proches Retourner l image la plus proche Retourner les k images les plus proches Retourner les images situées à une distance inférieure à une distance donnée q 5 janvier 2015 Bases de données multimédia 35 Recherche globale par l exemple Requête (ici, l image entière) Réponses classées par ordre de similarité visuelle décroissante 5 janvier 2015 Bases de données multimédia 36 CNAM 18
Recherche locale par l exemple Requête (ici une partie d image) 5 janvier 2015 Bases de données multimédia 37 Contrôle de pertinence Objectif : retrouver un ensemble d images pertinentes par rapport à la recherche en cours (caractérisées en général par des relations de similarité plus complexes) Principe : raffinement itératif exploitant les réponses de l utilisateur (qu on peut voir comme une recherche avec reformulation de requête) Étapes lors de chaque itération : 1. Le système montre des images candidates à l utilisateur 2. L utilisateur marque certaines des images comme étant des exemples positifs («ce que je cherche ressemble à ça») ou négatifs («ce que je cherche ne correspond pas à ça») 3. Le système affine son estimation de l ensemble d intérêt 5 janvier 2015 Bases de données multimédia 38 CNAM 19
Contrôle de pertinence : exemple Objectif de la recherche : retrouver des portraits Base de 7500 images, dont 110 portraits Disponible : description globale (couleur, texture, forme) 120 dimensions 1 2 o o 3 o o o o o [FCB04] 5 janvier 2015 Bases de données multimédia 39 Composition à partir de thésaurus Principe : construction d un représentant de l image mentale (la requête) par composition de prototypes de régions (thésaurus de régions) Exemple : recherche d un paysage urbain Formulation de la requête Composition logique correspondante Catégorie «régions à dominante verte» 5 janvier 2015 Bases de données multimédia 40 CNAM 20
Composition à partir de thésaurus (2) Résultat de la requête Exemples d images rejetées 5 janvier 2015 Bases de données multimédia 41 Fouille par similarité Jointure avec seuil de distance, ensembles D 1,D 2 avec N 1 et respectivement N 2 éléments K x, y xd1, y D2, dx, y complexité O(N 1 x N 2 )? Auto-jointure : D1 D 2 complexité O(N 2 )? (variante sans seuil de distance : jointure top-k) 5 janvier 2015 Bases de données multimédia 42 CNAM 21
Architecture générale d un SRM SRM = Système de Recherche Multimédia Architecture client-serveur OFF-LINE Base de contenus multimédia Extraction de signatures Base de signatures Index ONLINE Document multimédia requête Extraction de signatures Recherche par similarité Documents similaires 5 janvier 2015 Bases de données multimédia 43 Quelques SRM Systèmes industriels QBIC (IBM, depuis 1995) : http://wwwqbic.almaden.ibm.com ImageFinder (Attrasoft) : http://www.attrasoft.com Virage (Virage Technologies, 1996) : http://www.virage.com Systèmes académiques IMEDIA (INRIA Rocquencourt) : / SAPIR (projet Européen) : http://milos.isti.cnr.it:8080/milos/album/ Tiltomo : http://www.tiltomo.com Synthèses : [LSDJ06], [DJLW08] 5 janvier 2015 Bases de données multimédia 44 CNAM 22
Indexation d une image Traitement off-line Choix d un espace de représentation Calcul des descripteurs de l image dans cet espace Exemple : histogramme couleur de l image Représentation compacte ( de données, de sémantique) Définition d une mesure de similarité dans cet espace 5 janvier 2015 Bases de données multimédia 45 Indexation d une base d images Volumétrie des données Exemple 1 : 1 000 000 images décrites par 20 régions décrites par un vecteur de dimension 40 recherche dans un espace de dimension 40 contenant 100 millions (500 000 20) de vecteurs Exemple 2 : 20 000 heures de vidéo décrites par des points d intérêt représentés par des vecteurs de dimension 30 recherche dans un espace de dimension 30 contenant env. 20 milliards de vecteurs Nécessité de rendre la recherche efficace (aussi lors des processus de classification, modélisation, décision) Méthodes de structuration (indexation multidimensionnelle) Partitionnement des données : R-tree, SR-tree, M-tree, Partitionnement de l espace : KDB-tree, LSD-tree, Filtrage des données : VA-file, 5 janvier 2015 Bases de données multimédia 46 CNAM 23
Principe de l indexation d une base (N données recherche exhaustive O(N)) Hypothèses 1. Seules les données «proches» sont utiles 2. Peu de données sont proches 3. Les données proches sont bien plus proches que les autres Illustration : regroupement hiérarchique 1 nœud 1 page disque Parcours de l arbre en partant de la racine Idéalement O(log N) nœuds traversés O(log N) calculs de distance O(log N) échanges E/S 2 N données coût log N cst.! (voir aussi [Cru12]) A G D B F E q A B C o n D E F r n G C 5 janvier 2015 Bases de données multimédia 47 Évaluation 1. Évaluation directe avec les utilisateurs Complexe à mettre en place Coûteuse 2. Évaluation à partir d une vérité-terrain En général, la base est partitionnée en classes de même effectif, mutuellement exclusives Notations : N images, C classes, m (= N/C) images par classe Mesures de performances Courbes de précision/rappel Matrices de confusion Courbes ROC (Receiver Operating Characteristics) Rapidité de convergence de la recherche itérative 5 janvier 2015 Bases de données multimédia 48 CNAM 24
Courbes précision / rappel Base vérité-terrain Exemple de classe Pour k images retournées et classes d effectif m, Précision : proportion d images retournées faisant réellement partie de la classe (= k / k) Rappel : proportion d images retournées de la classe (= k / m) Courbe précision/rappel : comptabilise la précision pour chaque rappel 1/m, 2/m,, 1 1 2 3 4 5... Requête 5 janvier 2015 Bases de données multimédia 49 Courbes précision / rappel : exemple 5 janvier 2015 Bases de données multimédia 50 CNAM 25
Courbes ROC : sensitivité, spécificité Évaluation de la discrimination entre présence d une classe et absence de la classe (ex. : détection d objets) Table de vérité Vérité terrain Classe présente Classe absente Détecteur Classe détectée Vrai Positif Faux Positif Classe non détectée Faux Négatif Vrai Négatif Sensitivité et spécificité pour un seuil de décision fixé VP VP Sensitivité Total positif VP FN FP FP VN 1 Spécificité 1 Total négatif VN FP VN FP 5 janvier 2015 Bases de données multimédia 51 Courbes ROC Courbe ROC (Receiver Operating Characteristics) : sensibilité vs. 1-spécificité pour différents seuils de décision 1 Sensibilité 0.8 0.6 0.4 0.2 Seuil = 0.6 Seuil = 0.4 Seuil = 0.2 0 0 0.2 0.4 0.6 0.8 1 1- Spécificité 5 janvier 2015 Bases de données multimédia 52 CNAM 26
Rapidité de convergence Proportion des images de la classe retrouvées après n itérations (gauche) ou clicks (droite) 5 janvier 2015 Bases de données multimédia 53 Accélération de la recherche [HS05] 5 janvier 2015 Bases de données multimédia 54 CNAM 27
Bibliographie [Cru12] M. Crucianu (2012) Scalability issues in visual information retrieval. Dans : J. Benois- Pineau, F. Precioso, M. Cord (eds) Visual indexing and retrieval. Springer Verlag, 2012, pp. 65-81, ISBN 978-1-4614-3587-7. [DJLW08] R. Datta, D. Joshi, J. Li, J. Z. Wang. Image Retrieval: Ideas, Influences, and Trends of the New Age. ACM Computing Surveys 40: 1-60, 2008. [FCB04] Ferecatu, M., Crucianu, M., Boujemaa, N. Retrieval of Difficult Image Classes Using SVM- Based Relevance Feedback. In Proceedings of the 6th ACM SIGMM International Workshop on Multimedia Information Retrieval, New York, 2004, pp. 23-30. [Low04] D. G. Lowe, Distinctive image features from scale-invariant keypoints, International Journal of Computer Vision 60: 91-110, 2004. [PP93] N.R. Pal, S.K. Pal. A review on image segmentation techniques, Pattern Recognition 26: 1277-1294, 1993. [VG01] P. Viola, M. Jones. Rapid object detection using a boosted cascade of simple features. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (Kauai, HI). IEEE Computer Society Press, 2001, 511-518. [ZL04] D. Zhang, G. Lu. Review of shape representation and description techniques. Pattern Recognition 37: 1, 2004, 1-19. 5 janvier 2015 Bases de données multimédia 55 CNAM 28