Bases de données multimédia I - Introduction

Transcription

1 Bases de données multimédia I - Introduction ENSIMAG 2009 Hervé Jégou & Matthijs Douze

2 Bases de données multimedia Deux intervenants: Hervé Jégou, Matthijs Douze, 12 x 1.5H = 18H de cours Évaluation : examen écrit

3 Au programme Introduction Gestion des bases de données multimédia Espaces de représentations Mesures de similarité Évaluation Description globale Description locale Techniques d indexation Recherche dans des espaces de grande dimension Indexation Vidéo Catégorisation des images Indexation Audio

4 Base de données Une base de données est un ensemble structuré et organisé permettant le stockage de grandes quantités d'informations afin d'en faciliter l'exploitation (ajout, mise à jour, recherche de données). Wikipedia

5 Multimédia Qui utilise plusieurs moyens de diffusion Qui concerne plusieurs média Diffusé par plusieurs média Adj: Qui utilise ou concerne plusieurs médias Media: Tout support de diffusion de l information constituant à la fois un moyen d expression et un intermédiaire transmettant un message à l attention d un groupe

6 Multimédia Le mot multimédia est apparu vers la fin des années 1980, lorsque les CD-ROM se sont développés. Il désignait alors les applications qui, grâce à la mémoire du CD et aux capacités de l'ordinateur, pouvaient générer, utiliser ou piloter différents médias simultanément [ ] Aujourd'hui on utilise le mot multimédia pour désigner toute application utilisant ou servant à travailler sur au moins un média spécifique. [ ] Par ailleurs, en recherche en informatique, on nomme multimédia l'étude des médias non textuels, principalement les images, les vidéo et les sons. Wikipedia Note : Wikipedia est une encyclopédie libre. La qualité des informations présentes est généralement bonne, mais le contenu ne provient pas systématiquement d expert et ne présente pas de garantie.

7 Multimédia : définition de travail Des contenus pouvant être de différents types, en particulier Texte Son Image Vidéos Qui peuvent être combinés Caractérisés par des besoins de stockage très importants

8 Ordres de grandeur Volume unitaire de stockage. Valeurs typiques : Stockage brut Compression sans perte Compression avec perte Texte (Descartes, discours de la méthode, ) 125 Ko Gzip: 42 Ko N/A Photo (6 Mpixels) 18 Mo Gzip*: 12 Mo 1 Mo Album de musique 750 Mo FLAC: 406 Mo 75 Mo Un film de 100 minutes (720x576) 180 Go X 700 Mo *: l utilisation d un algorithme de compression d image dédié lossless (sans perte) améliore un peu ce taux de compression

9 Ordres de grandeur Nombre d unités Internet visible nécessite seulement 5-10 To de capacité de stockage Août 2007: 61 milliards de recherches sur Internet recensées Images : par exemple, Flickr, Web ordre de grandeur: milliard à dizaine de milliards d images Films : recense plus de films Croissance très importante, en raison de l accumulation des contenus numériques auto-produits par le grand public : 1578 images uploaded in the last minutes extrapolation : 2M d images images par jour, 800M d images par an : 100M de vidéos délivrées chaque jour (hypothèse basse) Images/vidéo spécifiques : photos satellites, vidéo-surveillance, etc

10 Chaîne du multimédia : besoins Génération : outils de production et de création Représentation : utilisation de formats de représentations différentes Stockage Transmission : problème de réseaux, architecture Recherche d information : recherche basée sur le contenu Distribution : conception de serveur de streaming

11 Applications types News/Films à la demande Commerce electronique Informations médicales Systèmes d informations géographiques Architecture/Design Protection du copyright Géo-localisation Enquêtes policières Militaire Expérimentations scientifiques Enseignement Archivage, gestion des bases de données de contenu (personnelles ou professionnelles) Moteur de recherche (ex: Internet) Applications industrielles Dans les cours suivants : focus sur la partie recherche et indexation dans de grandes bases d images et de vidéos

12 Bases de données multimédia II Gestion des bases de données multimédia

13 Base de données multimédia Multimedia Database (MMDB) Initialement traitées comme des bases standards Objets multimédia traités comme un seul item comme champs au sein d une base de données relationnelle (ex: Oracle, LOB Large Object) Recherche sur mots clés introduits manuellement dans le système par la personne : nécessité d un système d annotation, par exemple Tag ID3 dans le MP3 Information Exif Utilisation des relations entre objets Recherche sur les mots présents dans les pages Web conjointement avec l objet multimédia

14 Base de données standard Une base de données (DB) relationnelle est un ensemble de mise en relation. Un système de gestion de base de données (DBMS) est un logiciel facilitant la création, la maintenance et la manipulation d une base de données. Il garantit sécurité et intégrité de la base. Oracle, DB2, Sybase, PostgreSQL, Mysql Système de base de données = la base + le système de gestion Points clés : Indépendance des données : données et logiciels de gestion séparés Indépendant du mode de stockage ou de représentation de la base Abstraction des données : représentation conceptuelle Auto-suffisance de la base de données. Pas de relation avec des données externes.

15 Relations entre données Bases de données relationnelles : définition d ensembles et de relations entre ces ensembles ensemble composés d entités du même type caractérisé par des champs de type simple (chaînes de caractères, de valeurs numériques, etc) relations entre objets bien définies (est en relation ou non) utilisation d un langage de requête par prédicat (en particulier SQL) Succès important de ce type de système répond à la plupart des besoins impliquant des données simples accroît l indépendance des données Dans un contexte de données de type signal : nécessite la présence d annotations (ou méta-données) et/ou d outils d analyse

16 Spécificités des bases de données multimédia (MMDB) Ex de requête impossible avec un SGDB classique : récupérer tous les images qui ressemblent à une image requête Grosky et Fotouhi (1) caractérisent le multimédia à partir du type d activité impliquée dans la création des données L information portée par le multimédia est tout ce qui peut venir du monde réel, alors que l information portée par une base de données classique ne peut être qu une représentation symbolique de faits limités à l univers de la base de données. Le développeur d une MMDB ne peut expliciter tous les aspects des données qui seront importants pour l utilisateur les informations ne peuvent se limiter à un ensemble de champs prédéfinis sauf pour certaines applications très spécifiques [1]. W.I. Grosky, F. Fotouhi and Z. Ziang. Multimedia data Management. Using metadata to integrate and apply digital media, chapter Using metadata for the intelligent browsing of structured media objets, pages In Sheth and Klas, 1998

17 Richesse des bases de données multimédia Apprendre un concept (ici les couleurs) à partir du monde réel [2] c est-à-dire Google ou tout autre base texte+images Conclusion de l article : utiliser Internet pour définir des couleurs de nouvelles images meilleurs résultats que de demander à un groupe de personnes [2]. J. Van-der-Weijer, C. Schmid and J. Verbeek, Learning Color Names from Real-world Images, CVPR 2007

18 MMDB avec contexte d utilisation limité Toutes les applications ne nécessitent pas de système de gestion sophistiqué en particulier celles qui correspondent à un besoin spécifique (type de requête unique ou limité) Pour de telles applications spécifiques : bases de données classiques + outils d analyse adaptés à l application Exemple : base de données sur le remplissage des stades à partir d images de retransmission

19 Objets actifs vs objets passifs Bertino et al [4] distingue les objets multimédia en actifs et passifs Objets actifs : participent au processus de recherche Cette image contient-elle une voiture? utilisation de la représentation de l image Les objets passifs se contentent d exister dans la base. Ils ne peuvent être retrouver qu au moyen d attributs (pas d utilisation de l objet pour la requête). Remarque : En général, dans une DB: recherche associative (rechercher des propriétés/objets inconnus à partir d attributs connus) = mode passif Une MMDB contenant des objets passifs de satisfait pas les besoins des utilisateurs : besoin de recherche d information sur le contenu des objets, non pas sur leurs attributs. Recherche par attributs limitée à une recherche exacte. Recherche par le contenu implique recherche approximative [3]. A. Hampapur and R. Jain. Multimedia data management. Using metadata to integrate and apply digital media, chaper Video data management systems: metadata and architecture, pages ,1998.

20 Contenu et meta-données Les données brutes (fichier image, fichier son) provenant d objets multimédia contiennent des informations sémantiques. Grosky [4] distingue La donnée brute (image, signal sonore) Les méta-données décrivant le contenu DEFINITION: le processus d abstraction permet de décrire le contenu d objets multimédia par des méta-données, soit manuellement, soit par des procédés (semi-)automatiques Ces meta-données proviennent soit de propriétés de descripteurs des objets (couleur moyenne d une image) ou d annotations manuelles. [4]. W.I. Grosky, F. Fotouhi and Z. Jiang. Multimedia data management. Using metadata to integrate and apply digital media, pages , 1998.

21 Annotations / Meta-données Une annotation textuelle sera toujours trop restrictive, même si elle prend en compte à la fois des informations syntaxiques et symboliques. Malgré cela, l approche la plus utilisée reste l annotation textuelle et manuelle Avantage : recherche indépendante du type de media Inconvénients Le coût d annotation manuel est très important Différentes personnes utilisent un vocabulaire différent pour signifier la même chose (ex: clair, lumineux). Connu sous le nom de problème du vocabulaire. L utilisation d un thésaurus ne règle pas tout. Différentes personnes peuvent décrire des aspects différents du média (polysémie du contenu), la même personne décrira différents aspects en fonction de la situation. Le non-verbal ne peut être exprimé sans ambiguité.

22 Une carte n est pas un territoire 1. Une carte n'est pas le territoire. les mots ne sont pas les choses qu'ils représentent. 2. Une carte ne couvre pas tout le territoire. les mots ne peuvent pas couvrir tout ce qu'ils représentent. 3. Une carte est auto-réflexive. dans le langage, nous pouvons parler à propos du langage. Alfred Korzybski, Une carte n'est pas le territoire

23 Systèmes d annotation : musique/image Musique 1. pas de tag prévu dans le format originel CD 2. Mais utilisation d un identifiant unique par CD (CDID) couplé avec un serveur qui associe des tags à chaque CDID annotation par les utilisateurs finaux 1. MP3 : utilisation de ID3 Images 1. annotation Exif, IPTC 2. (MIT)

24 ID3 Tags Conçu en 1996 et devenu de facto un standard 128 octets Position Taille Contenu 0 3 Marqueur TAG 3 30 Titre Interprète Album 93 4 Année Commentaire Genre musical Manque de souplesse de nombreuses extensions (ID3v1.1, ID3v2) mais qui ne pourront jamais répondre à tous les besoins

25 Exchangeable image file format (Exif) Spécification pour les formats d images des appareils numériques non géré par une organisation internationale, mais largement utilisé Pour JPEG, TIFF, RIFF. Ne supporte pas JPEG2000, PNG ou GIF Le format supporte Date et heure, enregistrés par l appareil Les paramètres de l appareil Dépendent du modèle : inclus la marque et des informations diverses telles que le temps d ouverture, l orientation, la focale, l ISO, etc. Une vignette de pré-visualisation La description et les informations de copyright Supporté par de nombreuses applications

26 Label Me (MIT)

27 Recherche approximative/par similarité L idée clé dans la recherche de média est la recherche approximative Utilise la notion de proximité, de similarité, de distance entre objets Généralement, la requête est exprimée sous la forme d un ou de plusieurs vecteurs dans un espace multi-dimensionnel. définition d une distance (ou mesure de dissimilarité) sur cet espace recherche des objets dont la distance est minimale Les vecteurs d attributs sont extraits de contenu de l image Recherche par le contenu (CBIR: content based information retrieval) Possibilité d utiliser un retour de pertinence

28 Retour de pertinence Possibilité de mettre l interaction au coeur du système parmi les réponses, le système identifie ce qu il trouve intéressant puis affinage de la requête par l utilisateur Utilisateur Retour de pertinence Liste triée Représentation De la requête MMDB

29 Fonctionnalités d un système de gestion de la MMDB Ce qu il doit (devrait) permettre Les objets multimédia peuvent être actifs Le processus de requête est interactif Le processus de requête peut utiliser plusieurs modes de représentation (ex: texte, puis image) Il doit posséder deux modes Gestion du contenu (ajout, modification des objets présents, suppression) Interrogation de la base Il doit pouvoir combiner des informations provenant de différents modes de représentation, utiliser le retour de pertinence pour affiner la recherche Nécessité d une interface utilisateur permettant la manipulation des objets existants, la présentation de résultats, le retour de pertinence

30 Indexation Structurer la base pour ne pas avoir à la parcourir entièrement à chaque recherche, comme dans un dictionnaire Nécessite de décrire le contenu avec des index portant sur les médias Difficulté : les médias en question sont représentés par des vecteurs de grande dimension The dimension curse La malédiction de la dimension Nous reviendrons largement sur cet aspect dans la suite de ce cours

31 Moteurs de recherche basés sur le contenu : non basé sur le contenu, utilisation de mots clés uniquement Critère de similarité global QBIC (Query By Image content) IBM 93 Virage 93 Photobook MIT 93 : description par la couleur : recherche par description locale

32 Bases de données multimédia III Mesures de comparaison et évaluation d un système de recherche d information ENSIMAG 2009 Hervé Jégou & Matthijs Douze

33 Mesures et évaluation : Plan A) Distances et mesures de similarité B) Mesures objectives, subjectives, psycho-visuelles C) Évaluation d un système de recherche d information

34 Distances et mesures de similarité : objectif Avoir un outil quantitatif pour répondre à la question Est-ce que deux entités X et Y se ressemblent? Lorsqu on désire comparer des entités, on cherche à obtenir un scalaire indiquant la proximité de ces entités La mesure utilisée répond à un objectif particulier, soit final, soit intermédiaire, par exemple comparer la qualité de reconstruction d une image compressée avec l image originale (objectif final) indiquer la similarité du contenu de deux images (objectif final) comparer les formes contenues dans deux images (objectif intermédiaire)

35 Distance Une distance d sur un ensemble E est une application de E x E dans R+ vérifiant les axiomes suivants : (P1) séparation: d(x,y) = 0 x = y (P2) symétrie : d(x,y) = d(y,x) (P3) inégalité triangulaire: d(x,z) d(x,y) + d(y,z)

36 Distances usuelles sur Rn (rappels) x = (x1,,xi,,xn) Rn Distance Euclidienne (ou 2-distance) Distance de Manhattan (ou 1-distance) Plus généralement, distance de Minkowski (ou p-distance) Cas particulier : -distance

37 Distance de Mahalanobis Observation : les différentes composantes d un vecteur ne sont pas forcément homogènes, et peuvent être corrélées Exemple : vecteur de description d un objet roulant (nombres de roues, vitesse maximale en km/h, poids en kg, accélération) Nécessité de pondérer les composantes Matrice de covariance (apprise sur un jeu de données) DEFINITION : la distance de Mahalanobis est la distance définie par Si = Id, alors équivalente à la distance Euclidienne Si diagonale, alors elle est équivalente à la distance Euclidienne normalisée

38 Distance de Hausdorff Soit un espace métrique E munie d une distance d DEFINITION : Soit A E. l ensemble définie par est appelé ε-voisinage de A DEFINITION : la distance de Hausdorff dh entre deux parties A et B de E est définie comme Cette mesure est utilisée comme une mesure de similarité entre formes (en considérant l ensemble des recalages possibles).

39 Autres distances Distance du 2 pour comparer deux distributions x i y i 2 d x, y = i, x 0 y 0 x i y i i Distances composées i

40 Quasi-distance La notion de distance n est pas toujours adaptée, car elle impose des axiomes très forts qui ne servent pas directement l objectif recherché Une quasi-distance q est une application qui vérifie les propriétés (P2) et (P3) et la propriété suivante (P1 ) q(x,x) = 0 Exemple : Soit E un ensemble d images contenant un objet et C(X) la classe de ces objets (chat, voiture, ). L application q: E2 R+ telle que q(x,y) = 0 si C(x)=C(y), c-a-d si x et y contiennent le même objet q(x,y) = 1 sinon est une quasi-distance Une quasi-distance peut être nulle entre des objets différents. Minimiser une quasi-distance permet de retrouver une propriété particulière d un objet.

41 Mesure de similarité et dissimilarité Plus général encore? mesure de dissimilarité ou de similarité Une mesure de dissimilarité est une une application ExE K, où K est un ensemble muni d un ordre total Même définition pour une mesure de similarité Mesure de similarité et de dissimilarité diffèrent par le fait que grande valeur indique forte proximité pour la mesure de similarité faible valeur indique forte proximité pour mesure de dissimilarité Toute distance ou quasi-distance est une mesure de dissimilarité

42 Exemples (au tableau) Le cosinus est une mesure de similarité pour des vecteurs normalisés, équivalent au produit scalaire lien avec la distance Euclidienne Divergence de Kullback-Leibler loi entre distributions de probabilités définition au tableau non symétrique, pas forcément définie, axiome de séparation vérifié interprétation en compression

43 Mesures objectives usuelles pour l image En compression image ou vidéo : MSE ou PSNR MSE : Mean Square Error (Error quadratique moyenne) le carré de la norme 2 entre les intensités de l image images de même taille c est une mesure de dissimilarité SNR : Signal to Noise Ratio mesure de similarité utilisée en traitement du signal PSNR : Peak Signal to Noise mesure la plus utilisée pour évaluer les algorithmes de compression PSNR = 10 log10 (P2 / MSE)

45 Mesures subjectives Dans ce qui précédait : mesures objectives de comparaison Pour beaucoup d applications, le but est de maximiser l espérance de la satisfaction de l utilisateur. seule une mesure subjective par l utilisateur lui-même permettent d optimiser pleinement ce critère Exemple : comparaison d images

46 ① Bruit Gaussien

47 ② Crop+mise à l échelle

48 ③ Compression JPEG5

49 ① Bruit Gaussien PSNR = db

50 ② Crop+mise à l échelle PSNR = db

51 ③ Compression JPEG5 PSNR = db

52 ① Bruit Gaussien

53 ② Crop+mise à l échelle

54 ③ Compression JPEG5

55 Mesures subjectives pour l image Protocole d évaluation strict (recommandations internationales), ex : nombre significatif d observateurs éclairage, distance, durée d exposition tests doublés pour diminuer les incohérences Utilisation d échelle de qualité subjective. Ex: recommandation BT.599 de l ITU (International Telecommunication Union) pour la compression d images : Excellent Bon Moyen Médiocre Mauvais Utilisation de bases de données communes

56 Mesures subjectives : difficultés L avis d un utilisateur peut varié et n instancie pas un ordre total Deux utilisateurs distincts ne portent pas le même jugement Les avis relatifs de qualité dépendent du type d image!!! Le coût!!!

57 Mesures objectives psycho-visuelles/acoustique/ Idée : apprendre une mesure objective qui modélisera la mesure subjective pour une tâche particulière utilise la modélisation (difficile) du système de perception humain en image : pas de consensus Mesure subjective Mesure objective

59 Pré-requis pour l évaluation Avoir à disposition un ensemble de test (base dans laquelle on recherche) un ensemble de requêtes non incluses dans la base de test une vérité terrain (ground truth) pour chaque couple (requête, élément de la base) qui répond à la question : est-ce que l élément de la base est pertinent pour la requête considérée? Remarques pour comparer deux méthodes, les mêmes ensembles de test et de requêtes doivent être utilisés bases de tests partagées par les chercheurs du domaine compétition avec introduction de nouvelles bases de test la taille de ces ensembles doit être suffisamment grande pour diminuer la variance de l évaluation

60 Précision/rappel (début) Soit E un ensemble d objets (l ensemble des textes, images, vidéos) muni d une quasi-distance q telle que x, y E, q(x,y) = 0 si y est pertinent pour x q(x,y) = 1 sinon Remarque: on suppose ici la symétrie de la relation q Cette quasi-distance instancie la vérité terrain Exemple : x et y sont 2 images q(x,y) = 0 si x et y se ressemblent, q(x,y) = 1 sinon Soit un ensemble E E, et x : x E et x E E : ensemble dans lequel on effectue la recherche x : la requête

61 Précision/rappel (suite) Le système de recherche est paramétré pour retourner plus ou moins de résultats La quantité d objets retournés varie entre 1 et #E plus on retourne de résultats, plus on a de chance de retourner toutes les objets pertinents de la base en général, moins on en retourne, plus le taux d objets retournés et qui sont pertinents est élevé Ces deux notions sont couvertes par les mesures de précision et de rappel

62 Précision/rappel (suite) Soit R l ensemble des résultats retournés, de cardinal #R Soit P l ensemble des résultats pertinents dans E pour x, c-a-d P = { y E / q(x,y) = 0 } Soit A l ensemble des résultats retournés et qui sont pertinents A = { y R / q(x,y) = 0 } DEFINITION : la précision = #A / #R est le taux d éléments qui sont pertinents parmi ceux qui sont retournés par le système DEFINITION : le rappel = #A / #P est le taux d éléments qui sont pertinents qui sont retournés par le système La performance du système peut être décrite par une courbe précision/rappel

63 Précision/rappel (suite et presque fin) Remarques : P est indépendant de la requête. R varie en fonction de la paramétrisation (qui retourne + ou de résultats) E R P A

64 Equal Error Rate et Average Precision La courbe précision/rappel n instancie par un ordre total 1 précision Quel est le meilleur : le vert ou le bleu? precision =recall rappel 1 Average precision précision précision Equal Error Rate rappel rappel

65 Exercice : système de recherche d objets Pour la requête et les résultats triés suivants : tracer les courbes précision/rappel et ROC, calculer le rang normalisé moyen

66 ROC (Receiver operating characteristic) Soit une vérité terrain q(.,.) Réponse du système à une requête x r(x,y)=0 si y est retourné (objet considéré pertinent), r(x,y)=1 sinon Vérité terrain Système Pertinent (p) non pertinent (n) Pertinent (p ) Vrai positif (vp) q(x,y)=0 r(x,y)=0 Faux positif (fp) q(x,y)=1 r(x,y)=0 Non pertinent (n ) Faux négatif (fn) q(x,y)=0 r(x,y)=1 Vrai négatif (vn) q(x,y)=1 r(x,y)=1 REMARQUE : rappel = vp / (vp + fn) DEFINITION : taux de faux positifs = fp / (fp + vn) = 1 - spécificité Courbe ROC : rappel en fonction du taux de faux positifs

67 Area under Curve (AUC) Mesure de performance calculée à partir de la courbe ROC Exemple pour mesure la pertinence d un test médical (voir Excellent Bon Passable Pauvre Mauvais Interprétation : l AUC peut être interprétée comme la probabilité, quand on prend deux échantillons -un positif et un négatif-, que le système classe mieux le positif que le négatif

68 Et la pertinence? DEFINITION: la pertinence d un système (pour une paramétrisation donnée) est le taux d objets qui sont correctement jugées, c-a-d pertinence = (vrais positifs + vrais négatifs) / taille de la base En recherche d information : mauvaise mesure de la qualité du système en général, la plupart des objets ne sont pas pertinents un système qui renverrait systématiquement négatif serait quasiment imbattable Intérêt d avoir des courbes (precision/recall et ROC) pour l évaluation dépend de l utilisation : certains utilisateurs cherchent la précision (ex: requête sur Google), d autres un grand rappel possible (recherche de contenu piraté)

69 Pour plus d info Introduction to Information Retrieval, C. D. Manning, P. Raghavan and H. Schütze, Cambridge University Press, 2008 Chapitre 8

70 Mesures et protocole d évaluation : conclusion Mesure de (dis)-similarité nécessaire pour l évaluation des proximités utilisées dans les protocoles d évaluation des étapes impliquées dans la chaîne de représentation/indexation/recherche Difficulté de trouver une bonne mesure elle doit être adaptée à ce que l on compare (ex: loi de probabilité) elle doit répondre à l objectif recherché Il peut être dangereux de vouloir optimiser une mesure objective (exemple du PSNR) qui n est pas directement liée au but recherché Évaluation d un système de recherche multimédia méthodes identiques à celles utilisées en texte utilisation de courbes plutôt que de scalaires (peuvent être interprétées en fonction du besoin) n intègrent pas les mesures de similarités qui ont produit le rang!

71 Bases de données multimédia IV Espaces de représentations ENSIMAG 2009 Hervé Jégou & Matthijs Douze

72 Espaces de représentation : Plan Du monde réel à la description numérique Représenter : pour quelle application? Difficultés Indices visuels Représentation globale vs représentation locale

73 Du monde réel à la représentation numérique À notre échelle, les signaux que nous désirons acquérir sont continus Leur représentation sur des supports numériques nécessite une opération de discrétisation necéssairement destructrice par opposition aux supports analogiques On distingue deux types d opérations de discrétisation L échantillonnage La quantification

74 L échantillonnage C est l opération de discrétisation du support du signal support temporel (son, vidéo, ) support spatial (image, vidéo) support 3D (scanner, ) C est l opération qui consiste à choisir un support discret pour le signal Il est généralement régulier, mais pas necéssairement Voir exemple au tableau Le niveau de discrétisation requis est fonction de la plage de fréquence que l on veut pouvoir restituer Théorème d échantillonnage de Nyquist-Shannon: stipule que la fréquence d échantillonnage doit être au moins 2* la fréquence maximale contenue dans le signal

75 Quantification (début) C est l opération de discrétisation des amplitudes du signal Exemple au tableau Dans un sens plus général, la quantification peut être vectorielle ensemble fini d entiers f: Rd F, avec F={1,2,..k} La quantification définit un diagramme de Voronoï DEFINITION : Un diagramme de Voronoï est une décomposition d un espace métrique déterminée par les distances à un ensemble discret de points

76 Quantification (suite) Quantification uniforme Calcul de l erreur de reconstruction si le signal est uniforme Impact de l augmentation de la précision sur le rapport signal à bruit au tableau Autres quantifications usuelles (la plupart sont structurés) Quantification uniforme Quantification Lloyd-Max (non structuré) Quantification par lattice (lattice hexagonale, lattice E8, lattice de Leech) JPEG2000: quantification dead-zone ou codée en treillis (JPEG2000) Pour plus d infos, voir [5] [5] R. M. Gray et D. L. Neuhoff, Quantization, IEEE Transactions on Information Theory, vol 44, pages , Oct. 1998

77 Quantification (fin) Quantificateur non structurés : appris sur les données regroupe les données similaires en leur associant le même index k-means (Lloyd s) 1 au tableau Exercice : appliquer le k-means aux points (0,0) (2,0) (0,1) (3,4) (4,2) (5,0), k=2 prouver la convergence de l algorithme

78 Exemple de discrétisations de signaux SON Échantillonage : Régulier 8 khz pour une conversation téléphonique (fréquence de la voix < 4kHz) 44.1 khz (CD) ou 48 khz (professionnel), parfois 96 khz Quantification : 8 bits (premières cartes son, qualité pauvre) 16 bits (CD), le bruit de quantification est d environ 98 db 20 bits bruit de quantification de 122 db IMAGE (couleur) 3 grilles de valeurs, 1 grille par composante de couleur RGB : 8 bits de quantification pour chaque couleur 24 bits par pixels (pixel=élément du support du signal)

79 La couleur Espace de représentation RGB (Red, Green, Blue) représentation additive des couleurs sur la base de la lumière émise le plus souvent, chaque canal est représenté sur 8 bits 16,7 millions de couleurs possibles YUV (Y: luminosité, U et V: chrominance) utilisé dans PAL YCbCr, Y'CbCr Mise à l échelle de YUV pour les signaux digitaux utilisé dans JPEG, MPEG2 permet une quantification plus grossière des valeurs de chrominance HSV (Hue, Saturation, Value) = HSB Bonne représentation perceptuelle des couleurs, utilisé dans les logiciels CMYK : Espace de couleur soustractive (application des encres)

81 Représenter pour reconstruire : compression Système de compression transformée quantification codage entropique Transformée : étape qui consiste à représenter le signal dans un espace où l information pertinente se concentre sur quelques coefficients Quantification Codage entropique : étape qui consiste à minimiser l espérance de la longueur de représentation d un ensemble de valeurs à support fini Tranformée et codage entropique sont deux étapes réversibles (respectivement en continu et en discret). Seule la quantification introduit une perte sur le signal.

82 Représenter pour décrire Application de recherche par le contenu focus sur les images description des images pour les retrouver par leur contenu Problème très différent de celui de la compression on ne cherche pas à reconstruire (la plupart des informations n ont pas d utilité directe pour la recherche, alors qu en reconstruction elles contribuent au confort visuel) on cherche à extraire ce qui sera pertinent pour l application visée Applications très variées

83 Recherche d images similaires? image requête base d images

84 Recherche d images ayant les mêmes propriétés Exemple : couleur similaires

85 Reconnaissance de visage : identification d une personne Au sein d une base de visages?

86 Reconnaissance de visage : identification d une personne ou à partir d images ou de vidéos

87 Reconnaissance d un lieu

88 Vidéo interactive Vidéo cliquable Structuration de la vidéo découpage en plan (au sens cinématographique) extraction d objets, par le mouvement ou des algorithmes de détection appariement des objets (permet de créer des liens) Annotation avec des informations supplémentaires } plan } } } } } } ~ ~~ ~ ~~ } ~ ~~ ~

89

90 Problèmes rencontrés Pour l image, par ordre de difficulté croissante Contenu à reconnaître une même image que l image requête une image contenant un objet donné une instance d une classe d objet Tâche à effectuer reconnaissance (image similaire, l image contient l objet ou classe d objet) détection (sous-partie de l image similaire, bounding box de l objet) segmentation (détection des bords de l objet)

92 Premier aperçu : segmentation Ce qu'on aimerait

93 Premier aperçu : segmentation Ce qu'on a

94 Exemple du «Oxford Building Dataset» Requêtes (objets) Exemples d images à retourner

95 Difficultés Transformations image (rotation, échelle) rotation image

96 Difficultés Transformations image (rotation, échelle) changement d échelle

97 Difficultés Transformations image (rotation, échelle) Changement de luminosité

98 Difficultés Transformations image (rotation, échelle) Changement de luminosité Visibilité partielle / occultation

99 Difficultés Transformations image (rotation, échelle) Changement de luminosité Visibilité partielle / occultation Clutter (objets supplémentaires)

100 Difficultés Transformations image (rotation, échelle) Changement de luminosité Visibilité partielle / occultation Clutter (objets supplémentaires) Objets 3D

101 Difficultés Transformations image (rotation, échelle) Changement de luminosité Visibilité partielle / occultation Clutter (objets supplémentaires) Objets 3D Nombre important d images dans la base Nécessité d apprendre les variations d apparence un modèle visuel

103 Indices visuels Ici, focus sur l image, mais s applique à la vidéo Indice visuels : caractéristiques de l image, au sens de notre perception d humain, que l on cherche à utiliser pour la tâche considérée Principaux indices visuels couleur forme texture régions mouvement (pour la vidéo)

104 Indice visuel : couleur (début) Significatif pour la catégorisation (= trouver la classe d objet) ou le tracking (suivre des objets) Indice visuel ayant reçu beaucoup d attention de nombreux descripteurs (globaux ou locaux) En indexation : utilisé depuis longtemps pour faire de la recherche d image par similarité (description le plus souvent indépendante de la position et de l orientation des objets dans l image) Robocup

105 Indice visuel : couleur (suite) Problèmes choix de la représentation de la couleur distance entre couleurs Invariance? Indice visuel insuffisant si utilisé seul, car peu discriminant : pomme rouge vs Ferrari Remarque : une image en niveaux de gris ou même noir et blanc suffit à un humain pour effectuer la tâche demandée! Plus tard dans ce cours : exemple de description (globale) utilisant la couleur

106 Indice visuel : couleur (fin)

107 Indice visuel : forme (début) Nombreux algorithmes d extraction de formes Bestiaire (non exhaustif) : extraction des contours chaîne de points de contours ou approximation polygonale mise en correspondance de graphes distance de Hausdorff indice visuel différente des régions (1D vs. 2D)

108 Indice visuel : forme (fin) Difficultés l étape d extraction des contours est souvent instable séparer la forme du fond est difficile (problème de segmentation) En général, ces algorithmes mènent à une description qui n est pas invariante à des gros changement d échelle, ni aux rotations (car invariance en rotation introduit alors forte perte de discriminance pour cet indice visuel) V. Ferrari, L. Février, F. Jurie, C. Schmid, Groups of Adjacent Contour Segments for Object Detection, PAMI 2008

109 Indice visuel : texture Variations répétitives de l intensité Elles résultent de propriétés physiques des surfaces 3D (herbe, nuages), ou de propriétés photométriques de surface (zèbre, tissu à fleurs) De nombreuses parties des images/vidéos peuvent être caractérisées par des textures L humain reconnaît facilement les textures, mais difficile à définir (et donc représenter): transition micro/macro, textures irrégulières Deux types de méthodes statistiques : distribution spatiales des intensités de l image co-occurrences, auto-corrélation géométriques : segmentation de motifs qui se répètent

110 Régions texturées

111 Indice visuel : régions Prend en compte la répartition spatiale de zones «homogènes» + attributs intrinsèques aux régions (taille, couleur, etc) Relations spatiales entre ces régions (ciel en haut/mer en bas) Sensible au bruit et aux occultations

112 Comparaisons des indices visuels Pour une utilisation brute des différents indices visuels Notion de descripteur associé à un indice visuel Indice visuel Descripteur Avantages Limitations Utilisé Couleur Histogramme, moments Forme Polygones, approximations, invariants moments Texture Matrices de co-occurences, filtre de Gabor, Fourier Information globales et locales Coût de calcul élevé, difficile à définir Région Surface, position, moments, histogramme de couleurs Intègre les relations spatiales (ciel en haut de l image) Extraction très facile, propriétés Pas d information spatiale, globales de l images peu de lien avec la sémantique Haut niveau d abstraction, permet la recherche d objets Coût de calcul élevé, dépend d une segmentation de bas niveau Instabilité

114 Description globale Une description globale est une représentation de l image dans son ensemble, sous la forme d un vecteur de taille fixe Elle se contente le plus souvent d exploiter un indice visuel unique Caractéristiques un type de vecteur de description par objet mesure de (dis-)similarité définie sur l espace de ces descripteurs

115 Exemple de description globale : histogramme de couleur Swain, 1991 Chaque pixel est décrit par un vecteur de couleur par exemple un vecteur RGB R3, mais le plus souvent on utilise un autre espace de couleur plus approprié L ensemble des vecteurs de couleurs forme une distribution description de la distribution avec un histogramme Nécessite discrétisation de l espace + normalisation Comparaison de deux histogrammes par une mesure de dissimilarité, par exemple la «distance» du Chi-2 ou earth mover's distance x i y i 2 d x, y = i, x 0 y 0 x i y i i i

116 Exemple de description globale : contours Exemple de descripteur de texture Descripteur = histogramme d orientation des contours

117 Description locale Une description locale est une représentation de l entité à décrire par un ensemble de descripteurs (vecteurs) Vecteurs calculés localement pour différentes parties de l entité ex: plusieurs sous-parties d une image Ainsi, plusieurs descripteurs par entité Mesure de similarité nécessite la mise en correspondance (appariement) des descripteurs Étude détaillée de ce type de description dans la suite de ce cours

118 Représentation globale ou locale? Avantages de la représention globale certains invariances sont faciles à obtenir extraction pour un coût de calcul plus faible comparaison plus simple : comparaison des entités avec un vecteur unique, donc pas d appariemment en description locale, chaque information individuelle n est pas très discriminante Avantages de la répresentation locale + de résistance à la plupart des transformations Robuste: statistiques dépendantes de plusieurs descripteurs description plus précise d une image dans son ensemble (souvent la description est aussi volumineuse que l image d origine)

119 Bases de données multimédia V Description locale des images ENSIMAG 2009 Hervé Jégou & Matthijs Douze

120 Schéma type d un système de description locale Ensemble de points/régions d intérêt Image requête Extraction de points ou régions d intérêt : Détecteur Calcul de signatures locales : Descripteur Bases de données de signatures locales Score pour un sous-ensemble des images de la base Fusion Requête avec les signatures De l image dans la base de signatures : Appariemment Ensemble de descripteurs locaux de l image

121 Description locale : plan Extraction de points/régions d intérêt Descripteurs locaux Appariement de points

122 Extraction de régions d intérêt : enjeux Extraire des régions qui soient invariants à de nombreuses transformations Transformations géométriques translation rotation similitude (rotation + changement d échelle isotrope) affine (en 3d, textures localement planaires) Transformations photométriques Changement d intensité affine (I a I + b)

123 Base d évaluation des points/régions d intérêt Affine covariant region dataset : 8 ensembles de 6 images transformation 2D fournie (vérité terrain) Bikes et Trees : flou Graffiti et Wall : changement de point de vue Bark et Boat : zoom + rotation Leuven : changement de luminosité UBC : compression JPEG

124 Principaux extracteurs de points/régions d intérêt Harris Harris-Affine Hessian-Affine Edge-Based Region Detector (EBR) Intensity Extrema-Based Regions Detector (IBR) Maximally Stable Extremal Regions (MSER) Salient Region Detector

125 Détecteur de Harris : Introduction Détecter les «coins» = des structures répétables de l image et localisent des endroits très discriminatifs d une image Harris analyse locale lorsqu on est sur un «coin», un déplacement dans n importe quelle direction produit un fort changement des niveaux de gris «A Combined Corner and Edge Detector», C. Harris et M. Stephens, 1988

126 Détecteur de Harris Explication détaillée au tableau.

127 Harris : extraction du patch et calcul des gradients

128 Harris : 2e étape

129 Harris : classification des types de régions

130 Harris : classification des régions : utilisation du seuil

131 Harris : exemple

132 Harris : Invariance Invariance à la translation et aux changements affines d intensité : inhérente à la sélection des maxima locaux Invariance à la rotation l ellipse tourne mais la forme reste identique les valeurs propres restent identiques Mais pas d invariance à des changements d échelle exemple simple au tableau

133 Harris : Non invariance à l échelle Taux de répétabilité : définition à venir

134 Détecteurs hessien & laplacien Analogue au détecteur de Harris Les valeurs propres de la matrice des dérivées secondes (hessienne) caractérisent la forme locale du voisinage d un point. Max sur le déterminant [ I xx I xy H= I xy I xx Forte réponse sur les «blobs» et les crêtes Différence détecteur de coins/blobs Blob classique : DoG ]

135 Invariance à l échelle (début) Étape suivante pour obtenir un extracteur invariant aux transformations affines avec l invariance à l échelle, Harris devient invariant à une similitude Echelle de calcul de Harris/hessien/laplacien/DoG Déterminée par la taille des filtres de dérivation : σ des filtres gaussiens Réagit à une certaine taille de détails / une certaine plage de fréquences spatiales

136 Invariance à l échelle (suite) Noyau (kernel) : Laplacien ou DoG Sélection d'une échelle caractéristique : prendre les valeurs extrêmes d une fonction f liée à l échelle Une bonne fonction f présente des pics marqués Laplacien invariance de l échelle caractéristique

137 Invariance à l échelle (suite) Détecteur de Harris-Laplace Sélectionner le maximum de Harris en espace pour plusieurs échelles sélection des points à leur échelle caractéristiques avec le Laplacien Dans SIFT: recherche des maxima de DoG et position et en échelle

138 Invariance à l échelle (fin) Implémentation d'un filtre gaussien Valeurs coupées à w proportionnel à σ, séparable Complexité en O(w2) Multi-échelle en pratique: pyramide d'images Gaussiennes de taille constante

139 Invariance affine (début) Transformations affines Approximation locale d'homographie Sauf discontinuité Pour obtenir l invariance affine sur un détecteur de blobs (EBR) partir d un maximum local en espace et en échelle exploration radiale dans toutes les directions calcul des valeurs extrêmes de la fonction d échelle sur chaque direction On obtient l échelle approximative sur chaque axe L ensemble de ces échelles radiales induit une forme

140 Invariance affine (suite) Approximation des régions par des ellipses calcul des moments géométriques centrés l ellipse a les mêmes moments d ordre 2 que la région La matrice de covariance de la région définit l ellipse et permet de calculer la transformée affine vers une région normalisée (voir au tableau) Il faut y ajouter une sélection en orientation en effet, une transformation ellipse cercle est définie à une rotation près? méthode : sélection de la direction principale du gradient

141 Harris-Affine et Hessian Affine (début) Détecteur de région de l état de l art K. Mikolajczyk, C. Schmid An affine invariant interest point detector, ECCV 2002 Algorithme : estimation itérative des paramètres localisation : Harris échelle : sélection automatique avec le Laplacien voisinage affine : normalisation avec la matrice des second moments jusqu à convergence Initialisation à partir de points d intérêts multi-échelle

142 Harris-Affine et Hessian Affine (suite) Estimation itérative de la localisation, de l échelle, du voisinage Points initiaux

143 Harris-Affine et Hessian Affine (suite) Estimation itérative de la localisation, de l échelle, du voisinage Iteration #1

144 Harris-Affine et Hessian Affine (suite) Estimation itérative de la localisation, de l échelle, du voisinage Iteration #2

145 Harris-Affine et Hessian Affine (suite) Estimation itérative de la localisation, de l échelle, du voisinage Iteration #3, #4,...

146 Harris-Affine et Hessian Affine : pour résumer Initialisation avec des points d intérêt multi-échelle Estimation itérative de la localisation, de l échelle, du voisinage

147 MSER Principe (voir séquence de seuils) trier les pixels par intensité tous les seuils d intensité possibles sont testés localisation des régions qui sont stables par changement du seuil Pourquoi ça marche (bien) la binarisation locale est stable sur une large plage de seuils Robust wide-baseline stereo from maximally stable extremal regions, J. Matas,, O. Chum, M. Urbana and T. Pajdlaa, Image and Vision Computing 22(10), 2004

148 Comment évaluer un extracteur? Évaluation quantitative des détecteurs de régions d intérêt les points / regions doivent être à la même position relative Mesure de performance : le taux de répétabilité taux de régions qui se correspondent (vérité terrain 2D) homographie Deux points se correspondent si l erreur de localisation est inférieure à 1.5 pixel l erreur d intersection est inférieure à 20% A Comparison of Affine Region Detectors, Mikolajczyk et al., IJCV 2005

149 Harris vs Harris invariant à l échelle

150 Comparaison des détecteurs répétabilité changement d échelle

151 Comparaison des détecteurs repétabilité transformation perspective

153 Et une fois qu on a défini l ellipse? Synthèse du patch (imagette) On calcule un patch de taille donnée Problème d aliasing (apparition de haute fréquence) : application d un filtrage (filtrage convolutif, par exemple gaussien) En pratique: sur la pyramide d'images Tailles typiques de patch : 32x32, 64x64

154 Objectif (début) comparaison

155 Objectif (fin) En utilisant un détecteur, on est capable de détecter des zones robustes (et informatives) de l image Mais à ce stade, ces zones ne peuvent pas être comparées entre elles Qu est qu un descripteur? une représentation de la zone d intérêt sous la forme d un vecteur qui appartient à un espace muni d une distance Qu est qu un bon descripteur? invariant discriminant compact invariance compacité Remarque : ces objectifs sont contradictoires capacité de discrimination

156 Descripteurs Descripteurs basiques Descripteurs invariants à la luminosité/rotation : invariants différentiels Descripteurs à base de moments couleurs affine-invariants État de l art : le descripteur SIFT Descripteur CS-LBP Descripteurs de régions texturées

157 Descripteur pixel On range les pixels au voisinage du point dans un vecteur () Calcul simple Volumineux (patch de 32x32 = vecteur de 1024 éléments) Invariance possible aux transfo affines de luminosité Utilisé comme «baseline» en classification descripteur local

158 Invariants différentiels (début) Descripteurs de points (on ne part pas d un patch) Basés sur des dérivées calculées en un point (x,y). Idée : [ ] I x, y I x x, y I y x, y v x, y = I xx x, y I xy x, y I yy x, y Normalisation pour être invariant aux changements affines de luminosité

159 Invariants différentiels : interprétation () descripteur local Approximation locale d une fonction par la série de Taylor lien avec le détecteur Hessien Le descripteur : les coefficients de cette série tronquée décrivent le voisinage d un point

160 Invariants différentiels (suite) Calcul stable des dérivées par convolution avec dérivées gaussiennes [ ] I x, y G I x, y G x I x, y G y v x, y = I x, y G xx I x, y G xy I x, y G yy où σ correspond à un choix d échelle σ fixé si normalisation en échelle effectué avant, (invariants différentiels développés plus tôt que la normalisation en échelle) En pratique: pyramide d images (convolution en O(σ2))

161 Invariants différentiels : invariance à la rotation [ [Koen 87] Invariant à la rotation (redondant avec normalisation en orientation) I x I x I y I y I xx I x I x 2 I xy I x I y I yy I x I x I xx I yy I xx I xx 2 I xy I xy I yy I yy Invariance à un changement de luminosité affine : ] Trace de la matrice de Harris Trace de la matrice hessienne [ I xx I x I x 2 I xy I x I y I yy I x I x I x I x I y I y 3/ 2 I xx I yy I x I x I y I y 1/2 I xx I xx 2 I xy I xy I yy I yy I x I x I y I y ]

162 Invariants différentiels (fin) Remarque: changement d échelle I2(x)= I1(s x) dérivées liées par I 1 x G i i =s n I 2 s x G i i s 1 n 1 n Aujourd hui, ces descripteurs sont encore utilisés (mais donnent en général de moins bons résultats que SIFT) Taille typique du descripteur : 24

163 20 40 Autres descripteurs invariants à la rotation Calcul des moments en coordonnées polaires (0<k<1, l entier) k i l m kl = r e I r, dr d il mkl mkl e Une rotation α correspond à une transformation Cette transformation influence la phase des mk,l, pas sur leur amplitude Choix naturel pour la description invariante à la rotation : les modules mk,l La mise en correspondance des descripteurs s effectue en comparant ces vecteurs de description Remarque : approche a priori redondante avec la normalisation en orientation (mais celle-ci peut être imparfaite ) [Ref] J. Matas et al. Rotational Invariants for Wide-baseline Stereo. Research report of CMP,

164 Descripteurs moments couleurs invariants affines Moments couleurs affine-invariants p q a b c mabc = x y R x, y G x, y B x, y dx dy pq region Différentes combinaisons de ces moments sont invariantes à des transformations affines Egalement invariantes à des transformées photométriques I a I + b [Ref] F.Mindru et.al. Recognizing Color Patterns Irrespective of Viewpoint and Illumination. CVPR99

165 SIFT (Scale invariant feature transform) [Lowe 04] Calculé sur un patch déjà normalisé : échelle (ou affine) + en orientation description détaillée au tableau Cas particulier de Histogram of Oriented Gradients (HOG)

166 CS-LBP (Center-symmetric local binary pattern) Description au tableau

167 Comparaison de descripteurs On se donne des paires d images pour lesquelles on connaît les points qui doivent être appariés Ex: base de Krystian Mikolajczyk On fixe une distance et un seuil μ pour lequel on considère que deux descripteurs p (dans I1) et q (dans I2) matchent : dist (p,q) < μ En faisant varier le seuil μ, on obtient une courbe precision/rappel qui caractérise la qualité du descripteur

168 Résultats de comparaison A performance evaluation of local descriptors Krystian Mikolajczyk, Cordelia Schmid, PAMI, Volume 27, Number

169 Descripteurs : conclusion Invariances : force des méthodes génériques normalisation affine de la région vers un patch de taille constante en utilisant un detecteur affine invariant normalisation affine en luminosité avant le calcul du descripteur pour garantir l invariance affine Utilisation d un descripteur de relativement grande dimension (128 pour SIFT) pour obtenir une bonne capacité de discrimination

171 Appariemment de points Problème : étant donné des points ou régions d intérêt et les descripteurs associés, comment apparier de manière robuste les points de deux images? Dans ce sous-chapitre : sélection des meilleurs couples de points

172 Comparer directement deux régions normalisées À partir des détecteurs uniquement : plusieurs distances SSD (sum of square differences) NSSD (normalized SSD) ZNCC (zero-normalized cross-correlation) Rôle concurrent avec les descripteurs, pour lesquels la mesure de proximité entre régions donne une ressemblance entre celles-ci. On conserve le couple si cette mesure de dissimilarité est inférieure à un seuil μ : d(p1i,p2j) < μ, avec p1i dans I1 et p2j dans I2 μ est fixé à partir de la courbe précision/rappel du descripteur Comparaison entre descripteurs est + rapide (vecteur plus court)

173 Sélection des meilleurs couples Hypothèse : pour tout couple de points (p1i, p2j), (p1i dans I1 et p2j dans I2), on a une mesure de similarité sij entre régions Remarque: ambiguité Différentes stratégies: Winner-takes-all (symétrique ou à sens unique) Filtrage ultérieur par géométrie

174 Vérification géométrique par mise en correspondance d images Contraintes de voisinages RANSAC LO-RANSAC Transformée de Hough

175 Problème : appariemments entre deux images

176 Vérification des contraintes de voisinage À ce stade, on n a pas utilisé d information géométrique seules les informations sur le point ont été utilisées Vérification des contraintes de voisinages Motivation : il y a beaucoup d appariemments dans un voisinage Si les appariements du voisinage se trouvent à la même position relative, il est probable que l appariemment considéré soit correct Idée utilisation d un voisinage circulaire calcul d un score entre voisinages (fonction des affinités sij entre les points des voisinages de p1i et p2j), s ' p 1i, p 2j =s ij max s kl ddist n 1k p 1i, n 2l p 2j n 1k N p 1i n 2l N p 2j

177 Contraintes géométriques : un peu plus loin Pour cela : estimation robuste de la géométrie épipolaire prise en compte des contraintes géométriques de 2 prises de vue Rappel : coordonnées homogènes P=(x,y,z,w) (x,y,z,w) et (x,y,z,w ) représentent le même point ssi il existe λ tel que x =λx, y =λy, z =λz et w =λw la correspondance point coordonnées n est pas bijective Intérêt : écriture uniforme des transformations affines et de projection Dans le cas de 2D, on se contente de P=(x,y,w)

178 Rappel : exploitation de la géométrie épipolaire Hypothèse : I1 et I2 sont deux projections de la même scène 3D Deux points P1 et P2 des images I1 et I2, sont en coordonnées homogènes Schéma au tableau DEFINITION : épipoles DEFINITION : droites épipolaires DEFINITION : matrice fondamentale Dans le cas de scènes planaires, on simplifie le problème Mise en correspondance directe par homographie

179 Estimation de paramètres: RANSAC But : estimation robuste de la géométrie épipolaire Algorithme au tableau Appariemment guidé : utilisation de la matrice fondamentale pour déterminer des appariements supplémentaires 99 inliers 89 outliers

180 Estimation de paramètres : LMS LMS (Least Median of squares) similaire à RANSAC Algorithme : répéter N fois choix aléatoire de 8 points concordant dans les deux images calcul de la transformation calcul de la médiane des distances entre points observés et calculés On retient alors F avec la plus petite médiane Avantage : pas besoin d un seuil (contrairement à RANSAC) Désavantage : ne marche pas avec plus de 50% d outliers (pourquoi?)

181 Sous-classes de transformations Pour diminuer l incertitude et/ou en en fonction du problème, on réduit le nombre de degré de libertés des transformations possibles Ex: copyright Le plus souvent, on se contente de transformées planaires Exemple d utilisation dans un système de recherche de scènes : [6] Philbin, J., Chum, O., Isard, M., Sivic, J. and Zisserman, A. Object retrieval with large vocabularies and fast spatial matching différentes classes de transformations, suppression de l invariance à la rotation

182 Hiérarchie des transformations planaires (2D 2D) nombre de degré de liberté invariants forme translation 2 tout, sauf les positions absolues transformée 3 longueur, angle, surface, courbure [ ][ ][ ] X ' = cos sin X t [ Y ' ] [ sin cos ] [ Y ] [ t ] X ' =s cos sin X t [ Y ' ] [ sin cos ][ Y ] [ t ] X' =a b X t [ Y ' ] [ c d ][ Y ] [ t ] [ ] [ ] [ ] [ ] rigide X ' = X tx Y' Y ty X Y similitude 4 angle, rapport de longueur X Y transformation 6 affine Homographie 8 parallélisme, rapport de surface, rapport de longueur sur une droite, coordonnées barycentriques Birapport X Y 1 h 11 h12 X X' = h 13 h 31 X h 32 Y h 33 h 21 h 22 Y Y' h 23

183 LO-RANSAC RANSAC (comme son nom ne l indique pas) Idée: utiliser tous les couples de point qui matchent estimation de la transformation à partir des caractéristiques des régions autour du point (position, orientation, forme de la région) calculer le nombre de points qui satisfont cette transformation Avantages tous les appariemments possibles sont testés (+ grande robustesse) efficace Inconvénient le nombre de degrés de liberté possible pour la transformée est limité par le nombre de paramètres fournis pour le point O.Chum, J. Matas, S. Obdrzalek, Enhancing Ransac by generalized model optimization, ACCV 2004

184 Transformée de Hough Utilisé initialement pour détecter des segments/droites à partir de points dans les images Chercher les droites possibles dans un espace de paramètre, (espace de Hough) Principe : discrétiser l espace de paramètres en bins Pour chaque observation, incrémenter le(s) bin(s) consistants avec l observation Résultat = le bin de le plus peuplé affinage possible avec Mean-shift Difficulté: dépendance à la paramétrisation et la quantification Dans le cas de la vérification géométrique, le nombre de degré de liberté possibles doit être petit (Pourquoi?)

185 Vérification géométrique «faible» (WGC) Version très simplifiée d un modèle géométrique appliquée au niveau point Utilise les infos de normalisation en rotation/échelle Rapide: appliqué sur les points indépendamment

186 WGC: en échelle

187 Description locale des images : résumé et commentaires Ensemble de points/régions d intérêt Image requête Extraction de points ou régions d intérêt : Détecteur Calcul de signatures locales : Descripteur Bases de données de signatures locales Score pour un sous-ensemble des images de la base Fusion Requête avec les signatures De l image dans la base de signatures : Appariement Ensemble de descripteurs locaux de l image

188 Description locale des images : résumé et commentaires Étapes recherche de points/régions d intérêt calcul des descripteurs pour chacune de ces régions vérification de la cohérence géométrique algorithme de vote Commentaires: problème en suspens : il faut apparier les descripteurs d une image avec tous les descripteurs d une base d image c est très lent! la vérification de la cohérence géométrique est relativement lente on ne peut l utiliser que pour un sous-ensemble d images a priori plus pertinentes

189 Bases de données multimédia VI Indexation rapide ENSIMAG 2009 Hervé Jégou & Matthijs Douze

190 Indexation Problème : rechercher efficacement des vecteurs de caractéristique (=descripteurs) proches au sein d une base de descripteurs on voudrait éviter de faire une comparaison exhaustive Opérations supportées : recherche (critique), ajout/suppression (+ ou critique) selon l application Deux types de recherche Recherche à ε Recherche des k plus proches voisins objets complexes vecteurs de caractéristiques de haute dimension ajout ou requête extraction de descripteurs structure d indexation

191 Plan Préliminaires Indexation mono-dimensionnelle Indexation multi-dimensionnelle Perspectives

192 Notations base de n vecteurs : Y= { yi ℝd }i=1..n vecteur requête : q in ℝd on note N(q) Y les voisins de q les vecteurs similaires Le voisinage est relatif à une distance (ou une similarité/dissimilarité) on se concentre sur la distance Euclidienne d(x,y) = x-y 2

193 Qu est ce qu un voisin? un vecteur qui répond à une propriété de proximité absolue ou relative recherche à ε Nε(q) = { yi Y : d(yi,q) < ε } recherche des k plus proches voisins k=2 Nk(q) = k-arg-mini d(yi,q)

194 Remarque : le voisinage au sens des k-ppv n est pas symétrique X= { xi ℝd }i=1..n on peut avoir xj Nk(xi) et xj Nk(xi) Ex: une spirale échantillonnée xi xj

195 Algorithme naif : complexité Si la base Y n est pas organisée (=indexée), calculer Nk ou Nε nécessite le calcul de l ensemble des distances d(q,yi) O(n d) Pour Nk(q), il faut de plus trouver effectuer l opération k-arg-mini d(q,yi) Exemple: on veut 3-argmin {1,3,9,4,6,2,10,5} Méthode naïve 1: trier ces distances O(n log n) Méthode naïve 2: maintenir un tableau des k-plus petits éléments, mis à jour pour chaque nouvelle distance considérée O(n k) Intuitivement, on peut faire mieux

196 Max-heap Binary max heap structure d arbre binaire équilibré dernier niveau rempli de gauche à droite à chaque noeud n on associe une valeur v(n) propriété : si ni est un noeud fils de nj, alors v(ni) < v(nj) n1 n2 n3 n4 n5 n6 n7 n Remarque : il admet une représentation linéaire simple: ni a pour père ni/2

197 Max-heap : opérations élémentaires heap_push: ajout inconditionnel d un élément dans le heap ajouter le noeud k+1, et y placer le nouvel élément mise à jour (pour garder les propriétés d ordre) : l élément inséré remonte : inversion avec son parent s il est plus grand jusqu à vérification de la relation d ordre 10 complexité en O(log k) au pire, mais O(1) en pratique heap_pop: suppression inconditionnelle de la plus grande valeur on supprime le noeud racine et on le remplace par l élément du noeud k mise à jour : on descend l élément : inversion avec le fils le plus grand jusqu à ce que la relation d ordre soit vérifiée

198 Algorithme: Max-heap pour chercher les k plus petites valeurs Pb: on cherche k-argmini {a1, ai, an} Initialisation du heap à l arbre vide Pour i=1..n, si l arbre n est pas encore de taille k heap_push si l arbre est déjà de taille k, on compare ai à v(n1) si ai v(n1) on passe à l élement suivant sinon heap_pop heap_push Exemple: 3-argmin {1,3,9,4,6,2,10,5}

199 Algorithme: Max-heap pour chercher les k plus petites valeurs Complexité : O(n log k) au pire, bien meilleure en moyenne un nouveau nième élement doit être plus grand que le noeud racine probabilité de k/i de faire effectivement un push décroit rapidement Peut être utilisé pour trier (algorithme heapsort).

200 Plan Préliminaires Indexation mono-dimensionnelle Indexation multi-dimensionnelle Perspectives

201 Indexation mono-dimensionnelle Application phare : les bases de données (au sens classique du terme) Différents types d opérations de recherche recherche d un point/vecteur : PAM (point access method) recherche de structures spatiales plus complexes : SAM (spatial access method) Ex: recherche d une valeur dans un intervalle, ou du plus proche voisin d une valeur Les structures de références : Hashing B+ tree Fichier inversé

202 Estimation de la performance Les données sont supposées stockées sur des disques (souvent pas le cas pour les algorithmes en vision ) Unité minimum pouvant être transférée : une page = b bytes, qui correspond à B enregistrements de données. N enregistrements accédés O( N/B ) pages à accéder CPU mémoire disque La complexité, en base de données, est donnée en nombre de pages Éléments non pris en compte Impact du cache Proximité des données sur le disque (temps du fseek)

203 Hashing (1) Principe: définir une fonction x k(x), appelée clé de hachage on ne se compare qu aux éléments ayant la même clé q k pages Une bonne clé de hachage répartit uniformément les données sur les différents pages (sinon, accumulation des données au même endroit) Utilisé pour rechercher des valeurs identiques à la requête k x = r i x i mod P mod m i

204 Hashing (2) Excellent pour un accès de type point (PAM) SELECT name FROM PERSON WHERE name = herve Peu adapté aux requêtes comparatives (type intervalle, donc SAM) du type SELECT taille FROM PERSON WHERE taille > 1.70 and taille < 1.90 dans ce cas, complexité en O(n) Typiquement, 1-2 I/O par requête pour les requêtes PAM

205 B+ tree (début) Dérivé du B-tree (différence soulignée plus tard) Utilisation d un ordre sur les éléments Pour requêtes exactes ou requête sur des plages Permet d optimiser les requêtes du type SELECT taille FROM PERSON WHERE taille > 1.70 and taille < 1.90 Mais permet également un accès direct SELECT name FROM PERSON WHERE name = herve Dans ce cas, plus lent que le hashing

206 B+ tree : structure Structure arborescente avec deux types de noeuds Noeuds index (noeuds internes à l arbre) contiennent des pointeurs vers d autres noeuds ou des feuilles ces noeuds ordonnent les sous-noeuds par des valeurs de séparation 5 11 yi< <yi< <yi<175 yi>175 Les entrées (valeurs de séparation) ne sont pas nécessairement remplies Paramètres : B : maximum d entrées dans un noeud Bm : minimum Usuellement B = 2 Bm

207 B+ tree : feuille Feuilles : contiennent les valeurs (et non les valeurs de séparation) hiérarchie de nœuds internes 25<yi< Ø Ø vers feuille suivante NULL: pas encore rempli chainage vers intervalle suivant yi>52 optimisation de la requête sur intervalle La recherche dans un B+tree se fait par une descente dans l arbre en temps logarithmique

208 B+ tree : insertion Trouver la feuille L descente dans l arbre Introduire la donnée dans L si L possède suffisamment de place, insertion sinon, diviser L (en L et un nouveau noeud L2) redistribuer les entrées insérer un index sur L2 dans le noeud parent P de L si il y a la place, stop Sinon, la division doit être faite récursivement sur les noeuds parents les divisions de noeuds interne (sauf le noeud racine) élargissent l arbre la division du noeud racine accroît sa hauteur Remarque: les feuilles sont toujours à hauteur constante

209 B+ tree : exemple d insertion Insertion de 30 on cherche la feuille on insère 30 (il y a de la place) Insertion de 120 on cherche la feuille elle est pleine création d une nouvelle feuille redistribution ajout de 120 dans le nouveau L on lie L2 à son parent il y a de la place, arrêt Ø Ø 1 28 Ø Ø Ø Ø Ø Ø Ø

210 B+ tree : suppression (par souci d exhaustivité) Recherche de la feuille concernée Suppression de l entrée si L demeure avec au moins d entrée, aucune ré-équilibrage sinon, si L contient Bm-1 entrées, tentative de redistribution en prenant des entrées sur les noeuds adjacents. en cas d échec (pas assez d entrée sur les noeuds adjacents), fusion. si fusion, destruction de l entrée du noeud dans le parent de L si nécessaire, propagation jusqu à la racine avec éventuellement réduction de la hauteur de l arbre

211 B+ tree : propriétés Recherche d une valeur donnée, {yi in Y : yi = a} on cherche la feuille contenant la valeur on se compare aux éléments Recherche sur intervalle [a,b] recherche de L correspondant à a utilisation du chaînage horizontal pour récupérer toutes les entrées jusqu à b Complexité insertion/suppression/recherche en temps logarithmique (amorti) effectuer une recherche à ε est en O (log + Nε(q) ) Utilisation de l espace paginé : 50% au moins pour B=2Bm 67% pour des nombres aléatoires (uniformes)

212 B-tree Le B-tree original est presque identique mais les noeuds internes sont aussi utilisés pour stocker des enregistrements pas de chaînage horizontal

213 Fichier inversé (inverted file) Cette structure liste des éléments qui ont une valeur donnée pour un attribut Bases de données: utilisé pour les clés secondaires (doublons attendus) Exemple courant d utilisation : requêtes sur documents textuels (mails, ) mot 1 mot 2 doc1 doc3 doc5 mot i doc2 doc3 doc8 doc9 mots du dictionnaire (ou clé) La requête consiste à récupérer la liste des documents contenant le mot coût proportionnel au nombre de documents à récupérer

214 Parenthèse : recherche de documents textuels (1) Modèle vectoriel on définit un dictionnaire de mots de taille d un document texte est représenté par un vecteur f=(f1,,fi, fd) ℝd chaque dimension i correspond à un mot du dictionnaire fi = fréquence du mot dans le document en pratique, on ne garde que les mots discriminants dans le dictionnaire le, la, est, a, etc, sont supprimés, car peu discriminants Ces vecteurs sont creux dictionnaire grand par rapport au nombre de mots utilisés

215 Parenthèse : recherche de documents textuels (2) Exemple dictionnaire = { vélo, voiture, déplace, travail, école, Rennes } espace de représentation: ℝ6 Rennes est une belle ville. Je me déplace à vélo dans Rennes f=(1/4,0,1/4,0,0,1/2)t Recherche de document = trouver les vecteurs les plus proches au sens d une mesure de (dis-)similarité, en particulier le produit scalaire

216 Retour sur notre fichier inversé : distances entre vecteurs creux requête q et base Y: vecteurs creux Fichier inversé: calcul efficace du produit scalaire (en fait, toute distance Lp) Exemple pour le produit scalaire q y1 y2 y3 y2 1 2 y1 1 y y y y2 5 y1 2 y3 1 y Complexité : O(n C), C : espérance du nombre de positions non nulles en commun, très petit (=d s2 si uniforme et indépendant) 0

217 Optimisation de requête Lors de la création d une table pour un SGDB (e.g., Oracle), Un index doit être créé pour tous les champs qui peuvent apparaître dans les clauses WHERE le type de structure d index utilisé peut (doit!) être choisi en fonction du type de requête effectué Ce n est pas forcément possible dans tous les SGDB MySQL ne supporte que les B-tree (Question : pourquoi ce choix?)

218 Plan Préliminaires Indexation mono-dimensionnelle Indexation multi-dimensionnelle préliminaires R-tree KD-tree la malédiction de la dimension LSH (Locality-Sensitive Hashing) Perspectives

219 Préliminaires Pour d 2, on perd l ordre total compromet la recherche en temps logarithmique Nécessité d organiser l espace pour éviter de se comparer à tout les vecteurs Deux approches pour l organisation des données à partir des données (comme pour le B-tree) pré-défini comme pour le hachage)

220 Organiser à partir des données Utilisation d hyper-rectangles ou d hyper-sphères enveloppants Hyper-rectangles plus facile à indexer, mais meilleure compacité des hypersphères la diagonale de l hyper-rectangle est égale à 5.47 pour d=30 et un volume de 1 le diamètre de l hyper-sphère est égale à 2.86 filtrage plus efficace Selon la méthode: recouvrement autorisé ou non

221 Sur l utilisation de cellules Bien moins de cellules que de descripteurs trouver les cellules non vides les plus proches d un descripteur requête est relativement efficace donc ce pré-filtrage de la plus grande partie des données apporte a priori un gros gain de performance Peu de paramètres à associer à chaque cellule hyper-rectangle englobant : deux points sphère : centre et rayon Qu est-ce que l on exploite? l inégalité triangulaire

222 Exemple d utilisation de cellules englobantes Recherche des 4 plus proches voisins d une requête on connaît les rectangles mais pas encore les points contenus dans ces rectangles

223 Exemple d utilisation de cellules englobantes Dmin(q,C1) Dmax(q,C2) q On peut rejeter C1 sans analyser son contenu

224 Exemple Dmax(q,C4) Dmin(q,C3) On ne peut rejeter C3 q On doit analyser son contenu Il est préférable de commencer par les cellules les plus proches on obtient des distances à des descripteurs, plus proches voisins temporaires. ces distances sont moins lâches que celles déterminées par les bornes des cellules. cela permet d écarter davantage de cellules qui auraient pu être présélectionnées dans un premier temps

225 Première structure de référence: R-Tree Guttman, 1984, ACM SIGMOD Extension des B/B+-Tree aux espaces multi-dimensionnels arbre équilibré chaque noeud représente un rectangle englobant les rectangles des fils hiérarchie de rectangle Notation : REM = rectangle englobant minimum (MBR=minimum bounding rectangle) Arbre équilibré, rectangles englobant minima, hiérarchie de rectangles noeud interne : (rectangle englobant, ptr_child_node)* feuille : (vector)*

226 R-Tree (x1,y1;x2,y2) ; (x3,y3;x4,y4) (x5,y5;x6,y6) ; (x7,y7;x8,y8) (x1,y1) ; (xv,yv) ; (xj,yj) ; ; (xr,yr) ; Un rectangle sur un niveau englobe les rectangles des noeuds fils (x2,y2)

227 R-Tree (suite) (xq, yq) (x1,y1;x2,y2) ; (x3,y3;x4,y4) (x5,y5;x6,y6) ; (x7,y7;x8,y8) ; (xv,yv) ; (xj,yj) ; ; (xr,yr) ; La recherche procède en descendant l arbre en utilisant les coordonnées des rectangles Mais la requête peut tomber dans plusieurs régions à la fois ( B+tree)

228 R-Tree : insertion Insertion dynamique de vecteurs Les arbres sont traversés du noeud racine vers les feuilles Pour l insertion, à chaque niveau v 1 REM aucun problème v plusieurs REM : insertion dans le plus petit v aucun REM : insertion le REM qui grossira le moins Les noeuds et les feuilles ont une capacité d accueil constante Ils doivent être coupés en cas de dépassement de capacité Pb:

229 R-Tree : conclusion La structure en arbre rend la descente théoriquement rapide (log) mais peu efficace en grande dimension car autorisation de l overlapping : peu de rectangles sont filtrés (parcours exhaustif de l arbre) Intéressant pour les systèmes d information géographique source: wikipedia

230 Kd-Tree Technique (populaire) de partitionnement de l espace des vecteurs Espace découpé récursivement en utilisant des hyperplans parallèles aux axes (base de représentation initiale du vecteur) point de découpage = valeur médiane sur l axe considéré choix du prochain axe : plus grande variance résiduelle mais plusieurs variantes

231 Kd-Tree : construction

235 Kd-Tree C est une partition de l espace toutes les cellules sont disjointes (pas de recouvrement) cellules de tailles initialement équilibrées (par construction) mais se déséquilibrent si insertion de vecteurs additionnels peu efficace en grande dimension (ne filtre que peu de cellules)

236 Kd-Tree : recherche du ppv arbre de recherche descente dans l arbre (log) pour trouver la cellule ou tombe le point on cherche le ppv dans la cellule donne la meilleure distance r recherche de l intersection entre l hypersphère de rayon r et l hyperplan séparant la cellule si non vide, analyse de l autre côté de l hyperplan si un point plus proche est trouvé, on met à jour r on analyse toutes les cellules de l arbre qu on l on ne peut filtrer dans le pire des cas, parcours total de l arbre

237 Kd-tree : variantes Elles sont nombreuses BSP Tree (Binary Space Partitioning) la subdivision n est pas parallèle au système de coordonnées Variations où on coupe une dimension donnée quelle dimension est coupée arbre équilibré ou non

238 Malédiction de la dimension! ou «fléau de la dimension» (The dimension curse) Quelques propriétés surprenantes vanishing variance phénomène de l espace vide proximité des frontières

239 Vanishing variance La distance entre paires de points tend à être identique quand d augmente le plus proche voisin et le point le plus éloigné sont à des distances qui sont presque identiques Conséquence le plus proche voisin devient très instable inégalité triangulaire peu efficace pour filtrer Les jeux de données uniformes ne peuvent pas être indexés efficacement c est moins vrai pour des données naturelles (ouf!)

240 Phénomène de l espace vide Cas d école : partition de l espace selon le signe des composantes d= cellules >> n Très peu de cellules sont remplies pour une partition pourtant grossière Ce phénomène est appelé «phénomène de l espace vide» difficulté pour créer une partition une bonne répartition des points avec une bonne compacité

241 Tout les vecteurs sont près des frontières Pour un partitionnement de l espace les vecteurs sont très proches des surfaces de séparation avec une très grande probabilité le plus proche voisin d un point appartient à une cellule différente avec une grande probabilité

242 Tout les vecteurs sont près des frontières

243 LSH (1999) Constat d échec: pas d algorithme de recherche de ppv efficace en grande dimension pour d>15, il vaut mieux faire une recherche exhaustive! Nouvel objectif : trouver nos voisins en probabilité que l on peut faire varier en fonction du compromis pertinence/coût recherché c est la recherche approximative de plus proches voisins Cas d échec (attendu) lorsque le plus proche voisin n est pas significativement plus proche pas forcément grave en pratique Explication au tableau

244 Euclidean Locality Sensitive Hashing (E2LSH) 1) Projection sur m directions aléatoires x.a i bi h i x = w 2 2) Construction de fonctions de hashage: concatenation de k index hi par fonction a1 de hash O (0,0) (1,0) (0,-1) (3,1) (2,1) (1,1) (0,1) (2,0) (1,-1) bi (3,0) (2,-1) 1 w g j x = h j1,..., h jk 3) Pour chaque gj, calcul de deux valeurs de hash - fonctions de hash universelles: u1(.), u2(.) - stockage de l identifiant id du vecteur dans une table de hashage

245 Et la recherche d images? LSH marche correctement, mais pas à très grande échelle nécessite beaucoup de hachages distincts de l espace coût mémoire prohibitif en grande dimension temps de recherche linéaire avec le nombre de hachage Utilisable jusqu à (disons), 100x106 descripteurs ( images) Le domaine de la recherche approximative est très actif outil de base dans de nombreux domaines/applications

246 Réduction de la dimensionnalité La dimension gagne toujours (Bill Triggs) Réduisons la! Approche la plus courante : analyse en composantes principales (ACP) PCA en anglais : Principal Component Analysis

247 ACP Analyse des relations statistiques entre les différentes composantes Pour être capable de reproduire la plus grande partie de l énergie d un vecteur avec un nombre plus faible de dimension élimination des axes peu énergétiques PCA 1d 2d

248 ACP Il s agit d un changement de base translation (centrage des données) + rotation 4 étapes (off-line) centrage des vecteurs calcul de la matrice de covariance calcul des valeurs propres et vecteurs choix des d composantes les plus énergétiques (+ grandes valeurs propres) Pour un vecteur, les nouvelles coordonnées sont obtenues par centrage et multiplication du vecteur par la matrice d x d des vecteurs propres conservés

249 ACP Moins de dimensions, donc meilleur comportement des algorithmes de recherche Si la réduction préserve la plupart de l énergie les distances sont préservées donc le + proche voisin dans l espace transformé est aussi le plus proche voisin dans l espace initial Limitations utile seulement si la réduction est suffisamment réduite lourdeur de mise à jour de la base (choix fixe des vecteurs propres préférable) peu adapté à certains types de variétés

250 Plan Indexation mono-dimensionnelle La malédiction de la dimension Indexation multi-dimensionnelle Perspectives

251 Bases de données multimédia VII Video-Google ENSIMAG 2009 Hervé Jégou & Matthijs Douze

252 Video-Google LA référence : Josef Sivic and Andrew Zisserman «Video Google: A Text Retrieval Approach to Object Matching in Videos» International Conference on Computer Vision, 2003 (ICCV 2003) Idée : calquer le fonctionnement d un moteur de recherche d images sur celui d un moteur de recherche de texte/page web La plupart des systèmes de recherche d images/de vidéos de l état de l art capable d indexer de très gros volumes de données sont dérivés de cette approche D. Nister and H. Stewenius : CVPR 2006 H. Jegou, M. Douze and C. Schmid : ECCV 2008

253 Étapes Description locale : détecteurs + descripteurs Filtrage spatial et temporel Bag-of-words Fichier inversé pour la requête Re-ranking après vérification de la cohérence spatiale

254 Video-Google : description locale Extracteurs MSER Shape adapted (point d intérêt + sélection d échelle + forme elliptique) Descripteurs SIFT (scale-invariant feature transform) [Lowe 04] Imagette (patch) gradients x histogramme 3D y

255 Video-Google : filtrage spatial et temporel Idée : obtenue par analogie avec Google Google améliore le score des pages pour lesquelles les mots-clés se retrouvent à des positions proches dans le texte Filtrage spatial on ne garde un match que si ses voisins géométriques matchent aussi variante : vérification géométrique plus forte (voir chapitre IV) calcul de la transformée affine Filtrage temporel (pour les vidéos uniquement) utilisation d un modèle dynamique simple d une frame à l autre on ne garde une région de description que si elle est suffisamment stable d une frame sur l autre

256 Video-Google : bag-of-words (début) L objectif est d obtenir l équivalent des mots en requête textuelle Pour cela, quantification vectorielle des descripteurs via un k-means Algorithme du k-means au tableau Exercice : montrer que cet algorithme minimise l erreur quadratique moyenne des vecteurs d'apprentissage à leur centroide

257 Video-Google : bag-of-words (suite) Exercice : où sont - MSER - Harris

258 Video-Google : bag-of-words (fin) Une fois le clustering défini (une fois pour toutes), un document est représenté par un histogramme de ses mots visuels Application d une pondération TFIDF aux composantes de cet histogramme objectif : donner plus d importance aux mots visuels rares qu à ceux qui sont fréquents même pondération que celle utilisée en indexation de documents textuels Nb d'occurrences de i dans doc d Nb de mots dans doc d Nb de documents dans la base n id N t i = log nd ni Nb d'occurrences de i dans toute la base

259 Video-Google : fichier inversé Voir le cours sur cette structure d indexation Utilisé pour comparer les vecteurs de fréquence Mesure de similarité usuellement utilisée : produit scalaire Analogie avec le texte description d un document pondération des mots utilisation de stoplists

260 Stoplists On supprime 5% en haut, 10% en bas

261 Avec vocabulaire mieux équilibré Obtenu avec plus de données d'apprentissage pour k-means Stoplist moins utile Cas idéal : répartition uniforme. complexité de la recherche en fichier inversé en O(d s2)

262 Variante 1 : méthode hiérarchique de Nister et Stewénius Motivation : réduire le coût d assignement des visual words Comment : utilisation d un vocabulaire visuel hiérarchique Voir au tableau Autre éléments de la chaîne modifiés : modification de la métrique de comparaison des mots visuels (L1) Scalable Recognition with a Vocabulary Tree David Nistér and Henrik Stewénius, CVPR 06

263 Variante 2 : Jégou, Douze et Schmid Principales idées : interpréter le système de sac-de-mots comme un système de recherche approximative de plus proche voisins Augmenter la sélectivité de celui-ci en rafinant la description du descripteur Utilisation de la Weak geometry consistency pour intégrer de l information spatiale Méthode état de l art en indexation image et vidéo utilisée dans la compétition de copyright vidéo Trecvid voir exposé séparé dans le chapitre suivant sur l indexation vidéo

264 Bases de données multimédia VIII indexation vidéo ENSIMAG 2009 Hervé Jégou & Matthijs Douze

265 Plan Spécificité du problème Filtrage temporel Détecteur spatio-temporels Aggrégation temporelle Zoom sur deux méthodes d indexation vidéo MPEG7 Quelques perspectives

266 Spécificité du problème (début) Vidéo = suite d images L axe temporel t est singulier processus physique différent des axes x et y : mouvement de la caméra et des objets qui la composent la nature des attaques est différente sur cet axe Segmentation temporel en plans (au sens cinématographique) c est un problème en soi assez bien maîtrisé aujourd hui indexation au niveau des plans plutôt que des images composant la vidéo Avantage?

267 Spécificité du problème (fin) Indexation de vidéos = plusieurs problèmes distincts 1) Requête vidéo (souvent un plan) problème qui est le plus souvent considéré 2) Requête image asymétrie de la requête plus difficile (car moins d information dans la requête, et pas de description spatio-temporelle possible) toutes les techniques ne s appliquent pas Dans l état de l art, deux classes d approches indexation des images composant la vidéo + intégration cohérence temporelle indexation spatio-temporelle (pas utilisable avec une requête image)

269 Filtrage temporel Idée [Sivic et Zisserman 2003] indexation 2D «usuelle» utilisation de la cohérence temporelle pour supprimer les descripteurs non stables Méthode optionnellement, sous-échantillonnage (régulier ou par sélection d images clés) pour réduire le nombre d images génération de descripteurs pour chacune des images appariemment des descripteurs de l image t avec ceux des frames voisines calcul d un modèle dynamique simple (non détaillé, plusieurs variantes possibles) sur la position des descripteurs suppression des descripteurs qui ne se reproduisent sur un voisinage temporel suffisant ou d une manière non cohérente avec le modèle

270 Détecteur spatio-temporel Détecteur spatio-temporel [Laptev et Lindeberg 2003] : Space-time Interest Points Extension de Harris à (x,y,t) 1) calcul de la matrice M d auto-corrélation 3x3 : utilisation des dérivées gaussiennes avec une variance distincte pour l axe temporel 2) modification du critère de Harris : H =det M k trace3 M = k Ce critère permet de détecter les points qui présentent de fortes variations de luminosité en x, y et t (voir vidéo) Comme pour les images, une sélection automatique d échelle est possible via une selection des maxima de l opérateur de Laplace (étendu à 3 dimensions) Cette méthode donne le même status à l axe temporel et aux axes spatiaux (sauf σ de dérivation)

271 Aggrégation temporelle (1) La première étape consiste usuellement à considérer que la base de vidéos est une base d images (= ensemble des frames extraites) Chaque frame de la requête est soumise à une base de frames qui représentent l ensemble des vidéos à indexer produit un ensemble de couple de frames et le score associé (tq, b, tb, s) tq position temporelle dans la vidéo requête b tb numéro de vidéo dans la base position temporelle dans la vidéo de la base s score obtenu par l algorithme d appariemment d image Dans ce qui suit : méthode utilisée lors de la compétition Trecvid

272 Aggrégation temporelle (2) Problème : estimer une fonction entre tq et tb Modèles possibles : simple (décalage temporel uniquement): tq = tb + t incluant des variations globale de vitesse (slow-motion): tq =a* tb + t complexe avec une table de décalage: tq = tb + shift [tq] Méthodes d estimation possibles RANSAC transformée de Hough Dynamic Time Wrapping (DTW)

273 Aggrégation temporelle (3) tb video de la base b tq video requête t Exemple d estimation (utilisée pour la compétition Trecvid) utilisation du modèle simple de décalage temporel Estimation en utilisant la transformée de Hough (temporelle) Bins de la transformée taille du même ordre de grandeur que le pas d échantillonage utilisé offre une tolérance aux changements modérés de vitesse (± 20 %)

274 Aggrégation temporelle (4) tb video de la base b tq video requête t En sortie de l estimation: liste d hypothèses. Chaque hypothèse= (b, t) : video de la base et l estimé du décalage t le groupe de frames appariées (tq, tb). ce groupe doit être compact (<1 minute), ou bien il est découpé segment based matching un score aggrégé calculé à partir des scores des frames appariées

275 Vérification spatio-temporelle (1) Objectif : estimation d une transformée 2D entre la vidéo requête et la vidéo de la base de données extension des techniques utilisées en image Modèles possibles : Pour des caméras différentes: géométrie épipolaire Pour le camcording : modèle homographique Modèle affine 2D (affine complet, similitude, translation, etc) Problèmes modèles peuvent changer dans le temps (d une frame à l autre) Question : pourquoi? échantillonnage différent côté base et requête (voir exemple au Tableau)

276 Vérification spatio-temporelle (2) Bon choix: modèle affine 2D complet, avec paramètres fixés Le modèle est estimé sur un groupe de frames appariées c est-à-dire, prend en entrée une hypothèse générée en sortie de l aggrégation Avantage d un modèle de paramètres supposé fixe tous points de tous les couples d images appariées sont utilisés beaucoup plus de points pour l estimation que dans le cas image Modèle imparfait, mais pour lequel on peut obtenir une bonne estimation

277 Vérification spatio-temporelle (3) tb =31523 Video de la base tb =31833 tq =2120 tq =1920 Video requête (camcording) Sortie pour chaque hypothèse (si la vérifiation spatio-temporelle réussit) : un ensemble de paires de frames appariées et le score associé la matrice de la transformée affine 2D

278 Dynamic Time Wrapping (DTW) Algorithme de calcul de distance entre deux séquences similaire à la distance d édition utilisée pour comparer les séquences sonores Algorithme au tableau Nécessité de normaliser les scores (typiquement, par la longueur de la séquence) Question : quelle est la complexité de cet algorithme? Optimisation : techniques de pruning

279 Méthode utilisée pour la compétition Trecvid : vision d ensemble

280 Exemple de requêtes

281 Exemples de requêtes

282 Indexation de gros volumes Hypothèses : attaques faibles (pas/peu de déformation géométrique) volume élevé (1000s d heures) Méthode sélection d images clés calcul d une signature binaire de petite taille (DCT, 64 bits) utilisation d une structure de hachage pour la requête : accès en O(1) Xavier Naturel, Patrick Gros. A Fast Shot Matching Strategy for detecting duplicate sequences in a television stream. CVDB'05.

284 MPEG7 Standard pour la description du contenu multimédia, en XML cadre de description des données audio-visuelles ensemble de méthodes pour les différentes phases de la description des documents multimédias définit des descripteurs pour les différents indices visuels présents dans une vidéo Norme : assurer l interopérabilité des systèmes de génération, gestion, distribution des descriptions des contenus audio-visuels Éléments d intérêt pour l indexation par le contenu : descripteurs d image globaux (couleur, texture, forme) + fonctions de comparaison associées une mesure de pertinence (average normalized modified retrieved rank) d une recherche

285 Plan Spécificité du problème Filtrage temporel Détecteur spatio-temporels Aggrégation temporelle Zoom sur une méthode d indexation ultra-rapide MPEG7 Quelques perspectives

286 Problèmes d intérêt et perspectives Descripteurs spatio-temporels : en émergence dérivés des invariants différentiels (Joly et al.) Harris 3D (Laptev et al.) en compression : mouvement = 30% du train binaire info sous-utilisée en indexation En conclusion domaine de recherche très actif car récent les capacités de calcul des ordinateurs permettent depuis très peu de temps de traiter des grands volumes de données Compétitions pour comparer les méthodes : Trecvid, VideOlympics

287 Bases de données multimédia IX compléments de cours ENSIMAG 2009 Hervé Jégou & Matthijs Douze

288 Plan Expansion de requêtes Classification Retour de pertinence Data-Mining and Latent Semantic Indexing

289 Principe Utile pour une requête populaire c-a-d, beaucoup d occurrences de la scène dans la base d images permet de renvoyer toute les occurrences (augmentation du rappel) Exemple: trouver tous les points de vue 12 résultats 41 résultats 44 résultats

290 Algorithmes: expansion transitive (TCE) queue = [requête] résultats = vide tant que queue non vide requête2 = queue.pop() résultats2 = recherche(requête2) pour image dans résultats2 ajouter image à résultats si image très fiable, queue.push(image) retourner résultats Total Recall: Automatic Query Expansion with a Generative Feature Model for Object Retrieval O. Chum, J. Philbin, J. Sivic, M. Isard, A. Zisserman, ICCV 07

291 Algorithmes: expansion moyenne (AQE) descripteurs = descripteurs_points_intérêt(requête) résultats = vide tant que descripteurs non stable résultats2 = recherche(descripteurs) pour image dans résultats2 ajouter image à résultats si image très fiable dtran = transfo(descripteurs_points_intérêt(image)) ajouter dtran à descripteurs retourner résultats

293 Classification: objectif On veut reconnaître une classe d objets (visages, piétons, montagnes, voiture, etc) un objet (en tenant compte de ses différents aspects) : visages??

294 Classification: objectif est plus dur que rechercher des images de contenu similaire à une image requête il requiert des informations sémantiques moins ambitieux en volume de données et invariance

295 Classification : modèle visuel Modèle visuel = description d image + algorithme d apprentissage Construction d un modèle visuel : approche générique à partir d un ensemble d images annotées description des images positif/négatif labels descripteurs locaux/globaux, invariants aux transformations images descripteurs discriminants pour les classes considérées ou génériques (SIFT) variations d apparence : déterminer une fonction discriminante Support Vector Machines (SVM) réseaux neuronaux

296 Classification: descripteurs Principe : plus de données c est mieux Détecteurs : points d intérêt : souvent trop peu de points, invariance inutile dense : sliding window, multi-échelle aléatoires : paramétrage facile du nombre de fenêtres Descripteurs : SIFT ou généralisation (HOG) couleurs souvent une combinaison

297 Classification: fonction discriminante Modèle = boîte noire: exemples descripteurs positifs Apprentissage exemples descripteurs négatifs Classification descripteur modèle en construction modèle classe Exemple : les SVM classifie des vecteurs en n dimensions classificateur linéaire (mais ) maximise la marge entre positifs et négatifs marge

298 Classification: conclusion Domaine en développement exemple: détection de visages ok, reconnaissance, hum nécessite puissance de calcul peu d invariance classificateurs spécialisés (lettres, visages, ) Généralisation à la vidéo (cf. clip)

300 Retour de pertinence Motivation : la recherche d information multimédia par le contenu donne souvent des résultats décevants Plusieurs raisons à cela un document multimédia est très riche les primitives sont extraites à partir d informations brutes deux utilisateurs n attendent pas la même chose d une même requête : quels indices visuels exploiter?

301 Retour de pertinence (suite) Hiérarchie de représentations, avec poids O: objet (poids U) P: primitive (poids V) R: représentations (poids w) Questions : Comment fixer les poids? Qu est-ce qu une bonne représentation? Premiers travaux : choix des poids à la main par le développeur. L utilisateur pouvait ensuite jouer sur les poids interaction et résultats peu satisfaisants SOLUTION : utiliser l interaction avec l utilisateur apprentissage des distances par ajustement des poids l utilisateur indique de manière interactive les résultats pertinents méthodes IA, bayésienne, de type «recherche d information»

302 Interface pour le retour de pertinence

303 Retour de pertinence (fin) Définition de distances entre représentations, indices et objets Principe de l interaction initialiser les poids U, V et W boucler calcul des distances entre Q et tous les objets de la base classer les réponses et ne garder que N plus pertinentes interaction: l utilisateur évalue la pertinence des réponses mise à jour de U, V et W en accord avec ces réponses [REF] Relevance Feedback: A power tool for interactive Content-Based Image Retrieval, Rui and al., in Storage and retrieval for image and video databases, 1998

305 Latent Semantic Indexing (début) C est une technique de «data-mining», c-a-d d inférence automatique d information à partir de gros volumes de données Latent Semantic Indexing (LSI) très efficace pour la recherche de documents «textes», mais aussi performante pour l analyse d image construit de manière statistique les relations entre mots et documents permet de découvrir «les expressions clefs» d un document Traditionnellement, recherche des mots-clés de la requête dans les documents Mais : polysémie, synonymie Avec LSI, la notion de «mot» est remplacée par celle de «concept»

306 Latent Semantic Indexing (suite) Hypothèse : il existe une relation entre mots et documents qui est gouvernée par un paramètre caché : le sens LSI construction de la matrice mots/documents calcul d une décomposition SVD de la matrice termes/documents A={ai,j} ai,j est la fréquence du mot i dans le document j (le + souvent pondérée) l espace des sens sera l espace réduit des k premiers vecteurs propres espace vectoriel sémantique documents et mots deviennent des points de cet espace Une requête peut être vue comme un pseudo-document et projetée dans cet espace recherche des voisins dans cet espace Dans un contexte d image, LSI s applique en utilisant des mots visuels

307 FIN Bonne chance pour la suite

Montrer encore