Bases de données multimédia I - Introduction

Dimension: px
Commencer à balayer dès la page:

Download "Bases de données multimédia I - Introduction"

Transcription

1 Bases de données multimédia I - Introduction ENSIMAG 2009 Hervé Jégou & Matthijs Douze

2 Bases de données multimedia Deux intervenants: Hervé Jégou, Matthijs Douze, 12 x 1.5H = 18H de cours Évaluation : examen écrit

3 Au programme Introduction Gestion des bases de données multimédia Espaces de représentations Mesures de similarité Évaluation Description globale Description locale Techniques d indexation Recherche dans des espaces de grande dimension Indexation Vidéo Catégorisation des images Indexation Audio

4 Base de données Une base de données est un ensemble structuré et organisé permettant le stockage de grandes quantités d'informations afin d'en faciliter l'exploitation (ajout, mise à jour, recherche de données). Wikipedia

5 Multimédia Qui utilise plusieurs moyens de diffusion Qui concerne plusieurs média Diffusé par plusieurs média Adj: Qui utilise ou concerne plusieurs médias Media: Tout support de diffusion de l information constituant à la fois un moyen d expression et un intermédiaire transmettant un message à l attention d un groupe

6 Multimédia Le mot multimédia est apparu vers la fin des années 1980, lorsque les CD-ROM se sont développés. Il désignait alors les applications qui, grâce à la mémoire du CD et aux capacités de l'ordinateur, pouvaient générer, utiliser ou piloter différents médias simultanément [ ] Aujourd'hui on utilise le mot multimédia pour désigner toute application utilisant ou servant à travailler sur au moins un média spécifique. [ ] Par ailleurs, en recherche en informatique, on nomme multimédia l'étude des médias non textuels, principalement les images, les vidéo et les sons. Wikipedia Note : Wikipedia est une encyclopédie libre. La qualité des informations présentes est généralement bonne, mais le contenu ne provient pas systématiquement d expert et ne présente pas de garantie.

7 Multimédia : définition de travail Des contenus pouvant être de différents types, en particulier Texte Son Image Vidéos Qui peuvent être combinés Caractérisés par des besoins de stockage très importants

8 Ordres de grandeur Volume unitaire de stockage. Valeurs typiques : Stockage brut Compression sans perte Compression avec perte Texte (Descartes, discours de la méthode, ) 125 Ko Gzip: 42 Ko N/A Photo (6 Mpixels) 18 Mo Gzip*: 12 Mo 1 Mo Album de musique 750 Mo FLAC: 406 Mo 75 Mo Un film de 100 minutes (720x576) 180 Go X 700 Mo *: l utilisation d un algorithme de compression d image dédié lossless (sans perte) améliore un peu ce taux de compression

9 Ordres de grandeur Nombre d unités Internet visible nécessite seulement 5-10 To de capacité de stockage Août 2007: 61 milliards de recherches sur Internet recensées Images : par exemple, Flickr, Web ordre de grandeur: milliard à dizaine de milliards d images Films : recense plus de films Croissance très importante, en raison de l accumulation des contenus numériques auto-produits par le grand public : 1578 images uploaded in the last minutes extrapolation : 2M d images images par jour, 800M d images par an : 100M de vidéos délivrées chaque jour (hypothèse basse) Images/vidéo spécifiques : photos satellites, vidéo-surveillance, etc

10 Chaîne du multimédia : besoins Génération : outils de production et de création Représentation : utilisation de formats de représentations différentes Stockage Transmission : problème de réseaux, architecture Recherche d information : recherche basée sur le contenu Distribution : conception de serveur de streaming

11 Applications types News/Films à la demande Commerce electronique Informations médicales Systèmes d informations géographiques Architecture/Design Protection du copyright Géo-localisation Enquêtes policières Militaire Expérimentations scientifiques Enseignement Archivage, gestion des bases de données de contenu (personnelles ou professionnelles) Moteur de recherche (ex: Internet) Applications industrielles Dans les cours suivants : focus sur la partie recherche et indexation dans de grandes bases d images et de vidéos

12 Bases de données multimédia II Gestion des bases de données multimédia

13 Base de données multimédia Multimedia Database (MMDB) Initialement traitées comme des bases standards Objets multimédia traités comme un seul item comme champs au sein d une base de données relationnelle (ex: Oracle, LOB Large Object) Recherche sur mots clés introduits manuellement dans le système par la personne : nécessité d un système d annotation, par exemple Tag ID3 dans le MP3 Information Exif Utilisation des relations entre objets Recherche sur les mots présents dans les pages Web conjointement avec l objet multimédia

14 Base de données standard Une base de données (DB) relationnelle est un ensemble de mise en relation. Un système de gestion de base de données (DBMS) est un logiciel facilitant la création, la maintenance et la manipulation d une base de données. Il garantit sécurité et intégrité de la base. Oracle, DB2, Sybase, PostgreSQL, Mysql Système de base de données = la base + le système de gestion Points clés : Indépendance des données : données et logiciels de gestion séparés Indépendant du mode de stockage ou de représentation de la base Abstraction des données : représentation conceptuelle Auto-suffisance de la base de données. Pas de relation avec des données externes.

15 Relations entre données Bases de données relationnelles : définition d ensembles et de relations entre ces ensembles ensemble composés d entités du même type caractérisé par des champs de type simple (chaînes de caractères, de valeurs numériques, etc) relations entre objets bien définies (est en relation ou non) utilisation d un langage de requête par prédicat (en particulier SQL) Succès important de ce type de système répond à la plupart des besoins impliquant des données simples accroît l indépendance des données Dans un contexte de données de type signal : nécessite la présence d annotations (ou méta-données) et/ou d outils d analyse

16 Spécificités des bases de données multimédia (MMDB) Ex de requête impossible avec un SGDB classique : récupérer tous les images qui ressemblent à une image requête Grosky et Fotouhi (1) caractérisent le multimédia à partir du type d activité impliquée dans la création des données L information portée par le multimédia est tout ce qui peut venir du monde réel, alors que l information portée par une base de données classique ne peut être qu une représentation symbolique de faits limités à l univers de la base de données. Le développeur d une MMDB ne peut expliciter tous les aspects des données qui seront importants pour l utilisateur les informations ne peuvent se limiter à un ensemble de champs prédéfinis sauf pour certaines applications très spécifiques [1]. W.I. Grosky, F. Fotouhi and Z. Ziang. Multimedia data Management. Using metadata to integrate and apply digital media, chapter Using metadata for the intelligent browsing of structured media objets, pages In Sheth and Klas, 1998

17 Richesse des bases de données multimédia Apprendre un concept (ici les couleurs) à partir du monde réel [2] c est-à-dire Google ou tout autre base texte+images Conclusion de l article : utiliser Internet pour définir des couleurs de nouvelles images meilleurs résultats que de demander à un groupe de personnes [2]. J. Van-der-Weijer, C. Schmid and J. Verbeek, Learning Color Names from Real-world Images, CVPR 2007

18 MMDB avec contexte d utilisation limité Toutes les applications ne nécessitent pas de système de gestion sophistiqué en particulier celles qui correspondent à un besoin spécifique (type de requête unique ou limité) Pour de telles applications spécifiques : bases de données classiques + outils d analyse adaptés à l application Exemple : base de données sur le remplissage des stades à partir d images de retransmission

19 Objets actifs vs objets passifs Bertino et al [4] distingue les objets multimédia en actifs et passifs Objets actifs : participent au processus de recherche Cette image contient-elle une voiture? utilisation de la représentation de l image Les objets passifs se contentent d exister dans la base. Ils ne peuvent être retrouver qu au moyen d attributs (pas d utilisation de l objet pour la requête). Remarque : En général, dans une DB: recherche associative (rechercher des propriétés/objets inconnus à partir d attributs connus) = mode passif Une MMDB contenant des objets passifs de satisfait pas les besoins des utilisateurs : besoin de recherche d information sur le contenu des objets, non pas sur leurs attributs. Recherche par attributs limitée à une recherche exacte. Recherche par le contenu implique recherche approximative [3]. A. Hampapur and R. Jain. Multimedia data management. Using metadata to integrate and apply digital media, chaper Video data management systems: metadata and architecture, pages ,1998.

20 Contenu et meta-données Les données brutes (fichier image, fichier son) provenant d objets multimédia contiennent des informations sémantiques. Grosky [4] distingue La donnée brute (image, signal sonore) Les méta-données décrivant le contenu DEFINITION: le processus d abstraction permet de décrire le contenu d objets multimédia par des méta-données, soit manuellement, soit par des procédés (semi-)automatiques Ces meta-données proviennent soit de propriétés de descripteurs des objets (couleur moyenne d une image) ou d annotations manuelles. [4]. W.I. Grosky, F. Fotouhi and Z. Jiang. Multimedia data management. Using metadata to integrate and apply digital media, pages , 1998.

21 Annotations / Meta-données Une annotation textuelle sera toujours trop restrictive, même si elle prend en compte à la fois des informations syntaxiques et symboliques. Malgré cela, l approche la plus utilisée reste l annotation textuelle et manuelle Avantage : recherche indépendante du type de media Inconvénients Le coût d annotation manuel est très important Différentes personnes utilisent un vocabulaire différent pour signifier la même chose (ex: clair, lumineux). Connu sous le nom de problème du vocabulaire. L utilisation d un thésaurus ne règle pas tout. Différentes personnes peuvent décrire des aspects différents du média (polysémie du contenu), la même personne décrira différents aspects en fonction de la situation. Le non-verbal ne peut être exprimé sans ambiguité.

22 Une carte n est pas un territoire 1. Une carte n'est pas le territoire. les mots ne sont pas les choses qu'ils représentent. 2. Une carte ne couvre pas tout le territoire. les mots ne peuvent pas couvrir tout ce qu'ils représentent. 3. Une carte est auto-réflexive. dans le langage, nous pouvons parler à propos du langage. Alfred Korzybski, Une carte n'est pas le territoire

23 Systèmes d annotation : musique/image Musique 1. pas de tag prévu dans le format originel CD 2. Mais utilisation d un identifiant unique par CD (CDID) couplé avec un serveur qui associe des tags à chaque CDID annotation par les utilisateurs finaux 1. MP3 : utilisation de ID3 Images 1. annotation Exif, IPTC 2. (MIT)

24 ID3 Tags Conçu en 1996 et devenu de facto un standard 128 octets Position Taille Contenu 0 3 Marqueur TAG 3 30 Titre Interprète Album 93 4 Année Commentaire Genre musical Manque de souplesse de nombreuses extensions (ID3v1.1, ID3v2) mais qui ne pourront jamais répondre à tous les besoins

25 Exchangeable image file format (Exif) Spécification pour les formats d images des appareils numériques non géré par une organisation internationale, mais largement utilisé Pour JPEG, TIFF, RIFF. Ne supporte pas JPEG2000, PNG ou GIF Le format supporte Date et heure, enregistrés par l appareil Les paramètres de l appareil Dépendent du modèle : inclus la marque et des informations diverses telles que le temps d ouverture, l orientation, la focale, l ISO, etc. Une vignette de pré-visualisation La description et les informations de copyright Supporté par de nombreuses applications

26 Label Me (MIT)

27 Recherche approximative/par similarité L idée clé dans la recherche de média est la recherche approximative Utilise la notion de proximité, de similarité, de distance entre objets Généralement, la requête est exprimée sous la forme d un ou de plusieurs vecteurs dans un espace multi-dimensionnel. définition d une distance (ou mesure de dissimilarité) sur cet espace recherche des objets dont la distance est minimale Les vecteurs d attributs sont extraits de contenu de l image Recherche par le contenu (CBIR: content based information retrieval) Possibilité d utiliser un retour de pertinence

28 Retour de pertinence Possibilité de mettre l interaction au coeur du système parmi les réponses, le système identifie ce qu il trouve intéressant puis affinage de la requête par l utilisateur Utilisateur Retour de pertinence Liste triée Représentation De la requête MMDB

29 Fonctionnalités d un système de gestion de la MMDB Ce qu il doit (devrait) permettre Les objets multimédia peuvent être actifs Le processus de requête est interactif Le processus de requête peut utiliser plusieurs modes de représentation (ex: texte, puis image) Il doit posséder deux modes Gestion du contenu (ajout, modification des objets présents, suppression) Interrogation de la base Il doit pouvoir combiner des informations provenant de différents modes de représentation, utiliser le retour de pertinence pour affiner la recherche Nécessité d une interface utilisateur permettant la manipulation des objets existants, la présentation de résultats, le retour de pertinence

30 Indexation Structurer la base pour ne pas avoir à la parcourir entièrement à chaque recherche, comme dans un dictionnaire Nécessite de décrire le contenu avec des index portant sur les médias Difficulté : les médias en question sont représentés par des vecteurs de grande dimension The dimension curse La malédiction de la dimension Nous reviendrons largement sur cet aspect dans la suite de ce cours

31 Moteurs de recherche basés sur le contenu : non basé sur le contenu, utilisation de mots clés uniquement Critère de similarité global QBIC (Query By Image content) IBM 93 Virage 93 Photobook MIT 93 : description par la couleur : recherche par description locale

32 Bases de données multimédia III Mesures de comparaison et évaluation d un système de recherche d information ENSIMAG 2009 Hervé Jégou & Matthijs Douze

33 Mesures et évaluation : Plan A) Distances et mesures de similarité B) Mesures objectives, subjectives, psycho-visuelles C) Évaluation d un système de recherche d information

34 Distances et mesures de similarité : objectif Avoir un outil quantitatif pour répondre à la question Est-ce que deux entités X et Y se ressemblent? Lorsqu on désire comparer des entités, on cherche à obtenir un scalaire indiquant la proximité de ces entités La mesure utilisée répond à un objectif particulier, soit final, soit intermédiaire, par exemple comparer la qualité de reconstruction d une image compressée avec l image originale (objectif final) indiquer la similarité du contenu de deux images (objectif final) comparer les formes contenues dans deux images (objectif intermédiaire)

35 Distance Une distance d sur un ensemble E est une application de E x E dans R+ vérifiant les axiomes suivants : (P1) séparation: d(x,y) = 0 x = y (P2) symétrie : d(x,y) = d(y,x) (P3) inégalité triangulaire: d(x,z) d(x,y) + d(y,z)

36 Distances usuelles sur Rn (rappels) x = (x1,,xi,,xn) Rn Distance Euclidienne (ou 2-distance) Distance de Manhattan (ou 1-distance) Plus généralement, distance de Minkowski (ou p-distance) Cas particulier : -distance

37 Distance de Mahalanobis Observation : les différentes composantes d un vecteur ne sont pas forcément homogènes, et peuvent être corrélées Exemple : vecteur de description d un objet roulant (nombres de roues, vitesse maximale en km/h, poids en kg, accélération) Nécessité de pondérer les composantes Matrice de covariance (apprise sur un jeu de données) DEFINITION : la distance de Mahalanobis est la distance définie par Si = Id, alors équivalente à la distance Euclidienne Si diagonale, alors elle est équivalente à la distance Euclidienne normalisée

38 Distance de Hausdorff Soit un espace métrique E munie d une distance d DEFINITION : Soit A E. l ensemble définie par est appelé ε-voisinage de A DEFINITION : la distance de Hausdorff dh entre deux parties A et B de E est définie comme Cette mesure est utilisée comme une mesure de similarité entre formes (en considérant l ensemble des recalages possibles).

39 Autres distances Distance du 2 pour comparer deux distributions x i y i 2 d x, y = i, x 0 y 0 x i y i i Distances composées i

40 Quasi-distance La notion de distance n est pas toujours adaptée, car elle impose des axiomes très forts qui ne servent pas directement l objectif recherché Une quasi-distance q est une application qui vérifie les propriétés (P2) et (P3) et la propriété suivante (P1 ) q(x,x) = 0 Exemple : Soit E un ensemble d images contenant un objet et C(X) la classe de ces objets (chat, voiture, ). L application q: E2 R+ telle que q(x,y) = 0 si C(x)=C(y), c-a-d si x et y contiennent le même objet q(x,y) = 1 sinon est une quasi-distance Une quasi-distance peut être nulle entre des objets différents. Minimiser une quasi-distance permet de retrouver une propriété particulière d un objet.

41 Mesure de similarité et dissimilarité Plus général encore? mesure de dissimilarité ou de similarité Une mesure de dissimilarité est une une application ExE K, où K est un ensemble muni d un ordre total Même définition pour une mesure de similarité Mesure de similarité et de dissimilarité diffèrent par le fait que grande valeur indique forte proximité pour la mesure de similarité faible valeur indique forte proximité pour mesure de dissimilarité Toute distance ou quasi-distance est une mesure de dissimilarité

42 Exemples (au tableau) Le cosinus est une mesure de similarité pour des vecteurs normalisés, équivalent au produit scalaire lien avec la distance Euclidienne Divergence de Kullback-Leibler loi entre distributions de probabilités définition au tableau non symétrique, pas forcément définie, axiome de séparation vérifié interprétation en compression

43 Mesures objectives usuelles pour l image En compression image ou vidéo : MSE ou PSNR MSE : Mean Square Error (Error quadratique moyenne) le carré de la norme 2 entre les intensités de l image images de même taille c est une mesure de dissimilarité SNR : Signal to Noise Ratio mesure de similarité utilisée en traitement du signal PSNR : Peak Signal to Noise mesure la plus utilisée pour évaluer les algorithmes de compression PSNR = 10 log10 (P2 / MSE)

44 Mesures et évaluation : Plan A) Distances et mesures de similarité B) Mesures objectives, subjectives, psycho-visuelles C) Évaluation d un système de recherche d information

45 Mesures subjectives Dans ce qui précédait : mesures objectives de comparaison Pour beaucoup d applications, le but est de maximiser l espérance de la satisfaction de l utilisateur. seule une mesure subjective par l utilisateur lui-même permettent d optimiser pleinement ce critère Exemple : comparaison d images

46 ① Bruit Gaussien

47 ② Crop+mise à l échelle

48 ③ Compression JPEG5

49 ① Bruit Gaussien PSNR = db

50 ② Crop+mise à l échelle PSNR = db

51 ③ Compression JPEG5 PSNR = db

52 ① Bruit Gaussien

53 ② Crop+mise à l échelle

54 ③ Compression JPEG5

55 Mesures subjectives pour l image Protocole d évaluation strict (recommandations internationales), ex : nombre significatif d observateurs éclairage, distance, durée d exposition tests doublés pour diminuer les incohérences Utilisation d échelle de qualité subjective. Ex: recommandation BT.599 de l ITU (International Telecommunication Union) pour la compression d images : Excellent Bon Moyen Médiocre Mauvais Utilisation de bases de données communes

56 Mesures subjectives : difficultés L avis d un utilisateur peut varié et n instancie pas un ordre total Deux utilisateurs distincts ne portent pas le même jugement Les avis relatifs de qualité dépendent du type d image!!! Le coût!!!

57 Mesures objectives psycho-visuelles/acoustique/ Idée : apprendre une mesure objective qui modélisera la mesure subjective pour une tâche particulière utilise la modélisation (difficile) du système de perception humain en image : pas de consensus Mesure subjective Mesure objective

58 Mesures et évaluation : Plan A) Distances et mesures de similarité B) Mesures objectives, subjectives, psycho-visuelles C) Évaluation d un système de recherche d information

59 Pré-requis pour l évaluation Avoir à disposition un ensemble de test (base dans laquelle on recherche) un ensemble de requêtes non incluses dans la base de test une vérité terrain (ground truth) pour chaque couple (requête, élément de la base) qui répond à la question : est-ce que l élément de la base est pertinent pour la requête considérée? Remarques pour comparer deux méthodes, les mêmes ensembles de test et de requêtes doivent être utilisés bases de tests partagées par les chercheurs du domaine compétition avec introduction de nouvelles bases de test la taille de ces ensembles doit être suffisamment grande pour diminuer la variance de l évaluation

60 Précision/rappel (début) Soit E un ensemble d objets (l ensemble des textes, images, vidéos) muni d une quasi-distance q telle que x, y E, q(x,y) = 0 si y est pertinent pour x q(x,y) = 1 sinon Remarque: on suppose ici la symétrie de la relation q Cette quasi-distance instancie la vérité terrain Exemple : x et y sont 2 images q(x,y) = 0 si x et y se ressemblent, q(x,y) = 1 sinon Soit un ensemble E E, et x : x E et x E E : ensemble dans lequel on effectue la recherche x : la requête

61 Précision/rappel (suite) Le système de recherche est paramétré pour retourner plus ou moins de résultats La quantité d objets retournés varie entre 1 et #E plus on retourne de résultats, plus on a de chance de retourner toutes les objets pertinents de la base en général, moins on en retourne, plus le taux d objets retournés et qui sont pertinents est élevé Ces deux notions sont couvertes par les mesures de précision et de rappel

62 Précision/rappel (suite) Soit R l ensemble des résultats retournés, de cardinal #R Soit P l ensemble des résultats pertinents dans E pour x, c-a-d P = { y E / q(x,y) = 0 } Soit A l ensemble des résultats retournés et qui sont pertinents A = { y R / q(x,y) = 0 } DEFINITION : la précision = #A / #R est le taux d éléments qui sont pertinents parmi ceux qui sont retournés par le système DEFINITION : le rappel = #A / #P est le taux d éléments qui sont pertinents qui sont retournés par le système La performance du système peut être décrite par une courbe précision/rappel

63 Précision/rappel (suite et presque fin) Remarques : P est indépendant de la requête. R varie en fonction de la paramétrisation (qui retourne + ou de résultats) E R P A

64 Equal Error Rate et Average Precision La courbe précision/rappel n instancie par un ordre total 1 précision Quel est le meilleur : le vert ou le bleu? precision =recall rappel 1 Average precision précision précision Equal Error Rate rappel rappel

65 Exercice : système de recherche d objets Pour la requête et les résultats triés suivants : tracer les courbes précision/rappel et ROC, calculer le rang normalisé moyen

66 ROC (Receiver operating characteristic) Soit une vérité terrain q(.,.) Réponse du système à une requête x r(x,y)=0 si y est retourné (objet considéré pertinent), r(x,y)=1 sinon Vérité terrain Système Pertinent (p) non pertinent (n) Pertinent (p ) Vrai positif (vp) q(x,y)=0 r(x,y)=0 Faux positif (fp) q(x,y)=1 r(x,y)=0 Non pertinent (n ) Faux négatif (fn) q(x,y)=0 r(x,y)=1 Vrai négatif (vn) q(x,y)=1 r(x,y)=1 REMARQUE : rappel = vp / (vp + fn) DEFINITION : taux de faux positifs = fp / (fp + vn) = 1 - spécificité Courbe ROC : rappel en fonction du taux de faux positifs

67 Area under Curve (AUC) Mesure de performance calculée à partir de la courbe ROC Exemple pour mesure la pertinence d un test médical (voir Excellent Bon Passable Pauvre Mauvais Interprétation : l AUC peut être interprétée comme la probabilité, quand on prend deux échantillons -un positif et un négatif-, que le système classe mieux le positif que le négatif

68 Et la pertinence? DEFINITION: la pertinence d un système (pour une paramétrisation donnée) est le taux d objets qui sont correctement jugées, c-a-d pertinence = (vrais positifs + vrais négatifs) / taille de la base En recherche d information : mauvaise mesure de la qualité du système en général, la plupart des objets ne sont pas pertinents un système qui renverrait systématiquement négatif serait quasiment imbattable Intérêt d avoir des courbes (precision/recall et ROC) pour l évaluation dépend de l utilisation : certains utilisateurs cherchent la précision (ex: requête sur Google), d autres un grand rappel possible (recherche de contenu piraté)

69 Pour plus d info Introduction to Information Retrieval, C. D. Manning, P. Raghavan and H. Schütze, Cambridge University Press, 2008 Chapitre 8

70 Mesures et protocole d évaluation : conclusion Mesure de (dis)-similarité nécessaire pour l évaluation des proximités utilisées dans les protocoles d évaluation des étapes impliquées dans la chaîne de représentation/indexation/recherche Difficulté de trouver une bonne mesure elle doit être adaptée à ce que l on compare (ex: loi de probabilité) elle doit répondre à l objectif recherché Il peut être dangereux de vouloir optimiser une mesure objective (exemple du PSNR) qui n est pas directement liée au but recherché Évaluation d un système de recherche multimédia méthodes identiques à celles utilisées en texte utilisation de courbes plutôt que de scalaires (peuvent être interprétées en fonction du besoin) n intègrent pas les mesures de similarités qui ont produit le rang!

71 Bases de données multimédia IV Espaces de représentations ENSIMAG 2009 Hervé Jégou & Matthijs Douze

72 Espaces de représentation : Plan Du monde réel à la description numérique Représenter : pour quelle application? Difficultés Indices visuels Représentation globale vs représentation locale

73 Du monde réel à la représentation numérique À notre échelle, les signaux que nous désirons acquérir sont continus Leur représentation sur des supports numériques nécessite une opération de discrétisation necéssairement destructrice par opposition aux supports analogiques On distingue deux types d opérations de discrétisation L échantillonnage La quantification

74 L échantillonnage C est l opération de discrétisation du support du signal support temporel (son, vidéo, ) support spatial (image, vidéo) support 3D (scanner, ) C est l opération qui consiste à choisir un support discret pour le signal Il est généralement régulier, mais pas necéssairement Voir exemple au tableau Le niveau de discrétisation requis est fonction de la plage de fréquence que l on veut pouvoir restituer Théorème d échantillonnage de Nyquist-Shannon: stipule que la fréquence d échantillonnage doit être au moins 2* la fréquence maximale contenue dans le signal

75 Quantification (début) C est l opération de discrétisation des amplitudes du signal Exemple au tableau Dans un sens plus général, la quantification peut être vectorielle ensemble fini d entiers f: Rd F, avec F={1,2,..k} La quantification définit un diagramme de Voronoï DEFINITION : Un diagramme de Voronoï est une décomposition d un espace métrique déterminée par les distances à un ensemble discret de points

76 Quantification (suite) Quantification uniforme Calcul de l erreur de reconstruction si le signal est uniforme Impact de l augmentation de la précision sur le rapport signal à bruit au tableau Autres quantifications usuelles (la plupart sont structurés) Quantification uniforme Quantification Lloyd-Max (non structuré) Quantification par lattice (lattice hexagonale, lattice E8, lattice de Leech) JPEG2000: quantification dead-zone ou codée en treillis (JPEG2000) Pour plus d infos, voir [5] [5] R. M. Gray et D. L. Neuhoff, Quantization, IEEE Transactions on Information Theory, vol 44, pages , Oct. 1998

77 Quantification (fin) Quantificateur non structurés : appris sur les données regroupe les données similaires en leur associant le même index k-means (Lloyd s) 1 au tableau Exercice : appliquer le k-means aux points (0,0) (2,0) (0,1) (3,4) (4,2) (5,0), k=2 prouver la convergence de l algorithme

78 Exemple de discrétisations de signaux SON Échantillonage : Régulier 8 khz pour une conversation téléphonique (fréquence de la voix < 4kHz) 44.1 khz (CD) ou 48 khz (professionnel), parfois 96 khz Quantification : 8 bits (premières cartes son, qualité pauvre) 16 bits (CD), le bruit de quantification est d environ 98 db 20 bits bruit de quantification de 122 db IMAGE (couleur) 3 grilles de valeurs, 1 grille par composante de couleur RGB : 8 bits de quantification pour chaque couleur 24 bits par pixels (pixel=élément du support du signal)

79 La couleur Espace de représentation RGB (Red, Green, Blue) représentation additive des couleurs sur la base de la lumière émise le plus souvent, chaque canal est représenté sur 8 bits 16,7 millions de couleurs possibles YUV (Y: luminosité, U et V: chrominance) utilisé dans PAL YCbCr, Y'CbCr Mise à l échelle de YUV pour les signaux digitaux utilisé dans JPEG, MPEG2 permet une quantification plus grossière des valeurs de chrominance HSV (Hue, Saturation, Value) = HSB Bonne représentation perceptuelle des couleurs, utilisé dans les logiciels CMYK : Espace de couleur soustractive (application des encres)

80 Espaces de représentation : Plan Du monde réel à la description numérique Représenter : pour quelle application? Difficultés Indices visuels Représentation globale vs représentation locale

81 Représenter pour reconstruire : compression Système de compression transformée quantification codage entropique Transformée : étape qui consiste à représenter le signal dans un espace où l information pertinente se concentre sur quelques coefficients Quantification Codage entropique : étape qui consiste à minimiser l espérance de la longueur de représentation d un ensemble de valeurs à support fini Tranformée et codage entropique sont deux étapes réversibles (respectivement en continu et en discret). Seule la quantification introduit une perte sur le signal.

82 Représenter pour décrire Application de recherche par le contenu focus sur les images description des images pour les retrouver par leur contenu Problème très différent de celui de la compression on ne cherche pas à reconstruire (la plupart des informations n ont pas d utilité directe pour la recherche, alors qu en reconstruction elles contribuent au confort visuel) on cherche à extraire ce qui sera pertinent pour l application visée Applications très variées

83 Recherche d images similaires? image requête base d images

84 Recherche d images ayant les mêmes propriétés Exemple : couleur similaires

85 Reconnaissance de visage : identification d une personne Au sein d une base de visages?

86 Reconnaissance de visage : identification d une personne ou à partir d images ou de vidéos

87 Reconnaissance d un lieu

88 Vidéo interactive Vidéo cliquable Structuration de la vidéo découpage en plan (au sens cinématographique) extraction d objets, par le mouvement ou des algorithmes de détection appariement des objets (permet de créer des liens) Annotation avec des informations supplémentaires } plan } } } } } } ~ ~~ ~ ~~ } ~ ~~ ~

89

90 Problèmes rencontrés Pour l image, par ordre de difficulté croissante Contenu à reconnaître une même image que l image requête une image contenant un objet donné une instance d une classe d objet Tâche à effectuer reconnaissance (image similaire, l image contient l objet ou classe d objet) détection (sous-partie de l image similaire, bounding box de l objet) segmentation (détection des bords de l objet)

91 Espaces de représentation : Plan Du monde réel à la description numérique Représenter : pour quelle application? Difficultés Indices visuels Représentation globale vs représentation locale

92 Premier aperçu : segmentation Ce qu'on aimerait

93 Premier aperçu : segmentation Ce qu'on a

94 Exemple du «Oxford Building Dataset» Requêtes (objets) Exemples d images à retourner

95 Difficultés Transformations image (rotation, échelle) rotation image

96 Difficultés Transformations image (rotation, échelle) changement d échelle

97 Difficultés Transformations image (rotation, échelle) Changement de luminosité

98 Difficultés Transformations image (rotation, échelle) Changement de luminosité Visibilité partielle / occultation

99 Difficultés Transformations image (rotation, échelle) Changement de luminosité Visibilité partielle / occultation Clutter (objets supplémentaires)

100 Difficultés Transformations image (rotation, échelle) Changement de luminosité Visibilité partielle / occultation Clutter (objets supplémentaires) Objets 3D

101 Difficultés Transformations image (rotation, échelle) Changement de luminosité Visibilité partielle / occultation Clutter (objets supplémentaires) Objets 3D Nombre important d images dans la base Nécessité d apprendre les variations d apparence un modèle visuel

102 Espaces de représentation : Plan Du monde réel à la description numérique Représenter : pour quelle application? Difficultés Indices visuels Représentation globale vs représentation locale

103 Indices visuels Ici, focus sur l image, mais s applique à la vidéo Indice visuels : caractéristiques de l image, au sens de notre perception d humain, que l on cherche à utiliser pour la tâche considérée Principaux indices visuels couleur forme texture régions mouvement (pour la vidéo)

104 Indice visuel : couleur (début) Significatif pour la catégorisation (= trouver la classe d objet) ou le tracking (suivre des objets) Indice visuel ayant reçu beaucoup d attention de nombreux descripteurs (globaux ou locaux) En indexation : utilisé depuis longtemps pour faire de la recherche d image par similarité (description le plus souvent indépendante de la position et de l orientation des objets dans l image) Robocup

105 Indice visuel : couleur (suite) Problèmes choix de la représentation de la couleur distance entre couleurs Invariance? Indice visuel insuffisant si utilisé seul, car peu discriminant : pomme rouge vs Ferrari Remarque : une image en niveaux de gris ou même noir et blanc suffit à un humain pour effectuer la tâche demandée! Plus tard dans ce cours : exemple de description (globale) utilisant la couleur

106 Indice visuel : couleur (fin)

107 Indice visuel : forme (début) Nombreux algorithmes d extraction de formes Bestiaire (non exhaustif) : extraction des contours chaîne de points de contours ou approximation polygonale mise en correspondance de graphes distance de Hausdorff indice visuel différente des régions (1D vs. 2D)

108 Indice visuel : forme (fin) Difficultés l étape d extraction des contours est souvent instable séparer la forme du fond est difficile (problème de segmentation) En général, ces algorithmes mènent à une description qui n est pas invariante à des gros changement d échelle, ni aux rotations (car invariance en rotation introduit alors forte perte de discriminance pour cet indice visuel) V. Ferrari, L. Février, F. Jurie, C. Schmid, Groups of Adjacent Contour Segments for Object Detection, PAMI 2008

109 Indice visuel : texture Variations répétitives de l intensité Elles résultent de propriétés physiques des surfaces 3D (herbe, nuages), ou de propriétés photométriques de surface (zèbre, tissu à fleurs) De nombreuses parties des images/vidéos peuvent être caractérisées par des textures L humain reconnaît facilement les textures, mais difficile à définir (et donc représenter): transition micro/macro, textures irrégulières Deux types de méthodes statistiques : distribution spatiales des intensités de l image co-occurrences, auto-corrélation géométriques : segmentation de motifs qui se répètent

110 Régions texturées

111 Indice visuel : régions Prend en compte la répartition spatiale de zones «homogènes» + attributs intrinsèques aux régions (taille, couleur, etc) Relations spatiales entre ces régions (ciel en haut/mer en bas) Sensible au bruit et aux occultations

112 Comparaisons des indices visuels Pour une utilisation brute des différents indices visuels Notion de descripteur associé à un indice visuel Indice visuel Descripteur Avantages Limitations Utilisé Couleur Histogramme, moments Forme Polygones, approximations, invariants moments Texture Matrices de co-occurences, filtre de Gabor, Fourier Information globales et locales Coût de calcul élevé, difficile à définir Région Surface, position, moments, histogramme de couleurs Intègre les relations spatiales (ciel en haut de l image) Extraction très facile, propriétés Pas d information spatiale, globales de l images peu de lien avec la sémantique Haut niveau d abstraction, permet la recherche d objets Coût de calcul élevé, dépend d une segmentation de bas niveau Instabilité

113 Espaces de représentation : Plan Du monde réel à la description numérique Représenter : pour quelle application? Difficultés Indices visuels Représentation globale vs représentation locale

114 Description globale Une description globale est une représentation de l image dans son ensemble, sous la forme d un vecteur de taille fixe Elle se contente le plus souvent d exploiter un indice visuel unique Caractéristiques un type de vecteur de description par objet mesure de (dis-)similarité définie sur l espace de ces descripteurs

115 Exemple de description globale : histogramme de couleur Swain, 1991 Chaque pixel est décrit par un vecteur de couleur par exemple un vecteur RGB R3, mais le plus souvent on utilise un autre espace de couleur plus approprié L ensemble des vecteurs de couleurs forme une distribution description de la distribution avec un histogramme Nécessite discrétisation de l espace + normalisation Comparaison de deux histogrammes par une mesure de dissimilarité, par exemple la «distance» du Chi-2 ou earth mover's distance x i y i 2 d x, y = i, x 0 y 0 x i y i i i

116 Exemple de description globale : contours Exemple de descripteur de texture Descripteur = histogramme d orientation des contours

117 Description locale Une description locale est une représentation de l entité à décrire par un ensemble de descripteurs (vecteurs) Vecteurs calculés localement pour différentes parties de l entité ex: plusieurs sous-parties d une image Ainsi, plusieurs descripteurs par entité Mesure de similarité nécessite la mise en correspondance (appariement) des descripteurs Étude détaillée de ce type de description dans la suite de ce cours

118 Représentation globale ou locale? Avantages de la représention globale certains invariances sont faciles à obtenir extraction pour un coût de calcul plus faible comparaison plus simple : comparaison des entités avec un vecteur unique, donc pas d appariemment en description locale, chaque information individuelle n est pas très discriminante Avantages de la répresentation locale + de résistance à la plupart des transformations Robuste: statistiques dépendantes de plusieurs descripteurs description plus précise d une image dans son ensemble (souvent la description est aussi volumineuse que l image d origine)

119 Bases de données multimédia V Description locale des images ENSIMAG 2009 Hervé Jégou & Matthijs Douze

120 Schéma type d un système de description locale Ensemble de points/régions d intérêt Image requête Extraction de points ou régions d intérêt : Détecteur Calcul de signatures locales : Descripteur Bases de données de signatures locales Score pour un sous-ensemble des images de la base Fusion Requête avec les signatures De l image dans la base de signatures : Appariemment Ensemble de descripteurs locaux de l image

121 Description locale : plan Extraction de points/régions d intérêt Descripteurs locaux Appariement de points

122 Extraction de régions d intérêt : enjeux Extraire des régions qui soient invariants à de nombreuses transformations Transformations géométriques translation rotation similitude (rotation + changement d échelle isotrope) affine (en 3d, textures localement planaires) Transformations photométriques Changement d intensité affine (I a I + b)

123 Base d évaluation des points/régions d intérêt Affine covariant region dataset : 8 ensembles de 6 images transformation 2D fournie (vérité terrain) Bikes et Trees : flou Graffiti et Wall : changement de point de vue Bark et Boat : zoom + rotation Leuven : changement de luminosité UBC : compression JPEG

124 Principaux extracteurs de points/régions d intérêt Harris Harris-Affine Hessian-Affine Edge-Based Region Detector (EBR) Intensity Extrema-Based Regions Detector (IBR) Maximally Stable Extremal Regions (MSER) Salient Region Detector

125 Détecteur de Harris : Introduction Détecter les «coins» = des structures répétables de l image et localisent des endroits très discriminatifs d une image Harris analyse locale lorsqu on est sur un «coin», un déplacement dans n importe quelle direction produit un fort changement des niveaux de gris «A Combined Corner and Edge Detector», C. Harris et M. Stephens, 1988

126 Détecteur de Harris Explication détaillée au tableau.

127 Harris : extraction du patch et calcul des gradients

128 Harris : 2e étape

129 Harris : classification des types de régions

130 Harris : classification des régions : utilisation du seuil

131 Harris : exemple

132 Harris : Invariance Invariance à la translation et aux changements affines d intensité : inhérente à la sélection des maxima locaux Invariance à la rotation l ellipse tourne mais la forme reste identique les valeurs propres restent identiques Mais pas d invariance à des changements d échelle exemple simple au tableau

133 Harris : Non invariance à l échelle Taux de répétabilité : définition à venir

134 Détecteurs hessien & laplacien Analogue au détecteur de Harris Les valeurs propres de la matrice des dérivées secondes (hessienne) caractérisent la forme locale du voisinage d un point. Max sur le déterminant [ I xx I xy H= I xy I xx Forte réponse sur les «blobs» et les crêtes Différence détecteur de coins/blobs Blob classique : DoG ]

135 Invariance à l échelle (début) Étape suivante pour obtenir un extracteur invariant aux transformations affines avec l invariance à l échelle, Harris devient invariant à une similitude Echelle de calcul de Harris/hessien/laplacien/DoG Déterminée par la taille des filtres de dérivation : σ des filtres gaussiens Réagit à une certaine taille de détails / une certaine plage de fréquences spatiales

136 Invariance à l échelle (suite) Noyau (kernel) : Laplacien ou DoG Sélection d'une échelle caractéristique : prendre les valeurs extrêmes d une fonction f liée à l échelle Une bonne fonction f présente des pics marqués Laplacien invariance de l échelle caractéristique

137 Invariance à l échelle (suite) Détecteur de Harris-Laplace Sélectionner le maximum de Harris en espace pour plusieurs échelles sélection des points à leur échelle caractéristiques avec le Laplacien Dans SIFT: recherche des maxima de DoG et position et en échelle

138 Invariance à l échelle (fin) Implémentation d'un filtre gaussien Valeurs coupées à w proportionnel à σ, séparable Complexité en O(w2) Multi-échelle en pratique: pyramide d'images Gaussiennes de taille constante

139 Invariance affine (début) Transformations affines Approximation locale d'homographie Sauf discontinuité Pour obtenir l invariance affine sur un détecteur de blobs (EBR) partir d un maximum local en espace et en échelle exploration radiale dans toutes les directions calcul des valeurs extrêmes de la fonction d échelle sur chaque direction On obtient l échelle approximative sur chaque axe L ensemble de ces échelles radiales induit une forme

140 Invariance affine (suite) Approximation des régions par des ellipses calcul des moments géométriques centrés l ellipse a les mêmes moments d ordre 2 que la région La matrice de covariance de la région définit l ellipse et permet de calculer la transformée affine vers une région normalisée (voir au tableau) Il faut y ajouter une sélection en orientation en effet, une transformation ellipse cercle est définie à une rotation près? méthode : sélection de la direction principale du gradient

141 Harris-Affine et Hessian Affine (début) Détecteur de région de l état de l art K. Mikolajczyk, C. Schmid An affine invariant interest point detector, ECCV 2002 Algorithme : estimation itérative des paramètres localisation : Harris échelle : sélection automatique avec le Laplacien voisinage affine : normalisation avec la matrice des second moments jusqu à convergence Initialisation à partir de points d intérêts multi-échelle

142 Harris-Affine et Hessian Affine (suite) Estimation itérative de la localisation, de l échelle, du voisinage Points initiaux

143 Harris-Affine et Hessian Affine (suite) Estimation itérative de la localisation, de l échelle, du voisinage Iteration #1

144 Harris-Affine et Hessian Affine (suite) Estimation itérative de la localisation, de l échelle, du voisinage Iteration #2

145 Harris-Affine et Hessian Affine (suite) Estimation itérative de la localisation, de l échelle, du voisinage Iteration #3, #4,...

146 Harris-Affine et Hessian Affine : pour résumer Initialisation avec des points d intérêt multi-échelle Estimation itérative de la localisation, de l échelle, du voisinage

147 MSER Principe (voir séquence de seuils) trier les pixels par intensité tous les seuils d intensité possibles sont testés localisation des régions qui sont stables par changement du seuil Pourquoi ça marche (bien) la binarisation locale est stable sur une large plage de seuils Robust wide-baseline stereo from maximally stable extremal regions, J. Matas,, O. Chum, M. Urbana and T. Pajdlaa, Image and Vision Computing 22(10), 2004

148 Comment évaluer un extracteur? Évaluation quantitative des détecteurs de régions d intérêt les points / regions doivent être à la même position relative Mesure de performance : le taux de répétabilité taux de régions qui se correspondent (vérité terrain 2D) homographie Deux points se correspondent si l erreur de localisation est inférieure à 1.5 pixel l erreur d intersection est inférieure à 20% A Comparison of Affine Region Detectors, Mikolajczyk et al., IJCV 2005

149 Harris vs Harris invariant à l échelle

150 Comparaison des détecteurs répétabilité changement d échelle

151 Comparaison des détecteurs repétabilité transformation perspective

152 Description locale : plan Extraction de points/régions d intérêt Descripteurs locaux Appariement de points

153 Et une fois qu on a défini l ellipse? Synthèse du patch (imagette) On calcule un patch de taille donnée Problème d aliasing (apparition de haute fréquence) : application d un filtrage (filtrage convolutif, par exemple gaussien) En pratique: sur la pyramide d'images Tailles typiques de patch : 32x32, 64x64

154 Objectif (début) comparaison

155 Objectif (fin) En utilisant un détecteur, on est capable de détecter des zones robustes (et informatives) de l image Mais à ce stade, ces zones ne peuvent pas être comparées entre elles Qu est qu un descripteur? une représentation de la zone d intérêt sous la forme d un vecteur qui appartient à un espace muni d une distance Qu est qu un bon descripteur? invariant discriminant compact invariance compacité Remarque : ces objectifs sont contradictoires capacité de discrimination

156 Descripteurs Descripteurs basiques Descripteurs invariants à la luminosité/rotation : invariants différentiels Descripteurs à base de moments couleurs affine-invariants État de l art : le descripteur SIFT Descripteur CS-LBP Descripteurs de régions texturées

157 Descripteur pixel On range les pixels au voisinage du point dans un vecteur () Calcul simple Volumineux (patch de 32x32 = vecteur de 1024 éléments) Invariance possible aux transfo affines de luminosité Utilisé comme «baseline» en classification descripteur local

158 Invariants différentiels (début) Descripteurs de points (on ne part pas d un patch) Basés sur des dérivées calculées en un point (x,y). Idée : [ ] I x, y I x x, y I y x, y v x, y = I xx x, y I xy x, y I yy x, y Normalisation pour être invariant aux changements affines de luminosité

159 Invariants différentiels : interprétation () descripteur local Approximation locale d une fonction par la série de Taylor lien avec le détecteur Hessien Le descripteur : les coefficients de cette série tronquée décrivent le voisinage d un point

160 Invariants différentiels (suite) Calcul stable des dérivées par convolution avec dérivées gaussiennes [ ] I x, y G I x, y G x I x, y G y v x, y = I x, y G xx I x, y G xy I x, y G yy où σ correspond à un choix d échelle σ fixé si normalisation en échelle effectué avant, (invariants différentiels développés plus tôt que la normalisation en échelle) En pratique: pyramide d images (convolution en O(σ2))

161 Invariants différentiels : invariance à la rotation [ [Koen 87] Invariant à la rotation (redondant avec normalisation en orientation) I x I x I y I y I xx I x I x 2 I xy I x I y I yy I x I x I xx I yy I xx I xx 2 I xy I xy I yy I yy Invariance à un changement de luminosité affine : ] Trace de la matrice de Harris Trace de la matrice hessienne [ I xx I x I x 2 I xy I x I y I yy I x I x I x I x I y I y 3/ 2 I xx I yy I x I x I y I y 1/2 I xx I xx 2 I xy I xy I yy I yy I x I x I y I y ]

162 Invariants différentiels (fin) Remarque: changement d échelle I2(x)= I1(s x) dérivées liées par I 1 x G i i =s n I 2 s x G i i s 1 n 1 n Aujourd hui, ces descripteurs sont encore utilisés (mais donnent en général de moins bons résultats que SIFT) Taille typique du descripteur : 24

163 20 40 Autres descripteurs invariants à la rotation Calcul des moments en coordonnées polaires (0<k<1, l entier) k i l m kl = r e I r, dr d il mkl mkl e Une rotation α correspond à une transformation Cette transformation influence la phase des mk,l, pas sur leur amplitude Choix naturel pour la description invariante à la rotation : les modules mk,l La mise en correspondance des descripteurs s effectue en comparant ces vecteurs de description Remarque : approche a priori redondante avec la normalisation en orientation (mais celle-ci peut être imparfaite ) [Ref] J. Matas et al. Rotational Invariants for Wide-baseline Stereo. Research report of CMP,

164 Descripteurs moments couleurs invariants affines Moments couleurs affine-invariants p q a b c mabc = x y R x, y G x, y B x, y dx dy pq region Différentes combinaisons de ces moments sont invariantes à des transformations affines Egalement invariantes à des transformées photométriques I a I + b [Ref] F.Mindru et.al. Recognizing Color Patterns Irrespective of Viewpoint and Illumination. CVPR99

165 SIFT (Scale invariant feature transform) [Lowe 04] Calculé sur un patch déjà normalisé : échelle (ou affine) + en orientation description détaillée au tableau Cas particulier de Histogram of Oriented Gradients (HOG)

166 CS-LBP (Center-symmetric local binary pattern) Description au tableau

167 Comparaison de descripteurs On se donne des paires d images pour lesquelles on connaît les points qui doivent être appariés Ex: base de Krystian Mikolajczyk On fixe une distance et un seuil μ pour lequel on considère que deux descripteurs p (dans I1) et q (dans I2) matchent : dist (p,q) < μ En faisant varier le seuil μ, on obtient une courbe precision/rappel qui caractérise la qualité du descripteur

168 Résultats de comparaison A performance evaluation of local descriptors Krystian Mikolajczyk, Cordelia Schmid, PAMI, Volume 27, Number

169 Descripteurs : conclusion Invariances : force des méthodes génériques normalisation affine de la région vers un patch de taille constante en utilisant un detecteur affine invariant normalisation affine en luminosité avant le calcul du descripteur pour garantir l invariance affine Utilisation d un descripteur de relativement grande dimension (128 pour SIFT) pour obtenir une bonne capacité de discrimination

170 Description locale : plan Extraction de points/régions d intérêt Descripteurs locaux Appariement de points

171 Appariemment de points Problème : étant donné des points ou régions d intérêt et les descripteurs associés, comment apparier de manière robuste les points de deux images? Dans ce sous-chapitre : sélection des meilleurs couples de points

172 Comparer directement deux régions normalisées À partir des détecteurs uniquement : plusieurs distances SSD (sum of square differences) NSSD (normalized SSD) ZNCC (zero-normalized cross-correlation) Rôle concurrent avec les descripteurs, pour lesquels la mesure de proximité entre régions donne une ressemblance entre celles-ci. On conserve le couple si cette mesure de dissimilarité est inférieure à un seuil μ : d(p1i,p2j) < μ, avec p1i dans I1 et p2j dans I2 μ est fixé à partir de la courbe précision/rappel du descripteur Comparaison entre descripteurs est + rapide (vecteur plus court)

173 Sélection des meilleurs couples Hypothèse : pour tout couple de points (p1i, p2j), (p1i dans I1 et p2j dans I2), on a une mesure de similarité sij entre régions Remarque: ambiguité Différentes stratégies: Winner-takes-all (symétrique ou à sens unique) Filtrage ultérieur par géométrie

174 Vérification géométrique par mise en correspondance d images Contraintes de voisinages RANSAC LO-RANSAC Transformée de Hough

175 Problème : appariemments entre deux images

176 Vérification des contraintes de voisinage À ce stade, on n a pas utilisé d information géométrique seules les informations sur le point ont été utilisées Vérification des contraintes de voisinages Motivation : il y a beaucoup d appariemments dans un voisinage Si les appariements du voisinage se trouvent à la même position relative, il est probable que l appariemment considéré soit correct Idée utilisation d un voisinage circulaire calcul d un score entre voisinages (fonction des affinités sij entre les points des voisinages de p1i et p2j), s ' p 1i, p 2j =s ij max s kl ddist n 1k p 1i, n 2l p 2j n 1k N p 1i n 2l N p 2j

177 Contraintes géométriques : un peu plus loin Pour cela : estimation robuste de la géométrie épipolaire prise en compte des contraintes géométriques de 2 prises de vue Rappel : coordonnées homogènes P=(x,y,z,w) (x,y,z,w) et (x,y,z,w ) représentent le même point ssi il existe λ tel que x =λx, y =λy, z =λz et w =λw la correspondance point coordonnées n est pas bijective Intérêt : écriture uniforme des transformations affines et de projection Dans le cas de 2D, on se contente de P=(x,y,w)

178 Rappel : exploitation de la géométrie épipolaire Hypothèse : I1 et I2 sont deux projections de la même scène 3D Deux points P1 et P2 des images I1 et I2, sont en coordonnées homogènes Schéma au tableau DEFINITION : épipoles DEFINITION : droites épipolaires DEFINITION : matrice fondamentale Dans le cas de scènes planaires, on simplifie le problème Mise en correspondance directe par homographie

179 Estimation de paramètres: RANSAC But : estimation robuste de la géométrie épipolaire Algorithme au tableau Appariemment guidé : utilisation de la matrice fondamentale pour déterminer des appariements supplémentaires 99 inliers 89 outliers

180 Estimation de paramètres : LMS LMS (Least Median of squares) similaire à RANSAC Algorithme : répéter N fois choix aléatoire de 8 points concordant dans les deux images calcul de la transformation calcul de la médiane des distances entre points observés et calculés On retient alors F avec la plus petite médiane Avantage : pas besoin d un seuil (contrairement à RANSAC) Désavantage : ne marche pas avec plus de 50% d outliers (pourquoi?)

181 Sous-classes de transformations Pour diminuer l incertitude et/ou en en fonction du problème, on réduit le nombre de degré de libertés des transformations possibles Ex: copyright Le plus souvent, on se contente de transformées planaires Exemple d utilisation dans un système de recherche de scènes : [6] Philbin, J., Chum, O., Isard, M., Sivic, J. and Zisserman, A. Object retrieval with large vocabularies and fast spatial matching différentes classes de transformations, suppression de l invariance à la rotation

182 Hiérarchie des transformations planaires (2D 2D) nombre de degré de liberté invariants forme translation 2 tout, sauf les positions absolues transformée 3 longueur, angle, surface, courbure [ ][ ][ ] X ' = cos sin X t [ Y ' ] [ sin cos ] [ Y ] [ t ] X ' =s cos sin X t [ Y ' ] [ sin cos ][ Y ] [ t ] X' =a b X t [ Y ' ] [ c d ][ Y ] [ t ] [ ] [ ] [ ] [ ] rigide X ' = X tx Y' Y ty X Y similitude 4 angle, rapport de longueur X Y transformation 6 affine Homographie 8 parallélisme, rapport de surface, rapport de longueur sur une droite, coordonnées barycentriques Birapport X Y 1 h 11 h12 X X' = h 13 h 31 X h 32 Y h 33 h 21 h 22 Y Y' h 23

183 LO-RANSAC RANSAC (comme son nom ne l indique pas) Idée: utiliser tous les couples de point qui matchent estimation de la transformation à partir des caractéristiques des régions autour du point (position, orientation, forme de la région) calculer le nombre de points qui satisfont cette transformation Avantages tous les appariemments possibles sont testés (+ grande robustesse) efficace Inconvénient le nombre de degrés de liberté possible pour la transformée est limité par le nombre de paramètres fournis pour le point O.Chum, J. Matas, S. Obdrzalek, Enhancing Ransac by generalized model optimization, ACCV 2004

184 Transformée de Hough Utilisé initialement pour détecter des segments/droites à partir de points dans les images Chercher les droites possibles dans un espace de paramètre, (espace de Hough) Principe : discrétiser l espace de paramètres en bins Pour chaque observation, incrémenter le(s) bin(s) consistants avec l observation Résultat = le bin de le plus peuplé affinage possible avec Mean-shift Difficulté: dépendance à la paramétrisation et la quantification Dans le cas de la vérification géométrique, le nombre de degré de liberté possibles doit être petit (Pourquoi?)

185 Vérification géométrique «faible» (WGC) Version très simplifiée d un modèle géométrique appliquée au niveau point Utilise les infos de normalisation en rotation/échelle Rapide: appliqué sur les points indépendamment

186 WGC: en échelle

187 Description locale des images : résumé et commentaires Ensemble de points/régions d intérêt Image requête Extraction de points ou régions d intérêt : Détecteur Calcul de signatures locales : Descripteur Bases de données de signatures locales Score pour un sous-ensemble des images de la base Fusion Requête avec les signatures De l image dans la base de signatures : Appariement Ensemble de descripteurs locaux de l image

188 Description locale des images : résumé et commentaires Étapes recherche de points/régions d intérêt calcul des descripteurs pour chacune de ces régions vérification de la cohérence géométrique algorithme de vote Commentaires: problème en suspens : il faut apparier les descripteurs d une image avec tous les descripteurs d une base d image c est très lent! la vérification de la cohérence géométrique est relativement lente on ne peut l utiliser que pour un sous-ensemble d images a priori plus pertinentes

189 Bases de données multimédia VI Indexation rapide ENSIMAG 2009 Hervé Jégou & Matthijs Douze

190 Indexation Problème : rechercher efficacement des vecteurs de caractéristique (=descripteurs) proches au sein d une base de descripteurs on voudrait éviter de faire une comparaison exhaustive Opérations supportées : recherche (critique), ajout/suppression (+ ou critique) selon l application Deux types de recherche Recherche à ε Recherche des k plus proches voisins objets complexes vecteurs de caractéristiques de haute dimension ajout ou requête extraction de descripteurs structure d indexation

191 Plan Préliminaires Indexation mono-dimensionnelle Indexation multi-dimensionnelle Perspectives

192 Notations base de n vecteurs : Y= { yi ℝd }i=1..n vecteur requête : q in ℝd on note N(q) Y les voisins de q les vecteurs similaires Le voisinage est relatif à une distance (ou une similarité/dissimilarité) on se concentre sur la distance Euclidienne d(x,y) = x-y 2

193 Qu est ce qu un voisin? un vecteur qui répond à une propriété de proximité absolue ou relative recherche à ε Nε(q) = { yi Y : d(yi,q) < ε } recherche des k plus proches voisins k=2 Nk(q) = k-arg-mini d(yi,q)

194 Remarque : le voisinage au sens des k-ppv n est pas symétrique X= { xi ℝd }i=1..n on peut avoir xj Nk(xi) et xj Nk(xi) Ex: une spirale échantillonnée xi xj

195 Algorithme naif : complexité Si la base Y n est pas organisée (=indexée), calculer Nk ou Nε nécessite le calcul de l ensemble des distances d(q,yi) O(n d) Pour Nk(q), il faut de plus trouver effectuer l opération k-arg-mini d(q,yi) Exemple: on veut 3-argmin {1,3,9,4,6,2,10,5} Méthode naïve 1: trier ces distances O(n log n) Méthode naïve 2: maintenir un tableau des k-plus petits éléments, mis à jour pour chaque nouvelle distance considérée O(n k) Intuitivement, on peut faire mieux

196 Max-heap Binary max heap structure d arbre binaire équilibré dernier niveau rempli de gauche à droite à chaque noeud n on associe une valeur v(n) propriété : si ni est un noeud fils de nj, alors v(ni) < v(nj) n1 n2 n3 n4 n5 n6 n7 n Remarque : il admet une représentation linéaire simple: ni a pour père ni/2

197 Max-heap : opérations élémentaires heap_push: ajout inconditionnel d un élément dans le heap ajouter le noeud k+1, et y placer le nouvel élément mise à jour (pour garder les propriétés d ordre) : l élément inséré remonte : inversion avec son parent s il est plus grand jusqu à vérification de la relation d ordre 10 complexité en O(log k) au pire, mais O(1) en pratique heap_pop: suppression inconditionnelle de la plus grande valeur on supprime le noeud racine et on le remplace par l élément du noeud k mise à jour : on descend l élément : inversion avec le fils le plus grand jusqu à ce que la relation d ordre soit vérifiée

198 Algorithme: Max-heap pour chercher les k plus petites valeurs Pb: on cherche k-argmini {a1, ai, an} Initialisation du heap à l arbre vide Pour i=1..n, si l arbre n est pas encore de taille k heap_push si l arbre est déjà de taille k, on compare ai à v(n1) si ai v(n1) on passe à l élement suivant sinon heap_pop heap_push Exemple: 3-argmin {1,3,9,4,6,2,10,5}

199 Algorithme: Max-heap pour chercher les k plus petites valeurs Complexité : O(n log k) au pire, bien meilleure en moyenne un nouveau nième élement doit être plus grand que le noeud racine probabilité de k/i de faire effectivement un push décroit rapidement Peut être utilisé pour trier (algorithme heapsort).

200 Plan Préliminaires Indexation mono-dimensionnelle Indexation multi-dimensionnelle Perspectives

201 Indexation mono-dimensionnelle Application phare : les bases de données (au sens classique du terme) Différents types d opérations de recherche recherche d un point/vecteur : PAM (point access method) recherche de structures spatiales plus complexes : SAM (spatial access method) Ex: recherche d une valeur dans un intervalle, ou du plus proche voisin d une valeur Les structures de références : Hashing B+ tree Fichier inversé

202 Estimation de la performance Les données sont supposées stockées sur des disques (souvent pas le cas pour les algorithmes en vision ) Unité minimum pouvant être transférée : une page = b bytes, qui correspond à B enregistrements de données. N enregistrements accédés O( N/B ) pages à accéder CPU mémoire disque La complexité, en base de données, est donnée en nombre de pages Éléments non pris en compte Impact du cache Proximité des données sur le disque (temps du fseek)

203 Hashing (1) Principe: définir une fonction x k(x), appelée clé de hachage on ne se compare qu aux éléments ayant la même clé q k pages Une bonne clé de hachage répartit uniformément les données sur les différents pages (sinon, accumulation des données au même endroit) Utilisé pour rechercher des valeurs identiques à la requête k x = r i x i mod P mod m i

204 Hashing (2) Excellent pour un accès de type point (PAM) SELECT name FROM PERSON WHERE name = herve Peu adapté aux requêtes comparatives (type intervalle, donc SAM) du type SELECT taille FROM PERSON WHERE taille > 1.70 and taille < 1.90 dans ce cas, complexité en O(n) Typiquement, 1-2 I/O par requête pour les requêtes PAM

205 B+ tree (début) Dérivé du B-tree (différence soulignée plus tard) Utilisation d un ordre sur les éléments Pour requêtes exactes ou requête sur des plages Permet d optimiser les requêtes du type SELECT taille FROM PERSON WHERE taille > 1.70 and taille < 1.90 Mais permet également un accès direct SELECT name FROM PERSON WHERE name = herve Dans ce cas, plus lent que le hashing

206 B+ tree : structure Structure arborescente avec deux types de noeuds Noeuds index (noeuds internes à l arbre) contiennent des pointeurs vers d autres noeuds ou des feuilles ces noeuds ordonnent les sous-noeuds par des valeurs de séparation 5 11 yi< <yi< <yi<175 yi>175 Les entrées (valeurs de séparation) ne sont pas nécessairement remplies Paramètres : B : maximum d entrées dans un noeud Bm : minimum Usuellement B = 2 Bm

207 B+ tree : feuille Feuilles : contiennent les valeurs (et non les valeurs de séparation) hiérarchie de nœuds internes 25<yi< Ø Ø vers feuille suivante NULL: pas encore rempli chainage vers intervalle suivant yi>52 optimisation de la requête sur intervalle La recherche dans un B+tree se fait par une descente dans l arbre en temps logarithmique

208 B+ tree : insertion Trouver la feuille L descente dans l arbre Introduire la donnée dans L si L possède suffisamment de place, insertion sinon, diviser L (en L et un nouveau noeud L2) redistribuer les entrées insérer un index sur L2 dans le noeud parent P de L si il y a la place, stop Sinon, la division doit être faite récursivement sur les noeuds parents les divisions de noeuds interne (sauf le noeud racine) élargissent l arbre la division du noeud racine accroît sa hauteur Remarque: les feuilles sont toujours à hauteur constante

209 B+ tree : exemple d insertion Insertion de 30 on cherche la feuille on insère 30 (il y a de la place) Insertion de 120 on cherche la feuille elle est pleine création d une nouvelle feuille redistribution ajout de 120 dans le nouveau L on lie L2 à son parent il y a de la place, arrêt Ø Ø 1 28 Ø Ø Ø Ø Ø Ø Ø

210 B+ tree : suppression (par souci d exhaustivité) Recherche de la feuille concernée Suppression de l entrée si L demeure avec au moins d entrée, aucune ré-équilibrage sinon, si L contient Bm-1 entrées, tentative de redistribution en prenant des entrées sur les noeuds adjacents. en cas d échec (pas assez d entrée sur les noeuds adjacents), fusion. si fusion, destruction de l entrée du noeud dans le parent de L si nécessaire, propagation jusqu à la racine avec éventuellement réduction de la hauteur de l arbre

211 B+ tree : propriétés Recherche d une valeur donnée, {yi in Y : yi = a} on cherche la feuille contenant la valeur on se compare aux éléments Recherche sur intervalle [a,b] recherche de L correspondant à a utilisation du chaînage horizontal pour récupérer toutes les entrées jusqu à b Complexité insertion/suppression/recherche en temps logarithmique (amorti) effectuer une recherche à ε est en O (log + Nε(q) ) Utilisation de l espace paginé : 50% au moins pour B=2Bm 67% pour des nombres aléatoires (uniformes)

212 B-tree Le B-tree original est presque identique mais les noeuds internes sont aussi utilisés pour stocker des enregistrements pas de chaînage horizontal

213 Fichier inversé (inverted file) Cette structure liste des éléments qui ont une valeur donnée pour un attribut Bases de données: utilisé pour les clés secondaires (doublons attendus) Exemple courant d utilisation : requêtes sur documents textuels (mails, ) mot 1 mot 2 doc1 doc3 doc5 mot i doc2 doc3 doc8 doc9 mots du dictionnaire (ou clé) La requête consiste à récupérer la liste des documents contenant le mot coût proportionnel au nombre de documents à récupérer

214 Parenthèse : recherche de documents textuels (1) Modèle vectoriel on définit un dictionnaire de mots de taille d un document texte est représenté par un vecteur f=(f1,,fi, fd) ℝd chaque dimension i correspond à un mot du dictionnaire fi = fréquence du mot dans le document en pratique, on ne garde que les mots discriminants dans le dictionnaire le, la, est, a, etc, sont supprimés, car peu discriminants Ces vecteurs sont creux dictionnaire grand par rapport au nombre de mots utilisés

215 Parenthèse : recherche de documents textuels (2) Exemple dictionnaire = { vélo, voiture, déplace, travail, école, Rennes } espace de représentation: ℝ6 Rennes est une belle ville. Je me déplace à vélo dans Rennes f=(1/4,0,1/4,0,0,1/2)t Recherche de document = trouver les vecteurs les plus proches au sens d une mesure de (dis-)similarité, en particulier le produit scalaire

216 Retour sur notre fichier inversé : distances entre vecteurs creux requête q et base Y: vecteurs creux Fichier inversé: calcul efficace du produit scalaire (en fait, toute distance Lp) Exemple pour le produit scalaire q y1 y2 y3 y2 1 2 y1 1 y y y y2 5 y1 2 y3 1 y Complexité : O(n C), C : espérance du nombre de positions non nulles en commun, très petit (=d s2 si uniforme et indépendant) 0

217 Optimisation de requête Lors de la création d une table pour un SGDB (e.g., Oracle), Un index doit être créé pour tous les champs qui peuvent apparaître dans les clauses WHERE le type de structure d index utilisé peut (doit!) être choisi en fonction du type de requête effectué Ce n est pas forcément possible dans tous les SGDB MySQL ne supporte que les B-tree (Question : pourquoi ce choix?)

218 Plan Préliminaires Indexation mono-dimensionnelle Indexation multi-dimensionnelle préliminaires R-tree KD-tree la malédiction de la dimension LSH (Locality-Sensitive Hashing) Perspectives

219 Préliminaires Pour d 2, on perd l ordre total compromet la recherche en temps logarithmique Nécessité d organiser l espace pour éviter de se comparer à tout les vecteurs Deux approches pour l organisation des données à partir des données (comme pour le B-tree) pré-défini comme pour le hachage)

220 Organiser à partir des données Utilisation d hyper-rectangles ou d hyper-sphères enveloppants Hyper-rectangles plus facile à indexer, mais meilleure compacité des hypersphères la diagonale de l hyper-rectangle est égale à 5.47 pour d=30 et un volume de 1 le diamètre de l hyper-sphère est égale à 2.86 filtrage plus efficace Selon la méthode: recouvrement autorisé ou non

221 Sur l utilisation de cellules Bien moins de cellules que de descripteurs trouver les cellules non vides les plus proches d un descripteur requête est relativement efficace donc ce pré-filtrage de la plus grande partie des données apporte a priori un gros gain de performance Peu de paramètres à associer à chaque cellule hyper-rectangle englobant : deux points sphère : centre et rayon Qu est-ce que l on exploite? l inégalité triangulaire

222 Exemple d utilisation de cellules englobantes Recherche des 4 plus proches voisins d une requête on connaît les rectangles mais pas encore les points contenus dans ces rectangles

223 Exemple d utilisation de cellules englobantes Dmin(q,C1) Dmax(q,C2) q On peut rejeter C1 sans analyser son contenu

224 Exemple Dmax(q,C4) Dmin(q,C3) On ne peut rejeter C3 q On doit analyser son contenu Il est préférable de commencer par les cellules les plus proches on obtient des distances à des descripteurs, plus proches voisins temporaires. ces distances sont moins lâches que celles déterminées par les bornes des cellules. cela permet d écarter davantage de cellules qui auraient pu être présélectionnées dans un premier temps

225 Première structure de référence: R-Tree Guttman, 1984, ACM SIGMOD Extension des B/B+-Tree aux espaces multi-dimensionnels arbre équilibré chaque noeud représente un rectangle englobant les rectangles des fils hiérarchie de rectangle Notation : REM = rectangle englobant minimum (MBR=minimum bounding rectangle) Arbre équilibré, rectangles englobant minima, hiérarchie de rectangles noeud interne : (rectangle englobant, ptr_child_node)* feuille : (vector)*

226 R-Tree (x1,y1;x2,y2) ; (x3,y3;x4,y4) (x5,y5;x6,y6) ; (x7,y7;x8,y8) (x1,y1) ; (xv,yv) ; (xj,yj) ; ; (xr,yr) ; Un rectangle sur un niveau englobe les rectangles des noeuds fils (x2,y2)

227 R-Tree (suite) (xq, yq) (x1,y1;x2,y2) ; (x3,y3;x4,y4) (x5,y5;x6,y6) ; (x7,y7;x8,y8) ; (xv,yv) ; (xj,yj) ; ; (xr,yr) ; La recherche procède en descendant l arbre en utilisant les coordonnées des rectangles Mais la requête peut tomber dans plusieurs régions à la fois ( B+tree)

228 R-Tree : insertion Insertion dynamique de vecteurs Les arbres sont traversés du noeud racine vers les feuilles Pour l insertion, à chaque niveau v 1 REM aucun problème v plusieurs REM : insertion dans le plus petit v aucun REM : insertion le REM qui grossira le moins Les noeuds et les feuilles ont une capacité d accueil constante Ils doivent être coupés en cas de dépassement de capacité Pb:

229 R-Tree : conclusion La structure en arbre rend la descente théoriquement rapide (log) mais peu efficace en grande dimension car autorisation de l overlapping : peu de rectangles sont filtrés (parcours exhaustif de l arbre) Intéressant pour les systèmes d information géographique source: wikipedia

230 Kd-Tree Technique (populaire) de partitionnement de l espace des vecteurs Espace découpé récursivement en utilisant des hyperplans parallèles aux axes (base de représentation initiale du vecteur) point de découpage = valeur médiane sur l axe considéré choix du prochain axe : plus grande variance résiduelle mais plusieurs variantes

231 Kd-Tree : construction

232 Kd-Tree : construction

233 Kd-Tree : construction

234 Kd-Tree : construction

235 Kd-Tree C est une partition de l espace toutes les cellules sont disjointes (pas de recouvrement) cellules de tailles initialement équilibrées (par construction) mais se déséquilibrent si insertion de vecteurs additionnels peu efficace en grande dimension (ne filtre que peu de cellules)

236 Kd-Tree : recherche du ppv arbre de recherche descente dans l arbre (log) pour trouver la cellule ou tombe le point on cherche le ppv dans la cellule donne la meilleure distance r recherche de l intersection entre l hypersphère de rayon r et l hyperplan séparant la cellule si non vide, analyse de l autre côté de l hyperplan si un point plus proche est trouvé, on met à jour r on analyse toutes les cellules de l arbre qu on l on ne peut filtrer dans le pire des cas, parcours total de l arbre

237 Kd-tree : variantes Elles sont nombreuses BSP Tree (Binary Space Partitioning) la subdivision n est pas parallèle au système de coordonnées Variations où on coupe une dimension donnée quelle dimension est coupée arbre équilibré ou non

238 Malédiction de la dimension! ou «fléau de la dimension» (The dimension curse) Quelques propriétés surprenantes vanishing variance phénomène de l espace vide proximité des frontières

239 Vanishing variance La distance entre paires de points tend à être identique quand d augmente le plus proche voisin et le point le plus éloigné sont à des distances qui sont presque identiques Conséquence le plus proche voisin devient très instable inégalité triangulaire peu efficace pour filtrer Les jeux de données uniformes ne peuvent pas être indexés efficacement c est moins vrai pour des données naturelles (ouf!)

240 Phénomène de l espace vide Cas d école : partition de l espace selon le signe des composantes d= cellules >> n Très peu de cellules sont remplies pour une partition pourtant grossière Ce phénomène est appelé «phénomène de l espace vide» difficulté pour créer une partition une bonne répartition des points avec une bonne compacité

241 Tout les vecteurs sont près des frontières Pour un partitionnement de l espace les vecteurs sont très proches des surfaces de séparation avec une très grande probabilité le plus proche voisin d un point appartient à une cellule différente avec une grande probabilité

242 Tout les vecteurs sont près des frontières

243 LSH (1999) Constat d échec: pas d algorithme de recherche de ppv efficace en grande dimension pour d>15, il vaut mieux faire une recherche exhaustive! Nouvel objectif : trouver nos voisins en probabilité que l on peut faire varier en fonction du compromis pertinence/coût recherché c est la recherche approximative de plus proches voisins Cas d échec (attendu) lorsque le plus proche voisin n est pas significativement plus proche pas forcément grave en pratique Explication au tableau

244 Euclidean Locality Sensitive Hashing (E2LSH) 1) Projection sur m directions aléatoires x.a i bi h i x = w 2 2) Construction de fonctions de hashage: concatenation de k index hi par fonction a1 de hash O (0,0) (1,0) (0,-1) (3,1) (2,1) (1,1) (0,1) (2,0) (1,-1) bi (3,0) (2,-1) 1 w g j x = h j1,..., h jk 3) Pour chaque gj, calcul de deux valeurs de hash - fonctions de hash universelles: u1(.), u2(.) - stockage de l identifiant id du vecteur dans une table de hashage

245 Et la recherche d images? LSH marche correctement, mais pas à très grande échelle nécessite beaucoup de hachages distincts de l espace coût mémoire prohibitif en grande dimension temps de recherche linéaire avec le nombre de hachage Utilisable jusqu à (disons), 100x106 descripteurs ( images) Le domaine de la recherche approximative est très actif outil de base dans de nombreux domaines/applications

246 Réduction de la dimensionnalité La dimension gagne toujours (Bill Triggs) Réduisons la! Approche la plus courante : analyse en composantes principales (ACP) PCA en anglais : Principal Component Analysis

247 ACP Analyse des relations statistiques entre les différentes composantes Pour être capable de reproduire la plus grande partie de l énergie d un vecteur avec un nombre plus faible de dimension élimination des axes peu énergétiques PCA 1d 2d

248 ACP Il s agit d un changement de base translation (centrage des données) + rotation 4 étapes (off-line) centrage des vecteurs calcul de la matrice de covariance calcul des valeurs propres et vecteurs choix des d composantes les plus énergétiques (+ grandes valeurs propres) Pour un vecteur, les nouvelles coordonnées sont obtenues par centrage et multiplication du vecteur par la matrice d x d des vecteurs propres conservés

249 ACP Moins de dimensions, donc meilleur comportement des algorithmes de recherche Si la réduction préserve la plupart de l énergie les distances sont préservées donc le + proche voisin dans l espace transformé est aussi le plus proche voisin dans l espace initial Limitations utile seulement si la réduction est suffisamment réduite lourdeur de mise à jour de la base (choix fixe des vecteurs propres préférable) peu adapté à certains types de variétés

250 Plan Indexation mono-dimensionnelle La malédiction de la dimension Indexation multi-dimensionnelle Perspectives

251 Bases de données multimédia VII Video-Google ENSIMAG 2009 Hervé Jégou & Matthijs Douze

252 Video-Google LA référence : Josef Sivic and Andrew Zisserman «Video Google: A Text Retrieval Approach to Object Matching in Videos» International Conference on Computer Vision, 2003 (ICCV 2003) Idée : calquer le fonctionnement d un moteur de recherche d images sur celui d un moteur de recherche de texte/page web La plupart des systèmes de recherche d images/de vidéos de l état de l art capable d indexer de très gros volumes de données sont dérivés de cette approche D. Nister and H. Stewenius : CVPR 2006 H. Jegou, M. Douze and C. Schmid : ECCV 2008

253 Étapes Description locale : détecteurs + descripteurs Filtrage spatial et temporel Bag-of-words Fichier inversé pour la requête Re-ranking après vérification de la cohérence spatiale

254 Video-Google : description locale Extracteurs MSER Shape adapted (point d intérêt + sélection d échelle + forme elliptique) Descripteurs SIFT (scale-invariant feature transform) [Lowe 04] Imagette (patch) gradients x histogramme 3D y

255 Video-Google : filtrage spatial et temporel Idée : obtenue par analogie avec Google Google améliore le score des pages pour lesquelles les mots-clés se retrouvent à des positions proches dans le texte Filtrage spatial on ne garde un match que si ses voisins géométriques matchent aussi variante : vérification géométrique plus forte (voir chapitre IV) calcul de la transformée affine Filtrage temporel (pour les vidéos uniquement) utilisation d un modèle dynamique simple d une frame à l autre on ne garde une région de description que si elle est suffisamment stable d une frame sur l autre

256 Video-Google : bag-of-words (début) L objectif est d obtenir l équivalent des mots en requête textuelle Pour cela, quantification vectorielle des descripteurs via un k-means Algorithme du k-means au tableau Exercice : montrer que cet algorithme minimise l erreur quadratique moyenne des vecteurs d'apprentissage à leur centroide

257 Video-Google : bag-of-words (suite) Exercice : où sont - MSER - Harris

258 Video-Google : bag-of-words (fin) Une fois le clustering défini (une fois pour toutes), un document est représenté par un histogramme de ses mots visuels Application d une pondération TFIDF aux composantes de cet histogramme objectif : donner plus d importance aux mots visuels rares qu à ceux qui sont fréquents même pondération que celle utilisée en indexation de documents textuels Nb d'occurrences de i dans doc d Nb de mots dans doc d Nb de documents dans la base n id N t i = log nd ni Nb d'occurrences de i dans toute la base

259 Video-Google : fichier inversé Voir le cours sur cette structure d indexation Utilisé pour comparer les vecteurs de fréquence Mesure de similarité usuellement utilisée : produit scalaire Analogie avec le texte description d un document pondération des mots utilisation de stoplists

260 Stoplists On supprime 5% en haut, 10% en bas

261 Avec vocabulaire mieux équilibré Obtenu avec plus de données d'apprentissage pour k-means Stoplist moins utile Cas idéal : répartition uniforme. complexité de la recherche en fichier inversé en O(d s2)

Bases de données multimédia IV Description locale des images

Bases de données multimédia IV Description locale des images Bases de données multimédia IV Description locale des images ENSIMAG 2014-2015 Matthijs Douze & Karteek Alahari Schéma type d un système de description locale Image requête Ensemble de points/régions d

Plus en détail

Bases de données multimédia II Mesures de comparaison et évaluation d un système de recherche d information

Bases de données multimédia II Mesures de comparaison et évaluation d un système de recherche d information Bases de données multimédia II Mesures de comparaison et évaluation d un système de recherche d information ENSIMAG 2014-2015 Matthijs Douze & Karteek Alahari Mesures et évaluation : Plan A) Distances

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Bases de données multimédia VII Bag of words

Bases de données multimédia VII Bag of words Bases de données multimédia VII Bag of words ENSIMAG 2014-2015 Matthijs Douze & Karteek Alahari Video-Google! LA référence : Josef Sivic and Andrew Zisserman «Video Google: A Text Retrieval Approach to

Plus en détail

Bases de données multimédia V Description globale

Bases de données multimédia V Description globale Bases de données multimédia V Description globale ENSIMAG 2014-2015 Matthijs Douze & Karteek Alahari Description globale Une description globale est une représentation de l image dans son ensemble, sous

Plus en détail

Systèmes de représentation multi-échelles pour l indexation et la restauration d archives médiévales couleur

Systèmes de représentation multi-échelles pour l indexation et la restauration d archives médiévales couleur 18/12/2003 p.1/50 Systèmes de représentation multi-échelles pour l indexation et la restauration d archives médiévales couleur Julien DOMBRE Laboratoire IRCOM-SIC, UMR-CNRS 6615. En partenariat avec le

Plus en détail

Atelier «Très Haute Résolution Spatiale» Outils pour la reconnaissance des formes

Atelier «Très Haute Résolution Spatiale» Outils pour la reconnaissance des formes CNES Paris - 22/05/2003 Atelier «Très Haute Résolution Spatiale» Outils pour la reconnaissance des formes Michel DHOME LASMEA UMR 6602CNRS/UBP Clermont-Ferrand Etat de l art (communauté vision artificielle)

Plus en détail

Cours de Traitement de l Image Licence 3

Cours de Traitement de l Image Licence 3 Cours de Traitement de l Image Licence 3 Jean-Luc Baril Université de Bourgogne - Dépt IEM Laboratoire LE2I - http://vision.u-bourgogne.fr barjl@u-bourgogne.fr http://www.u-bourgogne.fr/jl.baril Lena :

Plus en détail

Apprentissage par méthodes à noyaux en reconnaissance d images

Apprentissage par méthodes à noyaux en reconnaissance d images Apprentissage par méthodes à noyaux en reconnaissance d images Alberto Bietti Table des matières Introduction 2 1 Apprentissage par méthodes à noyaux 2 1.1 Position du problème et motivation..........................

Plus en détail

Bases de données multimédia I - Introduction

Bases de données multimédia I - Introduction Bases de données multimédia I - Introduction ENSIMAG 2014-2015 Matthijs Douze & Karteek Alahari Bases de données multimedia Deux intervenants: Matthijs Douze, matthijs.douze@inria.fr Karteek Alahari karteek.alahari@inria.fr

Plus en détail

Traitement d images. Quelques applications. Vision humaine. Qu est-ce qu une image? Introduction

Traitement d images. Quelques applications. Vision humaine. Qu est-ce qu une image? Introduction Traitement Introduction Plan Introduction et prise en main J Transformations d histogramme Transformations géométriques Convolution Détection de contour Bibliographie Cours de traitement Elise Arnaud -

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Vision par Ordinateur

Vision par Ordinateur Vision par Ordinateur James L. Crowley DEA IVR Premier Bimestre 2005/2006 Séance 6 23 novembre 2005 Détection et Description de Contraste Plan de la Séance : Description de Contraste...2 Le Détecteur de

Plus en détail

Propriétés des images numériques Contraintes sur l interprétation

Propriétés des images numériques Contraintes sur l interprétation Propriétés des images numériques Contraintes sur l interprétation M.LOUYS, Traitement d images et problèmes inverses Master Astrophysique, Observatoire de Strasbourg, 2013 Propriétés générales d une image

Plus en détail

Enseignement (M21) «Numérisation des signaux audio-vidéo, compression et stockage» Cours 1/4

Enseignement (M21) «Numérisation des signaux audio-vidéo, compression et stockage» Cours 1/4 Enseignement (M21) «Numérisation des signaux audio-vidéo, compression et stockage» Cours 1/4 Cette matière fait partie du module M3.21 «Culture scientifique et traitement de l information» (4CM, 2TD, 3TP)

Plus en détail

Analyse d images en vidéosurveillance embarquée dans les véhicules de transport en commun

Analyse d images en vidéosurveillance embarquée dans les véhicules de transport en commun des s Analyse d images en vidéosurveillance embarquée dans les véhicules de transport en commun Sébastien Harasse thèse Cifre LIS INPG/Duhamel le 7 décembre 2006 1 Système de surveillance des s Enregistreur

Plus en détail

Examen de Bases de données multimédia 5 février 2014 durée : 2h00

Examen de Bases de données multimédia 5 février 2014 durée : 2h00 Examen de Bases de données multimédia 5 février 2014 durée : 2h00 Documents autorisés : transparents du cours, notes de cours. Calculatrice non autorisée. Bonus = points en plus hors barème. EXERCICE 1.

Plus en détail

Analyse d images introduction

Analyse d images introduction L3, option Image Analyse d images introduction http ://perception.inrialpes.fr/people/boyer/teaching/l3/ Elise Arnaud - Edmond Boyer Université Joseph Fourier / INRIA Rhône-Alpes elise.arnaud@inrialpes.fr

Plus en détail

Maintien des personnes âgées à domicile

Maintien des personnes âgées à domicile Maintien des personnes âgées à domicile Enjeux scientifiques et technologiques liés à la vision par ordinateur Christian Wolf http://liris.cnrs.fr/christian.wolf Introduction Sommaire Les données et les

Plus en détail

Outils Mathématiques pour l informatique

Outils Mathématiques pour l informatique Outils Math. pour l info. - Licence 3 - IEM - Année 2015/2016 Université de Bourgogne Labo. Le2i, UMR-CNRS 5158 http://jl.baril.u-bourgogne.fr September 10, 2015 Cours outils Math. pour l info. - Licence

Plus en détail

TP2 Opérations et filtres

TP2 Opérations et filtres TP2 Opérations et filtres 1. Opérations arithmétiques Mettre en place les fonctions Min et Max sur 2 images en niveaux de gris. Min() conserve entre 2 images les pixels de luminance minimum, Max() conserve

Plus en détail

Détecteurs et descripteurs

Détecteurs et descripteurs Détecteurs et descripteurs GIF-4105/7105 Photographie Algorithmique Jean-François Lalonde Merci à D. Hoiem et A. Efros pour les slides Comment aligner deux images? Déterminer une transformation globale

Plus en détail

Compression d images. Frédéric Dufaux. 26 janvier 2011. Département Traitement du Signal et des Images TELECOM ParisTech. Compression. F.

Compression d images. Frédéric Dufaux. 26 janvier 2011. Département Traitement du Signal et des Images TELECOM ParisTech. Compression. F. d images Frédéric Dufaux Département Traitement du Signal et des Images TELECOM ParisTech 26 janvier 2011 1 / 91 Plan 1 sur la compression d images 2 Quantification 3 4 Codage par Transformée 5 2 / 91

Plus en détail

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation?

Analyse d images, vision par ordinateur. Partie 6: Segmentation d images. Segmentation? Segmentation? Analyse d images, vision par ordinateur Traitement d images Segmentation : partitionner l image en ses différentes parties. Reconnaissance : étiqueter les différentes parties Partie 6: Segmentation d images

Plus en détail

DIIC - INC, 3 e année. Module COMV TP 1 - Introduction au codage d image : manipulation des outils

DIIC - INC, 3 e année. Module COMV TP 1 - Introduction au codage d image : manipulation des outils DIIC - INC, 3 e année Module COMV TP 1 - Introduction au codage d image : manipulation des outils Gaël Sourimant, Luce Morin 18 octobre 2006 1 Introduction Le but de ce TP est d observer et de comparer

Plus en détail

Théorie de l information : historique

Théorie de l information : historique Théorie de l information : historique Développée dans les années quarante par Claude Shannon. Objectif : maximiser la quantité d information pouvant être transmise par un canal de communication imparfait.

Plus en détail

Détection des points d intérêt et Segmentation des images RGB-D. Présentée par : Bilal Tawbe. Semaine de la recherche de l UQO

Détection des points d intérêt et Segmentation des images RGB-D. Présentée par : Bilal Tawbe. Semaine de la recherche de l UQO Détection des points d intérêt et Segmentation des images RGB-D Présentée par : Bilal Tawbe Semaine de la recherche de l UQO 25 Mars 2015 1. Introduction Les méthodes de détection de points d intérêt ont

Plus en détail

Informatique visuelle - Vision par ordinateur. Pré-traitement d images

Informatique visuelle - Vision par ordinateur. Pré-traitement d images Informatique visuelle - Vision par ordinateur Pré-traitement d images Elise Arnaud elise.arnaud@imag.fr cours inspiré par X. Descombes, J. Ros, A. Boucher, A. Manzanera, E. Boyer, M Black, V. Gouet-Brunet

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Indexation par le contenu de documents Audio-Vidéo Média Image

Indexation par le contenu de documents Audio-Vidéo Média Image Indexation par le contenu de documents Audio-Vidéo Média M2 SID Julien Pinquier, pinquier@irit.fr 2 Objectifs et besoins Etat de l art sur le texte, l audio, l image et la vidéo Mesures de performances

Plus en détail

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel Alexis Joly alexis.joly@inria.fr INRIA - IMEDIA Alexis Joly cours monitoring p. 1 Plan de l'exposé

Plus en détail

Indexation d'images. Cours Master IA&D. Techniques du traitement d'images. Antoine Manzanera - ENSTA /Unité d'électronique et d'informatique

Indexation d'images. Cours Master IA&D. Techniques du traitement d'images. Antoine Manzanera - ENSTA /Unité d'électronique et d'informatique Indexation d'images Cours Master IA&D Techniques du traitement d'images Antoine Manzanera - ENSTA /Unité d'électronique et d'informatique Indexation - Introduction Le sujet de ce cours est la recherche

Plus en détail

Traitement Numérique de l Image

Traitement Numérique de l Image ESIAL 2A TRS - SIE Traitement Numérique de l Image Numérisation - Mémorisation (MdC 6ème Section) Centre de Recherche en Automatique de Nancy -UMR CNRS 7039- Équipe : SYstèMes de Production Ambiants E.R.T.

Plus en détail

Compression d images format JPEG

Compression d images format JPEG Compression d images format JPEG 1) Introduction (système de compression, les normes) 2) Formats des images (les couleurs, formats 4:2:0, QCIF ) 3) JPEG (schéma de codage, modes de fonctionnement) D après

Plus en détail

Système D Indexation et de Recherche d Images par le contenu

Système D Indexation et de Recherche d Images par le contenu Système D Indexation et de Recherche d Images par le contenu 1 Houaria ABED, 1 Lynda ZAOUI Laboratoire : Systèmes, Signaux, Données Département Informatique, Faculté des Sciences Université des Sciences

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Cours: SYSTEMES MULTIMEDIA Master RSD, 2014/2015

Cours: SYSTEMES MULTIMEDIA Master RSD, 2014/2015 Cours: SYSTEMES MULTIMEDIA Master RSD, 2014/2015 Prof. Slimane Larabi Chapitre 2. Notions sur l image et la vidéo 2.1 Notions sur l'image 2.2 Représentation d une image 2.3 OPERATIONS SUR LES IMAGES 2.4

Plus en détail

ENSEIRB-MATMECA PG-113 2014. TP6: Optimisation au sens des moindres carrés

ENSEIRB-MATMECA PG-113 2014. TP6: Optimisation au sens des moindres carrés ENSEIRB-MATMECA PG-113 014 TP6: Optimisation au sens des moindres carrés Le but de ce TP est d implémenter une technique de recalage d images qui utilise une méthode vue en cours d analyse numérique :

Plus en détail

De 2 à 22 millions d'images; Création, Indexation et Recherche par le contenu avec Piria

De 2 à 22 millions d'images; Création, Indexation et Recherche par le contenu avec Piria De 2 à 22 millions d'images; Création, Indexation et Recherche par le contenu avec Piria contact : patrick.hede@cea.fr Commissariat à l'energie Atomique List sensorielles 13/05/07 1 Plan Le CEA, le Lic2m

Plus en détail

Filtrage et EDP. Philippe Montesinos. EMA/LGI2P - Site EERIE. Parc Scientifique G. Besse - 30035 Nîmes Cedex 1- France http://www.lgi2p.ema.

Filtrage et EDP. Philippe Montesinos. EMA/LGI2P - Site EERIE. Parc Scientifique G. Besse - 30035 Nîmes Cedex 1- France http://www.lgi2p.ema. Filtrage et EDP Philippe Montesinos EMA/LGI2P - Site EERIE Parc Scientifique G. Besse - 30035 Nîmes Cedex 1- France http://www.lgi2p.ema.fr 1 Plan 1. Rappels: - Les analyses multi-échelles. - Méthodes

Plus en détail

Profil du candidat et connaissances techniques à connaître/maîtriser

Profil du candidat et connaissances techniques à connaître/maîtriser Utilisation d algorithmes de deep learning pour la reconnaissance d iris. jonathan.milgram@morpho.com Dans ce cadre, l'unité de recherche et technologie a pour but de maintenir le leadership Au sein de

Plus en détail

Traitement bas-niveau

Traitement bas-niveau Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.

Plus en détail

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12 Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12 2 Discrimination Invariance Expressions faciales Age Pose Eclairage 11/12/2012 3 Personne Inconnue Identité

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

Bases du traitement des images. Détection de contours. Nicolas Thome. 19 octobre 2009. Plan Modélisation Filtrage Approches continues Post-Traitements

Bases du traitement des images. Détection de contours. Nicolas Thome. 19 octobre 2009. Plan Modélisation Filtrage Approches continues Post-Traitements Détection de contours Nicolas Thome 19 octobre 2009 1 / 61 Introduction Rôle primordial de la détection de contours en vision 1 Réduction d'information Information de toute l'image résumée dans le contours

Plus en détail

Réseaux Multimédia 2002 Damien Magoni

Réseaux Multimédia 2002 Damien Magoni Réseaux Multimédia 2002 Damien Magoni Toutes les illustrations 2001 Pearson Education Limited Fred Halsall Contenu Représentation des informations multimédia Numérisation Structure d un encodeur Structure

Plus en détail

Mesure agnostique de la qualité des images.

Mesure agnostique de la qualité des images. Mesure agnostique de la qualité des images. Application en biométrie Christophe Charrier Université de Caen Basse-Normandie GREYC, UMR CNRS 6072 Caen, France 8 avril, 2013 C. Charrier NR-IQA 1 / 34 Sommaire

Plus en détail

Compression multimédia

Compression multimédia Compression multimédia 1/21 Compression multimédia Théorie des réseaux nils.schaefer@sn-i.fr Compression multimédia 2/21 Limites de la compression générique Méthodes de compression génériques Aucune connaissance

Plus en détail

Acquisition et gestion de contenus numériques multimédia

Acquisition et gestion de contenus numériques multimédia 08/10/2014 Acquisition et gestion de contenus numériques multimédia Introduction Valérie Gouet-Brunet et Michel Crucianu valerie.gouet@ign.fr, michel.crucianu@cnam.fr IGN / CNAM http://recherche.ign.fr/labos/matis/cours/master-siaw-mlv/

Plus en détail

Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base)

Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base) Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base) 1. Généralités sur l'information et sur sa Représentation 1.1 Informations et données : a. Au sen de la vie : C

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Estimation du mouvement. Marco Cagnazzo 14 mai 2012

Estimation du mouvement. Marco Cagnazzo 14 mai 2012 Estimation du mouvement Marco Cagnazzo 14 mai 2012 Plan Introduction La représentation du mouvement Les différentes techniques Applications et examples 2 Estimation du mouvement Le mouvement dans les images

Plus en détail

I.2 Comment passer d un signal analogique en un signal numérique sans perdre de l information?

I.2 Comment passer d un signal analogique en un signal numérique sans perdre de l information? I- Chaîne d information I.1 Généralités Dans un ballon-sonde, on trouve des capteurs (température, luminosité, pression ) plus ou moins sophistiqués. Nous allons voir que pour un problème technique identique

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

Chapitre 5 LA COMPRESSION DES IMAGES NUMÉRIQUES

Chapitre 5 LA COMPRESSION DES IMAGES NUMÉRIQUES Chapitre 5 LA COMPRESSION DES IMAGES NUMÉRIQUES 91 PROBLÈMES TRANSMISSION / STOCKAGE Problèmes : Non compressée (c est-à-dire sous forme d un fichier BMP par exemple), une image couleur (en RVB) haute

Plus en détail

Comparaison d images binaires reposant sur une mesure locale des dissimilarités Application à la classification

Comparaison d images binaires reposant sur une mesure locale des dissimilarités Application à la classification 1/54 Comparaison d images binaires reposant sur une mesure locale des dissimilarités Application à la classification Étienne Baudrier CReSTIC vendredi 9 décembre 2005 2/54 Contexte programme national de

Plus en détail

INDEXATION des IMAGES

INDEXATION des IMAGES INDEXATION des IMAGES Marine Campedel www.tsi.enst.fr/~campedel mars 2005 Plan du cours Généralités Méthodes Indexation textuelle Indexation par le contenu Récupération de l information (retrieval) Feedback

Plus en détail

De 2 à 22 millions d'images; Création, Indexation et Recherche par le contenu avec PiRiA

De 2 à 22 millions d'images; Création, Indexation et Recherche par le contenu avec PiRiA De 2 à 22 millions d'images; Création, Indexation et Recherche par le contenu avec PiRiA contact : patrick.hède@cea.fr Commissariat à l'energie Atomique GdR isis : Passage à l'échelle dans la recherche

Plus en détail

Projet : Recherche de source d onde gravitationnelle (analyse de données Metropolis Hastings Markov Chain) 1

Projet : Recherche de source d onde gravitationnelle (analyse de données Metropolis Hastings Markov Chain) 1 Université Paris Diderot Physique L2 2014-2015 Simulations Numériques SN4 Projet : Recherche de source d onde gravitationnelle (analyse de données Metropolis Hastings Markov Chain) 1 Objectifs : Simuler

Plus en détail

Exemples d'activités sur les images numériques

Exemples d'activités sur les images numériques Annexe 1 1 Accès aux composantes RVB d un pixel dans GIMP Pour agrandir l image : touche Ctrl maintenue enfoncée tout en tournant la molette de la souris, ou bien menu Affichage > Zoom > 1600 % Dans la

Plus en détail

MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE MOULOUD MAMMERI, TIZI-OUZOU

MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE MOULOUD MAMMERI, TIZI-OUZOU MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE MOULOUD MAMMERI, TIZI-OUZOU FACULTE DE GENIE ELECTRIQUE ET D INFORMATIQUE DEPARTEMENT AUTOMATIQUE MEMOIRE DE MAGISTER en

Plus en détail

L impact de deux strategies de compression dans le

L impact de deux strategies de compression dans le L impact de deux strategies de compression dans le problème stéréo Réunion scientifique, Imagerie stéréo et 3D GdR ISIS, 2011 G. Blanchet, A. Buades, B. Coll (Univ. Illes Balears), J.M. Morel, B. Rougé

Plus en détail

CALCULS PARALLÈLES ET APPLICATIONS LA VISION PAR ORDINATEUR AU CEA LIST, QUELS CHOIX ARCHITECTURAUX?

CALCULS PARALLÈLES ET APPLICATIONS LA VISION PAR ORDINATEUR AU CEA LIST, QUELS CHOIX ARCHITECTURAUX? CALCULS PARALLÈLES ET APPLICATIONS LA VISION PAR ORDINATEUR AU CEA LIST, QUELS CHOIX ARCHITECTURAUX? LABORATOIRE DE VISION ET INGÉNIERIE DES CONTENUS (LVIC) Fusion multimedia : extraction multimodale d

Plus en détail

Chapitre 13 Numérisation de l information

Chapitre 13 Numérisation de l information DERNIÈRE IMPRESSION LE 2 septembre 2013 à 17:33 Chapitre 13 Numérisation de l information Table des matières 1 Transmission des informations 2 2 La numérisation 2 2.1 L échantillonage..............................

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

Traitement d images. Chapitre I Prétraitements

Traitement d images. Chapitre I Prétraitements Traitement d images Chapitre I Prétraitements 1 2 Introduction Les prétraitements d une image consiste à effectuer des opérations visant à : améliorer sa qualité visuelle restaurer l image en éliminant

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Travaux pratiques de traitement d images numériques. Institut Galilée 2010-2011

Travaux pratiques de traitement d images numériques. Institut Galilée 2010-2011 G. Dauphin et A. Beghdadi Travaux pratiques de traitement d images numériques Première séance Institut Galilée 2010-2011 Les travaux pratiques de traitement d image sont répartis en trois séances de 8

Plus en détail

Sommaire. Introduction au codage multimédia et la compression. Forme d un fichier. Introduction

Sommaire. Introduction au codage multimédia et la compression. Forme d un fichier. Introduction Sommaire au codage multimédia et la compression Sebastien.Kramm@univ-rouen.fr IUT SRC Rouen 2012-2013 Codage des images Format matriciel (bitmap) Codage du son Compression de données Compression avec pertes

Plus en détail

Reconnaissance de caractères: Descripteurs de formes et classification. Philippe Foucher

Reconnaissance de caractères: Descripteurs de formes et classification. Philippe Foucher Reconnaissance de caractères: Descripteurs de formes et classification Philippe Foucher 1 Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Introduction à la Vision 3D

Introduction à la Vision 3D à la Vision 3D David Fofi Le2i UMR CNRS 6306 IUT Le Creusot Les applications présentées sont le fruit d une collaboration entre le Le2i et le laboratoire VICOROB de l Université de Gérone (Espagne). Les

Plus en détail

Cahier de textes Page 1 sur 9. Cahier de textes

Cahier de textes Page 1 sur 9. Cahier de textes Cahier de textes Page 1 sur 9 Cahier de textes Jeudi 04/09/2014 9h-12h et 13h30-16h30 : Cours sur la logique : - Conjonction, disjonction, implication, équivalence - Quelques formules. - Quantificateurs

Plus en détail

Comment coder une image en langage binaire? Michel Futtersack, Faculté de Droit, Université Paris Descartes

Comment coder une image en langage binaire? Michel Futtersack, Faculté de Droit, Université Paris Descartes Comment coder une image en langage binaire? Michel Futtersack, Faculté de Droit, Université Paris Descartes Les deux grands types d'images numériques Image matricielle (bitmap) Image vectorielle Image

Plus en détail

Compression d images et de vidéo: pourquoi, comment? Aline ROUMY Chercheur, INRIA Rennes

Compression d images et de vidéo: pourquoi, comment? Aline ROUMY Chercheur, INRIA Rennes Compression d images et de vidéo: pourquoi, comment? Aline ROUMY Chercheur, INRIA Rennes Octobre 2014 SOMMAIRE 1. Pourquoi compresser une vidéo? 2. Comment compresser? 3. Compression avec pertes 4. Compression

Plus en détail

Traitement de l image

Traitement de l image Traitement de l image Vidéosurveillance + + Détection et reconnaissance d objets + + Suivi d objets et de personnes + + Analyse automatique de scènes Multimédia + + Classification interactive de données

Plus en détail

Méthodes de projection

Méthodes de projection Chapitre 11 Méthodes de projection Contenu 11.1 Analyse en composantes principales........ 138 11.1.1 L Analyse en Composantes Principales........ 139 11.1.2 La (grande) famille des ACP............. 151

Plus en détail

Bases de données multimédia

Bases de données multimédia Bases de données multimédia Séance 1 : Introduction Michel Crucianu (Cnam) Valérie Gouet-Brunet (IGN) http://cedric.cnam.fr/~crucianm/bdm.html Contenu du cours Introduction : motivations, applications,

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Géométrie discrète Chapitre V

Géométrie discrète Chapitre V Géométrie discrète Chapitre V Introduction au traitement d'images Géométrie euclidienne : espace continu Géométrie discrète (GD) : espace discrétisé notamment en grille de pixels GD définition des objets

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

TP 8 : ONDELETTES 2D, COMPRESSION ET DÉBRUITAGE D IMAGE

TP 8 : ONDELETTES 2D, COMPRESSION ET DÉBRUITAGE D IMAGE Traitement de l information et vision artificielle Ecole des Ponts ParisTech, 2 ème année Guillaume Obozinski guillaume.obozinski@imagine.enpc.fr TP 8 : ONDELETTES 2D, COMPRESSION ET DÉBRUITAGE D IMAGE

Plus en détail

TP SIN Traitement d image

TP SIN Traitement d image TP SIN Traitement d image Pré requis (l élève doit savoir): - Utiliser un ordinateur Objectif terminale : L élève doit être capable de reconnaître un format d image et d expliquer les différents types

Plus en détail

Table des matières. Avant propos. Chapitre I NOTIONS SUR LES SYSTEMES

Table des matières. Avant propos. Chapitre I NOTIONS SUR LES SYSTEMES Table des matières Avant propos Chapitre I NOTIONS SUR LES SYSTEMES 1. Systèmes linéaires 1 2. Systèmes stationnaires 1 3. Systèmes continus 2 4. Systèmes linéaires invariants dans le temps (LIT) 2 4.1

Plus en détail

École supérieure de Télécommunications

École supérieure de Télécommunications Normes de compression vidéo Riadh ABDELFATTAH École supérieure de Télécommunications riadh.abdelfattahh@supcom.rnu.tnabdelfattahh@supcom rnu tn Objectifs du cours 1. Mode de représentation des données

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Indexation et interrogation de photos de presse décrites en MPEG-7

Indexation et interrogation de photos de presse décrites en MPEG-7 Indexation et interrogation de photos de presse décrites en MPEG-7 Emmanuel Bruno Jacques Le Maitre Elisabeth Murisasco Laboratoire SIS, Equipe Informatique Université de Toulon et du Var Bâtiment R, BP

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

Analyse et modélisation de visages

Analyse et modélisation de visages Analyse et modélisation de visages Pascal Bourdon Laboratoire XLIM-SIC (UMR CNRS 7252) / Université de Poitiers pascal.bourdon@univ-poitiers.fr Analyse et modélisation de visages Plan Introduction Outils

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Images numériques. Notions et contenus. évaluée

Images numériques. Notions et contenus. évaluée Images numériques Thème Notions et contenus Compétence travaillée ou évaluée Résumé Mots clefs Académie Référence Auteur Transmettre et stocker de l information Caractéristiques d une image numérique :

Plus en détail

1 Notion d espace vectoriel

1 Notion d espace vectoriel Arnaud de Saint Julien - MPSI Lycée La Merci 2014-2015 1 Résumé de cours sur les espaces vectoriels et les applications linéaires Les vecteurs du plan, les nombres réels, et les polynômes à coefficients

Plus en détail

en environnement intérieur pour l'indexation de vidéo issue de caméra portée

en environnement intérieur pour l'indexation de vidéo issue de caméra portée Reconstruction et localisation 3D en environnement intérieur pour l'indexation de vidéo issue de caméra portée H. Wannous, V. Dovgalecs, R. Mégret* IMS - Projet IMMED / ANR 09-BLAN BLAN-0165 0165-01 *remi.megret@ims-bordeaux.fr

Plus en détail

Indexation d images et recherche par points d intérêt

Indexation d images et recherche par points d intérêt UNIVERSITE des Sciences de CAEN GREYC Equipe Image de Caen DEA Electronique Systèmes Capteurs Images *************************** Rapport de stage 003-004 Indexation d images et recherche par points d intérêt

Plus en détail

Analyse d images. L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Analyse d images. L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : Analyse d images La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers

Plus en détail

Chapitre III : La multimédia. La multimédia

Chapitre III : La multimédia. La multimédia La multimédia INTRODUCTION La multimédia est une technique qui permet d'utiliser l'information sous plusieurs formes : image, texte, son et vidéo. C'est pour cela l'ordinateur doit être équipé de périphériques

Plus en détail

Le traitement numérique des images

Le traitement numérique des images Le traitement numérique des images Gabriel Peyré To cite this version: Gabriel Peyré. Le traitement numérique des images. Publication en ligne sur le site Images des Mathématiques, CNRS. 2011.

Plus en détail