INDEXATION des IMAGES



Documents pareils
Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

La classification automatique de données quantitatives

Apprentissage Automatique

Introduction au Data-Mining

Introduction au Data-Mining

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Introduction au datamining

Big Data et Graphes : Quelques pistes de recherche

UE 8 Systèmes d information de gestion Le programme

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Présentation du module Base de données spatio-temporelles

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

THOT - Extraction de données et de schémas d un SGBD

N. Paparoditis, Laboratoire MATIS

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Intégration de la dimension sémantique dans les réseaux sociaux

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Master Informatique Aix-Marseille Université

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Systèmes d information et bases de données (niveau 1)

Catalogue des formations Edition 2015

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Bases de données Cours 1 : Généralités sur les bases de données

Big Data et Graphes : Quelques pistes de recherche

données en connaissance et en actions?


Projet Business Object

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Business Intelligence avec Excel, Power BI et Office 365

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Bases de données Outils de gestion

Bases de données documentaires et distribuées Cours NFE04

2 Serveurs OLAP et introduction au Data Mining

Introduction à la B.I. Avec SQL Server 2008

Gestion collaborative de documents

Webinar. Découvrez Rubedo, la première solution CMS open-source tirant profit des atouts de Zend Framework et du NoSQL. avec la participation de

CATALOGUE FORMATIONS DOMAINE Bases de données

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Analyse Sémantique de Nuages de Points 3D et d Images dans les Milieux Urbains

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Gestion du parc informatique matériel et logiciel de l Ensicaen. Rapport de projet. Spécialité Informatique 2 e année. SAKHI Taoufik SIFAOUI Mohammed

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

INTRODUCTION AU DATA MINING

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Sommaire. 1 Introduction Présentation du logiciel de commerce électronique 23

SQL Server 2012 et SQL Server 2014

Portail collaboratif Intranet documentaire Dématérialisation de processus

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Séance 1 Introduction aux bases de données

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Jean-François Boulicaut & Mohand-Saïd Hacid

Ebauche Rapport finale

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

Les algorithmes de fouille de données

Information utiles. webpage : Google+ : digiusto/

CESI Bases de données

Cognit Ive Cas d utilisation

Enjeux mathématiques et Statistiques du Big Data

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Parcours en deuxième année

Spécificités, Applications et Outils

La problématique de la Préservation des Bases de Données. Olivier ROUCHON CINES Groupe PIN Jeudi 7 Octobre

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN ING

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

4.2 Unités d enseignement du M1

BREVE PRESENTATION DU SERVICE «EDITEURS ACADEMIQUES ENLIGNE» ELISABETH DE PABLO (MSH- ESCOM, 1997)

SMPMKPOO=aKbKbKpK=qÉÅÜåáèìÉë=kìã êáèìéë=éí= jìäíáã Çá~=J=abbpqkj

La solution pour gérer vos connaissances techniques et scientifiques

Table des matières La gestion de musée en toute simplicité Atouts fonctionnels Atouts techniques > > > > > > > > > > > > > >

Mercredi 15 Janvier 2014

et les Systèmes Multidimensionnels

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES

Concevoir sa stratégie de recherche d information

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Introduction aux bases de données: application en biologie

Les bases de données Page 1 / 8

FICHE DE POSTE. Gestionnaire des données du Portail des savoirs (H/F)

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Module BD et sites WEB

Ressources lexicales au service de recherche et d indexation des images

Intégration de données hétérogènes et réparties. Anne Doucet

CHAPITRE 1. Introduction aux bases de données

Entrepôt de données 1. Introduction

Business Intelligence

Visual Paradigm Contraintes inter-associations

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Transcription:

INDEXATION des IMAGES Marine Campedel www.tsi.enst.fr/~campedel mars 2005

Plan du cours Généralités Méthodes Indexation textuelle Indexation par le contenu Récupération de l information (retrieval) Feedback utilisateur Évaluation des systèmes Démonstrations Conclusion

Généralités Quelques chiffres : INA : 500 000 h video + 600 000 h audio + 2 000 000 de photos 82 Milliards de photos par an dans le monde 390 Millions d images indexées par Google 4250 films commerciaux par an (UNESCO) Motivations : Conservation d un patrimoine (culturel, scientifique, ) Valorisation en facilitant l accès et l exploration Exploitation commerciale (photos numériques, TV numérique, )

Généralités : quelles images? biomédical, satellitaires, photos, 2D ou 3D, 3 catégories générales Images d art (auteur, titre, ) Images documentaires (reliées à un texte) Images ordinaires Centres d intérêts actuels : Audio-vidéo, multimédia, 3D

Généralités : les acteurs Acteurs industriels QBIC (IBM), Virage, Netra NewPhenix (CEA)

Généralités : les acteurs Acteurs académiques VisualSeek (Columbia), IMEDIA (INRIA, Rocquencourt), RETIN (ETIS, Cergy), KIWI (Insa, Lyon), DIVAN (INA) Nombreux projets européens et nationaux

Généralités : définition Objectif de l indexation : faciliter l accès à des bases de données en extrayant une information synthétique. Fouille de données (Data Mining), Extraction de connaissances, Vision artificielle

Généralités Catalogue : Exploitation de données globales sur le document visuel, indépendantes du contenu Classification : Exploitation d une caractéristique globale du document visuel Indexation Exploitation d une analyse fine du contenu du document visuel

Introduction 1980 : Annotation textuelle des images 1990 : Indexation par la couleur, la forme et la texture 1993 : Requête en utilisant la similarité des images 1997 : Requête par images exemplaires et mesure de la pertinence (relevance feedback) 2000 : apprentissage sémantique et adaptation à l utilisateur Enjeux actuels : annotation interactive, formalisation de la connaissance (ontologies), grosses bases de données (problèmes de stockage, de vitesse d accès, ), données hétérogènes,

Indexation d images à partir du texte

Indexation d images à partir du texte ROME (AFP), 2005-06-11 13:10:52 L'Italienne Clementina Cantoni arrive vendredi 10 juin sur le sol italien après 25 jours de détention en Afghanistan

Indexation d images à partir du texte

Indexation d images à partir du texte

Indexation d images à partir du texte Une image illustre un document mais le document ne décrit pas forcément l image ; Le texte accompagnateur d une image ne suffit généralement pas La richesse du contenu d une image dépend du domaine de connaissances de celui qui la regarde ; Nécessité de modéliser ce domaine Aspects subjectifs du contenu Plus facile de faire une description des objets contenus dans l image que des émotions qui en résultent

Indexation d images à partir du texte Avantages : exploite les outils d indexation textuelle, prise en compte plus aisée des aspects sémantiques. Inconvénients : vocabulaire limité difficultés de l annotation : définition du vocabulaire, temps d annotation >> temps réel, subjectivité, etc.

Indexation d images à partir du texte

Ontologies Nécessité de définir un langage de description Limité par le contexte de production Limite l utilisation Définition d ontologies : modélisation du contexte (objets/concepts et relations entre eux) de façon à lever toute ambiguïté d interprétation «Le problème fondamental est de respecter la diversité des langages et des représentations du monde, tout en permettant l'échange d'information.[ ] Identifier, modéliser les concepts d'un domaine, pertinents pour une/des applications, Se mettre d'accord, au sein d'une communauté, sur les termes employés pour se référer à ces concepts.»

Taxonomie / Nomenclature Réduction couramment utilisée : Classification Exemple : Corine Land cover Surfaces artificielles Surfaces cultivées Forêts et espaces semi naturels Surfaces humides eau Usine urbaine Transports Réseaux routiers Ports Aéroports

Indexation par le contenu : principe (1/2) Images Extraction de caractéristiques Requêtes utilisateur Sélection de caractéristiques Caractéristiques Caract.+ étiquettes Apprentissage Non supervisé Apprentissage supervisé Modèles Modèles étiquetés

Principe (2/2) Off-line : production d indexes issus de l analyse du contenu des images Extraction de caractéristiques pertinentes Réduction de la dimensionnalité Organisation par classification On-line : gestion des requêtes d un utilisateur «Gap sémantique» Relevance feedback

Extraction de caractéristiques (1/2) Caractéristiques : Spécifiques : points saillants, minuties, Générales : couleur, texture, forme Globale ou locale : Blocs arbitraires, segmentation, information topologique

Extraction de caractéristiques

Extraction de caractéristiques (2/2) Problème de représentation Caractéristiques numériques, symboliques, graphes, Invariances Translation, rotation, homothétie, non-linéaires?

Extraction de caractéristiques

Caractéristiques et notion de similarité

Images similaires?

Similarité de l information (1/5) Visuellement similaires?

Similarité de l information (2/5)

Similarité de l information (3/5) Deux images seront comparées par l intermédiaire des caractéristiques extraites Sim( Im1, Im2 ) = Sim( f(im1), f(im2) ), avec f la fonction d extraction des caractéristiques Mesures de similarités, distances (A) s( x, x ) = s( y, y ) > s( x, y ) (B) s( x, y ) = s( y, x ) (C) d( x, x) = 0 (D) d(x,y) = 0 x = y (E) d(x, y) <= d(x,z) + d(z,y) (F) d(x,y) <= max( d(x,z), d(z,y) ) similarité dissimilarité distance Ultra-métriqu

Similarité de l information (4/5) Distance euclidienne Distance euclidienne généralisée Malahanobis Chi2 Similarité en cosinus Combinaisons linéaires de similarités (ou distances)

Similarité de l information (5/5) Comparaison des caractéristiques après une transformation F «Truc du noyau» K(x,y) = < F (x), F (y)>, K semi-defini positif D(x,y) = <x,x> + <y,y> -2<x,y> devient D(F (x), F (y) ) = K(x,x) + K(y,y) -2K(x,y) Intérêt : la spécification de K définit implicitement F Intensivement utilisé pour ACP, la discrimination de Fisher, la classification SVM,

Réduction d information (1/2) Réduction de la dimensionnalité ACP Algorithmes de sélection Quantification (forme de clusterisation)

Réduction d information (2/2) Sélection = Mettre des poids sur chaque caractéristiques Automatiquement : Supervisé, non supervisé Supervisé, wrapper : SVM-RFE, Fisher, Non supervisé, filter : clusterisation des caractéristiques

Organisation de l information (1/2) Classification : données X (caractéristiques) et label Y Exemples : kppv, SVM, Bayes, arbres de décision (C45.1) Évaluation d une classification : Décompte des erreurs Validation croisée

Organisation de l information (2/2) Clusterisation : données X Partitionnement : kmeans Hiérarchique : arbres Minimiser la distance intra-classes et maximiser la distance inter-classes Évaluation : pas évidente Estimation du nombre de clusters : indexes de Calinsky, Davies Bouldin, Dunn, Mesure de la qualité?

Gestion de l information SGBD Systèmes de Gestion de Bases de données Gestion informatique : interaction avec les requêtes utilisateur, temps d accès, place mémoire, Relationnel : SQL, mysql Objet Relationnel-objet : Oracle, PostGreSQL

Requêtes Grande diversité Les systèmes imposent des types de requête : Recherche d une image dans une base Recherche d images similaires à une image exemplaire Recherche d images similaires à des images exemples et dissimilaires à d autres Recherche d images contenant une région de l image exemplaire

Feedback utilisateur (1/2) Défaut majeur des systèmes standards : l utilisateur doit s adapter au système Caractéristiques extraites automatiquement non intuitives Fossé entre la formulation des requêtes et le codage de l information Nécessité d adapter le système à l utilisateur Apprentissage : requêtes, mesures de similarités

Feedback utilisateur (2/2) Images Extraction de caractéristiques Requêtes utilisateur Sélection de caractéristiques Caractéristiques Caract.+ étiquettes Apprentissage Non supervisé Apprentissage supervisé Modèles Modèles étiquetés

Évaluation (1/2) Graphe de rappel-précision calculé en faisant varier le nombre de documents sélectionnés Documents pertinents Documents non pertinents Documents sélectionnés Documents non sélectionnés Documents trouvés et Documents oubliés : silence Documents hors contexte : bruit précision= documentstrouvés documentssélectionnés rappel = documentstrouvés documents pertinents

Évaluation (2/2) : autres critères Exploitation du rang de récupération Critère de validation de MPEG7 Rank*(k) = rang(k) si < K(q), 1.25K sinon AVR(q) : moyenne des rangs MRR(q) = AVR(q) 0.5( 1 + NG(q) ) NMRR(q) = MRR(q) / ( 1.25K 0.5(1+NG(q)) ) Critère final : moyenne des NMRR Notations : q = 1 requête ; k = une image pertinente pour la requête ; NG(q) nombre d images pertinentes pour la requête ; K limite de rang acceptable

Normalisation : MPEG 7 (1/2) MPEG : Motion Picture Expert group MPEG7 : A Multimedia Content Description Interface, normalisé en 2001 Standard de description du contenu de données multimédia + interprétation du sens de l information S appuie sur XML (langage à balises) Un éditeur gratuit d IBM (pour indexer des videos) www.alphaworks.ibm.com/tech/videoannex

Normalisation : MPEG 7 (2/2) Définitions de caractéristiques bas niveau : //www-iplab.ece.ucsb.edu/publications/01ieeemanjunath.htm Évaluation des caractéristiques sur des bases étiquetées manuellement

Démonstrations Images 3D : http://3d.csie.ntu.edu.tw/

Démonstrations

Démonstrations Ding-Yun Chen, Xiao-Pei Tian, Yu-Te Shen and Ming Ouhyoung, "On Visual Similarity Based 3D Model Retrieval", Computer Graphics Forum (EUROGRAPHICS'03), Vol. 22, No. 3, pp. 223-232, Sept. 2003

Démonstrations www-rocq.inria.fr/imedia/ikona Feedback utilisateur

Conclusion Indexation des images : problème non résolu Experts issus de domaines variés (informatique, traitement de l image, psycho visuel, apprentissage machine, ) Deux axes à étudier simultanément : Techniques d analyse d image donc d extraction et de comparaison de l information Pertinence de l information pour un utilisateur Produits commerciaux encore basiques quoique