Bases de données multimédia I - Introduction



Documents pareils
Contents Windows

Instructions Mozilla Thunderbird Page 1

Algorithmes de recommandation, Cours Master 2, février 2011

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

Guide d'installation rapide TFM-560X YO.13

Gestion des prestations Volontaire

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

Application Form/ Formulaire de demande

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

La rencontre du Big Data et du Cloud

APPENDIX 6 BONUS RING FORMAT

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

If you understand the roles nouns (and their accompanying baggage) play in a sentence...

WEB page builder and server for SCADA applications usable from a WEB navigator

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

PARIS ROISSY CHARLES DE GAULLE

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

accidents and repairs:

Lesson Plan Physical Descriptions. belle vieille grande petite grosse laide mignonne jolie. beau vieux grand petit gros laid mignon

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Module Title: French 4

Comment Créer une Base de Données Ab Initio

Package Contents. System Requirements. Before You Begin

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Gestion collaborative de documents

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

PRESENT SIMPLE PRESENT PROGRESSIF

DIPLOME NATIONAL DU BREVET TOUTES SERIES

Commencer avec doo sous OS X

Dans une agence de location immobilière...

Women s State of the Media Democracy 2012 L observatoire international des usages et interactions des médias

Utiliser un proxy sous linux

PRACTICE DIRECTION ON THE LENGTH OF BRIEFS AND MOTIONS ON APPEAL

Stakeholder Feedback Form January 2013 Recirculation

Règlement sur le télémarketing et les centres d'appel. Call Centres Telemarketing Sales Regulation

titre : CENTOS_CUPS_install&config Système : CentOs 5.7 Technologie : Cups Auteur : Charles-Alban BENEZECH

EN UNE PAGE PLAN STRATÉGIQUE

A l'avenir, chacun aura son quart d'heure de célébrité.. Andy WAHROL

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

UNIVERSITE DE YAOUNDE II

Qualité et ERP CLOUD & SECURITY (HACKING) Alireza MOKHTARI. 9/12/2014 Cloud & Security

Innovation in Home Insurance: What Services are to be Developed and for what Trade Network?

ANGULAR JS AVEC GDE GOOGLE

Exercices sur SQL server 2000

Compléter le formulaire «Demande de participation» et l envoyer aux bureaux de SGC* à l adresse suivante :

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications

Environnement numérique : Données EXIF Stockage Archivage Partage Flux de production

ONTARIO Court File Number. Form 17E: Trial Management Conference Brief. Date of trial management conference. Name of party filing this brief

1.The pronouns me, te, nous, and vous are object pronouns.

Outils permettant la diffusion de l information. Un point sur le droit numérique

Frequently Asked Questions

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

Compte-rendu technique complet et détaillé des cookies

Les Portfolios et Moodle Petit inventaire

Improving the breakdown of the Central Credit Register data by category of enterprises

Comment Accéder à des Bases de Données MySQL avec Windows lorqu'elles sont sur un Serveur Linux

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

LADIES IN MOBILITY. LIVE TWEET Innovative City

Tom Pertsekos. Sécurité applicative Web : gare aux fraudes et aux pirates!

Déployer des tablettes en classe de LVE: les points clés. Rennes, le 26 août 2014

DOCUMENTATION - FRANCAIS... 2

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

Institut français des sciences et technologies des transports, de l aménagement

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

MASSEY COLLEGE & UNIVERSITY OF TORONTO

Cloud Computing: de la technologie à l usage final. Patrick CRASSON Oracle Thomas RULMONT WDC/CloudSphere Thibault van der Auwermeulen Expopolis

Programmation Web. Madalina Croitoru IUT Montpellier

DOCUMENTATION - FRANCAIS... 2

Monitoring elderly People by Means of Cameras

Eléments de statistique

et Active Directory Ajout, modification et suppression de comptes, extraction d adresses pour les listes de diffusion

Bases de données multimédia I - Introduction

Tammy: Something exceptional happened today. I met somebody legendary. Tex: Qui as-tu rencontré? Tex: Who did you meet?

Petit guide pour l installation de CVW sous Linux

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Once the installation is complete, you can delete the temporary Zip files..

How to Login to Career Page

affichage en français Nom de l'employeur *: Lions Village of Greater Edmonton Society

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

Permission is granted to copy, distribute and/or modify this document under the terms of the GNU Free Documentation License,

Phone Manager Soutien de l'application OCTOBER 2014 DOCUMENT RELEASE 4.1 SOUTIEN DE L'APPLICATION

Bases de données Cours 1 : Généralités sur les bases de données

MANUEL MARKETING ET SURVIE PDF

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

LE FORMAT DES RAPPORTS DU PERSONNEL DES COMMISSIONS DE DISTRICT D AMENAGEMENT FORMAT OF DISTRICT PLANNING COMMISSION STAFF REPORTS

TRAVAUX DE RECHERCHE DANS LE

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

CEST POUR MIEUX PLACER MES PDF

FOURTH SESSION : "MRP & CRP"

THEME PROJET D ELABORATION D UNE BASE DE DONNEES SOUS LE SERVEUR MYSQL

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Programme

Bienvenue. #TwitterMobile

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

Formats de fichiers adaptés à l'archivage électronique à moyen et long terme

SparkInData. Place de Marché des applications Spatiales

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

Transcription:

Bases de données multimédia I - Introduction ENSIMAG 2014-2015 Matthijs Douze & Karteek Alahari Bases de données multimedia Deux intervenants: Matthijs Douze, matthijs.douze@inria.fr Karteek Alahari karteek.alahari@inria.fr 6 x 3 h = 18 h de cours Évaluation : examen écrit + quizz sur des articles + présentations articles (bonus!)

Au programme Introduction Gestion des bases de données multimédia Espaces de représentation Mesures de similarité Évaluation Description globale Description locale Techniques d indexation Recherche dans des espaces de grande dimension Indexation Vidéo Indexation Audio Classification Base de données Une base de données est un ensemble structuré et organisé permettant le stockage de grandes quantités d'informations afin d'en faciliter l'exploitation (ajout, mise à jour, recherche de données). Wikipedia base de données

Multimédia Qui utilise plusieurs moyens de diffusion Qui concerne plusieurs média Diffusé par plusieurs média Adj: Qui utilise ou concerne plusieurs médias Media: Tout support de diffusion de l information constituant à la fois un moyen d expression et un intermédiaire transmettant un message à l attention d un groupe Multimédia Wikipedia Le mot multimédia est apparu vers la fin des années 1980, lorsque les CD-ROM se sont développés. Il désignait alors les applications qui, grâce à la mémoire du CD et aux capacités de l'ordinateur, pouvaient générer, utiliser ou piloter différents médias simultanément [ ] Aujourd'hui on utilise le mot multimédia pour désigner toute application utilisant ou servant à travailler sur au moins un média spécifique. [ ] Par ailleurs, en recherche en informatique, on nomme multimédia l'étude des médias non textuels, principalement les images, les vidéo et les sons. on perd souvent le côté multi

Multimédia : définition de travail Des contenus pouvant être de différents types, en particulier Texte Image Son Vidéo Qui peuvent être combinés Caractérisés par des besoins de stockage très importants Ordres de grandeur Volume unitaire de stockage. Valeurs typiques : Stockage brut Compression sans perte Compression avec perte Texte (Descartes, discours de la méthode, http://abu.cnam.fr ) 125 Ko Gzip: 42 Ko N/A Photo (6 Mpixels) 18 Mo Gzip*: 12 Mo 1 Mo Album de musique 750 Mo FLAC: 406 Mo MP3: 75 Mo Un film de 100 minutes (720x576) 180 Go X 700 Mo *: l utilisation d un algorithme de compression d image dédié lossless (sans perte) améliore un peu ce taux de compression

Ordres de grandeur Nombre d unités Internet visible : nécessite seulement 5-10 To de capacité de stockage Google: 3.5 milliards de recherches / jour Films : http://www.imdb.org recense plus de 400 000 films Images (semi-)pro : Corbis, Getty, Fotolia = 10-100 M images Croissance très importante, en raison de l accumulation des contenus numériques auto-produits par le grand public Images : par exemple, Flickr, Picasa, Facebook ordre de grandeur: 10-100 milliards d images Facebook + 100 M d images / jour http://www.flickr.com : 9600 images uploaded in the last minute extrapolation : 15M d images images par jour, 5.2G d images par an http://www.youtube.com : 2G de vidéos délivrées chaque jour + 300 h de vidéo / minute croissance > loi de Moore datacenters Images/vidéo spécifiques : photos satellites (SPOT: 3M km^2/jour), vidéosurveillance (4 M en GB), etc Chaîne du multimédia : besoins Génération : outils de production et de création Représentation : utilisation de formats de représentations différentes Stockage Transmission : problème de réseaux, architecture Recherche d information : recherche basée sur le contenu Distribution : conception de serveur de streaming

Applications types de BD multimedia News/Films à la demande Commerce electronique Informations médicales Systèmes d informations géographiques Architecture/Design Protection du copyright / traçage de contenu Géo-localisation Enquêtes policières Militaire Expérimentations scientifiques Enseignement Archivage, gestion des bases de données de contenu (personnelles ou professionnelles) Moteur de recherche (Internet, collections personnelles) Applications industrielles Dans les cours suivants : focus sur la partie recherche et indexation dans de grandes bases d images et de vidéos Base de données pour le multimédia Initialement traitées comme des bases standards Objets multimédia traités comme un seul item comme champs au sein d une base de données relationnelle (ex: Oracle, LOB Large Object) objet opaque Recherche sur mots clés introduits manuellement dans le système par la personne : nécessité d un système d annotation, par exemple Tag ID3 dans le MP3 Information Exif Utilisation des relations entre objets Recherche sur les mots présents dans les pages Web conjointement avec l objet multimédia http://images.google.com http://www.exalead.fr/image http://images.search.yahoo.com

Base de données standard Une base de données (DB) relationnelle est un ensemble de données mises en relation. Un système de gestion de base de données (DBMS) est un logiciel facilitant la création, la maintenance et la manipulation d une base de données. Il garantit sécurité et intégrité de la base. Oracle, DB2, Sybase, PostgreSQL, Mysql Système de base de données = la base + le système de gestion Succès important de ce type de système répond à la plupart des besoins impliquant des données bien structurées accroît l indépendance des données Requêtes approximatives: ex: noms dans les bases policières, requêtes avec correction orthographique nécessite la présence d annotations (ou méta-données) et/ou d outils d analyse Spécificités des bases de données multimédia (MMDB) Ex de requête impossible avec un SGDB classique : récupérer tous les images qui ressemblent à une image requête Grosky et Fotouhi (1) caractérisent le multimédia à partir du type d activité impliquée dans la création des données L information portée par le multimédia est tout ce qui peut venir du monde réel, alors que l information portée par une base de données classique ne peut être qu une représentation symbolique de faits limités à l univers de la base de données. Le développeur d une MMDB ne peut expliciter tous les aspects des données qui seront importants pour l utilisateur les informations ne peuvent se limiter à un ensemble de champs prédéfinis sauf pour applications spécifiques ici on suppose qu'on ne sait pas a priori [1]. W.I. Grosky, F. Fotouhi and Z. Ziang. Multimedia data Management. Using metadata to integrate and apply digital media, chapter Using metadata for the intelligent browsing of structured media objets, pages 123-148. In Sheth and Klas, 1998

Richesse des bases de données multimédia Apprendre un concept (ici les couleurs) à partir du monde réel [2] Conclusion de l article : utiliser Internet (c est-à-dire Google ou tout autre base texte+images) pour définir des couleurs de nouvelles images meilleurs résultats que de demander à un groupe de personnes [2]. J. Van-der-Weijer, C. Schmid and J. Verbeek, Learning Color Names from Real-world Images, CVPR 2007 MMDB avec contexte d utilisation limité Certaines applications correspondent à un besoin spécifique (type de requête unique ou limité) Pour de telles applications spécifiques : bases de données classiques + outil d analyse simple adapté à l application Exemples : base de données sur le remplissage des stades à partir d images de retransmission images en sortie de chaîne de production industrielle imagerie médicale, satellite

Contenu et meta-données Les données brutes (fichier image, fichier son) provenant d objets multimédia contiennent des informations sémantiques (= compréhensibles pour l'utilisateur). Ces meta-données proviennent soit de propriétés de descripteurs des objets (couleur moyenne d une image: métadonnée sur-exposé) ou d annotations manuelles.. Annotations / Meta-données Une annotation textuelle sera toujours trop restrictive, même si elle prend en compte à la fois des informations syntaxiques et symboliques. Malgré cela, l approche la plus utilisée reste l annotation textuelle et manuelle Avantage : recherche indépendante du type de media techniques de base de données classiques Inconvénients Le coût d annotation manuel est très important Différentes personnes utilisent un vocabulaire différent pour signifier la même chose (ex: clair, lumineux). Connu sous le nom de problème du vocabulaire. L utilisation d un thésaurus ne règle pas tout. Différentes personnes peuvent décrire des aspects différents du média (polysémie du contenu), la même personne décrira différents aspects en fonction de la situation.

Exemple d'annotation Charlotte et Médor pendant les vacances de Pâques footing femme chien pré mon programme minceur pour l'été Systèmes d annotation : musique/image Musique pas de tag prévu dans le format originel CD Mais utilisation d un identifiant unique par CD (CDID) couplé avec un serveur qui associe des tags à chaque CDID http://www.freedb.org annotation par les utilisateurs finaux MP3 : utilisation de ID3 Images annotation Exif, IPTC

ID3 Tags Conçu en 1996 et devenu de facto un standard 128 octets Position Taille Contenu 0 3 Marqueur TAG 3 30 Titre 33 30 Interprète 63 30 Album 93 4 Année 97 30 Commentaire 127 1 Genre musical Manque de souplesse de nombreuses extensions (ID3v1.1, ID3v2) mais qui ne pourront jamais répondre à tous les besoins Exchangeable image file format (Exif) Spécification pour les formats d images des appareils numériques non géré par une organisation internationale, mais largement utilisé Pour JPEG, TIFF, RIFF. Ne supporte pas JPEG2000, PNG ou GIF Le format supporte Date et heure, enregistrés par l appareil Les paramètres de l appareil Dépendent du modèle : inclus la marque et des informations diverses telles que le temps d ouverture, l orientation, la focale, l ISO, etc. Une vignette de pré-visualisation La description et les informations de copyright coordonnées GPS... Supporté par de nombreuses applications

Ambiguïté de l'annotation d'images Difficile de se mettre d'accord sur les annotations Instructions (Pascal 2009) What to label Viewpoint Bounding box Truncation All objects of the defined categories, unless: you are unsure what the object is. the object is very small (at your discretion). less than 10-20% of the object is visible. If this is not possible because too many objects, mark image as bad. Record the viewpoint of the bulk of the object e.g. the body rather than the head. Allow viewpoints within 10-20 degrees. If ambiguous, leave as Unspecified. Unusually rotated objects e.g. upside-down people should be left as 'Unspecified'. Mark the bounding box of the visible area of the object (not the estimated total extent of the object). Bounding box should contain all visible pixels, except where the bounding box would have to be made excessively large to include a few additional pixels (<5%) e.g. a car aerial. If more than 15-20% of the object lies outside the bounding box mark as Truncated. The flag indicates that the bounding box does not cover the total extent of the object. Occlusion If more than 5% of the object is occluded within the bounding box, mark as Occluded. The flag indicates that the object is not totally visible within the bounding box. Ambiguïté de l'annotation de vidéos... Instructions (Trecvid MED 2012) Event Name Definition: Explication: scene: objects/people: activities: audio: Giving directions to a location One or more people give directions to one or more other people, either in person or over the phone, by explaining verbally and/or with gestures how to get to a particular location. People may give directions in response to being asked for them, or they may give them without being asked as a part of a normal conversation if the topic of conversation is a location (e.g. telling a friend how to get to a new restaurant that just opened that she may be interested in eating at). People may ask for directions from strangers they see on the street or in a store, or call an information service or someone they know to ask for directions over the phone. Or,the person giving directions and the one getting directions may be traveling together, and one person is serving as the navigator while the other(s) follow the directions, such as commonly happens when the person getting the directions is driving and the person giving directions is reading them from a map, printout, or smart phone. Note that a GPS giving directions is not relevant for this event, and that the person giving directions must be visible. If people are visiting a new city or country, they will often have a map or guidebook with them to reference when asking for directions from a person on thestreet. Depending on whether the people asking for directions are/will be walking, driving, taking a subway, train, or bus, the directions given may reference city blocks, highways, or subway/train/bus routes. People giving directions often gesture along with their directions, for example pointing their arm to the right and turning their head to the right as they explain to go right, and this could be done even if giving them on the phone. People giving directions on the phone may stay on the line with the person they are helping while they reach their destination, giving them the directions step by ste real time. outdoors, indoors map, driver, car, bicycle, subway, train, bus, pedestrian, car passenger, guidebook, portable telephone gestures indicating directions (e.g. pointing or extending arm straight/to right or left of speaker), person pointing out location on a map, head movement indicating direction narration of directions

Label Me http://labelme.csail.mit.edu (MIT) Annotation précise/fastidieuse... Amazon Mechanical Turk Recherche approximative/par similarité L idée clé dans la recherche de média est la recherche approximative Utilise la notion de proximité, de similarité, de distance entre objets multimedia Généralement, la requête est exprimée sous la forme d un ou de plusieurs vecteurs dans un espace multi-dimensionnel. définition d une distance (ou mesure de dissimilarité) sur cet espace recherche des objets dont la distance est minimale Les vecteurs d attributs sont extraits de contenu de l image Recherche par le contenu (CBIR: content based information retrieval) Possibilité d utiliser un retour de pertinence

Retour de pertinence Possibilité de mettre l interaction au coeur du système parmi les réponses, le système identifie ce qu il trouve intéressant puis affinage de la requête par l utilisateur Utilisateur Retour de pertinence Liste triée Représentation De la requête MMDB Indexation Structurer la base pour ne pas avoir à la parcourir entièrement à chaque recherche, comme dans un dictionnaire Nécessite de décrire le contenu avec des index portant sur les médias Difficulté : les médias en question sont représentés par des vecteurs de grande dimension The dimension curse La malédiction de la dimension Nous reviendrons largement sur cet aspect dans la suite de ce cours

Moteurs de recherche basés sur le contenu Critère de similarité global QBIC (Query By Image content) IBM 93 Virage 93 Photobook MIT 93 http://pixolu.de : organisation/recherche par couleur + forme globale http://tineye.com recherche d'images sur le web Moteurs de recherche basés sur le contenu http://bigimbaz.inrialpes.fr recherche par description locale http://www.google.com/mobile/goggles OCR bâtiments peintures logos...

Moteurs de recherche basés sur le contenu Google similar image search (texte + retour de pertinence image) Recherche: Paris Similarité visuelle Shazam reconnaît la musique Fonctionnalités d un système de gestion de MMDB idéal Ce qu il doit permettre Ne pas reposer (uniquement) sur des annotations manuelles Le processus de requête est interactif Le processus de requête peut utiliser plusieurs modes de représentation (ex: texte, puis image) Il doit posséder deux modes Gestion du contenu (ajout, modification des objets présents, suppression) Interrogation de la base Nécessité d une interface utilisateur permettant la manipulation des objets existants, la présentation de résultats, le retour de pertinence