Bases de données multimédia VIII indexation vidéo & audio

Documents pareils
M1 Informatique, Réseaux Cours 9 : Réseaux pour le multimédia

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Mesure agnostique de la qualité des images.

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Simulation de point de vue pour la localisation d une caméra à partir d un modèle non structuré

Chaine de transmission

REPRÉSENTATIONS ANALYTIQUES AVANCÉES AVEC EANALYSIS

Les techniques de multiplexage

Bases de données multimédia I - Introduction

Chapitre 18 : Transmettre et stocker de l information

On distingue deux grandes catégories de mémoires : mémoire centrale (appelée également mémoire interne)

Enregistrement et transformation du son. S. Natkin Novembre 2001


Comme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:

ISO/CEI NORME INTERNATIONALE

Cours n 12. Technologies WAN 2nd partie

N. Paparoditis, Laboratoire MATIS

Sécuristation du Cloud

Programmation parallèle et distribuée

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Information. BASES LITTERAIRES Etre capable de répondre à une question du type «la valeur trouvée respecte t-elle le cahier des charges?

Programmation parallèle et distribuée

Vérification audiovisuelle de l identité

CLIP. (Calling Line Identification Presentation) Appareil autonome affichant le numéro appelant

LABO PROJET : IMPLEMENTATION D UN MODEM ADSL SOUS MATLAB

Reconnaissance de gestes : approches 2D & 3D

Bases de données documentaires et distribuées Cours NFE04

Codage hiérarchique et multirésolution (JPEG 2000) Codage Vidéo. Représentation de la couleur. Codage canal et codes correcteurs d erreur

Spectrophotomètres. Spectrophotomètres modèle Les spectrophotomètres Série 67 : 3 modèles uniques

Transmission d informations sur le réseau électrique

Manuel logiciel client Java

10ème Congrès Français d'acoustique Lyon, Avril 2010

LA VoIP LES PRINCIPES


Les Protocoles de sécurité dans les réseaux WiFi. Ihsane MOUTAIB & Lamia ELOFIR FM05

Introduction à l informatique temps réel Pierre-Yves Duval (cppm)

1 Description générale de VISFIELD

Analyse des trajectoires acceptables en approche de virage assistance aux conducteurs

Une empreinte audio à base d ALISP appliquée à l identification audio dans un flux radiophonique

2. DIFFÉRENTS TYPES DE RÉSEAUX

Final Cut Pro 5 Référence rapide

Sommaire. 1 Introduction Présentation du logiciel de commerce électronique 23

Isadora. Photo jpeg qualité 50% %, 320X240. Prérequis

Expérience 3 Formats de signalisation binaire

Maintenir un service de traitement de son ou d image d ordinateur

NORMES DE LIVRAISON DES MESSAGES PUBLICITAIRES ET MESSAGES D INTÉRÊT PUBLIC COMMERCIAUX APTN

Calage robuste et accéléré de nuages de points en environnements naturels via l apprentissage automatique

Analyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1

ÉPREUVE COMMUNE DE TIPE Partie D

Chap17 - CORRECTİON DES EXERCİCES

Détection des points d intérêt et Segmentation des images RGB-D. Présentée par : Bilal Tawbe. Semaine de la recherche de l UQO

Chapitre 2 : communications numériques.

Recherche De Coalescences Binaires Étalonnage Du Détecteur

Analyse des bruits de clavier d ordinateur

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

TP SIN Traitement d image

EMETTEUR ULB. Architectures & circuits. Ecole ULB GDRO ESISAR - Valence 23-27/10/2006. David MARCHALAND STMicroelectronics 26/10/2006

Chapitre I La fonction transmission

ENFIN, UN SYSTÈME POLYVALENT D'IMAGERIE ORL ET DENTAIRE

LÕenregistrement Enregistrement analogique et enregistrement numžrique

Bases de données multimédia I - Introduction

TP 03 B : Mesure d une vitesse par effet Doppler

C NoVi Festival 2015 Règlement du concours

LA COUCHE PHYSIQUE EST LA COUCHE par laquelle l information est effectivemnt transmise.

BIG DATA : comment étendre et gérer la connaissance client? François Nguyen SFR Directeur SI décisionnel & Mkt relationnel GP

Multimedia. Systèmes, Communications et Applications. Ahmed MEHAOUA

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Transmission de données. A) Principaux éléments intervenant dans la transmission

TP Modulation Démodulation BPSK

Numérisation du signal

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Régler les paramètres de mesure en choisissant un intervalle de mesure 10µs et 200 mesures.

On trouvera sur le site du CCDMD un exemple d album construit avec Cantare. (

IFT2880 Organisation des ordinateurs et systèmes

Plan. Programmation Internet Cours 3. Organismes de standardisation

Capacité étendue d utilisation en réseau

Technologie des contacteurs gaz liquide : cas des colonnes à plateaux et à garnissage. M. Prévost

Communications immersives : Enjeux et perspectives

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Résonance Magnétique Nucléaire : RMN

Technique de codage des formes d'ondes

Logiciel d analyse et de gestion du bruit OUIE2000

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

L ESSENTIEL DU PLAN MARKETING OPÉRATIONNEL

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Internet et Multimédia Exercices: flux multimédia

Traitement numérique de l'image. Raphaël Isdant

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

I- Définitions des signaux.

: seul le dossier dossier sera cherché, tous les sousdomaines

Transcription:

Bases de données multimédia VIII indexation vidéo & audio ENSIMAG 2014-2015 Matthijs Douze & Karteek Alahari Plan Spécificité du problème Filtrage temporel Détecteur spatio-temporels Aggrégation temporelle Zoom sur deux méthodes d indexation vidéo Indexation audio Quelques perspectives

Spécificité du problème (début) Vidéo = suite d images L axe temporel t est singulier processus physique différent des axes x et y : mouvement de la caméra et des objets qui la composent la nature des invariants est différente sur cet axe (voir exemples) Segmentation temporelle en plans (au sens cinématographique) c est un problème en soi assez bien maîtrisé aujourd hui indexation au niveau des plans plutôt que des images composant la vidéo Avantage? Spécificité du problème (fin) Indexation de vidéos = plusieurs problèmes possibles 1) Requête vidéo (souvent un plan) problème qui est le plus souvent considéré 2) Requête image asymétrie de la requête plus difficile (car moins d information dans la requête, et pas de description spatio-temporelle possible) toutes les techniques ne s appliquent pas Dans l état de l art, deux classes d approches indexation des images composant la vidéo + intégration cohérence temporelle indexation spatio-temporelle (pas utilisable avec une requête image)

Plan Spécificité du problème Filtrage temporel Détecteur spatio-temporels Aggrégation temporelle Zoom sur deux méthodes d indexation vidéo Indexation audio Quelques perspectives Indexation vidéo = extension de l'indexation d'images Indexation 2D «usuelle» optionnellement, sous-échantillonnage (régulier ou par sélection d images clés) pour réduire le nombre d images génération de descripteurs pour chacune des images dans Video Google, [Sivic et Zisserman 2003] appariemment des descripteurs de l image t avec ceux des frames voisines calcul d un modèle dynamique simple (non détaillé, plusieurs variantes possibles) sur la position des descripteurs suppression des descripteurs qui ne se reproduisent sur un voisinage temporel suffisant ou d une manière non cohérente avec le modèle

Aggrégation temporelle (1) Contexte : appariement d'images de la vidéo Chaque frame de la requête est soumise à une base de frames qui représentent l ensemble des vidéos à indexer produit un ensemble de couple de frames et le score associé (t q, b, t b, s) t q b t b s position temporelle dans la vidéo requête numéro de vidéo dans la base position temporelle dans la vidéo de la base score obtenu par l algorithme d appariemment d image Aggrégation temporelle (2) Problème : estimer une fonction entre t q et t b Modèles possibles : simple (décalage temporel uniquement): t q = t b + δt incluant des variations globale de vitesse (slow-motion): t q = a* t b + δt complexe avec une table de décalage: t q = t b + shift [t q ] Méthodes d estimation possibles RANSAC Transformée de Hough Dynamic Time Warping (DTW)

Différents modèles Décalage temporel Event retrieval in large video collections with circulant temporal encoding, Jérôme Revaud, Matthijs Douze, Cordelia Schmid, Hervé Jégou Plus général "VideoSnapping: Interactive Synchronization of Multiple Videos", Oliver Wang, Christopher Schroers, Henning Zimmer, Markus Gross, Alexander Sorkine-Hornung, siggraph 2014 Aggrégation temporelle: Hough video de la base b t b t q video requête δt Exemple d estimation Utilisation du modèle simple de décalage temporel Estimation en utilisant la transformée de Hough (temporelle) Bins de la transformée taille du même ordre de grandeur que le pas d échantillonage utilisé Tolérance limitée aux changements modérés de vitesse (± 20 %)

Aggrégation temporelle: Hough (2) video de la base b t b t q video requête δt En sortie de l estimation: liste d hypothèses. Chaque hypothèse = (b, δt) : video de la base et l estimé du décalage δt Le groupe de frames appariées (t q, t b ). Ce groupe doit être compact (<1 minute), ou bien il est découpé segment based matching Un score aggrégé calculé à partir des scores des frames appariées Dynamic Time Warping (DTW) Algorithme de calcul de distance entre deux séquences similaire à la distance d édition utilisée pour comparer les séquences sonores Algorithme au tableau Nécessité de normaliser les scores (typiquement, par la longueur de la séquence) Question : quelle est la complexité de cet algorithme? Optimisation : techniques de pruning

Vérification spatio-temporelle (1) Objectif : estimation d une transformée 2D entre la vidéo requête et la vidéo de la base de données extension 2D 3D des techniques utilisées en image Modèles 2D possibles : Pour des caméras différentes: géométrie épipolaire Pour le camcording : modèle homographique Modèle affine 2D (affine complet, similitude, translation, etc) Problèmes modèles peuvent changer dans le temps (d une frame à l autre) Question : pourquoi? échantillonnage différent côté base et requête Vérification spatio-temporelle (2) Bon choix: modèle affine 2D complet, avec paramètres fixés Le modèle est estimé sur un groupe de frames appariées c est-à-dire, prend en entrée une hypothèse générée en sortie de l aggrégation Avantage d un modèle de paramètres supposé fixe tous points de tous les couples d images appariées sont utilisés beaucoup plus de points pour l estimation que dans le cas image Modèle imparfait, mais pour lequel on peut obtenir une bonne estimation

Vérification spatio-temporelle (3) Video requête (camcording) Video de la base t q =2120 t b =31833 t q =1920 t b =31523 Sortie pour chaque hypothèse (si la vérifiation spatio-temporelle réussit) : un ensemble de paires de frames appariées et le score associé la matrice de la transformée affine 2D Méthode utilisée pour la compétition Trecvid : vision d ensemble

Exemple de requêtes Exemples de requêtes

Plan Spécificité du problème Filtrage temporel Détecteur spatio-temporels Aggrégation temporelle Zoom sur deux méthodes d indexation vidéo Indexation audio Quelques perspectives Indexation audio Descripteurs locaux audio dense (pas de détecteur) fenêtres courtes (25 ms) qui se recouvrent (toutes les 10 ms) description par 48 coefficients spectraux dans la bande de fréquence 300 3000 Hz (maximum de sensibilité de l'oreille humaine) aggrégation de 3 fenêtres temporelles descripteur 144 D Un autre exemple: MFCC Mise en correspondance = distance L2 Indexation par quantificateur produit Vérification temporelle par Hough 1D

Indexation de gros volumes Hypothèses : attaques faibles (pas/peu de déformation géométrique) volume élevé (1000s d heures) Méthode sélection d images clés calcul d une signature binaire de petite taille (DCT, 64 bits ou VLAD) utilisation d une structure de hachage pour la requête : accès en O(1) Xavier Naturel, Patrick Gros. A Fast Shot Matching Strategy for detecting duplicate sequences in a television stream. CVDB'05. Compact video description with precise temporal alignment, Matthijs Douze, Hervé Jégou, Cordelia Schmid, Patrick Pérez, ECCV 10 Exemple d'application: détection de séquences répétées sur des chaînes de télé en temps réel (génériques d'émission ou publicités) Plan Spécificité du problème Filtrage temporel Détecteur spatio-temporels Aggrégation temporelle Zoom sur deux méthodes d indexation vidéo Indexation audio Quelques perspectives

Problèmes d intérêt et perspectives En conclusion domaine de recherche très actif car récent les capacités de calcul des ordinateurs permettent depuis très peu de temps de traiter des grands volumes de données Compétitions pour comparer les méthodes : Trecvid, VideOlympics