Recherche mul*média et indexa*on séman*que Stephane Ayache ESIL MIRA 3 ème année
Objec*fs du cours Mise en œuvre d un moteur de recherche MM Stockage Organisa*on des indexes en BD Métadonnées Algorithmes
Objec*fs du cours BDMM vs BD classique Schémas rela*onnels pour le stockage de données mul*médias MPEG- 7 Bases de données avancées : les indexes Index B- tree Index R- tree TP : Mise en œuvre d une BD mul*média pour la ges*on d images personnelles..
Besoins des bases mul*médias Ges*on des images, sons, vidéos Stocker Rechercher Visualiser Niveau de descrip*on? Métadonnées vs Contenu vs Mots- clés Comment indexer? Que stocker?
Pourquoi u*liser un SGBD? Ges*on transparente du système de fichiers (données distribuées) Structura*on des données (index) Accès rapides (index) et concurrents (transac*on) Algorithmes d op*misa*on (requête, jointure) Evolu*vité, sauvegardes
Pourquoi indexer? Pour organiser les données Limiter la quan*té de données examinée durant une recherche Perme]re un accès rapide aux données Marche très bien pour la ges*on de données classique!
Indexa*on par métadonnées Données informa*ves sur le fichier (EXIF) Type : taille, dimension, format, compression, paramètres, Condi*ons de créa*on : date, lieu, réglages, Structure : Chapitres, Pistes, Disponibles sans interven*on humaine lourde Peu u*le pour une recherche réaliste
Indexa*on par métadonnées Point de vue SGBD : A]ributs à une seule dimension, numérique ou chaînes de caractères Pris en compte classiquement par les SGBD Index existants performants : tables de Hashage, B- Tree,
Indexa*on par le contenu Données sur les caractéristiques physiques des documents Image : couleur, texture, formes, Son : rythme, fréquences, mélodie, Vidéo : mouvement, caméra, Automatique mais peu d interprétation sémantique Utile pour une recherche par l exemple
Indexa*on par le contenu Point de vue SGBD : Données non tradi*onnelles : vecteurs numériques de grandes dimensions Pas (encore) d index performants Meilleur méthode : parcours exhaus*f
Indexa*on par le contenu Il y a des différences fondamentales avec les données classiques : Données mul*dimensionnelles! Recherches des plus proches voisins Fonc*on de distance et non comparaison Pas d ordre total possible Conséquences index tradi*onnels impossibles à u*liser Nécessité d index mul*dimensionnels Pistes : SGBD géographique index R- tree Recherche approxima*ve
Indexa*on par mots- clés Données sur le contenu séman*que des documents Images : objets, scènes, évènements, Sons : bruits, catégories musicales, Vidéos : divers Très difficilement automa*sable subjec*f mais séman*que U*le pour une recherche réaliste Pris en charge classiquement par les SGBD
Que stocker dans la BD? Les métadonnées : oui! Evidemment.. Les mots- clés : oui, pondéra*on? Les signatures : oui, si recherche par l exemple et faible dimension Les distances : oui, si recherche par l exemple et grande dimension
Que stocker dans la BD? Les documents? U*lisés pour le calcul des descripteurs! U*lisés pour la visualisa*on Stockage interne Avantage : Consistance, les requêtes portent bien sur les bons documents Inconvénient : Volume dans la base de données A]ribut de type BLOB (Binary Long Object) Stockage externe Avantage : Accès libre, ailleurs que via le SGBD Inconvénient : Inconsistance, sauvegarde de la BD A]ribut de type String : l URL ou le Path du document
Oracle vs MySQL Oracle module Mul*media Stockage Indexa*on (métadonnées et contenu) Distances (entre signatures) Manipula*on (filtres, transforma*on) Diffusion h]p://www.oracle.com/technology/products/intermedia/index.html
Relevance feedback «Bouclage de per*nence» Idée : l u*lisateur peut montrer ce qui est per*nent pour lui même s il ne peut pas l exprimer explicitement But : modifier la représenta*on de la requête pour la rapprocher des documents per*nents
Relevance Feedback Processus itéra*f visant à apprendre le besoin d informa*on (ie : modèle probabiliste) Mise en œuvre : L'u*lisateur visualise les n premiers résultats Il es*me la per*nence de chacun (0 ou 1) Nouvelle requête obtenue à par*r des documents jugés per*nents et non per*nents
Relevance Feedback Adapta*on au modèle vectoriel : formule de Rocchio
Exemple Relevance Feedback
Schéma rela*onnel Mul*média TP : h]p://stephane.ayache.perso.esil.univmed.fr/cours/risem/mse.html