Indexation et interrogation de photos de presse décrites en MPEG-7



Documents pareils
Au-delà de la simple gestion de votre fonds documentaire, évoluez vers la gestion complète de vos flux d informations.

Catalogue des formations Edition 2015

Sommaire. 1 Introduction Présentation du logiciel de commerce électronique 23

SQL Parser XML Xquery : Approche de détection des injections SQL

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Une méthode d apprentissage pour la composition de services web

Gestion du parc informatique matériel et logiciel de l Ensicaen. Rapport de projet. Spécialité Informatique 2 e année. SAKHI Taoufik SIFAOUI Mohammed

Valoriser vos bases de connaissances avec AMI Help Desk. AMI Enterprise Discovery version 3.9

Devenez un véritable développeur web en 3 mois!

UE 8 Systèmes d information de gestion Le programme

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Joomla! Création et administration d'un site web - Version numérique

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv>

Guide d utilisation. Version 1.1

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Programmation Web. Madalina Croitoru IUT Montpellier

Architectures web/bases de données

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

Programme «Analyste Programmeur» Diplôme d état : «Développeur Informatique» Homologué au niveau III (Bac+2) (JO N 176 du 1 août 2003) (34 semaines)

Information utiles. webpage : Google+ : digiusto/

Maarch Framework 3 - Maarch. Tests de charge. Professional Services. 11, bd du Sud Est Nanterre

Bien programmer. en Java ex. couleur. Avec plus de 50 études de cas et des comparaisons avec C++ et C# Emmanuel Puybaret.

Module BD et sites WEB

Description des pratiques à adopter pour la mise à jour du layout en utilisant le gestionnaire de conception de Sharepoint 2013

Bases de données avancées Introduction

Association UNIFORES 23, Rue du Cercler LIMOGES

4. Personnalisation du site web de la conférence

SII Stage d informatique pour l ingénieur

Cours Bases de données

Ressources lexicales au service de recherche et d indexation des images

: seul le dossier dossier sera cherché, tous les sousdomaines

FileMaker Server 11. Publication Web personnalisée avec XML et XSLT

WordPress : principes et fonctionnement

Introduction à. Oracle Application Express

AJAX. (Administrateur) (Dernière édition) Programme de formation. France, Belgique, Suisse, Roumanie - Canada

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES. h tt p : / / w w w. s c i e n c e s c o n f. o rg

Master Technologies numériques appliquées à l'histoire Deuxième année

Bases de données documentaires et distribuées Cours NFE04

24/11/2011. Cours EJB/J2EE Copyright Michel Buffa. Plan du cours. EJB : les fondamentaux. Enterprise Java Bean. Enterprise Java Bean.

Livre Blanc WebSphere Transcoding Publisher

WysiUpStudio. CMS professionnel. pour la création et la maintenance évolutive de sites et applications Internet V. 6.x

Mise en œuvre des serveurs d application

Etude et développement d un moteur de recherche

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES

SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information

Guide du RDAQ. Comment saisir des descriptions de fonds et collections dans le Réseau de diffusion des archives du Québec (RDAQ)

Diffuser un contenu sur Internet : notions de base... 13

Introduction aux concepts d ez Publish

INTERNET est un RESEAU D ORDINATEURS RELIES ENTRE EUX A L ECHELLE PLANETAIRE. Internet : interconnexion de réseaux (anglais : net = réseau)

Développement d applications Internet et réseaux avec LabVIEW. Alexandre STANURSKI National Instruments France

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES. 12 mars 2015

PHOTOGRAPHIE & COMMUNICATION

Adobe Technical Communication Suite 5

BES WEBDEVELOPER ACTIVITÉ RÔLE

Les 10 étapes incontournables pour réaliser un site internet performant et accessible

Présentation générale du projet data.bnf.fr

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Architecture JEE. Objectifs attendus. Serveurs d applications JEE. Architectures JEE Normes JEE. Systèmes distribués

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

les techniques d'extraction, les formulaires et intégration dans un site WEB

Principales failles de sécurité des applications Web Principes, parades et bonnes pratiques de développement

«Nouveautés Sage BOB »


Entreposage de données complexes pour la médecine d anticipation personnalisée

webmestre : conception de sites et administration de serveurs web 42 crédits Certificat professionnel CP09

Business Intelligence avec SQL Server 2012

Chapitre 1 Windows Server

Architecture N-Tier. Ces données peuvent être saisies interactivement via l interface ou lues depuis un disque. Application

Site internet. Vous voulez faire réaliser votre site internet par une agence web? 21 points à passer en revue pour rédiger votre cahier des charges

4. SERVICES WEB REST 46

Administration du site

Aide : publication de décisions VS

THEME PROJET D ELABORATION D UNE BASE DE DONNEES SOUS LE SERVEUR MYSQL

BUSINESS INTELLIGENCE

Votre infrastructure est-elle? La collaboration informatique. améliore la performance globale

Création de site internet

Sommaire. -1-Computer en bref. Web en bref. Le web 3.0,...la mobilité. Evolution du Web web1.0, web2.0, web2.b, web3.0...

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Programme de formation

CIBLE DE SECURITE CSPN DU PRODUIT PASS. (Product for Advanced SSO)

Sécuristation du Cloud

Intégration de données hétérogènes et réparties. Anne Doucet

Documentation de conception

Catalogue des Formations Techniques

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

Trois nouveaux formulaires sont donc nécessaires : Pour l affichage de la liste, un formulaire de sortie WEB_Liste associé à la table des [Films] ;

Programmation Web. Introduction

PHP. Bertrand Estellon. 26 avril Aix-Marseille Université. Bertrand Estellon (AMU) PHP 26 avril / 214

Les Architectures Orientées Services (SOA)

Armand PY-PATINEC 2010

CRÉER, ROUTER ET GÉRER UNE NEWSLETTER, UN ING

XML et travail collaboratif : vers un Web sémantique

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

Transcription:

Indexation et interrogation de photos de presse décrites en MPEG-7 Emmanuel Bruno Jacques Le Maitre Elisabeth Murisasco Laboratoire SIS, Equipe Informatique Université de Toulon et du Var Bâtiment R, BP 132 83957 La Garde cedex {bruno, lemaitre, murisasco}@univ-tln.fr RÉSUMÉ. Cette démonstration présente une interface, construite en amont d un serveur Web, dédiée à l indexation et à l interrogation de photos de presse représentées sous forme de documents MPEG-7 et stockées dans une base de données XML. Les trois principales fonctionnalités de l interface sont présentées : (i) l indexation textuelle et visuelle des données qui produit un document MPEG-7, (ii) l interrogation : une requête est saisie dans un formulaire puis traduite en une requête XQuery soumise au travers d un médiateur à la base de données XML, (iii) la présentation et la classification des réponses. ABSTRACT. This demonstration presents a user interface, built on top of a web server, dedicated to query a catalogue of news photos described as MPEG-7 documents stored in an XML database. This paper focuses on the three main features of the interface: (i) textual and visual data indexing which produces MPEG-7 documents (ii) data querying : queries are captured in query forms and translated into XQuery queries sent to the XML database through a mediator, (iii) answer presentation and classification. MOTS-CLÉS : Données multimédia, Indexation, Langage de requêtes, MPEG-7, XML, XQuery. KEYWORDS: Multimedia data, Indexation, Query language, MPEG-7, XML, XQuery

1. Introduction Cette démonstration présente une interface pour indexer et interroger les photographies d une agence de presse, décrites sous forme de documents MPEG-7 (Martinez, 2002) et donc de documents XML et stockées dans une base de données XML. L indexation est faite en deux étapes (i) une description textuelle des photos consistant en des données signalétiques et des descripteurs choisis dans un thésaurus et des mots-clés libres, (ii) une indexation automatique du contenu visuel des photos, qui est réalisée par une analyse d image permettant d extraire des descripteurs de couleur ou de texture ainsi que des caractéristiques sur la prise de vue. L interrogation est réalisée, classiquement, au travers de formulaires qui permettent de saisir des critères portant sur la description textuelle des photos et sur leur contenu visuel. Les réponses obtenues sont classées selon un coefficient de similarité calculé à partir de la description textuelle et du contenu visuel. Les photos représentatives de chaque classe sont affichées sous forme d un tableau d «imagettes» à partir duquel l utilisateur peut reformuler sa requête en la spécialisant ou en la généralisant. Une caractéristique importante de cette interface est son aspect «tout XML» : les photos, le thésaurus et les formulaires sont décrits en XML et stockées dans une base de données XML dont l interrogation est réalisée au travers de requêtes XQuery (Boag, 2002). L implantation de cette interface est réalisée en utilisant l environnement de publications de données XML Cocoon intégrée à un serveur Web Apache. Cette interface a été développée dans le cadre du projet RNTL MUSE dont l objectif est l élaboration d un moteur de recherche pour interroger des données multimédia stockées dans une base de données XML 1. 2. Indexation L indexation se déroule en deux étapes. Dans la première, le document MPEG-7 est créé puis rempli avec les informations textuelles saisies au travers d un formulaire d indexation, lui-même décrit en XML. La figure 2 montre le formulaire d indexation associé à la photo de la figure 1. Remarquons notamment les mots-clés libres qui sont extraits du champ «Sujet» et les descripteurs du thésaurus. Le thésaurus a une structure classique (Lefèvre, 2000) : c est un ensemble de termes muni des relations de synonymie, de généricité et d association et de leurs inverses. Dans la seconde étape transparente pour l utilisateur, le document MPEG-7 est complété par les descripteurs extraits, par analyse d image, du contenu visuel de la photo. Les aspects visuels pris en compte sont la couleur, le type de plan, le type de prise de vue et enfin l orientation de l image. 1 http://sis.univ-tln.fr/muse

Figure 1. Photo ( Editing) 3. Interrogation Deux modes d interrogation sont proposés aux utilisateurs : un mode rapide qui consiste à naviguer dans le thésaurus et un mode par formulaire que nous présentons plus en détail. Un formulaire d interrogation est destiné à interroger un catalogue constitué d une liste de fiches, dont chacune est décrite par un élément XML. Ce catalogue est extrait d une base de données XML par une requête XQuery. Dans le cas de l application présentée, les fiches sont les documents MPEG-7 qui décrivent les photos. Un formulaire d interrogation est donc une vue sur une fiche du catalogue Figure 2. Formulaire d indexation

Fiche requête XQuery BD XML requête XQuery Catalogue (vue sur la BD XML) Zone d interrogation (vue sur une partie d une fiche) Formulaire d interrogation (vue sur une fiche) Figure 3. Catalogue et Formulaire d interrogation qui est elle-même une vue sur la base de données XML qui contient les données de ce catalogue, comme le résume la figure 3. La requête saisie dans le formulaire de la figure 4, par exemple, est traduite en XQuery par la requête suivante où les expressions XPath font référence à des noms d éléments présents dans la description MPEG7 d une fiche d indexation : for $card in catalog let $s1 := $card/contentdescription//creator/agent//familyname, $s2 := $card/contentdescription//creationabstract/ KeywordAnnotation[2]/Keyword/text(), $s3 := xf:substring-before($card/contentdescription //CreationCoordinates/CreationDate/text(), "-") where $s1 = "Lefèvre" and $s2 = "municipales" and ($s2 = "Paris" or $s2 = "Lyon") and $s3 < 2002 return $card En dehors des opérateurs classiques sur les chaînes de caractères, l interface met à la disposition de l utilisateur des opérateurs spécifiques qui permettent d élargir une requête portant sur un descripteur du thésaurus à ses descripteurs spécifiques, Auteur "Lefèvre" Mots-clés "municipales" & ("Paris" + "Lyon") Date < 2002 Figure 4. Formulaire d interrogation et requête

Client (navigateur Web) Formulaire d indexation Formulaire d interrogation Réponses classées 1 5 XSLT + CSS Interface (Serveur Web Apache + Cocoon) 1 2 Générateur de requêtes XQuery 2 4 Médiateur (évaluateur de requêtes XQuery) 3 Gestionnaire de données XML 1 3 Base de données XML (formulaires + thésaurus + documents MPEG-7 ) Figure 5. Architecture de l interface génériques ou associés ainsi que des prédicats de haut-niveau permettant d interroger le contenu visuel des photos. 4. Présentation des réponses et reformulation des requêtes Une requête retourne les documents MPEG-7 décrivant les photos qui y répondent. Afin de présenter à l utilisateur un éventail complet de ces photos mais

sans le noyer sous leur nombre, celles-ci sont réparties en un nombre fixé a priori de classes et seule la photo la plus représentative de chaque classe est affichée. L utilisateur peut ensuite demander l affichage de toutes les photos d une classe et éventuellement reformuler sa requête. Le programme de classification est en cours d implémentation. Chaque classe regroupe les photos dont le coefficient de similarité est supérieur à un certain seuil. Ce coefficient de similarité est construit, pour chaque couple de photos, par combinaison d un coefficient de similarité visuelle et d un coefficient de similarité textuelle. 5. Architecture informatique La figure 5 montre l architecture de l interface et sa connexion avec le médiateur et le gestionnaire de données XML. L interface est implémentée au sein d un serveur Web Apache. Les formulaires d indexation et d interrogation sont décrits en XML et dynamiquement convertis en formulaires HTML lors de l ouverture d une session (1). Une requête saisie dans un formulaire d interrogation est traduite en XQuery puis soumise au médiateur (2). Le médiateur évalue la requête par appel au gestionnaire de données XML (3) puis renvoie à l interface les fiches MPEG-7 répondant à la requête (4). La présentation de la réponse est construite par application d une feuille de style XSLT puis d une feuille de style CSS à ces fiches (5). Au vu de celle-ci l utilisateur peut retourner au formulaire d interrogation pour reformuler sa requête. 6. Conclusion Les deux points forts de cette interface sont (i) la combinaison entre indexation textuelle et indexation visuelle et (ii) la programmation «tout XML». Le développement de cette interface n est pas terminé. Il faut tout d abord achever l intégration de l interface avec les outils développés par les autres partenaires du projet Muse, notamment le médiateur et le gestionnaire de données XML. Un premier prototype sera disponible fin 2002. 8. Références Boag S. et al., XQuery 1.0 : An XML Query Language, W3C Working Draft, http://www.w3.org/tr/2002/wd-xquery-20020430, 2002. Lefèvre P., La recherche d'informations, du texte intégral au thésaurus, Editions Hermès, 2000. Martinez J., Overview of the MPEG-7 Standard (version 6.0), http://mpeg.telecomitalia.com/standards/mpeg-7/mpeg-7.htm.