ED STIC - Proposition de Sujets de Thèse. pour la campagne d'allocation de thèses 2012



Documents pareils
Application Form/ Formulaire de demande

Forthcoming Database

Improving the breakdown of the Central Credit Register data by category of enterprises

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Editing and managing Systems engineering processes at Snecma

APPENDIX 6 BONUS RING FORMAT

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

Exemple PLS avec SAS

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

: Machines Production a créé dès 1995, le site internet

RAPID Prenez le contrôle sur vos données

Stéphane Lefebvre. CAE s Chief Financial Officer. CAE announces Government of Canada participation in Project Innovate.

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

BNP Paribas Personal Finance

How to Login to Career Page

Mon Service Public - Case study and Mapping to SAML/Liberty specifications. Gaël Gourmelen - France Telecom 23/04/2007

Photoactivatable Probes for Protein Labeling

Nouveautés printemps 2013

DOCUMENTATION - FRANCAIS... 2

Once the installation is complete, you can delete the temporary Zip files..

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

ADHEFILM : tronçonnage. ADHEFILM : cutting off. ADHECAL : fabrication. ADHECAL : manufacturing.

THE EVOLUTION OF CONTENT CONSUMPTION ON MOBILE AND TABLETS

Instructions Mozilla Thunderbird Page 1

INDIVIDUALS AND LEGAL ENTITIES: If the dividends have not been paid yet, you may be eligible for the simplified procedure.

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

Bourses d excellence pour les masters orientés vers la recherche

Calculation of Interest Regulations. Règlement sur le calcul des intérêts CONSOLIDATION CODIFICATION. Current to August 4, 2015 À jour au 4 août 2015

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

Scénarios économiques en assurance

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

valentin labelstar office Made-to-measure label design. Conception des étiquettes sur mesure. Quality. Tradition. Innovation DRUCKSYSTEME

Les contraintes de financement des PME en Afrique : le rôle des registres de crédit

3615 SELFIE. HOW-TO / GUIDE D'UTILISATION

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Mise en place d un système de cabotage maritime au sud ouest de l Ocean Indien. 10 Septembre 2012

Plateforme Technologique Innovante. Innovation Center for equipment& materials

Small Businesses support Senator Ringuette s bill to limit credit card acceptance fees

Provide supervision and mentorship, on an ongoing basis, to staff and student interns.

Université de XY University of XY. Faculté XY Faculty of XY

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Fiche produit ifinance v4

Contents Windows

Syllabus Dossiers d études

Eléments de statistique

Tex: The book of which I'm the author is an historical novel.

SYLLABS Claude de Loupy

PLAN DIRECTEUR DES PARCS, MILIEUX NATURELS ET ESPACES VERTS PARKS, NATURAL HABITATS AND GREEN SPACES MASTER PLAN

Compte-rendu technique complet et détaillé des cookies

WEB page builder and server for SCADA applications usable from a WEB navigator

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Acce s aux applications informatiques Supply Chain Fournisseurs

Discours de Eric Lemieux Sommet Aéro Financement Palais des congrès, 4 décembre 2013

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Programme

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

RI sociale : intégration de propriétés sociales dans un modèle de recherche

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

La rencontre du Big Data et du Cloud

Big Data et Graphes : Quelques pistes de recherche

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

SMALL CITY COMMERCE (EL PEQUEÑO COMERCIO DE LAS PEQUEÑAS CIUDADES)

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Sagemcom EDI with Suppliers

La suite collaborative "Multimedia Conference" proposée par Orange Business Services

Gestion des prestations Volontaire

Exercices sur SQL server 2000

MASSEY COLLEGE & UNIVERSITY OF TORONTO

Grandes tendances et leurs impacts sur l acquisition de produits et services TI.

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

Big Data et Graphes : Quelques pistes de recherche

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Règlement sur le télémarketing et les centres d'appel. Call Centres Telemarketing Sales Regulation

VMware : De la Virtualisation. au Cloud Computing

France SMS+ MT Premium Description

POSITION DESCRIPTION DESCRIPTION DE TRAVAIL

AVOB sélectionné par Ovum

Frequently Asked Questions

Les marchés Security La méthode The markets The approach

UNIVERSITE DE YAOUNDE II

ETABLISSEMENT D ENSEIGNEMENT OU ORGANISME DE FORMATION / UNIVERSITY OR COLLEGE:

Township of Russell: Recreation Master Plan Canton de Russell: Plan directeur de loisirs

MANAGEMENT SOFTWARE FOR STEEL CONSTRUCTION

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

DOCUMENTATION - FRANCAIS... 2

Digital Marketing : 14 et 15 septembre Retargeting : Garder le contact avec son audience

MEMORANDUM POUR UNE DEMANDE DE BOURSE DE RECHERCHE DOCTORALE DE LA FONDATION MARTINE AUBLET

AOC Insurance Broker Compare vos Assurances Santé Internationale Economisez jusqu à 40 % sur votre prime

Face Recognition Performance: Man vs. Machine

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

Archived Content. Contenu archivé

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

affichage en français Nom de l'employeur *: Lions Village of Greater Edmonton Society

The assessment of professional/vocational skills Le bilan de compétences professionnelles

Transcription:

ED STIC - Proposition de Sujets de Thèse pour la campagne d'allocation de thèses 2012 Axe Sophi@Stic : Titre du sujet : aucun Recherche interactive basée sur le contenu dans des bases de données multimédia / Content-based interactive retrieval in multimedia databases Mention de thèse : Informatique HDR Directeur de thèse inscrit à l'ed STIC : Blay-fornarino Mireille Co-encadrant de thèse éventuel : Nom : PALLEZ Prénom : Email : Denis denis.pallez@i3s.unice.fr Téléphone : 04 92 96 51 27 Email de contact pour ce sujet : Laboratoire d'accueil : precioso@i3s.unice.fr I3S Description du sujet : La quantité de contenu multimédia stockée dans des bases de données ou accessibles via le web a explosé ces dernières années : plus de vidéos sont déposées sur le site YouTube en 60 jours que ce que les 3 plus grands diffuseurs américains ont produit en 60 ans; 20 heures de vidéos étaient déposées sur Youtube chaque minute en Mai 2009 et ce chiffre a dépassé les 24 heures de contenu déposé chaque minute en Mars 2010; 3000 images étaient déposées chaque minutes sur le site Flickr pour atteindre 5 milliards d'images stockées en Septembre 2010 (toutes ces statistiques sont issues de http://website-monitoring.com). Ces chiffres, qui augmentent continuellement, expliquent l activité intense des recherches tant académiques qu industrielles autour des systèmes de recherche d informations multimédias. Les plus grandes sociétés des hautes technologies, Google, Yahoo et Microsoft avec Bing ou Exalead, mais aussi de nombreuses Page 1/5

startups Tineye.com ou cydral.fr et bien d'autres, développent des solutions performantes. Cependant, la majorité de ces solutions s appuient principalement sur l'identification des mots clefs présents dans le titre de l'image ou dans la page web dont l'image est issue et non pas sur le contenu visuel. Afin que les solutions existantes passent à l échelle des immenses bases de données actuelles (plusieurs millions d images, plusieurs centaines d heures de vidéos), deux pistes sont actuellement intensément explorées : - Un partitionnement a priori de l espace de recherche qui permet une indexation efficace pour accéder rapidement à des données pouvant représenter de l intérêt pour l utilisateur. - Une fois ces données extraites, une classification fine de ces données est réalisée. Les premières solutions pour partitionner l espace de recherche s appuient sur des résultats mathématiques théoriques sur les distributions de très grandes quantités de données dans des espaces de grandes dimensions : les approches par division de l espace (M-tree, KDX), et les méthodes de représentations approximées des données (par quantification VA-file, par Hachage Sensible Localement (LSH), par compression). Ces différentes méthodes ont dernièrement été combinées avec des approches performantes de recherche/de classification (Machines à noyaux, techniques de boosting, classifieurs K-Plus-Proches-Voisins) pour définir des méthodes hybrides restreignant rapidement la recherche à une zone intéressante de l espace des données pour y retrouver finement les données pertinentes : la méthode K-LSH, les approches SALSAS [GCP11] et UltraFastKernel [GCP12]. Parmi ces méthodes, la méthode SALSAS non seulement exploite une structuration non-supervisée de l espace par l approche LSH qui permet de retrouver rapidement sur les données proches de la requête fournie par l utilisateur mais intègre aussi intrinsèquement l utilisateur dans le processus d apprentissage. En effet, l utilisateur fournit itérativement des annotations supplémentaires au système précisant ainsi la description du contenu d intérêt. Ce type d approche a montré son énorme potentiel pour passer à l échelle des grandes bases et fournir des résultats très pertinents adaptés à l utilisateur [GCP12]. Le bouclage entre exploration de l espace ainsi structuré et la classification fine par Support Vector Machine (SVM) des données explorées, fournit de très bons résultats. Cependant, cette méthode ne permet d explorer l espace que de proche en proche à partir de la requête. Cette stratégie d exploration devient un problème quand la classe que l on cherche à caractériser, à extraire, est complexe et peut donc être définie par plusieurs modes (ex. : on cherche toutes les photos de bus quelle que soit leur forme, à deux étages ou non, quelle que soit leur couleur ou l angle de prise de vue de la photo, etc.). Plutôt que d appliquer un pré-partitionnement non-supervisé de l espace des données, nous proposons d utiliser les propriétés des algorithmes évolutionnaires pour explorer efficacement le grand espace des solutions. Plusieurs solutions basées sur les algorithmes évolutionnaires ont été développées pour la recherche d images par le contenu. Plus récemment encore, les Algorithmes Evolutionnaires Interactifs (AEI), qui intègrent l utilisateur dans la phase d exploration, permettent de converger plus vite vers une solution «optimale pour l utilisateur» [PTP11, AFM11]. Dans le cadre de cette thèse nous souhaitons explorer les approches de recherche interactive qui intègrent l utilisateur dans le processus d apprentissage du contenu d intérêt. Nous proposons de combiner les propriétés d exploration des AEI dans un grand espace de solutions avec les Page 2/5

propriétés de précision de classification à partir de peu d exemples d apprentissage des SVM. Une attention particulière devra être portée à la complexité de nos méthodes pour permettre le passage à l échelle de la recherche par le contenu dans les bases multimédia considérées actuellement dans la communauté (de plusieurs centaines d images à plusieurs millions ou plusieurs centaines d heures de vidéo contenant plusieurs dizaines de catégories d objets). Quelques Références : [AFM11] Arevalillo-Herráez, M., Ferri, F. J., Moreno-Picot, S. Distance-based relevance feedback using a hybrid interactive genetic algorithm for image retrieval. Appl. Soft Comput. 11:(2), pp. 1782-1791, 2011. [GCP11] Gorisse, D., Cord, M. and F. Precioso. SALSAS: Sub-linear active learning strategy with approximate k-nn search. Pattern Recogn., vol. 44:(10-11), pp. 2343-2357, 2011. [GCP12] Gorisse, D., Cord, M., Precioso, F. Locality-sensitive hashing for chi2 distance, In IEEE PAMI, vol. 34:(2), pp. 402-410, Feb. 2012. [PTP11] Pallez, D., Tettamanzi, A. G. B., da Costa Pereira, C. Comparing Paired Comparison-based Interactive DE and Tournament Interactive GA on Stained Glass Design. Genetic and Evolutionary Computation Conference (GECCO'11). 37--38, 2011. URL : http://frederic.precioso.free.fr/these/recherche%20interactive%20de%20contenus%20mu ltimedia.pdf English version: PhD Thesis on content-based interactive retrieval in multimedia databases The amount of multimedia content stored in databases or accessible via the web has exploded in recent years: more video content is uploaded on YouTube in 60 days than the three bigest American majors have produced in 60 years; 20 hours of video were uploaded on YouTube every minute in May 2009 and this amount has exceeded 24 hours of content uploaded every minute in March 2010; 3000 images were uploaded every minute on Flickr to reach 5 billion images stored in September 2010 (All statistics are from http://website-monitoring.com). These figures, which are continually increasing, explain the intense research, both in academic and industrial labs, on retrieval systems for multimedia content. The biggest companies, Google, Yahoo and Microsoft Bing or Exalead, but also many startups as Tineye.com or cydral.fr, have developed effective solutions. However, most of these solutions are mainly based on the matching of keywords present in the title of the image or in the web page where the image comes from, but not based on the visual content. In order to build solutions scalable for the current databases (millions of images, many hundreds of hours of video), two tracks are currently intensely explored: - An a priori partitioning of the search space that allows an efficient indexing for quick access to the data that may interest the user. - Once these data of interest are extracted, a fine classification is performed on these specific data. The first solutions to partition the search space are based on theoretical mathematical results on distributions of huge amounts of data in very large spaces: let us mention data space division (by M-tree, by KDX), and data approximated representations (by quantifization VA-file, by Locally Sensitive Hashing (LSH), by compression scheme). Page 3/5

These different methods have recently been combined with powerful approaches for retrieval / classification (kernel machines, boosting techniques, K-Nearest-Neighbors) to design hybrid methods quickly restricting the search to a region of interest in the data space in order to retrieve more precisely relevant data: K-LSH method, salsas approaches [GCP11] and UltraFastKernel [GCP12]. Among these methods, SALSAS method not only exploits unsupervised structure of the data space provided by LSH technique which allows to quickly retrieve data close to the query but also intrinsically incorporates the user in the learning process. Indeed, the user iteratively provides additional annotations to the system, refining thus the description of the content of interest. This type of approach has shown its enormous scalability potential for large databases and provides highly relevant results adapted to the user [GCP12]. The iterations between the exploration of the data space structured and the classification by Support Vector Machine (SVM) of the explored data, provides very good results. However, this method allows to explore the data space, gradually from the query. This exploration strategy becomes a problem when the class that we want to characterize, or extract, is complex and can therefore be defined by several modes (eg, one seeks the pictures of buses regardless of their shape, two floors or not, regardless of their color or the view angle of the picture, etc..). Rather than applying an unsupervised partitioning of data space, we propose to use the properties of evolutionary algorithms to efficiently explore large data spaces. Several solutions based on evolutionary algorithms have been developed for content-based image retrieval. More recently, the Interactive Evolutionary Algorithms (IEA), which integrate the user in the exploration phase, can converge faster towards a solution "optimal for the user" [PTP11, AFM11]. In this PhD, we want to explore interactive retrieval approaches that integrate the user in the learning process of content of interest. We propose to combine the exploration "skills" of the AEI in a large space with the classification accuracy from few training samples of the SVM. Particular attention should be paid to the complexity of our methods to allow scalable retrieval based on content in multimedia databases that are commonly considered nowadays (several hundreds of images to millions or hundreds of hours of video containing dozens of categories of objects). Some References : [AFM11] Arevalillo-Herráez, M., Ferri, F. J., Moreno-Picot, S. Distance-based relevance feedback using a hybrid interactive genetic algorithm for image retrieval. Appl. Soft Comput. 11:(2), pp. 1782-1791, 2011. [GCP11] Gorisse, D., Cord, M. and F. Precioso. SALSAS: Sub-linear active learning strategy with approximate k-nn search. Pattern Recogn., vol. 44:(10-11), pp. 2343-2357, 2011. [GCP12] Gorisse, D., Cord, M., Precioso, F. Locality-sensitive hashing for chi2 distance, In IEEE PAMI, vol. 34:(2), pp. 402-410, Feb. 2012. [PTP11] Pallez, D., Tettamanzi, A. G. B., da Costa Pereira, C. Comparing Paired Comparison-based Interactive DE and Tournament Interactive GA on Stained Glass Design. Genetic and Evolutionary Computation Conference (GECCO'11). 37--38, 2011. http://frederic.precioso.free.fr/these/recherche%20interactive%20de%20contenus%20mu Page 4/5

ltimedia%20en.pdf URL : Page 5/5