ED STIC - Proposition de Sujets de Thèse pour la campagne d'allocation de thèses 2012 Axe Sophi@Stic : Titre du sujet : aucun Recherche interactive basée sur le contenu dans des bases de données multimédia / Content-based interactive retrieval in multimedia databases Mention de thèse : Informatique HDR Directeur de thèse inscrit à l'ed STIC : Blay-fornarino Mireille Co-encadrant de thèse éventuel : Nom : PALLEZ Prénom : Email : Denis denis.pallez@i3s.unice.fr Téléphone : 04 92 96 51 27 Email de contact pour ce sujet : Laboratoire d'accueil : precioso@i3s.unice.fr I3S Description du sujet : La quantité de contenu multimédia stockée dans des bases de données ou accessibles via le web a explosé ces dernières années : plus de vidéos sont déposées sur le site YouTube en 60 jours que ce que les 3 plus grands diffuseurs américains ont produit en 60 ans; 20 heures de vidéos étaient déposées sur Youtube chaque minute en Mai 2009 et ce chiffre a dépassé les 24 heures de contenu déposé chaque minute en Mars 2010; 3000 images étaient déposées chaque minutes sur le site Flickr pour atteindre 5 milliards d'images stockées en Septembre 2010 (toutes ces statistiques sont issues de http://website-monitoring.com). Ces chiffres, qui augmentent continuellement, expliquent l activité intense des recherches tant académiques qu industrielles autour des systèmes de recherche d informations multimédias. Les plus grandes sociétés des hautes technologies, Google, Yahoo et Microsoft avec Bing ou Exalead, mais aussi de nombreuses Page 1/5
startups Tineye.com ou cydral.fr et bien d'autres, développent des solutions performantes. Cependant, la majorité de ces solutions s appuient principalement sur l'identification des mots clefs présents dans le titre de l'image ou dans la page web dont l'image est issue et non pas sur le contenu visuel. Afin que les solutions existantes passent à l échelle des immenses bases de données actuelles (plusieurs millions d images, plusieurs centaines d heures de vidéos), deux pistes sont actuellement intensément explorées : - Un partitionnement a priori de l espace de recherche qui permet une indexation efficace pour accéder rapidement à des données pouvant représenter de l intérêt pour l utilisateur. - Une fois ces données extraites, une classification fine de ces données est réalisée. Les premières solutions pour partitionner l espace de recherche s appuient sur des résultats mathématiques théoriques sur les distributions de très grandes quantités de données dans des espaces de grandes dimensions : les approches par division de l espace (M-tree, KDX), et les méthodes de représentations approximées des données (par quantification VA-file, par Hachage Sensible Localement (LSH), par compression). Ces différentes méthodes ont dernièrement été combinées avec des approches performantes de recherche/de classification (Machines à noyaux, techniques de boosting, classifieurs K-Plus-Proches-Voisins) pour définir des méthodes hybrides restreignant rapidement la recherche à une zone intéressante de l espace des données pour y retrouver finement les données pertinentes : la méthode K-LSH, les approches SALSAS [GCP11] et UltraFastKernel [GCP12]. Parmi ces méthodes, la méthode SALSAS non seulement exploite une structuration non-supervisée de l espace par l approche LSH qui permet de retrouver rapidement sur les données proches de la requête fournie par l utilisateur mais intègre aussi intrinsèquement l utilisateur dans le processus d apprentissage. En effet, l utilisateur fournit itérativement des annotations supplémentaires au système précisant ainsi la description du contenu d intérêt. Ce type d approche a montré son énorme potentiel pour passer à l échelle des grandes bases et fournir des résultats très pertinents adaptés à l utilisateur [GCP12]. Le bouclage entre exploration de l espace ainsi structuré et la classification fine par Support Vector Machine (SVM) des données explorées, fournit de très bons résultats. Cependant, cette méthode ne permet d explorer l espace que de proche en proche à partir de la requête. Cette stratégie d exploration devient un problème quand la classe que l on cherche à caractériser, à extraire, est complexe et peut donc être définie par plusieurs modes (ex. : on cherche toutes les photos de bus quelle que soit leur forme, à deux étages ou non, quelle que soit leur couleur ou l angle de prise de vue de la photo, etc.). Plutôt que d appliquer un pré-partitionnement non-supervisé de l espace des données, nous proposons d utiliser les propriétés des algorithmes évolutionnaires pour explorer efficacement le grand espace des solutions. Plusieurs solutions basées sur les algorithmes évolutionnaires ont été développées pour la recherche d images par le contenu. Plus récemment encore, les Algorithmes Evolutionnaires Interactifs (AEI), qui intègrent l utilisateur dans la phase d exploration, permettent de converger plus vite vers une solution «optimale pour l utilisateur» [PTP11, AFM11]. Dans le cadre de cette thèse nous souhaitons explorer les approches de recherche interactive qui intègrent l utilisateur dans le processus d apprentissage du contenu d intérêt. Nous proposons de combiner les propriétés d exploration des AEI dans un grand espace de solutions avec les Page 2/5
propriétés de précision de classification à partir de peu d exemples d apprentissage des SVM. Une attention particulière devra être portée à la complexité de nos méthodes pour permettre le passage à l échelle de la recherche par le contenu dans les bases multimédia considérées actuellement dans la communauté (de plusieurs centaines d images à plusieurs millions ou plusieurs centaines d heures de vidéo contenant plusieurs dizaines de catégories d objets). Quelques Références : [AFM11] Arevalillo-Herráez, M., Ferri, F. J., Moreno-Picot, S. Distance-based relevance feedback using a hybrid interactive genetic algorithm for image retrieval. Appl. Soft Comput. 11:(2), pp. 1782-1791, 2011. [GCP11] Gorisse, D., Cord, M. and F. Precioso. SALSAS: Sub-linear active learning strategy with approximate k-nn search. Pattern Recogn., vol. 44:(10-11), pp. 2343-2357, 2011. [GCP12] Gorisse, D., Cord, M., Precioso, F. Locality-sensitive hashing for chi2 distance, In IEEE PAMI, vol. 34:(2), pp. 402-410, Feb. 2012. [PTP11] Pallez, D., Tettamanzi, A. G. B., da Costa Pereira, C. Comparing Paired Comparison-based Interactive DE and Tournament Interactive GA on Stained Glass Design. Genetic and Evolutionary Computation Conference (GECCO'11). 37--38, 2011. URL : http://frederic.precioso.free.fr/these/recherche%20interactive%20de%20contenus%20mu ltimedia.pdf English version: PhD Thesis on content-based interactive retrieval in multimedia databases The amount of multimedia content stored in databases or accessible via the web has exploded in recent years: more video content is uploaded on YouTube in 60 days than the three bigest American majors have produced in 60 years; 20 hours of video were uploaded on YouTube every minute in May 2009 and this amount has exceeded 24 hours of content uploaded every minute in March 2010; 3000 images were uploaded every minute on Flickr to reach 5 billion images stored in September 2010 (All statistics are from http://website-monitoring.com). These figures, which are continually increasing, explain the intense research, both in academic and industrial labs, on retrieval systems for multimedia content. The biggest companies, Google, Yahoo and Microsoft Bing or Exalead, but also many startups as Tineye.com or cydral.fr, have developed effective solutions. However, most of these solutions are mainly based on the matching of keywords present in the title of the image or in the web page where the image comes from, but not based on the visual content. In order to build solutions scalable for the current databases (millions of images, many hundreds of hours of video), two tracks are currently intensely explored: - An a priori partitioning of the search space that allows an efficient indexing for quick access to the data that may interest the user. - Once these data of interest are extracted, a fine classification is performed on these specific data. The first solutions to partition the search space are based on theoretical mathematical results on distributions of huge amounts of data in very large spaces: let us mention data space division (by M-tree, by KDX), and data approximated representations (by quantifization VA-file, by Locally Sensitive Hashing (LSH), by compression scheme). Page 3/5
These different methods have recently been combined with powerful approaches for retrieval / classification (kernel machines, boosting techniques, K-Nearest-Neighbors) to design hybrid methods quickly restricting the search to a region of interest in the data space in order to retrieve more precisely relevant data: K-LSH method, salsas approaches [GCP11] and UltraFastKernel [GCP12]. Among these methods, SALSAS method not only exploits unsupervised structure of the data space provided by LSH technique which allows to quickly retrieve data close to the query but also intrinsically incorporates the user in the learning process. Indeed, the user iteratively provides additional annotations to the system, refining thus the description of the content of interest. This type of approach has shown its enormous scalability potential for large databases and provides highly relevant results adapted to the user [GCP12]. The iterations between the exploration of the data space structured and the classification by Support Vector Machine (SVM) of the explored data, provides very good results. However, this method allows to explore the data space, gradually from the query. This exploration strategy becomes a problem when the class that we want to characterize, or extract, is complex and can therefore be defined by several modes (eg, one seeks the pictures of buses regardless of their shape, two floors or not, regardless of their color or the view angle of the picture, etc..). Rather than applying an unsupervised partitioning of data space, we propose to use the properties of evolutionary algorithms to efficiently explore large data spaces. Several solutions based on evolutionary algorithms have been developed for content-based image retrieval. More recently, the Interactive Evolutionary Algorithms (IEA), which integrate the user in the exploration phase, can converge faster towards a solution "optimal for the user" [PTP11, AFM11]. In this PhD, we want to explore interactive retrieval approaches that integrate the user in the learning process of content of interest. We propose to combine the exploration "skills" of the AEI in a large space with the classification accuracy from few training samples of the SVM. Particular attention should be paid to the complexity of our methods to allow scalable retrieval based on content in multimedia databases that are commonly considered nowadays (several hundreds of images to millions or hundreds of hours of video containing dozens of categories of objects). Some References : [AFM11] Arevalillo-Herráez, M., Ferri, F. J., Moreno-Picot, S. Distance-based relevance feedback using a hybrid interactive genetic algorithm for image retrieval. Appl. Soft Comput. 11:(2), pp. 1782-1791, 2011. [GCP11] Gorisse, D., Cord, M. and F. Precioso. SALSAS: Sub-linear active learning strategy with approximate k-nn search. Pattern Recogn., vol. 44:(10-11), pp. 2343-2357, 2011. [GCP12] Gorisse, D., Cord, M., Precioso, F. Locality-sensitive hashing for chi2 distance, In IEEE PAMI, vol. 34:(2), pp. 402-410, Feb. 2012. [PTP11] Pallez, D., Tettamanzi, A. G. B., da Costa Pereira, C. Comparing Paired Comparison-based Interactive DE and Tournament Interactive GA on Stained Glass Design. Genetic and Evolutionary Computation Conference (GECCO'11). 37--38, 2011. http://frederic.precioso.free.fr/these/recherche%20interactive%20de%20contenus%20mu Page 4/5
ltimedia%20en.pdf URL : Page 5/5