Campagne 2009 Fiche descriptive de la thèse Encadrant Orange Labs: Christophe Garcia Adresse électronique de l'encadrant : christophe.garcia@orange-ftgroup.com Site: Orange Labs, Rennes Sujet de la thèse (Titre): Indexation automatique d'images et de vidéos par reconnaissance automatique de textes incrustés et traitement automatique des langues Contexte global de l'étude et état de l'art Nous sommes entrés dans l'ère de l'image, avec notamment l'avènement des services de partage de photos et de vidéos, des réseaux d'échanges «peer-to-peer», et des systèmes professionnels de Vidéo à la demande. Naviguer et rechercher des contenus multimédias précis au sein de grandes collections est devenu un problème de première importance, les besoins s'exprimant naturellement sous forme de requêtes langagières. A l'heure actuelle, l'indexation des contenus multimédia repose sur des descriptions globales, construites à partir de signatures numériques qui visent à résumer le contenu de l'image en termes de répartition globale de l'intensité lumineuse, de la couleur ou de la texture. Ces signatures descriptives, servant d'index, sont composées de mesures bas-niveau, proches du signal et particulièrement sensibles au bruit. Si ces descripteurs sont utiles pour comparer entre eux les documents multimédia, ils sont en revanche incapables de décrire leur contenu d'un point de vue plus sémantique et sont difficiles à manipuler pour un utilisateur à la recherche d'un document précis. La problématique dans laquelle s'inscrit ce sujet de thèse est de trouver de nouveaux moyens de décrire ces documents multimédias, d'une manière plus sémantique, en s'appuyant sur des indices textuels contenus dans les images elles-mêmes et, le cas échéant, en prenant en compte les données textuelles externes associées aux documents. Au sein de notre équipe, le doctorant poursuivra des travaux de recherche déjà initiés, visant au développement de techniques automatiques d'ocr Vidéo pour la reconnaissance de textes incrustés dans les images en phase de post-production (sous-titres, lieux, noms, scores ) ou des textes de scènes (pancartes, panneaux ). Il s'agit d'un problème difficile, le texte étant variable en taille, couleur et forme (polices) et pouvant apparaître sur des fonds texturés, dans des images de résolution faible, notamment dans le cas de la vidéo. Le doctorant pourra s'appuyer sur des solutions robustes de localisation de texte, de segmentation de caractères et de reconnaissance de lettres, reposant sur des techniques d'apprentissage neuronales, particulièrement robustes aux bruits, aux variations de formes et à la présence de fonds d'images complexes et texturés. Il revisitera ces solutions en incluant un mode de supervisation reposant sur des modèles de langages, des dictionnaires (nom propres par exemple) ou plus généralement des ontologies spécifiques à des
domaines de connaissances. L'ensemble des modules de reconnaissance se verront pilotés par cette connaissance pour lever les ambigüités liées à une reconnaissance locale lettre à lettre. Des méthodes d'apprentissage statistiques et neuronales seront développées dans ce sens, permettant la prise en compte robuste de l'ensemble des facteurs de variabilité. Objectifs de la thèse/ Résultats attendus/ Défis scientifiques/techniques à relever. Dans un premier temps, nous nous intéresserons au développement d'un OCR spécifiquement adapté aux vidéos de journaux télévisés et de sports, permettant la reconnaissance des textes incrustés dont on connaît la position ou supposés préalablement détectés. Des dictionnaires et ontologies de ces domaines seront mises en œuvre dans la chaîne de reconnaissance automatique. Des méthodes d'apprentissage statistiques et neuronales seront développées dans ce sens, permettant la prise en compte robuste de l'ensemble des facteurs de variabilité. On notera que des informations externes, produites par analyse de la bande audio ou provenant du sous-titrage télétexte pourront être utilisées, pour lever les ambigüités de la reconnaissance des mots. Dans un second temps, nous nous intéresserons à des applications plus ouvertes, visant à la détection/reconnaissance de textes de scènes (pancartes, panneaux, affiches etc..). Dans ce cas, les méthodes mises en œuvre devront prendre en compte, en plus des variations de style, de police et de couleurs, les déformations possibles des zones de textes (vue perspective), ainsi que les variations d'illumination. Profil du candidat Cursus universitaire ou ingénieur (Master Recherche) avec connaissances en analyse d images et en apprentissage neuronal, clustering, fouille de données; Bon niveau mathématique (optimisation numérique, statistiques, etc..); Bonne pratique du développement en C++; Pratique de l anglais ; Appréciant le travail d équipe ; Capacité d innovation et autonomie. Planning Global du déroulement de la thèse (grandes lignes) 6 premiers mois: - état de l'état VOCR - état de l'art de la fouille de données textuelles - prise en main des briques technologiques existantes dans l'équipe jusqu'à fin première année - poursuite des travaux sur les briques (textes incrustés) de détection de zones de texte de segmentation des caractères de reconnaissance de caractères deuxième année - intégration de modèles de connaissance dans le processus de reconnaissance - dictionnaires spécifiques (noms propres, mots clés news, sports) - développement d'un premier prototype (news) troisième année - travaux en fouille de données (sous-titres télétexte, transcription de la bande audio) - prototype intégrant fouille de données automatique et reconnaissance - rédaction et soutenance
Campaign 2009 PhD Description Orange Labs Supervisor: christophe Garcia (christophe.garcia@orange-ftgroup.com) Location: Orange Labs, Rennes, France PhD title: automatic indexing of images and videos by automatic recognition of text embedded and automated language processing Overall context of the study and state of the art The volumes of available audio-visual content continues to grow especially with the advent of photo and video sharing, of peer-to-peer sharing networks, delinearized television programs and video ondemand professional systems. Simply browse and search specifically for audio-visual content in large collections becomes an issue of great importance. The use of traditional databases, requiring manual entry of descriptions and keywords, is inconceivable in order to describe, and above all to maintain the description of such a volume of data. One of the major challenges in the field of search engines is the indexing and search in videos by automatic analysis of their contents. At the present time, multimedia content indexing relies on global descriptors, built from digital signatures which are intended to summarize the image content in terms of overall distribution of light intensity, color or texture. These descriptive signatures, used as index, consist of low level measures, close to the image signal and particularly sensitive to noise. If these descriptors are useful to compare the multimedia documents, however they are unable to describe their content in a semantic way and are difficult to handle for a user when searching for a specific document. The goal of this PhD is to find new ways to describe multimedia documents based on the automatic analysis of textual clues in the images themselves, taking into account, where appropriate, the textual data associated with external documents. In our laboratory, the PhD student will pursue research activities, already started, aiming at developing advanced techniques for automatic recognition (Video OCR) of text artificially embedded in images (sub-titles, places, names, scores... ) or scene texts (banners, signs...). It is a challenging problem: the text can be variable in size, color and form (fonts) and can appear on textured backgrounds, in lowresolution images, especially in the case of videos. The PhD student will rely on robust solutions for localization of text, character segmentation and recognition of letters, based on neural learning techniques, particularly robust to noise, presence of complex backgrounds and textured images and changes in shape and contrast. He/she will revisit these solutions by including a supervision scheme based on language models, dictionaries (eg names) or, more generally, ontologies specific to knowledge domains. All modules of recognition will be driven by this knowledge in order to remove the ambiguities associated with a local letter by letter recognition.
Objectives of the thesis / Expected Results / Technical and scientific challenges The first goal will be to develop a specifically tailored OCR for TV news and sport videos, allowing the recognition of artificial embedded text. Dictionaries and ontologies of these knowledge domains will be implemented in the chain of automatic recognition. Methods of statistics and neural learning will be developed to allow accounting for the different factors of variability. Note that external information produced by analysis of the audio channel or subtitles from teletext can be used to remove ambiguities of word recognition. In a second step, we will consider more open applications consisting in detecting and recognizing scene texts (signs, billboards, posters etc...). In this case, the developed methods will have to take into account variations in style, font and color but also geometrical distortions of text areas (perspective), as well as lighting variations. Required skills University Master's degree (or equivalent) with knowledge in image analysis and neural learning, clustering, data mining Good mathematical skills (numerical optimization, statistics, etc...); Good practice in C++ development Fluent in English; Enjoying teamwork Innovation capacity and autonomy Global PhD plan (outline) 6 first months: - state of the art of VOCR - state of the art of text data mining - overview of existing modules in the team Up to the end of first year - further work on the modules (embedded text) - detection of text boxes - character segmentation - character recognition Second year - integration of models of knowledge in the recognition process - specific dictionaries (names, keywords, news, sports) - development of a first prototype (news) Third year - work in data mining (Teletext subtitles, audio transcription) - prototype integrating data mining and automatic recognition - writing and defense