1 2 De l information à la connaissance et vice-versa Centre de traitement automatique du langage 17 octobre 2014 UCL, Louvain 3 Xavier Jacques-Jourion Responsable des Archives, Direction Générale Technologie & Exploitation, RTBF Professeur Associé, Master en Gestion Globale du Numérique, HELB Membre du Media Management Committee, Fédération Internationale des Archives de Télévision 4 RTBF Institution Publique Francophone 3 chaînes de Télévision 5 chaînes de Radio Portails internet
5 Archives Média de la RTBF Création d une filiale, la Sonuma, pour la numérisation et commercialisation des archives d avant le 1/01/2008. Environ 200.000 heures de contenus. Archivage de la production quotidienne pour TV et Radio. Service de recherches dans la collection. Conseil dans l organisation de l Information. 6 7 Stratification des informations Accumulation de documents au cours d une longue période de temps Evolution des systèmes Evolution des méthodes Evolution de la langue 8 Que cherche-t-on? Une émission pour la rediffuser, Une image historique, Une image prétexte, Ou tout simplement les informations contenues dans les médias.
Comment cherche-t-on? 9 Outils développés en interne, Media Asset Management, Métadonnées comme proxy d indexation, La date de diffusion comme méthode la plus efficace. 10 Comment reconnaître une suédoise? 11 12
13 14 La technologie sémantique De la donnée à la connaissance 15 Premier avion lancé sur la tour Nord du World Trade Center à New York. 11/09/2001-08:46 EST 1315730760 De la donnée à la connaissance 16 Connaissance Information / Contenu Donnée brute
De la donnée à la connaissance 17 De la donnée à la connaissance 18 19 En résumé 20
21 22 23 Pistes de solutions 24 MediaMap Intégration de la chaîne de création de contenus TV. Acquisition de métadonnées tout au long. Gestion des rôles dans un système sémantique Outil de recherche / Player enrichi
25 GEMS1 - Quincaillerie 26 Module d import de nos données. Moteur sémantique. Système d élévation sémantique par détection des entités nommées. Speech-to-text, ou reconnaissance vocale, synchrone avec référence temporelle. Interface utilisateur moderne. Module d import Linked Open Data. Ontologies spécifiques. GEMS2 27 Montée en charge sur les contenus Focus sur les médias TV numérisés par la Sonuma Uniquement speech-to-text Conclusions en cours Speech to text 28 Maturité suffisante si cadrage réaliste du projet. Génération de métadonnées d indexation. Synchronisation de texte existant. Deux modes d utilisation distincts, avec ou sans entraînement spécifique au locuteur.
Speech to text généraliste 29 Projet de test en Radio, pour les tranches News (Matin Première). Spécificité de la langue française en Belgique: accents, vocabulaire, noms de famille, noms de lieux. Entraînement sur un corpus disponible. Peu d acteurs sur le marché. Perroquet 30 Test de la technologie pour la production de sous-titrage. Entraînement du moteur sur un nombre limité de locuteurs. Entraînement spécifique au champ lexical du programme. Utilisation en direct. Technologie Dragon Dictate intégrée au logiciel de sous-titrage FAB. News Web 31 Suggestion de mots-clés automatique. Suggestion d articles apparentés. A l étude: veille réseau sociaux, veille concurentielle, moteur de recherche avancé. Knowbel - Early Tracks 32 Vision
Généralisation 33 Généralisation de l enrichissement automatique de façon transversale. Lien entre les différentes sources d information dans l entreprise Ex: bottin interne, données comptables. Gestion centralisée des listes de référence: Lieux, Personnes, Mots-clés, Evénements. 34 35 "Now this is not the end. It is not even the beginning of the end. But it is, perhaps, the end of the beginning." Winston Churchill 36 En tout cas, il y a peu de gens qui peuvent se vanter de savoir à ce point que vous n'êtes nulle part. Anonyme
37 Conclusions Encore beaucoup de choses à améliorer, Mais surtout beaucoup de maturité à gagner dans des solutions logicielles existantes qui dominent le marché. Nous sommes ouverts à tout projet de recherche, que ce soit par l accueil d un étudiant ou chercheur, ou la participation active à un projet. 38 0473-52-4269 xja@rtbf.be 39