Ingénierie des Connaissances IC dans le cadre de Plate Forme IA (PFIA 2013)

Transcription

1 Organisateurs : Ingénierie des Connaissances IC dans le cadre de Plate Forme IA (PFIA 2013) SOS-DLWD 2013 Des Sources Ouvertes au Web de Données Atelier PFIA 2013 Khaled Khelif (IPCC, Cassidian (EADS)) Fatiha Saïs (LRI, CNRS & Université Paris Sud) Laurie Serrano (IPCC, Cassidian (EADS)) Rania Khefifi (LRI, CNRS & Université Paris Sud) François Scharffe (LIRMM, CNRS & Université Montpellier 2)

2 Atelier SOS-DLWD 13 : des Sources Ouvertes au Web de Données Présentation Cet atelier a pour objectif de réunir les travaux traitant d une part, des problématiques liées aux sources ouvertes hétérogènes et indépendantes, et d autre part, des problématiques concernant les liens sémantiques pouvant exister entre les données structurées afin de faciliter leur exploitation et leur intégration via le Web de données. Cet atelier fait suite à l atelier SOS-DLWD 2012, organisé dans le cadre de la conférence EGC Il s agissait du résultat de la fusion de la troisième édition de l atelier SOS (Sources Ouvertes et Services, RFIA 2010 et EGC 2011) et de la première édition de l atelier DLWD (Données Liées pour un Web de Données). Le thème Sources Ouvertes et Services veut mettre en exergue les multiples problèmes liés au traitement de données disponibles en sources ouvertes (SO). Les SO désignent l ensemble des médias accessibles librement, gratuits ou payants, tels qu Internet, les bases de données publiques, les journaux, les chaînes de télévision et de radio, etc. par opposition aux sources fermées dont la consultation nécessite de disposer d autorisations spécifiques. Ces SO fournissent d importants volumes de données multimédia hétérogènes (image, texte, audio, vidéo, etc.) qui nécessitent des traitements adaptés afin de permettre leur exploitation. En plus des problématiques posées par l hétérogénéité des données disponibles, l enchaînement des traitements algorithmiques capables d exploiter ces données représente un défi scientifique et technique. L intérêt est porté sur toutes les étapes, partant de la phase de découverte des sources d information, en passant par la collecte et l analyse des données collectées jusqu à la phase de capitalisation et d exploitation de la connaissance. L intérêt est

3 également porté sur les choix architecturaux retenus pour la réalisation d applications exploitant les SO. En effet, ces applications tentent généralement de concilier plusieurs briques logicielles (COTS, logiciels open source, développements ad hoc, etc.) afin de les faire cohabiter en vue de la réalisation d une tâche particulière. L accent est mis sur les architectures orientées service (SOA) et sur l utilisation des technologies du Web sémantique. Dans le thème Données Liées pour un Web de Données nous avons souhaité aborder les problématiques liées à la publication des données structurées et à leur exploitation via le Web de données. Depuis les quatre dernières années, le nombre de sources de données structurées rendues disponibles sur le Web est en croissance fulgurante aboutissant à un espace global de données de l ordre de milliards d assertions (31 milliards triplets en septembre ). Dans cet espace de données, des liens sémantiques peuvent être établis entre les données. Ces liens permettent aux robots d exploration, aux navigateurs ou aux applications de naviguer parmi les sources de données et de combiner les informations provenant de sources différentes. Ces données liées sont nombreuses, distribuées, hétérogènes et peuvent être imprécises ou périmées. Aussi, différentes approches peuvent être définies en fonction des caractérisques des données et du domaine d application concerné. Dans ce domaine, plusieurs initiatives sont menées au niveau national (comme le projet DataLift 2 ) et au niveau international (comme les projets LOD2 3 et Planet Data 4 ) afin d amorcer et de regrouper les efforts pour résoudre les problèmes engendrés par la masse de données liées disponibles. Pour cette nouvelle édition, l atelier SOS-DLWD a souhaité s intéresser également au traitement des grandes masses de données («Big data»). L explosion récente des données disponibles sur le Web a fait émerger de nouvelles problématiques visant à adapter et optimiser toute la chaîne de traitement de l information face aux nouveaux volumes à traiter. Les sept articles présentés dans le cadre de cet atelier joint à la conférence IC 2013 présentent des approches traitant des problèmes liés aux sources ouvertes ainsi qu aux services permettant d exploiter leur contenu. Certaines de ces approches s intéressent plus spécifiquement aux données

4 liées disponibles sur le Web. Le premier article propose une analyse textométrique d un corpus de commentaires postés sur des médias sociaux chinois à propos du conflit entre Google et la Chine survenu en Une analyse factorielle par correspondances (AFC) est expérimentée sur ce corpus en chinois afin de construire une typologie des opinions exprimées à propos de cette affaire. Plusieurs caractéristiques linguistiques sont étudiées dans l objectif de dégager des traits distinctifs formels spécifiques à une orientation idéologique. Le second article présente un système nommé CAMERA-DREAM exploitant des sources de données du domaine du cinéma pour proposer des services d interrogation à un utilisateur. L un des services proposés s appuie sur des techniques développées dans le domaine des données liées pour restituer l ensemble des données les plus similaires à une donnée fournie en entrée. Le calcul de similarité présenté dans cet article est fondé sur des caractérisques décrites dans une ontologie. Le troisième article présente CA-Manager (Content Augmentation Manager), un framework jouant le rôle d intermédiaire entre les outils d extraction d information et les bases de connaissance. Cet outil repose sur les standards du Web sémantique et permet à l intégration de divers composants pour aboutir à un cycle partant de l extraction d information, en passant par sa consolidation, son stockage, la validation des annotations par l utilisateur, pour finir par l enrichissement des systèmes d extraction grâce à la connaissance obtenue. Le quatrième article décrit une approche et un système, DOWSER, qui ont pour but de proposer aux utilisateurs de nouvelles sources d information en fonction de leurs profils et de leurs centres d intérêt. Le profil de l utilisateur est utilisé pour mettre en place une collecte ciblée fondée non seulement sur des mots-clés mais aussi sur des concepts provenant de DB- Pedia. Des expérimentations "centrées utilisateurs" ont été menées et ont montré la pertinence de l approche. Dans le cinquième article, les auteurs s intéressent au problème de la recherche d informations manquantes dans un processus de remplissage automatique de formulaires en ligne. L approche proposée repose sur le calcul d une composition de services permettant d obtenir ces informations. Deux modélisations de ce problème sont proposées : (i) une modélisation du problème de composition de services en un problème de AI-planning et (ii) une modélisation sous la forme d un réseau de Petri. Une comparaison expérimentale de ces deux modélisations est présentée.

5 Le sixième article propose une approche pour la gestion de la provenance des ressources dans une plate-forme de traitement de documents par workflow de services Web. L approche proposée repose sur les standards XML, RDF, XPath, XQuery et SPARQL. Elle réutilise le modèle de provenance proposé par le W3C. L originalité consiste à s intéresser à l inférence de la provenance de fragments XML identifiés, appelés "ressources", issus de l exécution d un workflow. Enfin, dans le dernier article les auteurs s intéressent à l enrichissement de ressources linguistiques à partir d informations extraites en s appuyant sur une ontologie. L article décrit les différentes étapes de la chaîne de traitement mise en oeuvre (extraction, consolidation, stockage, validation, enrichissement) en détaillant le rôle de chaque étape et en l illustrant sur un exemple général. En conclusion, nous tenons à remercier les membres du comité de programme pour leur implication dans le processus d évaluation des articles et pour la très bonne qualité des évaluations qui ont certainement aidé les auteurs à améliorer leur travaux. Thèmes Identification et découverte automatique de sources d information, Accès et collecte d information à partir de sources ouvertes (Web, réseaux sociaux, flux RSS, etc.), Classification, filtrage des informations d intérêt, Extraction d information à partir de textes non structurés et/ou utilisant des vocabulaires spécifiques (blogs, langage SMS, forums, etc.), à partir de gros volumes de données multimédia (texte, image, vidéo, audio), Analyse des sentiments/opinions dans les médias sociaux (réseaux sociaux, blogs, forums, etc.), Modélisation et capitalisation des connaissances extraites à partir de sources ouvertes (ontologies, annotations sémantiques, etc.), Exploitation des connaissances extraites à partir de sources ouvertes : raisonnement, aide à la décision, visualisation, etc., Détection de signaux faibles, Évaluation et qualification des sources d information et des informations extraites à partir de sources ouvertes, Applications et plateformes de veille à partir de sources ouvertes

6 (stratégique, économique, renseignement, etc.), de traitement de l information orientées «Big data», d intégration de services de traitement hétérogènes, etc., Provenance et confiance des données et de leurs liens, Evaluation et qualification des informations extraites à partir de sources ouvertes, Inférence, fouille et validation de liens entre données, Intéropérabilité des sources de données et alignement d ontologies, Génération et publication des données, Interrogation du contenu du LOD, Développement de services pour les données liées, Privacy/contrôle d accès aux données liées.

7 Comité de Programme Florence Amardeilh (Mondeca) Alain Bidault (ENSAI) Maroua Bouzid (GREYC, Université de Caen) Patrice Buche (UMR INRA IATE) Gaël de Chalendar (CEA LIST) Olivier Corby (INRIA, Sophia Antipolis) Mariana Damova (OntoText - Bulgarie) Jérôme David (LIG, INRIA Grenoble - Rhône-Alpes) Juliette Dibie-Barthélemy (AgroParisTech & INRA Mét@risk ) Valentina Dragos (ONERA) Adil El Ghali (IBM) Christian Fluhr (GEOL Semantics) Bruno Grilheres (Cassidian) Nathalie Hernandez (IRIT, Université Toulouse le Mirail) Olivier Haemmerlé (IRIT, Université Toulouse le Mirail) Michel Leclère (LIRMM, Université Montpellier 2) Alexandre Pauchet (LITIS, Rouen) François Paulus (SemSoft) Nathalie Pernelle (LRI, Université Paris Sud) Mathieu Roche (LIRMM, Université Montpellier 2) Marie-Christine Rousset (LIG, Université de Grenoble) Brigitte Safar (LRI, Université Paris Sud) Dafni Stampouli (Cassidian) Danai Symeonidou (LRI, Université Paris Sud) Cassia Trojahn (IRIT, Toulouse) Sinan Yurtsever (Atos, Turkey) Haïfa Zargayouna (LIPN, Université de Paris 13) Nizar Ghoula (Université de Genève, Suisse)

8 Liste des articles acceptés Vocabulaire et opinion sur l Internet chinois : un essai d analyse textométrique de l affaire Google Li-Chi Wu CAMERA-DREAM : Une étude du Web de données dans le contexte d un projet universitaire Patrick Giroux et Esther Nicart CA-Manager : a middleware for mutual enrichment between information extraction systems and knowledge repositories Hacene Cherfi, Martin Coste et Florence Amardeilh DOWSER : Discovery of Web Sources by Evaluating Relevance Romain Noël, Alexandre Pauchet, Bruno Grilheres, Nicolas Malandain, Laurent Vercouter et Stephan Brunessaux Data-Flow Oriented Service Composition : AI-Planning or Petri Nets? Rania Khefifi, Pascal Poizat et Fatiha Saïs WebLab-PROV : la gestion de la provenance dans la plateforme WebLab Clément Caron, Bernd Amann, Camelia Constantin et Patrick Giroux Enrichissement d une RTO par l ajout de termes spécialisés Soumia Lilia Berrahou, Ludovic Lebras, Patrice Buche, Juliette Dibie- Barthélemy et Mathieu Roche

9 Vocabulaire et opinion sur l Internet chinois Vocabulaire et opinion sur l Internet chinois : un essai d analyse textométrique de l affaire Google Li-Chi WU SYLED/CLA2T, Université Sorbonne Nouvelle Paris III, 13 rue de Santeuil, Paris, France lucielichi@gmail.com Résumé : L accès aux sites communautaires, forums, blogs, se fait de plus en plus facilement grâce au développement d outils Internet créés pour le partage et l échange tous azimuts. Qu il s agisse de définir des mesures administratives ou des stratégies d entreprise, les décideurs politiques et économiques ne peuvent plus aujourd hui ignorer la voix de l opinion qui s exprime sur ces nouveaux réseaux sociaux. Or, le style des internautes publiant dans les espaces communautaires rompt souvent avec les usages de la langue standard. Nous avons procédé à l analyse d un vaste corpus de commentaires émis sur les réseaux d échanges des médias d expression chinoise à propos de l affaire Google. Notre objectif est d expérimenter, sur ce corpus, l approche statistique textuelle à partir des formes lexicales propres à ces nouveaux médias afin de dégager la typologie ou le système général, des opinions concernant cette affaire présentes sur Internet. Mots-clés : Statistique textuelle, textométrie, fouille des données d opinion, analyse du discours, monosyllabisme. 1 Introduction Le Web 2.0, dont le concept a officiellement été proposé en 2004, rend plus facile l accès à l Internet et en modifie la nature en profondeur. L Internet n est plus seulement un espace virtuel permettant d acquérir les informations et les connaissances produites par des instances éditoriales professionnelles ou institutionnelles, il est devenu une plateforme collaborative, participative et interactive pour tous ses utilisateurs. Un article publié dans la presse ne reste plus statique, il donne lieu à de nombreuses réactions, il peut être émaillé de longs commentaires ou de critiques subtiles. La nouvelle forme du Web 2.0 permet aux internautes ayant peu de connaissances techniques de s approprier les nouvelles fonctionnalités pour interagir avec d autres. Or, l'internet se joue des

10 IC 2013 frontières et le monde sinophone s étend géographiquement de la Chine continentale et Hong Kong à Taïwan et à Singapour, en passant par les communautés chinoises de l étranger. Les internautes chinois se sont rapidement approprié ce nouvel outil. Quant à l État chinois, il a pris conscience du rôle irremplaçable de l Internet pour le développement de l économie nationale, pour la promotion des progrès scientifiques et techniques, voire pour la diffusion de l information et de la propagande politique. C est dans ce contexte que nous avons décidé d étudier la polémique survenue entre Google et l État chinois grâce à une méthode textométrique, en l occurrence, le calcul des spécificités (cf. supra). Nous proposons une typologie des opinions des internautes concernant cette affaire, fondée sur une analyse interne des différents vocabulaires observés en Chine continentale et sur les écarts différentiels qu ils entretiennent eux-mêmes avec le lexique propre aux autres pays sinophones. 2 Contexte 2.1 Rappel du Conflit entre la Chine et Google La bataille entre le géant des moteurs de recherche et le plus grand marché du monde a eu lieu entre janvier et juillet 2010 : l affaire Google, à laquelle ont pris part les dirigeants du pays, les gérants des entreprises, les politiciens, a suscité de nombreux commentaires sur la toile chinoise. L affaire a débuté par un billet publié sur le blog officiel de l entreprise Google annonçant son retrait éventuel du marché chinois en raison d une série de cyber-attaques chinoises contre les comptes Gmail de militants des droits de l Homme. Elle s est terminée par la mise hors-circuit de la version chinoise du site qui "violait" les accords concernant le contrôle des flux d information conclus en Voici, les étapes-clefs qui ont marqué ce contentieux : Janv ouverture du site google.cn en Chine à la suite de négociations avec les autorités chinoises ; Google accepte un contrôle des flux d informations. Nov conflit entre Google et l association des écrivains chinois sur les droits d auteur ; Janv protestation de Google auprès du gouvernement chinois à la suite de cyber-attaques contre des comptes Gmail appartenant à des militants chinois des droits de l Homme ; Mars 2010 Google met hors circuit google.cn et redirige les internautes vers un site miroir à Hong Kong qui ne respecte plus les règles négociées en 2006 ;

11 Vocabulaire et opinion sur l Internet chinois Juin 2010 le gouvernement chinois menace Google de ne pas renouveler sa licence si elle ne se conforme pas à la législation chinoise. Fermeture officielle du site google.cn. 2.2 Langage Internet du monde sinophone L Internet n est plus seulement un espace qui fournit de l information, il devient un lieu d échange entre tous les internautes. Or, les nouvelles manières de dire, tant sur le plan lexical que sur les plans syntaxique ou sémantique, ne se conforment pas aux règles et aux normes de la langue réputée correcte qui prévaut dans les médias institutionnels. Elles se caractérisent par leur expressivité, par un sens du lexique économique et original, adapté à la rapidité du monde virtuel (Li, 2006). 3 Corpus Les textes chinois réunis dans le corpus GoogleCh 1, ont été recueillis de janvier à septembre 2010 et regroupent 227 articles accompagnés de commentaires en provenance de trente-quatre médias du web chinois ; sept de ces médias (4 en Chine populaire, 3 à l extérieur) autorisent les commentaires : on en compte pour la République populaire de Chine (RPC) et 337 pour les autres pays sinophones. L écriture chinoise étant une écriture continue sans blanc typographique entre les caractères, nous avons utilisé un outil de segmentation 2 pour procéder aux découpages sémantiques. Nous avons ainsi pu dénombrer segments et unités lexicales en RPC contre segments et unités lexicales dans les autres pays sinophones à l'intérieur du seul corpus des commentaires (tableaux 1 et 2). TABLEAU 1 Principales caractéristiques quantitatives des commentaires. Lieu Nb d occ Nb de Nb d hapax Fréquence 1 2 Afin de faciliter la manipulation des textes, les ponctuations chinoises, les nombres numéraux et les lettres latines sous leurs différents formats typographiques ont été transformés dans les formes que l on utilise habituellement avec l alphabet latin. Les textes sont sauvegardés au format texte brut avec le jeu de caractères GB2312. Nous avons utilisé l outil de segmentation ICTCLAS élaboré mieux pour le traitement des textes d articles de presse (Wu, 2010). Le segmenteur d ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System) a été mis au point par Huaping Zhang à l Institute of Computing Technology, Chinese Academy of Sciences. Nous avons utilisé la version 2008 disponible au téléchargement sur le site officiel (page consultée le 24 mars 2013).

12 IC 2013 formes maximale RPC Hors de la RPC TABLEAU 2 Volumétrie des commentaires. Lieu Nb de commentaires Nb d occ par commentaire RPC ,6 Hors de la RPC ,6 On y observe quatre traits caractéristiques : la longueur des textes publiés par les médias de RPC est neuf fois supérieure à celle des textes de l extérieur ( /21 777) ; le nombre de formes recensées sur les sites chinois n est pourtant que 2,5 fois supérieur à celui qu on observe sur les sites extérieurs (10 123/4 001) ; la longueur des commentaires publiés hors de RPC est presque trois fois supérieure à celle des commentaires publiés en RPC : 64,6 occurrences contre 23,6 ; on compte en moyenne 19 occurrences par forme lexicale ( /10 123) dans les commentaires publiés en RPC contre 5 dans les autres pays sinophones (21 777/4 001). C'est dire que l inertie tendancielle du vocabulaire des internautes de RPC est près de quatre fois supérieure à celle que l on observe dans les autres pays sinophones où les auteurs font preuve de plus d originalité, produisent des discours moins stéréotypés, moins dépendants de la rhétorique officielle. 3.1 Typologie des commentaires au sein des médias chinois Nous avons d abord eu recours à l analyse d AFC (analyse factorielle des correspondances) 3 pour mettre en évidence l utilisation de vocabulaires différents selon le lieu d édition des médias. L opposition majeure que nous avons relevée sépare l ensemble de textes publiés en RPC de ceux de textes publiés à l extérieur. Ce classement de la presse en 3 Nous avons eu recours à l outil textométrique Lexico3 qui permet de mettre en œuvre l analyse de données textuelles (quantitatives et qualitatives) et qui s adapte aussi aux langues sinitiques s écrivant au moyen de sinogrammes. Lexico3 est développé par l équipe universitaire SYLED-CLA2T (Systèmes Linguistiques Énonciation et Discours, Centre de Lexicométrie et d Analyse Automatique des Textes). Le logiciel a été conçu par André Salem, professeur de l Université Paris III. Il est téléchargeable sur le site suivant (page consultée le 25 mars 2013).

13 Vocabulaire et opinion sur l Internet chinois fonction du lieu d édition se reflète particulièrement dans les textes du type commentaire de GoogleCh analysés dans la figure 1. FIGURE 1 Positionnement du type commentaire. À cette opposition géolinguistique du groupe A et du groupe B comprenant respectivement les commentaires des médias publiés en RPC et les commentaires des médias de l extérieur, s ajoute une autre opposition binaire, celle de l homogénéité ou de l hétérogénéité internes des deux champs ainsi définis : la forte proximité lexicale des textes émanant de l agence de presse Xinhua et du journal Huanqiu 4 (presse officielle du gouvernement chinois) contraste fortement avec la distance qui sépare les commentaires des trois médias publiés à l extérieur de la Chine. Chacun des trois journaux concernés se démarque clairement des deux autres : le Financial Times Chinese traite des questions économiques et financières sans positionnement idéologique explicite ; l'epoch Times se définit comme anti-communiste ; le quotidien taïwanais UDN soutient le Kuomintang 5. Chacun de ces médias ayant sa ligne éditoriale, repérable dans les textes du type article, se distingue des textes du type commentaire. Nous avons voulu savoir si les commentaires publiés à la suite de ces articles se conformaient à leurs orientations respectives et par quels moyens lexicaux se manifestait leur adhésion ou leur opposition à cette orientation dominante. 4 5 Huanqiu est un quotidien international édité par le Parti Communiste Chinois, sa principale mission est de répondre à l information négative diffusée sur la Chine par la presse étrangère ; ses publications expriment un fort nationalisme. Le Kuomintang (ou Parti nationaliste chinois) s est rapproché de la Chine communiste dès 2006, alors qu il était dans l opposition. Revenu au pouvoir en 2008, il milite désormais pour l unification de Taïwan avec la Chine continentale et pour le renforcement des échanges économiques avec la République populaire de Chine.

14 IC Caractéristiques lexicométriques des médias en Chine continentale Pour mettre en évidence les caractéristiques du vocabulaire utilisé dans les commentaires, il nous faut, tout d abord, faire retour sur l évolution de la langue chinoise. Nous pourrons alors mesurer son originalité relative et en dégager le sens dans une double perspective, diachronique et synchronique. La langue chinoise, originellement monosyllabique, a évolué vers le polysyllabisme sous influence occidentale dès la dynastie Tang ( ). Le lexique de la langue classique s est alors considérablement enrichi et cette évolution s est poursuivie jusqu au chinois moderne où la plupart des unités lexicales sont dissyllabiques. Or, par un étrange renversement, on constate aujourd hui un retour au monosyllabisme : les monosyllabes, dans lesquels les internautes trouvent un vocabulaire plus rapide et plus expressif que dans la langue standard, reviennent en force sur la toile (Zheng, 2009). 4.1 La longueur des unités lexicales L approche interne des médias publiés en RPC nous a conduit à étudier ce qui les oppose aux médias publiés à l extérieur. Les données numériques du tableau 1, qui mettent en évidence un net décalage entre les deux sousensembles, nous ont amené à prendre en compte la longueur moyenne des unités lexicales propre à chacun d eux. Le nombre de syllabes 6 d une unité s étend dans GoogleCh d une à huit. Or, si les monosyllabes et les dissyllabes occupent une place dominante tant en RPC que dans les autres pays sinophones (plus de 94%), on constate, grâce au calcul des spécificités (cf. supra), que chaque lieu d édition a ses traits distinctifs : les publications extérieures à la RPC privilégient les unités de deux à quatre syllabes alors que les textes publiés en RPC leur préfèrent les monosyllabes (figure 2). 6 Une unité lexicale chinoise est composée de morphèmes ; l unité est dite «simple» si elle est monosyllabique et s écrit avec un seul sinogramme, et «complexe» si elle est polysyllabique et s écrit avec plusieurs sinogrammes.

15 Vocabulaire et opinion sur l Internet chinois FIGURE 2 Nombre de syllabes des unités lexicales par lieu d édition. 4.2 La spécificité du vocabulaire L analyse du vocabulaire spécifique (Lafon, 1980, 1984) 7 employé dans les commentaires publiés en RPC permet de mettre en évidence ses caractéristiques lexicométriques et, en particulier, la fréquente réduction des unités lexicales d'une syllabe. Parmi ces monosyllabiques figurent des termes lexicaux mais aussi des mots-outils tels que des particules, des conjonctions, des adverbes, etc. vecteurs de sentiments et d émotions. La particule yo, par ex., indique l'impératif ou, en début de phrase, l étonnement ; l interjection pei exprime la colère ou le dégoût. La ponctuation, largement représentée dans le corpus à l inverse de ce que l on observe dans les usages français d Internet ou des SMS (Panckhurst, 1998; Véronis & Guimier de Neef, 2006), sert de marqueur d expressivité. Un simple «?» exprime «quoi» ou «pourquoi» ; «!» traduit l étonnement, la surprise, etc. 7 L analyse des spécificités, méthode proposée par Pierre Lafon permet de mesurer la probabilité de l apparition d une unité textuelle dans une partie de corpus donnée. Ces unités peuvent être des formes lexicales, des phrases, des paragraphes, etc. L analyse indique un sur-emploi ou un sous-emploi des unités spécifiques en fonction de leur fréquence dans l'ensemble du corpus. L outil Lexico3 fournit la fonction du calcul des spécificités ; l utilisateur peut choisir un seuil de probabilité et une fréquence minimale constatée avant le début du calcul. Les unités spécifiques sont classées par ordre décroissant de spécificité sous forme d indice d un signe + ou suivi d une valeur numérique. L indice est accompagné de sa fréquence totale dans l ensemble du corpus et sa fréquence locale dans une partie sélectionnée. Si la valeur de l indice est supérieure à 50, le symbole «***» sera indiqué à la place.

16 IC 2013 Arrêtons-nous donc sur chacune des catégories grammaticales à laquelle appartiennent les termes du vocabulaire spécifique : 1) Verbes La multiplication des verbes monosyllabiques est caractéristique de l évolution de la langue chinoise sur Internet (He, 2010). Cette évolution concerne surtout les verbes exprimant la volonté, l émotion et le désir, des locuteurs. Dans la langue courante, il est de bon ton d utiliser la forme redoublée 8 du verbe de préférence à sa forme simple. La réduplication atténue la force illocutoire, l intensité de l action ou restreint sa portée dans le temps en termes de fréquence ou de durée (Paris, 2007). L emploi des formes simples va de pair avec un ton plus péremptoire. Or, les internautes chinois commentant l affaire Google choisissent la forme simple des verbes pour exprimer leur détermination de voir déguerpir sans délai le géant étranger : zou (s en aller), tui (quitter), tu (vomir) (au sens de «détester»). Quant aux dissyllabes et aux polysyllabes, ce sont, par ex. xihan (s en ficher), dizhi (boycotter), buyaolian (être éhonté). 2) Pronoms Les pronoms désignent généralement soit l émetteur du message les auteurs des articles d origine ou les internautes qui les commentent, soit leurs destinataires. Le pronom ni (tu), pronom le plus caractéristique de notre corpus, compte occurrences (spécificité +22) dans les commentaires publiés en RPC contre occurrences du total des commentaires. Il est employé pour interpeller l entreprise Google, qu il vise avec des propos ironiques, dérisoires ou méprisants. women (nous), spécifique en second lieu des pronoms (1328 occ., spécificité +16), renvoie généralement aux énonciateurs. Le système pronominal chinois est remarquablement simple : toutes les marques de la première personne du pluriel contiennent la forme women à laquelle on ajoute d autres éléments pour former chaque syntagme. L analyse de cette forme permet d identifier le contexte et l orientation générale des messages concernés : le nationalisme y est massivement exalté par les internautes de RPC. A l inverse, nimen (vous), la deuxième personne du pluriel (439 occ., spécificité +7), désigne soit le gouvernement des USA, les Américains, voire le «parti à un centième de dollar» ( meifen dang). Cette expression a été créée sur le modèle de celle de «parti à cinq maos» ( wumao dang) 9, inventée par les dissidents pour désigner 8 On rend souvent le sens en français par «un peu». De nombreux verbes monosyllabiques sont empruntés au chinois classique, les verbes dissyllabiques sont majoritaires dans le chinois moderne. Tous les verbes dissyllabiques n ont pas de forme rédupliquée. 9 Le terme wumao dang (le parti à cinq maos), vocabulaire d Internet, dans lequel équivaut à cinquante centimes, a été créé par des internautes chinois dans un sens méprisant. Son nom officiel est

17 Vocabulaire et opinion sur l Internet chinois les bataillons d internautes engagés par l État chinois et rémunérés pour chaque commentaire prochinois posté sur Internet. Les internautes chinois l emploient le plus souvent de manière vocative pour fustiger ceux qui ne soutiennent pas le gouvernement chinois. Enfin, le pronom laozi (je, moi-même) est généralement utilisé de manière emphatique, en signe de mépris pour ses adversaires. 3) Adverbes En chinois comme en français, l adverbe détermine le verbe, l adjectif ou un autre adverbe ; il en module le sens. Mais les catégories grammaticales chinoises ne sont pas fixes : un adjectif ou un verbe peuvent être employés sous forme adverbiale. Ainsi l'adjectif lao (âgé), employé comme adverbe, veut dire «toujours» ; kuai (rapide), employé comme adverbe veut dire «vite» ; hao (bon), veut dire «facilement» comme adverbe ; tai (éminent), signifie «trop» comme adverbe. Du côté des verbes, yue (dépasser, franchir), s emploie comme adverbe pour marquer une progression sous la forme redoublée yue yue (plus plus ) ou yue lai yue (de plus en plus) ; le verbe ganjin (se dépêcher), prend le sens d «en toute hâte» lorsqu il est employé comme adverbe ; enfin, le verbe jiu, qui signifie étymologiquement «accéder à», exprime, dans son emploi adverbial, la conséquence, la succession, le résultat que l on est en droit d attendre d un processus. On le trouve dans des propositions exprimant une relation de cause à effet, en relation avec des conjonctions comme ruguo (si), jiaru (au cas où). On le traduit par «alors», «justement», «en effet». Mais jiu prend souvent un sens dépréciatif, on le traduit alors par «seulement», «sauf que», «quand bien même». Bref, ces emplois spécifiques évoquent la rapidité ou l intensité de l action, ils dénoncent l excès ou le défaut chez l adversaire et constituent de puissants marqueurs de subjectivité, ils expriment une volonté polémique évidente. 5 L étranger ennemi, l étranger ami Le conflit entre la Chine et Google oppose deux mondes. Commercial, idéologique, stratégique et géopolitique, il prend parfois une dimension ethnique voire clairement xénophobe, comme en témoigne le champ lexical de l «étranger», représenté dans notre corpus par de nombreux termes aux connotations péjoratives. wangluo pinglun yuan (les commentateurs d Internet). Suivant la même idée, le terme meifen dang (le parti à un centième de dollar, où meifen représente un cent, la sous-unité monétaire du dollar américain), a été créé pour désigner les commentateurs professionnels qui émettent des messages favorables au gouvernement américain.

18 IC 2013 Nous avons recensé une liste de termes qui désignent les «étrangers» (tableau 3) et observé leur répartition. On note d abord qu ils sont principalement utilisés dans les médias de RPC alors qu ils n apparaissent que rarement dans les médias extérieurs. TABLEAU 3 Dénomination du sens d «étranger» et sa fréquence dans les médias en RPC. Forme Fréq en RPC / Fréq total du type commentaire Équivalent traductionnel waiguo ren 27/29 étranger waiguo lao 1/1 espèce d un étranger yangren 7/7 étranger occidental wairen 8/10 étranger (quelque un de l extérieur laowai 4/6 étranger guilao 2/2 démon étranger guizi 22/22 démon étranger yangguizi 15/15 diable étranger da bizi 2/2 les Blanc (littéralement, grands nez) On note ensuite qu à l exception de waiguoren et de yangren, qui sont neutres, la majorité d entre eux ont une signification insultante. Les mots guizi (démon), yang guizi (diable étranger), ne se trouvent que dans les médias publiés en RPC. Le mot guizi, d abord utilisé pour désigner les Occidentaux de race blanche qui ont envahi la Chine au dix-neuvième siècle 10, n est pas exempt d un certain racisme, même s il s agit, à l origine, d un racisme défensif. De même que le suffixe zi dans guizi (démon), le suffixe lao sert à former des unités lexicales méprisantes, telles que meiguolao (les sales Américains), waiguolao (une espèce d étranger). Le mot laowai, qui avait lui aussi une connotation péjorative, s est progressivement banalisé et tend aujourd hui vers la neutralité (Yuan, 1998). Il garde cependant une acception méprisante dans le contexte conflictuel qui caractérise notre corpus. Enfin, l expression da bizi (grand nez), qui stigmatise la physionomie des Occidentaux, est notoirement péjorative. 6 Conclusion et perspectives 10 À la fin de la dynastie Qing ( ), les Chinois ont fait l objet de brimades et d humiliations des puissances occidentales qui ont envahi leur territoire, l ont découpé en zones d influence qu elles se sont partagées. C est dans ce contexte conflictuel que les Chinois ont commencé à agir contre les étrangers et les désigner avec les termes péjoratifs.

19 Vocabulaire et opinion sur l Internet chinois L'approche textométrique, particulièrement l'afc, permet ainsi d'appréhender les positionnements des médias chinois dans l'affaire Google. Les données chiffrées que nous avons dégagées mettent en évidence une nette opposition entre la RPC et les autres pays sinophones. Le calcul de spécificité auquel nous nous sommes livré sur le vocabulaire utilisé dans les médias en RPC a permis de dégager leurs traits distinctifs formels et l orientation idéologique à laquelle ceux-ci correspondent. Le retour tendanciel au monosyllabisme est l une des caractéristiques majeures de la langue utilisée par les internautes dans l'affaire Google. L'abandon des formes euphémiques redoublées, plus fréquentes dans la langue ordinaire, dénote une attitude intransigeante, voire ouvertement hostile, à l égard de l entreprise américaine qu on somme de déguerpir au plus vite. L emploi adverbial d un certain nombre d adjectifs et de verbes va dans le même sens. Un nationalisme exacerbé mâtiné d un sincère patriotisme se manifeste à l égard des Américains et, plus généralement, des Occidentaux, qu on dénonce comme «étrangers» dans un vocabulaire dénué de toute aménité. Après cette analyse du vocabulaire spécifique aux commentaires, nous approfondirons notre étude de référence en comparant les discours des internautes chinois de RPC et ceux des internautes des autres pays sinophones. Nous pourrons alors envisager une étude interne des médias publiés à l extérieur de la RPC pour mettre en évidence leurs particularités non seulement géographiques mais encore idéologiques. Références HE Y.. (2010). (Analyse de la tendance au monosyllabisme sur Internet). Master. 3, p LAFON P. (1980). Sur la variabilité de la fréquence des formes dans un corpus. Mots. 1, p LAFON P. (1984). Dépouillements et statistiques en lexicométrie. Genève: Slatkine-Champion. LI S.. (2006). (On the variation of the on-line language). ( ) Journal of Sichuan University of Science & Engineering (Social Sciences Edition). 4, p et 121. PANCKHURST R. (1998). Marques typiques et ratages en communication médiée par ordinateur. In Proceedings CIDE 98. p Rabat. PARIS M.-C. (2007). Un aperçu de la réduplication nominale et verbale en mandarin. Faits de langues. 29, p VERONIS J. & GUIMIER DE NEEF É. (2006). Le traitement des nouvelles formes de communication écrite. In Compréhension automatique des langues et interaction. p Paris: Hermès Science. WU L.-C. (2010). Outils de segmentation du chinois et textométrie. In Actes de TALN 2010 (Traitement automatique des langues naturelles). Présenté à Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL), Montréal, Canada.

20 IC 2013 YUAN H.. (1998). (Analyse interculturelle d un terme d'adresse - Laowai). ( ) Journal of Beijing Normal University (Social Science Edition). 6, p ZHENG Y.. (2009). (Étude des termes monosyllabiques en vogue à notre époque). Journal of Kangding Nationality Teachers College. 4, p

21 CAMERA-DREAM : Une étude du Web de données CAMERA-DREAM : Une étude du Web de données dans le contexte d un projet universitaire Patrick GIROUX 1, Esther NICART 2 1 Cassidian, EADS, Parc d Affaires des Portes B.P. 613, 27106, Val-de-Reuil Cedex patrick.giroux@cassidian.com 2 Université de Rouen, 1, rue Thomas Becket, 76821, Mont-Saint-Aignan Cedex esther.hoare@etu.univ-rouen.fr Résumé : L enseignement dispensé dans le cadre du Master Génie Informatique et Logiciel de l Université de Rouen inclut un projet de grande envergure qui mobilise chaque année tous les étudiants de la promotion. En , ce projet intitulé CAMERA-DREAM visait à constituer une base de connaissance consacrée au cinéma et publiable sur le Web en accès ouvert. Pour exploiter le contenu de cette base, une application de filtrage collaboratif devait être développée afin de permettre à un internaute de sélectionner des films répondant à ses goûts et à ses attentes. Pour atteindre ces différents objectifs, la modélisation d une ontologie du cinéma et la définition d un algorithme de calcul de distance sémantique constituaient des prérequis. Mots-clés : Base de connaissance, ontologie du cinéma, filtrage collaboratif, distance sémantique, Recherche par similarité sémantique, triple-store, Architecture orientée Service. 1 Contexte du projet 1.1 Cadre universitaire CAMERA-DREAM est un projet proposé aux étudiants du Master Génie Informatique Logicielle de l Université de Rouen lors de l année universitaire Cette application a été développée dans le cadre de l enseignement de gestion de projet informatique qui tient une place majeure dans le cursus et qui fait l objet de travaux pratiques importants. En première année, les étudiants reçoivent un enseignement théorique basé sur les méthodes agiles et doivent réaliser un projet annuel en équipes de

22 IC ou 6 étudiants. Les étudiants acquièrent à cette occasion une première expérience de gestion de projet. A partir d un sujet proposé par l équipe enseignante, ils doivent s organiser en équipes, spécifier précisément l application qu ils vont réaliser, planifier son développement, documenter sa conception et ses tests, etc. En seconde année, juste avant de partir en stage de fin d étude, un projet de plus grande envergure est proposé sur une période de 12 semaines dont la moitié est entièrement consacrée au développement de l application dans des conditions comparables à celles du monde industriel et dans un environnement proche de celui de l entreprise. 1.2 Objectifs pédagogiques Le projet représente un gros volume de travail et implique toute la promotion. Il est conduit selon une procédure inspirée de celle applicable aux marchés publics. L objectif est de mettre les étudiants en situation aussi proche que possible de la réalité industrielle en leur demandant de conduire un projet d envergure de la phase d initialisation avec mise en concurrence jusqu à la livraison d une application fonctionnelle. L une des difficultés majeures est de mettre en place une organisation structurée où chacun est responsabilisé sur des tâches précises. Le sujet traité doit être suffisamment complexe pour permettre la définition de lots de travaux conséquents et pouvant être alloués à différentes équipes. Le sujet doit aussi permettre aux étudiants de découvrir de nouvelles technologies et d acquérir des compétences qui complètent ou étendent celles qu ils ont pu acquérir dans le cadre des autres modules d enseignement, notamment un cours sur les technologies du Web Sémantique proposé en option. Cette formation permet aux étudiants de se familiariser avec les bases technologiques, les approches méthodologiques et avec les standards du W3C qui sont exploités pendant le projet. 1.3 Organisation et processus Le déroulement du projet suit les étapes suivantes : Présentation du calendrier et tirage au sort des équipes. Présentation générale du sujet. Lancement d un appel d offres par la MOA (maîtrise d ouvrage, c est à dire le client), au travers d un cahier des clauses techniques particulières. Environ un mois après l appel d offre, remise par chaque groupe d une réponse écrite et étayée puis soutenance orale avec réponse

23 CAMERA-DREAM : Une étude du Web de données aux questions ou contradictions soulevées par le client. Sélection par le client d un maître d œuvre (MOE) (l équipe dont la proposition correspond le mieux à ses attentes), les autres équipes étant ses sous-traitants. Durant un mois, formalisation des contrats entre la MOE, ses soustraitants et la MOA. La MOE définit des lots de travaux et les répartit entre les équipes. Lancement du projet lorsque le client considère que l organisation et la définition des travaux ont atteint un degré de maturité suffisant. Phase de développement pendant 6 semaines, à temps plein. Soutenance finale et démonstration du système obtenu. Pour l année universitaire , vingt étudiants ont été répartis par tirage au sort en 2 équipes de 5 étudiants, 1 équipe de 6 étudiants et 1 équipe de 4 étudiants. 2 Sujet et cahier des charges 2.1 Thème proposé Le projet vise à développer la base de connaissance CAMERA (Catalog of Actors and Movies Expressed as RDF Annotations) consacrée au cinéma et publiable sur le Web en accès ouvert. Cette base doit pouvoir être exploitée librement par des applications informatiques pour répondre à des besoins divers et variés. Afin de valider l atteinte de ces objectifs, l application DREAM (Discovery & Retrieval Engine for Actors & Movies) doit également être développée dans le cadre du projet. Cette application doit, entre autres fonctionnalités, permettre à un internaute de sélectionner des films répondant à ses goûts ou ses attentes. Les résultats du projet doivent permettre de démontrer l intérêt d une description sémantique d un catalogue Web de films (généralisable à différents types d articles tels que des livres, des voyages, des produits industriels, etc.) dans l optique de répondre au mieux aux préférences exprimées ou implicites d un consommateur. Le système utilisé pour effectuer la démonstration est constitué par un serveur hébergeant une instance de la base de connaissance CAMERA et d un client riche supportant l application DREAM. Il sera désigné dans la suite de l article sous le nom de CAMERA-DREAM.

24 IC Spécification fonctionnelle CAMERA-DREAM collecte et catalogue des données cinématographiques qui sont analysées sémantiquement et annotées selon un système de métadonnées fondé sur une ontologie du cinéma. Les métadonnées issues de la phase d annotation sont ensuite enregistrées dans la base de connaissance CAMERA et permettent de caractériser chaque film. Le contenu de cette base de connaissance est géré par un administrateur qui pilote le processus de collecte et de traitement des informations pour le référencement automatique des films. Il peut aussi compléter «manuellement» la base de connaissance en ajoutant des films d origine quelconque. Le superviseur peut changer la structure du modèle (l ontologie). L application DREAM propose une IHM destinée à tout internaute cinéphile qui veut rechercher des informations dans le catalogue.cet utilisateur final peut interroger le catalogue en composant des requêtes complexes, se créer un profil personnel correspondant à ses goûts en valorisant les propriétés définies dans l ontologie pour décrire son film idéal, ou donner son appréciation sur un film qu il a visionné. La mesure de similarité et les descriptions contenues dans CAMERA permettent de calculer un degré de ressemblance entre les films référencés et les profils des utilisateurs. Ainsi l application DREAM peut émettre des recommandations personnalisées de films. Ces trois rôles déterminent un certain nombre de cas d utilisation modélisés dans le diagramme UML ci-après (Figure 1). FIGURE 1 Cas d utilisation de CAMERA-DREAM

25 CAMERA-DREAM : Une étude du Web de données 2.3 Exigences techniques L application est conçue selon une architecture orientée services : les différentes fonctionnalités proposées sont distribuées dans un ensemble de services indépendants ou faiblement couplés. Ces services peuvent être utilisés par des applications ou des systèmes intégrés et sont donc accessibles au travers d une interface programmatique "publique". Les annotations sémantiques sont formalisées en utilisant le standard RDF du W3C et la base de connaissance CAMERA est implémentée grâce à un triplestore qui expose un service Web conformément au Protocole SPARQL. L application DREAM accède à la base CAMERA au travers d une interface SparqlQuery (Figure 2). FIGURE 2 Architecture générale du CAMERA-DREAM 2.4 Technologies mises en œuvre Le développement est réalisé en Java avec l IDE Eclipse. Le développement de l IHM utilise le framework Play!, qui implémente les principes de JEE grâce à son serveur interne Netty. Les tests sont faits avec Junit 4 et SoapUI. Maven et svn sont utilisés pour la production et le contrôle du code. Les standards mis en œuvre pour le développement de l ontologie et du triplestore sont : RDF : un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées ; RDF / XML : l une des syntaxes de sérialisations des éléments RDF ;

26 IC 2013 OWL : un langage de représentation des connaissances, utilisé pour définir des ontologies web structurées en RDF ; SPARQL (SPARQL Protocol and RDF Query Language) : un langage de requête et un protocole qui permet de rechercher, d ajouter, de modifier ou de supprimer des données RDF dans un graphe ; JQuery : une bibliothèque JavaScript libre qui simplifie les commandes communes de Javascript ; Apache CXF : un framework open-source en langage Java, facilitant le développement de services web ; Apache Jena-Core : un framework open-source en langage Java, facilitant le développement des applications sémantique web ; Apache Jena-ARQ : Le moteur des requêtes SPARQL pour Jena ; JSoup : un parseur HTML ; Jastor : un outil permettant de générer des beans à partir d une ontologie formalisée en OWL ; Fuseki : un moteur SPARQL accessible en tant que serveur via HTTP. 3 Architecture du système 3.1 Services développés Les données sont collectées depuis des sources d informations cinématographiques. Ces données sont annotées sémantiquement et transcrites pour les aligner avec l ontologie de référence. Une indexation sémantique des films et des acteurs, et une indexation en texte brute sur les résumés et synopsis est faite pour capitaliser l information dans la base CAMERA. (Voir Figure 3) 3.2 Sources de données utilisées Trois sources de données cinématographiques sont utilisées : Allociné (Allocine, 2013) : un site web français dédié aux films de cinéma, séries, vidéos et programmes télévision, IMDb (IMDb, 2013) : un site web américain similaire à Allociné, Linked Movie Database (Linkedmdb, 2013) : une ontologie de films. De l information supplémentaire sur les films, les personnes et sites géographiques associés est obtenue de : dbpedia.fr (DBpedia, 2013) : une source des donnée structurées extraites de différents chapitres francophones de Wikipedia. GeoNames (GeoNames, 2013) : une base de données géographiques.

27 CAMERA-DREAM : Une étude du Web de données FIGURE 3 Chaîne de Traitement 3.3 Base de connaissances CAMERA La base de connaissances CAMERA est implémentée sur un triplestore (un entrepôt RDF). L interface avec l application DREAM repose sur une API Java d Apache : Jena. Jena permet d interroger et éditer la base par des requêtes SPARQL. Le serveur SPARQL, Fuseki, permet d accéder à distance à l entrepôt RDF. Il fournit différents «endpoints» SPARQL que l on peut interroger pour rechercher, modifier, supprimer ou ajouter des données. Ceci permet aux Web Services d accéder aux données. Trois DataSets sont implémentés, un pour les films et les personnes, un second pour les profils utilisateurs et un troisième pour la configuration du système. 3.4 Application DREAM 3.5 Cas d utilisation et interfaces applicatives L interface Homme-Machine est destinée à trois utilisateurs (Figure 1) 1. l administrateur : qui dispose des droits d administration pour le système et la base de connaissances, et qui peut régler le seuil de la distance sémantique (voir Section 5) ; 2. le superviseur : qui s occupe de la gestion de l ontologie ;

28 IC l internaute : un utilisateur quelconque sans droit d administration ou de supervision ; 3.6 Prise en compte des goûts et des humeurs Il y a deux catégories d utilisation par un internaute : 1. De manière occasionnelle, par exemple, il peut chercher, soit à partir d un film (trouvez-moi les films qui ressemblent à X), soit en fonction des caractéristiques des films (trouvez-moi les films d action de Spielberg), ou même selon son humeur du moment (trouvez-moi les films tristes). 2. Un service personnalisé avec son propre profil, et des recommandations ciblées. Pour construire son profil, il peut se baser sur l ontologie (Section 4) et sur les caractéristiques des films qu il apprécie plus particulièrement : les genres et sujets des films, et les émotions qu ils évoquent. les personnes qui ont participé d une façon ou d une autre à la conception des films : les acteurs, réalisateurs, et/ou producteurs. Il peut aussi donner une note aux films qu il a vus. Dans ce cas, son profil est déterminé à partir des genres, sujets, émotions et personnes connectés aux films les mieux notés. Une fois les profils créés, le système calcule des groupes (clusters) d internautes ayant des profils similaires. Ce calcul est détaillé en section 5. Ces groupes permettent à l internaute de recevoir des alertes quand quelqu un qui partage ses goûts donne à un film une note positive, ou d envoyer automatiquement des alertes aux membres d un groupe dès la sortie d un film qui correspond aux goûts de ceux-ci. L administrateur peut régler le seuil de proximité, qui permet de changer à volonté la taille et la constitution de ces clusters. 4 L ontologie du cinéma L ontologie est la spécification d une conceptualisation d un domaine de connaissances cinématographiques basée sur la classification des éléments de ce domaine donné par concepts et sous-concepts et la création de tout type de relations entre les éléments et les concepts.

29 CAMERA-DREAM : Une étude du Web de données 4.1 Portée de la modélisation L ontologie sert à caractériser un film selon le point de vue du public, avec des propriétés portant sur les contributeurs (acteurs, réalisateurs, producteurs, auteurs), les genres des films, les sujets traités, les émotions ressentis en regardant le film, les années de sortie en salle ou sur DVD, etc., les lieux où le film est tourné et où l action se déroule, et sur les synopsis ou résumés. 4.2 Hiérarchies de genres et de sujets L ontologie de Linked Movie Database (Linkedmdb, 2013) offre de nombreux genres et sujets associés aux films, mais dans une structure plate. Pour mesurer la similarité entre deux films, deux taxonomies ont été construites dans le cadre du projet CAMERA-DREAM. La première de genres et la deuxième de sujets et, dans ces deux taxonomies, la proximité entre les genres d une part et les sujets d autre part a été étudié. 4.3 Formalisation Pour discuter la spécification de l ontologie avec le client, un diagramme de classes UML a été utilisé qui impose un niveau de formalisme à la fois graphique, explicite, précis et rigoureux (Figure 4). L outil retenu pour la création et l édition de l ontologie est le logiciel libre Protégé, qui impose un niveau de formalisme plus formel mais moins lisible par un client. 4.4 Alignement des ontologies utilisées L alignement d ontologies est le processus de découverte des correspondances entre concepts.deux ontologies différentes peuvent avoir des termes différents pour le même concept, par exemple, le concept cinéaste d une première ontologie est équivalent au concept réalisateur dans une seconde ontologie. Les ontologies peuvent être aussi dans des langues différentes, par exemple, l ontologie de CAMERA-DREAM est exprimée en utilisant la langue anglaise, celle de (DBpedia, 2013) existe en français. Dans CAMERA-DREAM, l alignement d ontologies consiste à établir une correspondance entre l ontologie définie dans le cadre du projet et les modèles conceptuels sur lesquels sont basées les données collectées c est à dire les modèles de (DBpedia, 2013), (Allocine, 2013), (IMDb, 2013), et (Linkedmdb, 2013).

30 IC 2013 FIGURE 4 UML de l ontologie Les listes de genres, sujets et émotions des sites web sont extraites, traduites et alignées «à la main» avec les genres, sujets et émotions de l ontologie CAMERA-DREAM. 5 Le calcul de la distance sémantique 5.1 Principes et état de l art Comment déterminer si un concept, ou une chose C1 est sémantiquement plus proche d un concept ou d une chose C2 que d un concept ou d une chose C3? Par exemple, est-ce qu un tournevis est plus proche d un marteau que d une cisaille? Le besoin d une mesure de la distance entre deux concepts n est pas nouveau (Quillian, 1968; Collins & Loftus, 1975), et la recherche sur ce sujet se poursuit encore actuellement. Pour donner quelques pistes de recherche, trois articles scientifiques sont fournis en annexe du CCTP de CAMERA-DREAM(Aimé et al., 2011; Gandon et al., 2008; Khelif et al., 2008). Un point particulièrement intéressant pour ce projet est la mesure de la distance sémantique entre deux concepts définis dans une même taxo-

31 CAMERA-DREAM : Une étude du Web de données nomie en tenant compte de la profondeur du chemin qui les relient par des liens de subsomption (Gandon et al., 2008). 5.2 Algorithmes mis en œuvre L un des objectifs principaux du projet est de montrer l intérêt scientifique d un calcul de distance sémantique dans le cadre d une application de filtrage collaboratif. Plus spécifiquement 1, il s agit de mesurer la distance sur une ontologie du cinéma entre : deux profils, pour un clustering des profils similaires ; deux films, pour émettre des recommandations de films similaires ; un profil et un film, pour émettre des recommandations personnalisées de films. Les propriétés qui caractérisent un film sont divisées en deux groupes : les personnes associées à un film les acteurs, les producteurs, les réalisateurs ; le contenu du film son genre et le type de sujets qu il aborde. Un profil consiste en une liste de films, acteurs, réalisateurs et producteurs favoris, et de genres et sujets préférés. La distance entre deux films ou deux profils peut être calculée de la même manière. Pour cela, on introduit la notion de ressource qui généralise ces deux concepts. Une ressource Res est défini par Res = {A, D, R, G, S} où A est la liste des acteurs, D est la liste des producteurs, R est la liste des réalisateurs, G est la liste des genres et S est la liste des sujets associés à cette ressource. La distance entre deux ressources, Res 1 et Res 2 est dist(res 1, Res 2 ) telle que : mindist si Res 1 = Res 2, P A.(dist P (A 1, A 2 ))+ P D.(dist P (D 1, D 2 ))+ dist(res 1, Res 2 ) = (1) P R.(dist P (R 1, R 2 ))+ P G.(dist T (G 1, G 2 ))+ P S.(dist T (S 1, S 2 )) sinon. Le paramètre mindist (par défaut 0) est réglable selon les souhaits de l administrateur du système. P A, P D, P R, P G, P S sont les poids donnés aux 1. À notre connaissance, ces calculs n ont pas encore été faits.

32 IC 2013 acteurs, producteurs, réalisateurs, genres et sujets pour le calcul tels que P A + P D + P R + P G + P S = 1. La formule fait intervenir deux distances différentes, dist P qui est la distance entre les listes de personnes associées à un film, et dist T, la distance taxonomique La distance entre deux listes de personnes La distance entre deux listes de personnes dist P (P 1, P 2 ) est calculée à partir de l intersection de ces listes : { mindist si P 1 = P 2, dist P (P 1, P 2 ) = (2) sinon. maxdist 2 P 1 P2 où maxdist est réglable selon les souhaits de l administrateur du système La distance taxonomique entre genres et sujets La distance entre deux listes d éléments d une taxonomie dist T (T 1, T 2 ) est calculée selon la position et la profondeur de chaque nœud dans la taxonomie (Figure 5). Intuitivement, puisqu ils ont un détail plus fin (ils sont plus bas dans l arbre), on dira que n 1 et n 2 sont plus proche que n 3 et n 4. Inversement, parce qu ils sont dans une catégorie différente, ils peuvent être considérés comme éloignés de n 5. Genre Action Romance Combat Thriller n 5 Swashbuckler Martial Arts n 3 n 4 Chambara Ninja Samurai n 1 n 2 FIGURE 5 La distance entre deux nœuds est relative à leurs profondeurs et leurs positions relatives dans le graphe taxonomique : dist(n 1, n 2 ) < dist(n 3, n 4 ) < dist(n 4, n 5 ) On définit LCA(n 1, n 2 ) comme l ancêtre en commun le plus proche (Lowest Common Ancestor) des deux nœuds n 1 et n 2 (Figure 6).

33 CAMERA-DREAM : Une étude du Web de données LCA n 1 n 2 FIGURE 6 Lowest Common Ancestor de n 1 et n 2 La distance entre deux nœuds n 1 et n 2, où n 1 n 2 est définie comme dist T (n 1, n 2 ) = depth(lca(n 1,n 2 ))+i 0 i<p depth(lca(n 1,n 2 ))+j 0 j<p 2 où p 1 = path(n 1, LCA(n 1, n 2 )), p 2 = path(n 2, LCA(n 1, n 2 )) Alors la distance entre deux listes d éléments taxonomiques est donnée par : maxdist nɛt 1 2 depth(n) dist T (T 1, T 2 ) = T 1 si T 1 = T 2, t 1 ɛt 1,t 2 ɛt dist 2 T (t 1,t 2 (4) ) T 1. T 2 sinon. 5.3 Implémentation La première étape consiste à formaliser les arborescences taxonomiques de l ontologie du cinéma, et à ajouter sur chaque nœud une propriété représentant l expression de son chemin depuis la racine. Le graphe résultant est stocké, et n est recalculé que lorsque l ontologie est modifiée. Pour calculer la longueur du chemin entre deux genres, ou deux sujets, il suffit de comparer les expressions de leurs chemins stockés respectifs. La longueur du préfixe commun donne la profondeur de leur ancêtre le plus proche. La somme des longueurs des suffixes résiduels donne la longueur du chemin entre les deux nœuds. 5.4 Intérêt applicatif et transpositions envisageables Ce projet repose sur une ontologie du cinéma, et deux mesures différentes sont proposées : l une qui agit sur les caractéristiques fixes d une ressource, l autre qui agit sur des taxonomies. L intérêt est de combiner (3)

34 IC 2013 ces deux mesures, et de varier les poids pour ajuster la qualité des résultats. Les calculs ne sont pas spécifiques au cinéma, et on peut imaginer une application gérant n importe quel type de ressources qui peut être décrit par des caractéristiques et des taxonomies telles que des livres, des voyages, des produits industriels, des événements etc. 6 Bilan du projet 6.1 Corpus d évaluation Pendant le projet, un corpus des données cinématographiques pour les films réalisés depuis 1970 (9000 films de DBPédia, environ 7000 de Allociné, entre 5000 et 7000 de IMDB et environ 2000 de LinkedMDB) a été constitué. La démonstration en-ligne (M2GIL, 2013) contient cependant un corpus réduit à 500 films. Les résultats dépendent fortement de la justesse des catégorisations de l ontologie, de leur répartition, et de la hauteur de la taxonomie. 679 genres et sous-genres sont identifiés (hauteur taxonomique 6) ; 176 sujets et soussujets (hauteur taxonomique 5). 6.2 Résultats obtenus Jinni (Jinni, 2013) est un site web concurrent de CAMERA-DREAM. Il se base sur The Movie Genôme Project qui a pour but de catégoriser des films selon deux critères : Experience l humeur et la tonalité du contenu et Story les éléments du synopsis. Pour montrer l intérêt et la valeur ajoutée de notre approche, nous avons fait une comparaison entre les résultats retournés par CAMERA-DREAM, et ceux de Jinni (Jinni, 2013). Un exemple est donné ici pour le film Expendables 2 : Unité Spéciale (Figure 7, Table 1). TABLE 1 Comparaison des films similaires à Expendables 2 : Unité Spéciale CAMERA-DREAM Jinni Le Sorcier et le Serpent Blanc The Expendables Bangkok Resistance Rambo, Rambo II, Rambo First Blood Mission Impossible Transporter Kill the Gringo The Eliminator Safe Safe

35 CAMERA-DREAM : Une étude du Web de données F IGURE 7 Comparaison des recherches de films similaires à Expendables 2 : Unité Spéciale entre CAMERA-DREAM et Jinni Un avantage de CAMERA-DREAM est que les paramètres du calcul de la distance sémantique sont tous réglables, et donc personnalisables selon les goûts de l utilisateur de façon plus ou moins empirique en tenant compte de l expérience. Par exemple, lors de nos expérimentations, nous avons déterminé que de meilleurs résultats étaient obtenus lorsque le poids sur les personnes associées à un film est double du poids taxonomique. 6.3 Limitations et évolutions possibles L utilisation de bases de données en français et en anglais nécessite une traduction des genres, sujets, et émotions. Une traduction automatique rendrait le processus plus rapide. La modélisation des goûts de l utilisateur pourrait être réalisée par entraînement automatique en utilisant des techniques d apprentissage. Les genres et sujets sont extraits à partir des étiquettes sur les sites web, et avec une indexation texte brute. Il pourrait être intéressant d explorer la distance sémantique entre des termes pour une extraction plus complète des informations. Il est envisageable d ajouter plus de critères au calcul de la distance sémantique, tel que la date de sortie, l auteur, la durée du film, les lieux où se déroule le film, les prix ou les nominations. Les taxonomies de genres et sujets peuvent être enrichies, et de nouvelles taxonomies pourraient être

36 IC 2013 ajoutées, par exemple, pour tenir compte des émotions. Quelques duplications de données ont été relevées, par exemple quand le nom d un acteur est épelé différemment sur deux sites. Il serait intéressant d implémenter un calcul de similarité sur les acteurs et les descriptions des films pour les fusionner (profile matching). Remerciements Les auteurs impliqués dans la réalisation de ce projet tiennent à remercier Bruno PATROU, Philippe ANDARY et Florent NICART pour leurs conseils avisés sur l implémentation du calcul de la distance sémantique. Références AIMÉ X., FÜRST F., KUNTZ P. & TRICHET F. (2011). Semiosem et proxsem : mesures sémiotiques de similarité et de proximité conceptuelles. In atelier «Personnalisation du Web», 22èmes Journées francophones d Ingénierie des Connaissances (IC 2011), Chambéry, France. ALLOCINE (2013). Allociné. COLLINS A. M. & LOFTUS E. F. (1975). A spreading-activation theory of semantic processing. Psychological Review, 82(6), DBPEDIA (2013). Dbpedia website. GANDON F., CORBY O., DIOP I. & LO M. (2008). Distances sémantiques dans des applications de gestion d information utilisant le web sémantique. In Proc. Workshop Mesures de similarités sémantique, EGC, INRIA Sophia Antipolis - Méditerranée. GEONAMES (2013). Geonames website. IMDB (2013). Imdb website. JINNI (2013). Jinni website. KHELIF K., GANDON F., CORBY O. & DIENG-KUNTZ R. (2008). Using the Intension of Classes and Properties Definition in Ontologies for Word Sense Disambiguation. In Proc. 16th International Conference on Knowledge Engineering and Knowledge Management - Knowledge Patterns, EKAW, Acitrezza, Italy. LINKEDMDB (2013). Linked movie database website. linkedmdb.org/. M2GIL (2013). Camera-dream website. Master 2 Génie de l Informatique Logicielle, Université de Rouen. QUILLIAN M. (1968). Semantic memory. In M. MINSKY, Ed., Semantic Information Processing, p Cambridge, MA : MIT Press.

37 CA-Manager: A middleware between IE systems and knowledge repositories CA-Manager: a middleware for mutual enrichment between information extraction systems and knowledge repositories Hacene Cherfi, Martin Coste, and Florence Amardeilh Mondeca SA, 3 cité Nollez Paris {firstname.lastname}@mondeca.com Abstract: Knowledge enrichment aims at bridging the large gap between structured knowledge and the large volumes of unstructured text data that companies and people need to deal with daily. Alas, the process is very laborious and error-prone, even when performed semi-automatically. The two key steps in this process -semantic annotation and ontology population- still hold outstanding challenges although they are actively studied by researchers. While there exists a large number of tools, many of them lack compliance with Semantic Web standards, but more important, they lack the flexibility to customise the entire knowledge acquisition workflow. In this paper, we present the Content Augmentation Manager (CA-Manager) framework which plays a middleware role between Information Extraction (IE) tools and knowledge repositories (KR)s. CA- Manager allows us an easy plug-in of various types of components leading to create a virtuous cycle within the annotation workflow. Keywords: Knowledge acquisition from texts, Knowledge model population, Semantic annotation, Information extraction, Knowledge augmentation, Information consolidation. 1 Introduction One of the main challenges for the large adoption of Semantic Web technologies is to get semantic data in order to be able to develop smarter applications to search, browse, publish, infer, etc. Even Google understood this by buying Freebase 1, an online graph-based knowledge base of thousands of interconnected entities. Google can now build its new semantic search engine, called Knowledge Graph 2. The exponential growth of semantic data published through the Linked Open Data

38 IC 2013 Initiative is another important marker of the actual technological shift that we are going through. But everyone is not Google nor have semantic datasets ready to be publicly exposed (or not) to build the innovative services/applications of tomorrow. It is absolutely necessary to provide tools to support the creation of such knowledge repositories. The first step is the creation of an ontology to represent the knowledge of the concerned domain. An ontology has been defined as a formal conceptualization of a model, composed of concepts, properties (attributes and relations) and axioms. It can be understandable by machines, used for sharing and re-using knowledge and permitting reasoning thanks to the semantics explicitly represented in the ontology. This issue alone is a major research field of Semantic Web and we will assume in the rest of this paper that these ontologies were modelled and made available to implement the backbone of any semantic knowledge repository. The second step consists in populating the ontology with knowledge, i.e. the concept instances (also called individuals or entities) and their property values. However, whatever the field, knowledge is more often used in non or semi-structured documents (Cimiano, 2006). That is why in recent years researchers from information extraction, semantic annotation, knowledge augmentation or ontology population fields worked closely to find pertinent technological answers to that issue. In fact, as stated in (Nédellec & Nazarenko, 2005), Information Extraction (IE) and ontologies are involved in two main and related tasks: 1 Ontology-Based Information Extraction tools: IE needs ontologies and related knowledge repositories (also called knowledge bases, e.g. where the instances are stored) to extract relevant information and to semantically annotate corpora (Maynard et al., 2008); 2 Ontology Population and Augmentation: Ontology needs IE to populate the knowledge repositories with new instances discovered from the corpora and to enhance the ontology itself with upcoming concepts or relations (Petasis et al., 2007). These two tasks can be combined in a cyclic process: IE permits to add new instances to the ontology that in return aliments the gazetteers and other terminological resources used by the IE tools, etc. As a bonus, this cycle also delivers semantic annotations that link documents to knowledge entities to represent their content. In the following of this paper, we are presenting a middleware, named CA-Manager that eases the implementation of such process between IE tools and knowledge repositories.

39 CA-Manager: A middleware between IE systems and knowledge repositories 2 CA-Manager Technical Architecture The philosophy of the CA-Manager is to bridge the gap between the content annotation process, and the knowledge repository storage. CA- Manager is a middleware which has the purpose to handle the information extraction results and to populate an ontology-driven knowledge base with the extracted annotations. To achieve this goal, the CA-Manager relies on the recommendations made by the W3 Consortium and the Semantic Web community: 1 Represent knowledge using RDF 3 /OWL 4 languages; 2 Set up a service-oriented architecture (SoA). The strength of CA-Manager is to combine semantic technologies with a UIMA-based infrastructure 5 which has been enriched and customized to address the specific needs of both semantic annotation and ontology population tasks (see FIGURE 1). FIGURE 1 Knowledge Augmentation: creating added-value of contents Resource Description Framework ( Ontology Web Language ( Unstructured Information Management Architecture (

40 IC 2013 The UIMA framework provides a development platform for systems that analyze large volumes of unstructured information in order to discover knowledge that is relevant in a given domain. This UIMA architecture is the basis of the CA-Manager. UIMA advantage is to provide developers with an easy module integration and composition platform. This platform is flexible enough to let one arrange the modules in any combination in the workflow definition, and let one to add its own modules. Moreover, we stick to this architecture because the UIMA platform is widely used in the Information Extraction (IE) community. However, none of the UIMA existing modules addresses the quality control and validation of the generated annotations. UIMA workflow has some drawbacks among which: (i) the logical schema of the elementary data format, known as Common Analysis Structure (CAS), defines a high-level annotation schema but has to be refined for the purpose of each new application; (ii) the way the web services are exposed in UIMA is proprietary and different from Semantic Web standards; and (iii) it makes use of UML models to define the domain-oriented type systems instead of using ontologies. As (Wimalasuriya & Dou, 2010), we are convinced that ontologies are defining better templates for IE results, especially because of the semantic that can be represented and exploited for inferring new knowledge for instance. Therefore, we have implemented the CA-Manager framework in order to set up a more flexible architecture based on a combination of several UIMA Analysis Engines. UIMA provides us with a way to define and customize IE applications according to user needs and to order engines in a workflow accordingly. In doing so, each step of the annotation workflow is a component which can be plugged to the final application. We also aimed at improving the UIMA infrastructure with the native use of Semantic Web standards. We defined an RDF-based annotation schema dedicated to ontology population and semantic annotation tasks composed of entities, properties, metadata and offsets 6. Each analysis engine is controlled and enriched by the next engine in the workflow. This workflow is designed with a distributed service-oriented architecture relying on languages and protocols defined with Semantic Web formalisms. 3 CA-Manager Functional Components CA-Manager uses an ontology-based annotation schema to transform heterogeneous content (text, image, video, etc.) into semantically-driven 6 Position of the annotation in the text.

41 CA-Manager: A middleware between IE systems and knowledge repositories integrated and organized contents. Its workflow is composed of 5 main functional components (shown in FIGURE 2) that support building and managing customized pipelines for semantic contents annotations, ontology population and ontology-based information extraction systems: 1 Extraction: identify and tag domain-oriented knowledge (terms, named entities, relations) from content, performed by exiting IE tools (such as GATE, Luxid, GeolSemantics, etc.); 2 Consolidation: reconcile extracted knowledge with the domain ontology and the content of the knowledge repository (instances and property values); 3 Storage: export and store the reconciled knowledge; 4 Validation: let the human user validate the suggested annotations and knowledge; 5 Enrichment: export new validated terms and entities into the IE s linguistic resources (gazetteers, grammars, named entity lists). FIGURE 2 CA-Manager s components allowing mutual enrichment between IE tools and KRs. 3.1 Extracting knowledge from text The extraction component annotates content using existing information extraction tools compatible with UIMA and/or semantic resources coming from the Web (i.e. Linked Open Data). It converts annotations (metadata, structured information) into a normalized

42 IC 2013 representation, e.g. an RDF-based CAS. This component consists in two steps: split and extract. When applicable, the split step divides the input data into multiple parts, e.g., a corpus splits into a set of documents, a document into several sections, etc. The extract step uses available IE tools to process the documents and extract entities from unstructured contents. Then the CA-Manager applies a set of user-defined RDF/SPARQL 7 acquisition rules that transform the extraction outputs into an internal RDF-based CAS, compliant with the domain ontology that structures the application s knowledge base. This step is mandatory because the CA-Manager compares the extracted knowledge with the instances already stored in the knowledge repository during the next step. FIGURE 3 An example of bio-data of a person. In the following of this chapter, we will exemplify one workflow thanks to a knowledge base released in the SAIMSI project, funded by the ANR - French Research Agency, which aims at extracting heterogeneous information from the Web about threatening people and organisations. The added-value of SAIMSI project outcome is to accumulate and infer knowledge according to several sources crawled from the Web. FIGURE 3 shows how we store the bio-data of a person (i.e. Malika El-Aroud) out of the two persons 8 which we are authorized to search for according to CNIL 9. The other names that appears in the graph through the relation knows as shown in FIGURE 4 and throughout the rest of the paper are fake names RDF query language ( Along with Usama Bin Laden. French privacy data and liberties regulation commission ( Here, Naïma Elhariza and Nizar Trevorxe.

43 CA-Manager: A middleware between IE systems and knowledge repositories 3.2 Consolidating annotations and knowledge with an ontology repository The knowledge Consolidation component automatically checks completeness and correctness of the information collected. It is in charge of controlling annotations from linguistic extraction against ontology, normalizing, constructing a knowledge graph by aggregating the annotations and entities information, and accessing the knowledge repository to infer new annotations or instances (only if required by the application, inference rules need to be predefined according to a set of rules coming from domain experts). We studied in (Amardeilh, 2008) the various possible cases of instances and annotation creation and identified two axes of consolidation: the first axis defines the ontological element concerned, i.e. an instance of a class, a property value or a semantic annotation; the second axis defines the constraints to be checked, i.e. non redundancy, the domain and range restrictions and the element's cardinality. Every CA-Manager consolidation algorithm takes into account the two axis described here-before. In the knowledge Consolidation component, they are performed through three steps: merge, control, and infer Merge The merge step sends queries to the semantic repository to retrieve entities or annotations URIs, and subsequently eliminate duplicates within the CAS. These queries can be simple (class + label) or multicriteria (class + set of required properties that identify unambiguously an entity in the semantic repository). One can see in FIGURE 4 the genuine extractions of the two locations #187 and #366 given by the IE tool for respectively Contact and Arrest events. FIGURE 4 Two genuine extractions showing 2 locations, each on its right side. The FIGURE 5 shows the results of the annotation process with the knowledge-base-query consolidation done by CA-Manager and creating the spatial relation with the two locations shown on the right side.

44 IC 2013 FIGURE 5 The genuine annotation from IE tool showing 2 locations on the right. Hence in FIGURE 6, the locations are merged into only one entity with its Unique Resource Identifier (URI), here: FIGURE 6 The merged locations with a single reference URI. In (Castano et al., 2008), the authors compare this task with instance matching as in database integration field where record linkage is defined as the task of quickly and accurately identifying records corresponding to the same entity from one or more data sources. It also refers to the Entity Resolution problem, mostly investigated in ontology alignment applications but poorly in ontology population ones. To solve this issue, (Castano et al., 2008) define the identification power of instance properties. Not all the properties that define a concept are equally interesting to automatically identify an individual as part of this concept, only featuring properties are. For instance, a person can be queried by its name which is in most cases a highly identification property. However, in cases of homonymy, looking at the person name is clearly not enough and one might want to query on particular properties such as the date of birth that can better discriminate several instances sharing the same label. Such a multi-criteria search is often built from the set of restricted properties where cardinality equals at least to 1. If the algorithm fails to disambiguate between two instances because for example no featuring properties have been extracted and annotated in the corpora, then the new entity or annotation is tagged with an invalid metadata and will be displayed as such to the end-user.

45 CA-Manager: A middleware between IE systems and knowledge repositories Control It validates extracted annotations against the ontology model. Verification may include parameters such as domains and ranges of the entities, cardinalities, date formats, temporal information, the number formats, metric systems, etc. It also aims at resolving inconsistencies in the semantic annotations. For instance, if in the preceding step the extracted entity was merged with an existing instance, CA-Manager looks up to the properties of the extracted entity: are these property types authorized for the entity's class? Do these properties already exist in the merged instance? Do they have the same values? If not, how do we decide which value is the right one, especially when dealing with thesaurus values such as geographical locations, or with time values such as dates? The algorithms try to automatically resolve these issues and when not possible, they mark the new entity or annotation with an invalid metadata. All Invalid information is isolated in the knowledge base for further analysis and human validation. For example, the results of the annotation shown in FIGURE 7 of a Penalty event, state that Malika El-Aroud is convicted with a 10-yearsentence of prison. FIGURE 7 Example of penalty event extracted by IE tool. Hence, CA-Manager, will control this semantic graph against the ontology model and populate the knowledge base with an entity (i.e. a penalty unit) representing the 10-year-sentence penalty in order to share this entity and make it possible to query for people who are locked in prison with the same sentence (see in FIGURE 8). FIGURE 8 Additional information found in the ontological model Infer It may use a reasoning engine to apply inference rules in order to discover new entity properties (e.g., if A is B's mother, then A is a

46 IC 2013 female) and relations between entities. For instance, if two organisations are annotated as being involved in the same criminal event (same place, same time); then it is possible to propose to the user to merge the two organisations (one could be an alias of the other). The reasoning engine car also controls the overall coherence and quality of the semantic repository. For example, if a person A is known to be a sister of a person B, then A is a Female. If B is known to be a Male, then B is A s brother. 3.3 Storing annotations and knowledge in repositories The Storage component adds all new proposed knowledge instance to the chosen knowledge repository. It can also send the output (knowledge and semantic annotations) in RDF format to external metadata repositories. Other formats can be envisaged according to the project needs and requirements. It has two steps, serialise and store (optional) Serialize It transforms the enriched and consolidated RDF-based CAS in the requested application format (XML, RDF, OWL, NewsML 11, etc.). We mostly deal with RDF serialization as the one seen in FIGURE 9 which represent the contents of the FIGURE 10. FIGURE 9 An XML serialization of the example given in FIGURE Store CA-Manager exports its results to a knowledge repository: ITM 12 semantic repository, Sesame 13 or OWLIM 14 triplestore as long as it is connected to the targeted application infrastructure. It can also be sent to a Content Management System (CMS), as long as the output serialization fits the CMS input format, in order to enrich the existing content descriptions. We can see in FIGURE 10 the content of the example given in FIGURE An XML standard for annotating multimedia news. Intelligent Topic Map ( Sesame triplestore ( RDF database management systems (

47 CA-Manager: A middleware between IE systems and knowledge repositories FIGURE 10 Results stored in ITM. 3.4 Validating annotations and knowledge The domain experts can have access to a validation screen in order to approve or reject the updates to the knowledge base suggested by the CA- Manager. For example, given the following text: The results of the CA-Manager can be seen summarized as shown in FIGURE 11. FIGURE 11 Annotations' summary. Afterwards, the user may accept or reject the semantically-driven annotations using the user-interactive screen. The user can possibly complete the knowledge by creating new instances (see FIGURE 12).

48 IC 2013 FIGURE 12 An excerpt of the user-annotations' validation screen. Note: If an entity does not exist in the knowledge base, then the icon appears on its left. Here, all instances are new to the knowledge base, except the city of Paris. 3.5 Enriching and updating the IE tools The virtuous cycle drawn in FIGURE 2 is completed with the ability of enriching back the IE tool. This major capability is given by CA-Manager with the help of the underlying knowledge base (here ITM). The CA- Manager can propose to enrich and update the linguistic resources (gazetteers, controlled vocabularies, grammars ) of the IE tool with newly created terms, entities and facts. They are stored in a separated linguistic resource until the candidates are also validated by a domain expert who checks whether these new terms and entities have positive or negative impact on the extraction quality (recall and precision). They can be blacklisted or accepted in the reference linguistic resource. 4 Use case scenario descriptions The CA-Manager workflow is set up for three French research projects. SAIMSI project aims at collecting and aggregating information on dangerous persons and organisations. SAMAR is a platform for annotating news articles in Arabic language. And LegiLocal s goal is to annotate and normalize legal acts produced by territorial communities. One important feature in the CA-Manager process is that it is language-independent. In the SAMAR project, the IE tool (i.e. text mining tool: Luxid 15 ) processes Arabic documents while the knowledge repository is tri-lingual (English, French, and Arabic). Even is only 20% of the entities are labelled in Arabic language, we are able to disambiguate the annotation candidates with entities coming from IPTC 16 categories, JRC 17 lexicon, Freebase, DBPedia, and Geonames 18 knowledge bases. In this process, a mutual enrichment is done between International Press Telecommunications Council ( EU- Joint Research Centre ( Resp. ( and (

Montrer encore