Ingénierie des Connaissances IC dans le cadre de Plate Forme IA (PFIA 2013)

Dimension: px
Commencer à balayer dès la page:

Download "Ingénierie des Connaissances IC dans le cadre de Plate Forme IA (PFIA 2013)"

Transcription

1 Organisateurs : Ingénierie des Connaissances IC dans le cadre de Plate Forme IA (PFIA 2013) SOS-DLWD 2013 Des Sources Ouvertes au Web de Données Atelier PFIA 2013 Khaled Khelif (IPCC, Cassidian (EADS)) Fatiha Saïs (LRI, CNRS & Université Paris Sud) Laurie Serrano (IPCC, Cassidian (EADS)) Rania Khefifi (LRI, CNRS & Université Paris Sud) François Scharffe (LIRMM, CNRS & Université Montpellier 2)

2 Atelier SOS-DLWD 13 : des Sources Ouvertes au Web de Données Présentation Cet atelier a pour objectif de réunir les travaux traitant d une part, des problématiques liées aux sources ouvertes hétérogènes et indépendantes, et d autre part, des problématiques concernant les liens sémantiques pouvant exister entre les données structurées afin de faciliter leur exploitation et leur intégration via le Web de données. Cet atelier fait suite à l atelier SOS-DLWD 2012, organisé dans le cadre de la conférence EGC Il s agissait du résultat de la fusion de la troisième édition de l atelier SOS (Sources Ouvertes et Services, RFIA 2010 et EGC 2011) et de la première édition de l atelier DLWD (Données Liées pour un Web de Données). Le thème Sources Ouvertes et Services veut mettre en exergue les multiples problèmes liés au traitement de données disponibles en sources ouvertes (SO). Les SO désignent l ensemble des médias accessibles librement, gratuits ou payants, tels qu Internet, les bases de données publiques, les journaux, les chaînes de télévision et de radio, etc. par opposition aux sources fermées dont la consultation nécessite de disposer d autorisations spécifiques. Ces SO fournissent d importants volumes de données multimédia hétérogènes (image, texte, audio, vidéo, etc.) qui nécessitent des traitements adaptés afin de permettre leur exploitation. En plus des problématiques posées par l hétérogénéité des données disponibles, l enchaînement des traitements algorithmiques capables d exploiter ces données représente un défi scientifique et technique. L intérêt est porté sur toutes les étapes, partant de la phase de découverte des sources d information, en passant par la collecte et l analyse des données collectées jusqu à la phase de capitalisation et d exploitation de la connaissance. L intérêt est

3 également porté sur les choix architecturaux retenus pour la réalisation d applications exploitant les SO. En effet, ces applications tentent généralement de concilier plusieurs briques logicielles (COTS, logiciels open source, développements ad hoc, etc.) afin de les faire cohabiter en vue de la réalisation d une tâche particulière. L accent est mis sur les architectures orientées service (SOA) et sur l utilisation des technologies du Web sémantique. Dans le thème Données Liées pour un Web de Données nous avons souhaité aborder les problématiques liées à la publication des données structurées et à leur exploitation via le Web de données. Depuis les quatre dernières années, le nombre de sources de données structurées rendues disponibles sur le Web est en croissance fulgurante aboutissant à un espace global de données de l ordre de milliards d assertions (31 milliards triplets en septembre ). Dans cet espace de données, des liens sémantiques peuvent être établis entre les données. Ces liens permettent aux robots d exploration, aux navigateurs ou aux applications de naviguer parmi les sources de données et de combiner les informations provenant de sources différentes. Ces données liées sont nombreuses, distribuées, hétérogènes et peuvent être imprécises ou périmées. Aussi, différentes approches peuvent être définies en fonction des caractérisques des données et du domaine d application concerné. Dans ce domaine, plusieurs initiatives sont menées au niveau national (comme le projet DataLift 2 ) et au niveau international (comme les projets LOD2 3 et Planet Data 4 ) afin d amorcer et de regrouper les efforts pour résoudre les problèmes engendrés par la masse de données liées disponibles. Pour cette nouvelle édition, l atelier SOS-DLWD a souhaité s intéresser également au traitement des grandes masses de données («Big data»). L explosion récente des données disponibles sur le Web a fait émerger de nouvelles problématiques visant à adapter et optimiser toute la chaîne de traitement de l information face aux nouveaux volumes à traiter. Les sept articles présentés dans le cadre de cet atelier joint à la conférence IC 2013 présentent des approches traitant des problèmes liés aux sources ouvertes ainsi qu aux services permettant d exploiter leur contenu. Certaines de ces approches s intéressent plus spécifiquement aux données

4 liées disponibles sur le Web. Le premier article propose une analyse textométrique d un corpus de commentaires postés sur des médias sociaux chinois à propos du conflit entre Google et la Chine survenu en Une analyse factorielle par correspondances (AFC) est expérimentée sur ce corpus en chinois afin de construire une typologie des opinions exprimées à propos de cette affaire. Plusieurs caractéristiques linguistiques sont étudiées dans l objectif de dégager des traits distinctifs formels spécifiques à une orientation idéologique. Le second article présente un système nommé CAMERA-DREAM exploitant des sources de données du domaine du cinéma pour proposer des services d interrogation à un utilisateur. L un des services proposés s appuie sur des techniques développées dans le domaine des données liées pour restituer l ensemble des données les plus similaires à une donnée fournie en entrée. Le calcul de similarité présenté dans cet article est fondé sur des caractérisques décrites dans une ontologie. Le troisième article présente CA-Manager (Content Augmentation Manager), un framework jouant le rôle d intermédiaire entre les outils d extraction d information et les bases de connaissance. Cet outil repose sur les standards du Web sémantique et permet à l intégration de divers composants pour aboutir à un cycle partant de l extraction d information, en passant par sa consolidation, son stockage, la validation des annotations par l utilisateur, pour finir par l enrichissement des systèmes d extraction grâce à la connaissance obtenue. Le quatrième article décrit une approche et un système, DOWSER, qui ont pour but de proposer aux utilisateurs de nouvelles sources d information en fonction de leurs profils et de leurs centres d intérêt. Le profil de l utilisateur est utilisé pour mettre en place une collecte ciblée fondée non seulement sur des mots-clés mais aussi sur des concepts provenant de DB- Pedia. Des expérimentations "centrées utilisateurs" ont été menées et ont montré la pertinence de l approche. Dans le cinquième article, les auteurs s intéressent au problème de la recherche d informations manquantes dans un processus de remplissage automatique de formulaires en ligne. L approche proposée repose sur le calcul d une composition de services permettant d obtenir ces informations. Deux modélisations de ce problème sont proposées : (i) une modélisation du problème de composition de services en un problème de AI-planning et (ii) une modélisation sous la forme d un réseau de Petri. Une comparaison expérimentale de ces deux modélisations est présentée.

5 Le sixième article propose une approche pour la gestion de la provenance des ressources dans une plate-forme de traitement de documents par workflow de services Web. L approche proposée repose sur les standards XML, RDF, XPath, XQuery et SPARQL. Elle réutilise le modèle de provenance proposé par le W3C. L originalité consiste à s intéresser à l inférence de la provenance de fragments XML identifiés, appelés "ressources", issus de l exécution d un workflow. Enfin, dans le dernier article les auteurs s intéressent à l enrichissement de ressources linguistiques à partir d informations extraites en s appuyant sur une ontologie. L article décrit les différentes étapes de la chaîne de traitement mise en oeuvre (extraction, consolidation, stockage, validation, enrichissement) en détaillant le rôle de chaque étape et en l illustrant sur un exemple général. En conclusion, nous tenons à remercier les membres du comité de programme pour leur implication dans le processus d évaluation des articles et pour la très bonne qualité des évaluations qui ont certainement aidé les auteurs à améliorer leur travaux. Thèmes Identification et découverte automatique de sources d information, Accès et collecte d information à partir de sources ouvertes (Web, réseaux sociaux, flux RSS, etc.), Classification, filtrage des informations d intérêt, Extraction d information à partir de textes non structurés et/ou utilisant des vocabulaires spécifiques (blogs, langage SMS, forums, etc.), à partir de gros volumes de données multimédia (texte, image, vidéo, audio), Analyse des sentiments/opinions dans les médias sociaux (réseaux sociaux, blogs, forums, etc.), Modélisation et capitalisation des connaissances extraites à partir de sources ouvertes (ontologies, annotations sémantiques, etc.), Exploitation des connaissances extraites à partir de sources ouvertes : raisonnement, aide à la décision, visualisation, etc., Détection de signaux faibles, Évaluation et qualification des sources d information et des informations extraites à partir de sources ouvertes, Applications et plateformes de veille à partir de sources ouvertes

6 (stratégique, économique, renseignement, etc.), de traitement de l information orientées «Big data», d intégration de services de traitement hétérogènes, etc., Provenance et confiance des données et de leurs liens, Evaluation et qualification des informations extraites à partir de sources ouvertes, Inférence, fouille et validation de liens entre données, Intéropérabilité des sources de données et alignement d ontologies, Génération et publication des données, Interrogation du contenu du LOD, Développement de services pour les données liées, Privacy/contrôle d accès aux données liées.

7 Comité de Programme Florence Amardeilh (Mondeca) Alain Bidault (ENSAI) Maroua Bouzid (GREYC, Université de Caen) Patrice Buche (UMR INRA IATE) Gaël de Chalendar (CEA LIST) Olivier Corby (INRIA, Sophia Antipolis) Mariana Damova (OntoText - Bulgarie) Jérôme David (LIG, INRIA Grenoble - Rhône-Alpes) Juliette Dibie-Barthélemy (AgroParisTech & INRA ) Valentina Dragos (ONERA) Adil El Ghali (IBM) Christian Fluhr (GEOL Semantics) Bruno Grilheres (Cassidian) Nathalie Hernandez (IRIT, Université Toulouse le Mirail) Olivier Haemmerlé (IRIT, Université Toulouse le Mirail) Michel Leclère (LIRMM, Université Montpellier 2) Alexandre Pauchet (LITIS, Rouen) François Paulus (SemSoft) Nathalie Pernelle (LRI, Université Paris Sud) Mathieu Roche (LIRMM, Université Montpellier 2) Marie-Christine Rousset (LIG, Université de Grenoble) Brigitte Safar (LRI, Université Paris Sud) Dafni Stampouli (Cassidian) Danai Symeonidou (LRI, Université Paris Sud) Cassia Trojahn (IRIT, Toulouse) Sinan Yurtsever (Atos, Turkey) Haïfa Zargayouna (LIPN, Université de Paris 13) Nizar Ghoula (Université de Genève, Suisse)

8 Liste des articles acceptés Vocabulaire et opinion sur l Internet chinois : un essai d analyse textométrique de l affaire Google Li-Chi Wu CAMERA-DREAM : Une étude du Web de données dans le contexte d un projet universitaire Patrick Giroux et Esther Nicart CA-Manager : a middleware for mutual enrichment between information extraction systems and knowledge repositories Hacene Cherfi, Martin Coste et Florence Amardeilh DOWSER : Discovery of Web Sources by Evaluating Relevance Romain Noël, Alexandre Pauchet, Bruno Grilheres, Nicolas Malandain, Laurent Vercouter et Stephan Brunessaux Data-Flow Oriented Service Composition : AI-Planning or Petri Nets? Rania Khefifi, Pascal Poizat et Fatiha Saïs WebLab-PROV : la gestion de la provenance dans la plateforme WebLab Clément Caron, Bernd Amann, Camelia Constantin et Patrick Giroux Enrichissement d une RTO par l ajout de termes spécialisés Soumia Lilia Berrahou, Ludovic Lebras, Patrice Buche, Juliette Dibie- Barthélemy et Mathieu Roche

9 Vocabulaire et opinion sur l Internet chinois Vocabulaire et opinion sur l Internet chinois : un essai d analyse textométrique de l affaire Google Li-Chi WU SYLED/CLA2T, Université Sorbonne Nouvelle Paris III, 13 rue de Santeuil, Paris, France Résumé : L accès aux sites communautaires, forums, blogs, se fait de plus en plus facilement grâce au développement d outils Internet créés pour le partage et l échange tous azimuts. Qu il s agisse de définir des mesures administratives ou des stratégies d entreprise, les décideurs politiques et économiques ne peuvent plus aujourd hui ignorer la voix de l opinion qui s exprime sur ces nouveaux réseaux sociaux. Or, le style des internautes publiant dans les espaces communautaires rompt souvent avec les usages de la langue standard. Nous avons procédé à l analyse d un vaste corpus de commentaires émis sur les réseaux d échanges des médias d expression chinoise à propos de l affaire Google. Notre objectif est d expérimenter, sur ce corpus, l approche statistique textuelle à partir des formes lexicales propres à ces nouveaux médias afin de dégager la typologie ou le système général, des opinions concernant cette affaire présentes sur Internet. Mots-clés : Statistique textuelle, textométrie, fouille des données d opinion, analyse du discours, monosyllabisme. 1 Introduction Le Web 2.0, dont le concept a officiellement été proposé en 2004, rend plus facile l accès à l Internet et en modifie la nature en profondeur. L Internet n est plus seulement un espace virtuel permettant d acquérir les informations et les connaissances produites par des instances éditoriales professionnelles ou institutionnelles, il est devenu une plateforme collaborative, participative et interactive pour tous ses utilisateurs. Un article publié dans la presse ne reste plus statique, il donne lieu à de nombreuses réactions, il peut être émaillé de longs commentaires ou de critiques subtiles. La nouvelle forme du Web 2.0 permet aux internautes ayant peu de connaissances techniques de s approprier les nouvelles fonctionnalités pour interagir avec d autres. Or, l'internet se joue des

10 IC 2013 frontières et le monde sinophone s étend géographiquement de la Chine continentale et Hong Kong à Taïwan et à Singapour, en passant par les communautés chinoises de l étranger. Les internautes chinois se sont rapidement approprié ce nouvel outil. Quant à l État chinois, il a pris conscience du rôle irremplaçable de l Internet pour le développement de l économie nationale, pour la promotion des progrès scientifiques et techniques, voire pour la diffusion de l information et de la propagande politique. C est dans ce contexte que nous avons décidé d étudier la polémique survenue entre Google et l État chinois grâce à une méthode textométrique, en l occurrence, le calcul des spécificités (cf. supra). Nous proposons une typologie des opinions des internautes concernant cette affaire, fondée sur une analyse interne des différents vocabulaires observés en Chine continentale et sur les écarts différentiels qu ils entretiennent eux-mêmes avec le lexique propre aux autres pays sinophones. 2 Contexte 2.1 Rappel du Conflit entre la Chine et Google La bataille entre le géant des moteurs de recherche et le plus grand marché du monde a eu lieu entre janvier et juillet 2010 : l affaire Google, à laquelle ont pris part les dirigeants du pays, les gérants des entreprises, les politiciens, a suscité de nombreux commentaires sur la toile chinoise. L affaire a débuté par un billet publié sur le blog officiel de l entreprise Google annonçant son retrait éventuel du marché chinois en raison d une série de cyber-attaques chinoises contre les comptes Gmail de militants des droits de l Homme. Elle s est terminée par la mise hors-circuit de la version chinoise du site qui "violait" les accords concernant le contrôle des flux d information conclus en Voici, les étapes-clefs qui ont marqué ce contentieux : Janv ouverture du site google.cn en Chine à la suite de négociations avec les autorités chinoises ; Google accepte un contrôle des flux d informations. Nov conflit entre Google et l association des écrivains chinois sur les droits d auteur ; Janv protestation de Google auprès du gouvernement chinois à la suite de cyber-attaques contre des comptes Gmail appartenant à des militants chinois des droits de l Homme ; Mars 2010 Google met hors circuit google.cn et redirige les internautes vers un site miroir à Hong Kong qui ne respecte plus les règles négociées en 2006 ;

11 Vocabulaire et opinion sur l Internet chinois Juin 2010 le gouvernement chinois menace Google de ne pas renouveler sa licence si elle ne se conforme pas à la législation chinoise. Fermeture officielle du site google.cn. 2.2 Langage Internet du monde sinophone L Internet n est plus seulement un espace qui fournit de l information, il devient un lieu d échange entre tous les internautes. Or, les nouvelles manières de dire, tant sur le plan lexical que sur les plans syntaxique ou sémantique, ne se conforment pas aux règles et aux normes de la langue réputée correcte qui prévaut dans les médias institutionnels. Elles se caractérisent par leur expressivité, par un sens du lexique économique et original, adapté à la rapidité du monde virtuel (Li, 2006). 3 Corpus Les textes chinois réunis dans le corpus GoogleCh 1, ont été recueillis de janvier à septembre 2010 et regroupent 227 articles accompagnés de commentaires en provenance de trente-quatre médias du web chinois ; sept de ces médias (4 en Chine populaire, 3 à l extérieur) autorisent les commentaires : on en compte pour la République populaire de Chine (RPC) et 337 pour les autres pays sinophones. L écriture chinoise étant une écriture continue sans blanc typographique entre les caractères, nous avons utilisé un outil de segmentation 2 pour procéder aux découpages sémantiques. Nous avons ainsi pu dénombrer segments et unités lexicales en RPC contre segments et unités lexicales dans les autres pays sinophones à l'intérieur du seul corpus des commentaires (tableaux 1 et 2). TABLEAU 1 Principales caractéristiques quantitatives des commentaires. Lieu Nb d occ Nb de Nb d hapax Fréquence 1 2 Afin de faciliter la manipulation des textes, les ponctuations chinoises, les nombres numéraux et les lettres latines sous leurs différents formats typographiques ont été transformés dans les formes que l on utilise habituellement avec l alphabet latin. Les textes sont sauvegardés au format texte brut avec le jeu de caractères GB2312. Nous avons utilisé l outil de segmentation ICTCLAS élaboré mieux pour le traitement des textes d articles de presse (Wu, 2010). Le segmenteur d ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System) a été mis au point par Huaping Zhang à l Institute of Computing Technology, Chinese Academy of Sciences. Nous avons utilisé la version 2008 disponible au téléchargement sur le site officiel (page consultée le 24 mars 2013).

12 IC 2013 formes maximale RPC Hors de la RPC TABLEAU 2 Volumétrie des commentaires. Lieu Nb de commentaires Nb d occ par commentaire RPC ,6 Hors de la RPC ,6 On y observe quatre traits caractéristiques : la longueur des textes publiés par les médias de RPC est neuf fois supérieure à celle des textes de l extérieur ( /21 777) ; le nombre de formes recensées sur les sites chinois n est pourtant que 2,5 fois supérieur à celui qu on observe sur les sites extérieurs (10 123/4 001) ; la longueur des commentaires publiés hors de RPC est presque trois fois supérieure à celle des commentaires publiés en RPC : 64,6 occurrences contre 23,6 ; on compte en moyenne 19 occurrences par forme lexicale ( /10 123) dans les commentaires publiés en RPC contre 5 dans les autres pays sinophones (21 777/4 001). C'est dire que l inertie tendancielle du vocabulaire des internautes de RPC est près de quatre fois supérieure à celle que l on observe dans les autres pays sinophones où les auteurs font preuve de plus d originalité, produisent des discours moins stéréotypés, moins dépendants de la rhétorique officielle. 3.1 Typologie des commentaires au sein des médias chinois Nous avons d abord eu recours à l analyse d AFC (analyse factorielle des correspondances) 3 pour mettre en évidence l utilisation de vocabulaires différents selon le lieu d édition des médias. L opposition majeure que nous avons relevée sépare l ensemble de textes publiés en RPC de ceux de textes publiés à l extérieur. Ce classement de la presse en 3 Nous avons eu recours à l outil textométrique Lexico3 qui permet de mettre en œuvre l analyse de données textuelles (quantitatives et qualitatives) et qui s adapte aussi aux langues sinitiques s écrivant au moyen de sinogrammes. Lexico3 est développé par l équipe universitaire SYLED-CLA2T (Systèmes Linguistiques Énonciation et Discours, Centre de Lexicométrie et d Analyse Automatique des Textes). Le logiciel a été conçu par André Salem, professeur de l Université Paris III. Il est téléchargeable sur le site suivant (page consultée le 25 mars 2013).

13 Vocabulaire et opinion sur l Internet chinois fonction du lieu d édition se reflète particulièrement dans les textes du type commentaire de GoogleCh analysés dans la figure 1. FIGURE 1 Positionnement du type commentaire. À cette opposition géolinguistique du groupe A et du groupe B comprenant respectivement les commentaires des médias publiés en RPC et les commentaires des médias de l extérieur, s ajoute une autre opposition binaire, celle de l homogénéité ou de l hétérogénéité internes des deux champs ainsi définis : la forte proximité lexicale des textes émanant de l agence de presse Xinhua et du journal Huanqiu 4 (presse officielle du gouvernement chinois) contraste fortement avec la distance qui sépare les commentaires des trois médias publiés à l extérieur de la Chine. Chacun des trois journaux concernés se démarque clairement des deux autres : le Financial Times Chinese traite des questions économiques et financières sans positionnement idéologique explicite ; l'epoch Times se définit comme anti-communiste ; le quotidien taïwanais UDN soutient le Kuomintang 5. Chacun de ces médias ayant sa ligne éditoriale, repérable dans les textes du type article, se distingue des textes du type commentaire. Nous avons voulu savoir si les commentaires publiés à la suite de ces articles se conformaient à leurs orientations respectives et par quels moyens lexicaux se manifestait leur adhésion ou leur opposition à cette orientation dominante. 4 5 Huanqiu est un quotidien international édité par le Parti Communiste Chinois, sa principale mission est de répondre à l information négative diffusée sur la Chine par la presse étrangère ; ses publications expriment un fort nationalisme. Le Kuomintang (ou Parti nationaliste chinois) s est rapproché de la Chine communiste dès 2006, alors qu il était dans l opposition. Revenu au pouvoir en 2008, il milite désormais pour l unification de Taïwan avec la Chine continentale et pour le renforcement des échanges économiques avec la République populaire de Chine.

14 IC Caractéristiques lexicométriques des médias en Chine continentale Pour mettre en évidence les caractéristiques du vocabulaire utilisé dans les commentaires, il nous faut, tout d abord, faire retour sur l évolution de la langue chinoise. Nous pourrons alors mesurer son originalité relative et en dégager le sens dans une double perspective, diachronique et synchronique. La langue chinoise, originellement monosyllabique, a évolué vers le polysyllabisme sous influence occidentale dès la dynastie Tang ( ). Le lexique de la langue classique s est alors considérablement enrichi et cette évolution s est poursuivie jusqu au chinois moderne où la plupart des unités lexicales sont dissyllabiques. Or, par un étrange renversement, on constate aujourd hui un retour au monosyllabisme : les monosyllabes, dans lesquels les internautes trouvent un vocabulaire plus rapide et plus expressif que dans la langue standard, reviennent en force sur la toile (Zheng, 2009). 4.1 La longueur des unités lexicales L approche interne des médias publiés en RPC nous a conduit à étudier ce qui les oppose aux médias publiés à l extérieur. Les données numériques du tableau 1, qui mettent en évidence un net décalage entre les deux sousensembles, nous ont amené à prendre en compte la longueur moyenne des unités lexicales propre à chacun d eux. Le nombre de syllabes 6 d une unité s étend dans GoogleCh d une à huit. Or, si les monosyllabes et les dissyllabes occupent une place dominante tant en RPC que dans les autres pays sinophones (plus de 94%), on constate, grâce au calcul des spécificités (cf. supra), que chaque lieu d édition a ses traits distinctifs : les publications extérieures à la RPC privilégient les unités de deux à quatre syllabes alors que les textes publiés en RPC leur préfèrent les monosyllabes (figure 2). 6 Une unité lexicale chinoise est composée de morphèmes ; l unité est dite «simple» si elle est monosyllabique et s écrit avec un seul sinogramme, et «complexe» si elle est polysyllabique et s écrit avec plusieurs sinogrammes.

15 Vocabulaire et opinion sur l Internet chinois FIGURE 2 Nombre de syllabes des unités lexicales par lieu d édition. 4.2 La spécificité du vocabulaire L analyse du vocabulaire spécifique (Lafon, 1980, 1984) 7 employé dans les commentaires publiés en RPC permet de mettre en évidence ses caractéristiques lexicométriques et, en particulier, la fréquente réduction des unités lexicales d'une syllabe. Parmi ces monosyllabiques figurent des termes lexicaux mais aussi des mots-outils tels que des particules, des conjonctions, des adverbes, etc. vecteurs de sentiments et d émotions. La particule yo, par ex., indique l'impératif ou, en début de phrase, l étonnement ; l interjection pei exprime la colère ou le dégoût. La ponctuation, largement représentée dans le corpus à l inverse de ce que l on observe dans les usages français d Internet ou des SMS (Panckhurst, 1998; Véronis & Guimier de Neef, 2006), sert de marqueur d expressivité. Un simple «?» exprime «quoi» ou «pourquoi» ; «!» traduit l étonnement, la surprise, etc. 7 L analyse des spécificités, méthode proposée par Pierre Lafon permet de mesurer la probabilité de l apparition d une unité textuelle dans une partie de corpus donnée. Ces unités peuvent être des formes lexicales, des phrases, des paragraphes, etc. L analyse indique un sur-emploi ou un sous-emploi des unités spécifiques en fonction de leur fréquence dans l'ensemble du corpus. L outil Lexico3 fournit la fonction du calcul des spécificités ; l utilisateur peut choisir un seuil de probabilité et une fréquence minimale constatée avant le début du calcul. Les unités spécifiques sont classées par ordre décroissant de spécificité sous forme d indice d un signe + ou suivi d une valeur numérique. L indice est accompagné de sa fréquence totale dans l ensemble du corpus et sa fréquence locale dans une partie sélectionnée. Si la valeur de l indice est supérieure à 50, le symbole «***» sera indiqué à la place.

16 IC 2013 Arrêtons-nous donc sur chacune des catégories grammaticales à laquelle appartiennent les termes du vocabulaire spécifique : 1) Verbes La multiplication des verbes monosyllabiques est caractéristique de l évolution de la langue chinoise sur Internet (He, 2010). Cette évolution concerne surtout les verbes exprimant la volonté, l émotion et le désir, des locuteurs. Dans la langue courante, il est de bon ton d utiliser la forme redoublée 8 du verbe de préférence à sa forme simple. La réduplication atténue la force illocutoire, l intensité de l action ou restreint sa portée dans le temps en termes de fréquence ou de durée (Paris, 2007). L emploi des formes simples va de pair avec un ton plus péremptoire. Or, les internautes chinois commentant l affaire Google choisissent la forme simple des verbes pour exprimer leur détermination de voir déguerpir sans délai le géant étranger : zou (s en aller), tui (quitter), tu (vomir) (au sens de «détester»). Quant aux dissyllabes et aux polysyllabes, ce sont, par ex. xihan (s en ficher), dizhi (boycotter), buyaolian (être éhonté). 2) Pronoms Les pronoms désignent généralement soit l émetteur du message les auteurs des articles d origine ou les internautes qui les commentent, soit leurs destinataires. Le pronom ni (tu), pronom le plus caractéristique de notre corpus, compte occurrences (spécificité +22) dans les commentaires publiés en RPC contre occurrences du total des commentaires. Il est employé pour interpeller l entreprise Google, qu il vise avec des propos ironiques, dérisoires ou méprisants. women (nous), spécifique en second lieu des pronoms (1328 occ., spécificité +16), renvoie généralement aux énonciateurs. Le système pronominal chinois est remarquablement simple : toutes les marques de la première personne du pluriel contiennent la forme women à laquelle on ajoute d autres éléments pour former chaque syntagme. L analyse de cette forme permet d identifier le contexte et l orientation générale des messages concernés : le nationalisme y est massivement exalté par les internautes de RPC. A l inverse, nimen (vous), la deuxième personne du pluriel (439 occ., spécificité +7), désigne soit le gouvernement des USA, les Américains, voire le «parti à un centième de dollar» ( meifen dang). Cette expression a été créée sur le modèle de celle de «parti à cinq maos» ( wumao dang) 9, inventée par les dissidents pour désigner 8 On rend souvent le sens en français par «un peu». De nombreux verbes monosyllabiques sont empruntés au chinois classique, les verbes dissyllabiques sont majoritaires dans le chinois moderne. Tous les verbes dissyllabiques n ont pas de forme rédupliquée. 9 Le terme wumao dang (le parti à cinq maos), vocabulaire d Internet, dans lequel équivaut à cinquante centimes, a été créé par des internautes chinois dans un sens méprisant. Son nom officiel est

17 Vocabulaire et opinion sur l Internet chinois les bataillons d internautes engagés par l État chinois et rémunérés pour chaque commentaire prochinois posté sur Internet. Les internautes chinois l emploient le plus souvent de manière vocative pour fustiger ceux qui ne soutiennent pas le gouvernement chinois. Enfin, le pronom laozi (je, moi-même) est généralement utilisé de manière emphatique, en signe de mépris pour ses adversaires. 3) Adverbes En chinois comme en français, l adverbe détermine le verbe, l adjectif ou un autre adverbe ; il en module le sens. Mais les catégories grammaticales chinoises ne sont pas fixes : un adjectif ou un verbe peuvent être employés sous forme adverbiale. Ainsi l'adjectif lao (âgé), employé comme adverbe, veut dire «toujours» ; kuai (rapide), employé comme adverbe veut dire «vite» ; hao (bon), veut dire «facilement» comme adverbe ; tai (éminent), signifie «trop» comme adverbe. Du côté des verbes, yue (dépasser, franchir), s emploie comme adverbe pour marquer une progression sous la forme redoublée yue yue (plus plus ) ou yue lai yue (de plus en plus) ; le verbe ganjin (se dépêcher), prend le sens d «en toute hâte» lorsqu il est employé comme adverbe ; enfin, le verbe jiu, qui signifie étymologiquement «accéder à», exprime, dans son emploi adverbial, la conséquence, la succession, le résultat que l on est en droit d attendre d un processus. On le trouve dans des propositions exprimant une relation de cause à effet, en relation avec des conjonctions comme ruguo (si), jiaru (au cas où). On le traduit par «alors», «justement», «en effet». Mais jiu prend souvent un sens dépréciatif, on le traduit alors par «seulement», «sauf que», «quand bien même». Bref, ces emplois spécifiques évoquent la rapidité ou l intensité de l action, ils dénoncent l excès ou le défaut chez l adversaire et constituent de puissants marqueurs de subjectivité, ils expriment une volonté polémique évidente. 5 L étranger ennemi, l étranger ami Le conflit entre la Chine et Google oppose deux mondes. Commercial, idéologique, stratégique et géopolitique, il prend parfois une dimension ethnique voire clairement xénophobe, comme en témoigne le champ lexical de l «étranger», représenté dans notre corpus par de nombreux termes aux connotations péjoratives. wangluo pinglun yuan (les commentateurs d Internet). Suivant la même idée, le terme meifen dang (le parti à un centième de dollar, où meifen représente un cent, la sous-unité monétaire du dollar américain), a été créé pour désigner les commentateurs professionnels qui émettent des messages favorables au gouvernement américain.

18 IC 2013 Nous avons recensé une liste de termes qui désignent les «étrangers» (tableau 3) et observé leur répartition. On note d abord qu ils sont principalement utilisés dans les médias de RPC alors qu ils n apparaissent que rarement dans les médias extérieurs. TABLEAU 3 Dénomination du sens d «étranger» et sa fréquence dans les médias en RPC. Forme Fréq en RPC / Fréq total du type commentaire Équivalent traductionnel waiguo ren 27/29 étranger waiguo lao 1/1 espèce d un étranger yangren 7/7 étranger occidental wairen 8/10 étranger (quelque un de l extérieur laowai 4/6 étranger guilao 2/2 démon étranger guizi 22/22 démon étranger yangguizi 15/15 diable étranger da bizi 2/2 les Blanc (littéralement, grands nez) On note ensuite qu à l exception de waiguoren et de yangren, qui sont neutres, la majorité d entre eux ont une signification insultante. Les mots guizi (démon), yang guizi (diable étranger), ne se trouvent que dans les médias publiés en RPC. Le mot guizi, d abord utilisé pour désigner les Occidentaux de race blanche qui ont envahi la Chine au dix-neuvième siècle 10, n est pas exempt d un certain racisme, même s il s agit, à l origine, d un racisme défensif. De même que le suffixe zi dans guizi (démon), le suffixe lao sert à former des unités lexicales méprisantes, telles que meiguolao (les sales Américains), waiguolao (une espèce d étranger). Le mot laowai, qui avait lui aussi une connotation péjorative, s est progressivement banalisé et tend aujourd hui vers la neutralité (Yuan, 1998). Il garde cependant une acception méprisante dans le contexte conflictuel qui caractérise notre corpus. Enfin, l expression da bizi (grand nez), qui stigmatise la physionomie des Occidentaux, est notoirement péjorative. 6 Conclusion et perspectives 10 À la fin de la dynastie Qing ( ), les Chinois ont fait l objet de brimades et d humiliations des puissances occidentales qui ont envahi leur territoire, l ont découpé en zones d influence qu elles se sont partagées. C est dans ce contexte conflictuel que les Chinois ont commencé à agir contre les étrangers et les désigner avec les termes péjoratifs.

19 Vocabulaire et opinion sur l Internet chinois L'approche textométrique, particulièrement l'afc, permet ainsi d'appréhender les positionnements des médias chinois dans l'affaire Google. Les données chiffrées que nous avons dégagées mettent en évidence une nette opposition entre la RPC et les autres pays sinophones. Le calcul de spécificité auquel nous nous sommes livré sur le vocabulaire utilisé dans les médias en RPC a permis de dégager leurs traits distinctifs formels et l orientation idéologique à laquelle ceux-ci correspondent. Le retour tendanciel au monosyllabisme est l une des caractéristiques majeures de la langue utilisée par les internautes dans l'affaire Google. L'abandon des formes euphémiques redoublées, plus fréquentes dans la langue ordinaire, dénote une attitude intransigeante, voire ouvertement hostile, à l égard de l entreprise américaine qu on somme de déguerpir au plus vite. L emploi adverbial d un certain nombre d adjectifs et de verbes va dans le même sens. Un nationalisme exacerbé mâtiné d un sincère patriotisme se manifeste à l égard des Américains et, plus généralement, des Occidentaux, qu on dénonce comme «étrangers» dans un vocabulaire dénué de toute aménité. Après cette analyse du vocabulaire spécifique aux commentaires, nous approfondirons notre étude de référence en comparant les discours des internautes chinois de RPC et ceux des internautes des autres pays sinophones. Nous pourrons alors envisager une étude interne des médias publiés à l extérieur de la RPC pour mettre en évidence leurs particularités non seulement géographiques mais encore idéologiques. Références HE Y.. (2010). (Analyse de la tendance au monosyllabisme sur Internet). Master. 3, p LAFON P. (1980). Sur la variabilité de la fréquence des formes dans un corpus. Mots. 1, p LAFON P. (1984). Dépouillements et statistiques en lexicométrie. Genève: Slatkine-Champion. LI S.. (2006). (On the variation of the on-line language). ( ) Journal of Sichuan University of Science & Engineering (Social Sciences Edition). 4, p et 121. PANCKHURST R. (1998). Marques typiques et ratages en communication médiée par ordinateur. In Proceedings CIDE 98. p Rabat. PARIS M.-C. (2007). Un aperçu de la réduplication nominale et verbale en mandarin. Faits de langues. 29, p VERONIS J. & GUIMIER DE NEEF É. (2006). Le traitement des nouvelles formes de communication écrite. In Compréhension automatique des langues et interaction. p Paris: Hermès Science. WU L.-C. (2010). Outils de segmentation du chinois et textométrie. In Actes de TALN 2010 (Traitement automatique des langues naturelles). Présenté à Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL), Montréal, Canada.

20 IC 2013 YUAN H.. (1998). (Analyse interculturelle d un terme d'adresse - Laowai). ( ) Journal of Beijing Normal University (Social Science Edition). 6, p ZHENG Y.. (2009). (Étude des termes monosyllabiques en vogue à notre époque). Journal of Kangding Nationality Teachers College. 4, p

21 CAMERA-DREAM : Une étude du Web de données CAMERA-DREAM : Une étude du Web de données dans le contexte d un projet universitaire Patrick GIROUX 1, Esther NICART 2 1 Cassidian, EADS, Parc d Affaires des Portes B.P. 613, 27106, Val-de-Reuil Cedex 2 Université de Rouen, 1, rue Thomas Becket, 76821, Mont-Saint-Aignan Cedex Résumé : L enseignement dispensé dans le cadre du Master Génie Informatique et Logiciel de l Université de Rouen inclut un projet de grande envergure qui mobilise chaque année tous les étudiants de la promotion. En , ce projet intitulé CAMERA-DREAM visait à constituer une base de connaissance consacrée au cinéma et publiable sur le Web en accès ouvert. Pour exploiter le contenu de cette base, une application de filtrage collaboratif devait être développée afin de permettre à un internaute de sélectionner des films répondant à ses goûts et à ses attentes. Pour atteindre ces différents objectifs, la modélisation d une ontologie du cinéma et la définition d un algorithme de calcul de distance sémantique constituaient des prérequis. Mots-clés : Base de connaissance, ontologie du cinéma, filtrage collaboratif, distance sémantique, Recherche par similarité sémantique, triple-store, Architecture orientée Service. 1 Contexte du projet 1.1 Cadre universitaire CAMERA-DREAM est un projet proposé aux étudiants du Master Génie Informatique Logicielle de l Université de Rouen lors de l année universitaire Cette application a été développée dans le cadre de l enseignement de gestion de projet informatique qui tient une place majeure dans le cursus et qui fait l objet de travaux pratiques importants. En première année, les étudiants reçoivent un enseignement théorique basé sur les méthodes agiles et doivent réaliser un projet annuel en équipes de

22 IC ou 6 étudiants. Les étudiants acquièrent à cette occasion une première expérience de gestion de projet. A partir d un sujet proposé par l équipe enseignante, ils doivent s organiser en équipes, spécifier précisément l application qu ils vont réaliser, planifier son développement, documenter sa conception et ses tests, etc. En seconde année, juste avant de partir en stage de fin d étude, un projet de plus grande envergure est proposé sur une période de 12 semaines dont la moitié est entièrement consacrée au développement de l application dans des conditions comparables à celles du monde industriel et dans un environnement proche de celui de l entreprise. 1.2 Objectifs pédagogiques Le projet représente un gros volume de travail et implique toute la promotion. Il est conduit selon une procédure inspirée de celle applicable aux marchés publics. L objectif est de mettre les étudiants en situation aussi proche que possible de la réalité industrielle en leur demandant de conduire un projet d envergure de la phase d initialisation avec mise en concurrence jusqu à la livraison d une application fonctionnelle. L une des difficultés majeures est de mettre en place une organisation structurée où chacun est responsabilisé sur des tâches précises. Le sujet traité doit être suffisamment complexe pour permettre la définition de lots de travaux conséquents et pouvant être alloués à différentes équipes. Le sujet doit aussi permettre aux étudiants de découvrir de nouvelles technologies et d acquérir des compétences qui complètent ou étendent celles qu ils ont pu acquérir dans le cadre des autres modules d enseignement, notamment un cours sur les technologies du Web Sémantique proposé en option. Cette formation permet aux étudiants de se familiariser avec les bases technologiques, les approches méthodologiques et avec les standards du W3C qui sont exploités pendant le projet. 1.3 Organisation et processus Le déroulement du projet suit les étapes suivantes : Présentation du calendrier et tirage au sort des équipes. Présentation générale du sujet. Lancement d un appel d offres par la MOA (maîtrise d ouvrage, c est à dire le client), au travers d un cahier des clauses techniques particulières. Environ un mois après l appel d offre, remise par chaque groupe d une réponse écrite et étayée puis soutenance orale avec réponse

23 CAMERA-DREAM : Une étude du Web de données aux questions ou contradictions soulevées par le client. Sélection par le client d un maître d œuvre (MOE) (l équipe dont la proposition correspond le mieux à ses attentes), les autres équipes étant ses sous-traitants. Durant un mois, formalisation des contrats entre la MOE, ses soustraitants et la MOA. La MOE définit des lots de travaux et les répartit entre les équipes. Lancement du projet lorsque le client considère que l organisation et la définition des travaux ont atteint un degré de maturité suffisant. Phase de développement pendant 6 semaines, à temps plein. Soutenance finale et démonstration du système obtenu. Pour l année universitaire , vingt étudiants ont été répartis par tirage au sort en 2 équipes de 5 étudiants, 1 équipe de 6 étudiants et 1 équipe de 4 étudiants. 2 Sujet et cahier des charges 2.1 Thème proposé Le projet vise à développer la base de connaissance CAMERA (Catalog of Actors and Movies Expressed as RDF Annotations) consacrée au cinéma et publiable sur le Web en accès ouvert. Cette base doit pouvoir être exploitée librement par des applications informatiques pour répondre à des besoins divers et variés. Afin de valider l atteinte de ces objectifs, l application DREAM (Discovery & Retrieval Engine for Actors & Movies) doit également être développée dans le cadre du projet. Cette application doit, entre autres fonctionnalités, permettre à un internaute de sélectionner des films répondant à ses goûts ou ses attentes. Les résultats du projet doivent permettre de démontrer l intérêt d une description sémantique d un catalogue Web de films (généralisable à différents types d articles tels que des livres, des voyages, des produits industriels, etc.) dans l optique de répondre au mieux aux préférences exprimées ou implicites d un consommateur. Le système utilisé pour effectuer la démonstration est constitué par un serveur hébergeant une instance de la base de connaissance CAMERA et d un client riche supportant l application DREAM. Il sera désigné dans la suite de l article sous le nom de CAMERA-DREAM.

24 IC Spécification fonctionnelle CAMERA-DREAM collecte et catalogue des données cinématographiques qui sont analysées sémantiquement et annotées selon un système de métadonnées fondé sur une ontologie du cinéma. Les métadonnées issues de la phase d annotation sont ensuite enregistrées dans la base de connaissance CAMERA et permettent de caractériser chaque film. Le contenu de cette base de connaissance est géré par un administrateur qui pilote le processus de collecte et de traitement des informations pour le référencement automatique des films. Il peut aussi compléter «manuellement» la base de connaissance en ajoutant des films d origine quelconque. Le superviseur peut changer la structure du modèle (l ontologie). L application DREAM propose une IHM destinée à tout internaute cinéphile qui veut rechercher des informations dans le catalogue.cet utilisateur final peut interroger le catalogue en composant des requêtes complexes, se créer un profil personnel correspondant à ses goûts en valorisant les propriétés définies dans l ontologie pour décrire son film idéal, ou donner son appréciation sur un film qu il a visionné. La mesure de similarité et les descriptions contenues dans CAMERA permettent de calculer un degré de ressemblance entre les films référencés et les profils des utilisateurs. Ainsi l application DREAM peut émettre des recommandations personnalisées de films. Ces trois rôles déterminent un certain nombre de cas d utilisation modélisés dans le diagramme UML ci-après (Figure 1). FIGURE 1 Cas d utilisation de CAMERA-DREAM

25 CAMERA-DREAM : Une étude du Web de données 2.3 Exigences techniques L application est conçue selon une architecture orientée services : les différentes fonctionnalités proposées sont distribuées dans un ensemble de services indépendants ou faiblement couplés. Ces services peuvent être utilisés par des applications ou des systèmes intégrés et sont donc accessibles au travers d une interface programmatique "publique". Les annotations sémantiques sont formalisées en utilisant le standard RDF du W3C et la base de connaissance CAMERA est implémentée grâce à un triplestore qui expose un service Web conformément au Protocole SPARQL. L application DREAM accède à la base CAMERA au travers d une interface SparqlQuery (Figure 2). FIGURE 2 Architecture générale du CAMERA-DREAM 2.4 Technologies mises en œuvre Le développement est réalisé en Java avec l IDE Eclipse. Le développement de l IHM utilise le framework Play!, qui implémente les principes de JEE grâce à son serveur interne Netty. Les tests sont faits avec Junit 4 et SoapUI. Maven et svn sont utilisés pour la production et le contrôle du code. Les standards mis en œuvre pour le développement de l ontologie et du triplestore sont : RDF : un modèle de graphe destiné à décrire de façon formelle les ressources Web et leurs métadonnées ; RDF / XML : l une des syntaxes de sérialisations des éléments RDF ;

26 IC 2013 OWL : un langage de représentation des connaissances, utilisé pour définir des ontologies web structurées en RDF ; SPARQL (SPARQL Protocol and RDF Query Language) : un langage de requête et un protocole qui permet de rechercher, d ajouter, de modifier ou de supprimer des données RDF dans un graphe ; JQuery : une bibliothèque JavaScript libre qui simplifie les commandes communes de Javascript ; Apache CXF : un framework open-source en langage Java, facilitant le développement de services web ; Apache Jena-Core : un framework open-source en langage Java, facilitant le développement des applications sémantique web ; Apache Jena-ARQ : Le moteur des requêtes SPARQL pour Jena ; JSoup : un parseur HTML ; Jastor : un outil permettant de générer des beans à partir d une ontologie formalisée en OWL ; Fuseki : un moteur SPARQL accessible en tant que serveur via HTTP. 3 Architecture du système 3.1 Services développés Les données sont collectées depuis des sources d informations cinématographiques. Ces données sont annotées sémantiquement et transcrites pour les aligner avec l ontologie de référence. Une indexation sémantique des films et des acteurs, et une indexation en texte brute sur les résumés et synopsis est faite pour capitaliser l information dans la base CAMERA. (Voir Figure 3) 3.2 Sources de données utilisées Trois sources de données cinématographiques sont utilisées : Allociné (Allocine, 2013) : un site web français dédié aux films de cinéma, séries, vidéos et programmes télévision, IMDb (IMDb, 2013) : un site web américain similaire à Allociné, Linked Movie Database (Linkedmdb, 2013) : une ontologie de films. De l information supplémentaire sur les films, les personnes et sites géographiques associés est obtenue de : dbpedia.fr (DBpedia, 2013) : une source des donnée structurées extraites de différents chapitres francophones de Wikipedia. GeoNames (GeoNames, 2013) : une base de données géographiques.

27 CAMERA-DREAM : Une étude du Web de données FIGURE 3 Chaîne de Traitement 3.3 Base de connaissances CAMERA La base de connaissances CAMERA est implémentée sur un triplestore (un entrepôt RDF). L interface avec l application DREAM repose sur une API Java d Apache : Jena. Jena permet d interroger et éditer la base par des requêtes SPARQL. Le serveur SPARQL, Fuseki, permet d accéder à distance à l entrepôt RDF. Il fournit différents «endpoints» SPARQL que l on peut interroger pour rechercher, modifier, supprimer ou ajouter des données. Ceci permet aux Web Services d accéder aux données. Trois DataSets sont implémentés, un pour les films et les personnes, un second pour les profils utilisateurs et un troisième pour la configuration du système. 3.4 Application DREAM 3.5 Cas d utilisation et interfaces applicatives L interface Homme-Machine est destinée à trois utilisateurs (Figure 1) 1. l administrateur : qui dispose des droits d administration pour le système et la base de connaissances, et qui peut régler le seuil de la distance sémantique (voir Section 5) ; 2. le superviseur : qui s occupe de la gestion de l ontologie ;

28 IC l internaute : un utilisateur quelconque sans droit d administration ou de supervision ; 3.6 Prise en compte des goûts et des humeurs Il y a deux catégories d utilisation par un internaute : 1. De manière occasionnelle, par exemple, il peut chercher, soit à partir d un film (trouvez-moi les films qui ressemblent à X), soit en fonction des caractéristiques des films (trouvez-moi les films d action de Spielberg), ou même selon son humeur du moment (trouvez-moi les films tristes). 2. Un service personnalisé avec son propre profil, et des recommandations ciblées. Pour construire son profil, il peut se baser sur l ontologie (Section 4) et sur les caractéristiques des films qu il apprécie plus particulièrement : les genres et sujets des films, et les émotions qu ils évoquent. les personnes qui ont participé d une façon ou d une autre à la conception des films : les acteurs, réalisateurs, et/ou producteurs. Il peut aussi donner une note aux films qu il a vus. Dans ce cas, son profil est déterminé à partir des genres, sujets, émotions et personnes connectés aux films les mieux notés. Une fois les profils créés, le système calcule des groupes (clusters) d internautes ayant des profils similaires. Ce calcul est détaillé en section 5. Ces groupes permettent à l internaute de recevoir des alertes quand quelqu un qui partage ses goûts donne à un film une note positive, ou d envoyer automatiquement des alertes aux membres d un groupe dès la sortie d un film qui correspond aux goûts de ceux-ci. L administrateur peut régler le seuil de proximité, qui permet de changer à volonté la taille et la constitution de ces clusters. 4 L ontologie du cinéma L ontologie est la spécification d une conceptualisation d un domaine de connaissances cinématographiques basée sur la classification des éléments de ce domaine donné par concepts et sous-concepts et la création de tout type de relations entre les éléments et les concepts.

29 CAMERA-DREAM : Une étude du Web de données 4.1 Portée de la modélisation L ontologie sert à caractériser un film selon le point de vue du public, avec des propriétés portant sur les contributeurs (acteurs, réalisateurs, producteurs, auteurs), les genres des films, les sujets traités, les émotions ressentis en regardant le film, les années de sortie en salle ou sur DVD, etc., les lieux où le film est tourné et où l action se déroule, et sur les synopsis ou résumés. 4.2 Hiérarchies de genres et de sujets L ontologie de Linked Movie Database (Linkedmdb, 2013) offre de nombreux genres et sujets associés aux films, mais dans une structure plate. Pour mesurer la similarité entre deux films, deux taxonomies ont été construites dans le cadre du projet CAMERA-DREAM. La première de genres et la deuxième de sujets et, dans ces deux taxonomies, la proximité entre les genres d une part et les sujets d autre part a été étudié. 4.3 Formalisation Pour discuter la spécification de l ontologie avec le client, un diagramme de classes UML a été utilisé qui impose un niveau de formalisme à la fois graphique, explicite, précis et rigoureux (Figure 4). L outil retenu pour la création et l édition de l ontologie est le logiciel libre Protégé, qui impose un niveau de formalisme plus formel mais moins lisible par un client. 4.4 Alignement des ontologies utilisées L alignement d ontologies est le processus de découverte des correspondances entre concepts.deux ontologies différentes peuvent avoir des termes différents pour le même concept, par exemple, le concept cinéaste d une première ontologie est équivalent au concept réalisateur dans une seconde ontologie. Les ontologies peuvent être aussi dans des langues différentes, par exemple, l ontologie de CAMERA-DREAM est exprimée en utilisant la langue anglaise, celle de (DBpedia, 2013) existe en français. Dans CAMERA-DREAM, l alignement d ontologies consiste à établir une correspondance entre l ontologie définie dans le cadre du projet et les modèles conceptuels sur lesquels sont basées les données collectées c est à dire les modèles de (DBpedia, 2013), (Allocine, 2013), (IMDb, 2013), et (Linkedmdb, 2013).

30 IC 2013 FIGURE 4 UML de l ontologie Les listes de genres, sujets et émotions des sites web sont extraites, traduites et alignées «à la main» avec les genres, sujets et émotions de l ontologie CAMERA-DREAM. 5 Le calcul de la distance sémantique 5.1 Principes et état de l art Comment déterminer si un concept, ou une chose C1 est sémantiquement plus proche d un concept ou d une chose C2 que d un concept ou d une chose C3? Par exemple, est-ce qu un tournevis est plus proche d un marteau que d une cisaille? Le besoin d une mesure de la distance entre deux concepts n est pas nouveau (Quillian, 1968; Collins & Loftus, 1975), et la recherche sur ce sujet se poursuit encore actuellement. Pour donner quelques pistes de recherche, trois articles scientifiques sont fournis en annexe du CCTP de CAMERA-DREAM(Aimé et al., 2011; Gandon et al., 2008; Khelif et al., 2008). Un point particulièrement intéressant pour ce projet est la mesure de la distance sémantique entre deux concepts définis dans une même taxo-

31 CAMERA-DREAM : Une étude du Web de données nomie en tenant compte de la profondeur du chemin qui les relient par des liens de subsomption (Gandon et al., 2008). 5.2 Algorithmes mis en œuvre L un des objectifs principaux du projet est de montrer l intérêt scientifique d un calcul de distance sémantique dans le cadre d une application de filtrage collaboratif. Plus spécifiquement 1, il s agit de mesurer la distance sur une ontologie du cinéma entre : deux profils, pour un clustering des profils similaires ; deux films, pour émettre des recommandations de films similaires ; un profil et un film, pour émettre des recommandations personnalisées de films. Les propriétés qui caractérisent un film sont divisées en deux groupes : les personnes associées à un film les acteurs, les producteurs, les réalisateurs ; le contenu du film son genre et le type de sujets qu il aborde. Un profil consiste en une liste de films, acteurs, réalisateurs et producteurs favoris, et de genres et sujets préférés. La distance entre deux films ou deux profils peut être calculée de la même manière. Pour cela, on introduit la notion de ressource qui généralise ces deux concepts. Une ressource Res est défini par Res = {A, D, R, G, S} où A est la liste des acteurs, D est la liste des producteurs, R est la liste des réalisateurs, G est la liste des genres et S est la liste des sujets associés à cette ressource. La distance entre deux ressources, Res 1 et Res 2 est dist(res 1, Res 2 ) telle que : mindist si Res 1 = Res 2, P A.(dist P (A 1, A 2 ))+ P D.(dist P (D 1, D 2 ))+ dist(res 1, Res 2 ) = (1) P R.(dist P (R 1, R 2 ))+ P G.(dist T (G 1, G 2 ))+ P S.(dist T (S 1, S 2 )) sinon. Le paramètre mindist (par défaut 0) est réglable selon les souhaits de l administrateur du système. P A, P D, P R, P G, P S sont les poids donnés aux 1. À notre connaissance, ces calculs n ont pas encore été faits.

32 IC 2013 acteurs, producteurs, réalisateurs, genres et sujets pour le calcul tels que P A + P D + P R + P G + P S = 1. La formule fait intervenir deux distances différentes, dist P qui est la distance entre les listes de personnes associées à un film, et dist T, la distance taxonomique La distance entre deux listes de personnes La distance entre deux listes de personnes dist P (P 1, P 2 ) est calculée à partir de l intersection de ces listes : { mindist si P 1 = P 2, dist P (P 1, P 2 ) = (2) sinon. maxdist 2 P 1 P2 où maxdist est réglable selon les souhaits de l administrateur du système La distance taxonomique entre genres et sujets La distance entre deux listes d éléments d une taxonomie dist T (T 1, T 2 ) est calculée selon la position et la profondeur de chaque nœud dans la taxonomie (Figure 5). Intuitivement, puisqu ils ont un détail plus fin (ils sont plus bas dans l arbre), on dira que n 1 et n 2 sont plus proche que n 3 et n 4. Inversement, parce qu ils sont dans une catégorie différente, ils peuvent être considérés comme éloignés de n 5. Genre Action Romance Combat Thriller n 5 Swashbuckler Martial Arts n 3 n 4 Chambara Ninja Samurai n 1 n 2 FIGURE 5 La distance entre deux nœuds est relative à leurs profondeurs et leurs positions relatives dans le graphe taxonomique : dist(n 1, n 2 ) < dist(n 3, n 4 ) < dist(n 4, n 5 ) On définit LCA(n 1, n 2 ) comme l ancêtre en commun le plus proche (Lowest Common Ancestor) des deux nœuds n 1 et n 2 (Figure 6).

33 CAMERA-DREAM : Une étude du Web de données LCA n 1 n 2 FIGURE 6 Lowest Common Ancestor de n 1 et n 2 La distance entre deux nœuds n 1 et n 2, où n 1 n 2 est définie comme dist T (n 1, n 2 ) = depth(lca(n 1,n 2 ))+i 0 i<p depth(lca(n 1,n 2 ))+j 0 j<p 2 où p 1 = path(n 1, LCA(n 1, n 2 )), p 2 = path(n 2, LCA(n 1, n 2 )) Alors la distance entre deux listes d éléments taxonomiques est donnée par : maxdist nɛt 1 2 depth(n) dist T (T 1, T 2 ) = T 1 si T 1 = T 2, t 1 ɛt 1,t 2 ɛt dist 2 T (t 1,t 2 (4) ) T 1. T 2 sinon. 5.3 Implémentation La première étape consiste à formaliser les arborescences taxonomiques de l ontologie du cinéma, et à ajouter sur chaque nœud une propriété représentant l expression de son chemin depuis la racine. Le graphe résultant est stocké, et n est recalculé que lorsque l ontologie est modifiée. Pour calculer la longueur du chemin entre deux genres, ou deux sujets, il suffit de comparer les expressions de leurs chemins stockés respectifs. La longueur du préfixe commun donne la profondeur de leur ancêtre le plus proche. La somme des longueurs des suffixes résiduels donne la longueur du chemin entre les deux nœuds. 5.4 Intérêt applicatif et transpositions envisageables Ce projet repose sur une ontologie du cinéma, et deux mesures différentes sont proposées : l une qui agit sur les caractéristiques fixes d une ressource, l autre qui agit sur des taxonomies. L intérêt est de combiner (3)

34 IC 2013 ces deux mesures, et de varier les poids pour ajuster la qualité des résultats. Les calculs ne sont pas spécifiques au cinéma, et on peut imaginer une application gérant n importe quel type de ressources qui peut être décrit par des caractéristiques et des taxonomies telles que des livres, des voyages, des produits industriels, des événements etc. 6 Bilan du projet 6.1 Corpus d évaluation Pendant le projet, un corpus des données cinématographiques pour les films réalisés depuis 1970 (9000 films de DBPédia, environ 7000 de Allociné, entre 5000 et 7000 de IMDB et environ 2000 de LinkedMDB) a été constitué. La démonstration en-ligne (M2GIL, 2013) contient cependant un corpus réduit à 500 films. Les résultats dépendent fortement de la justesse des catégorisations de l ontologie, de leur répartition, et de la hauteur de la taxonomie. 679 genres et sous-genres sont identifiés (hauteur taxonomique 6) ; 176 sujets et soussujets (hauteur taxonomique 5). 6.2 Résultats obtenus Jinni (Jinni, 2013) est un site web concurrent de CAMERA-DREAM. Il se base sur The Movie Genôme Project qui a pour but de catégoriser des films selon deux critères : Experience l humeur et la tonalité du contenu et Story les éléments du synopsis. Pour montrer l intérêt et la valeur ajoutée de notre approche, nous avons fait une comparaison entre les résultats retournés par CAMERA-DREAM, et ceux de Jinni (Jinni, 2013). Un exemple est donné ici pour le film Expendables 2 : Unité Spéciale (Figure 7, Table 1). TABLE 1 Comparaison des films similaires à Expendables 2 : Unité Spéciale CAMERA-DREAM Jinni Le Sorcier et le Serpent Blanc The Expendables Bangkok Resistance Rambo, Rambo II, Rambo First Blood Mission Impossible Transporter Kill the Gringo The Eliminator Safe Safe

35 CAMERA-DREAM : Une étude du Web de données F IGURE 7 Comparaison des recherches de films similaires à Expendables 2 : Unité Spéciale entre CAMERA-DREAM et Jinni Un avantage de CAMERA-DREAM est que les paramètres du calcul de la distance sémantique sont tous réglables, et donc personnalisables selon les goûts de l utilisateur de façon plus ou moins empirique en tenant compte de l expérience. Par exemple, lors de nos expérimentations, nous avons déterminé que de meilleurs résultats étaient obtenus lorsque le poids sur les personnes associées à un film est double du poids taxonomique. 6.3 Limitations et évolutions possibles L utilisation de bases de données en français et en anglais nécessite une traduction des genres, sujets, et émotions. Une traduction automatique rendrait le processus plus rapide. La modélisation des goûts de l utilisateur pourrait être réalisée par entraînement automatique en utilisant des techniques d apprentissage. Les genres et sujets sont extraits à partir des étiquettes sur les sites web, et avec une indexation texte brute. Il pourrait être intéressant d explorer la distance sémantique entre des termes pour une extraction plus complète des informations. Il est envisageable d ajouter plus de critères au calcul de la distance sémantique, tel que la date de sortie, l auteur, la durée du film, les lieux où se déroule le film, les prix ou les nominations. Les taxonomies de genres et sujets peuvent être enrichies, et de nouvelles taxonomies pourraient être

36 IC 2013 ajoutées, par exemple, pour tenir compte des émotions. Quelques duplications de données ont été relevées, par exemple quand le nom d un acteur est épelé différemment sur deux sites. Il serait intéressant d implémenter un calcul de similarité sur les acteurs et les descriptions des films pour les fusionner (profile matching). Remerciements Les auteurs impliqués dans la réalisation de ce projet tiennent à remercier Bruno PATROU, Philippe ANDARY et Florent NICART pour leurs conseils avisés sur l implémentation du calcul de la distance sémantique. Références AIMÉ X., FÜRST F., KUNTZ P. & TRICHET F. (2011). Semiosem et proxsem : mesures sémiotiques de similarité et de proximité conceptuelles. In atelier «Personnalisation du Web», 22èmes Journées francophones d Ingénierie des Connaissances (IC 2011), Chambéry, France. ALLOCINE (2013). Allociné. COLLINS A. M. & LOFTUS E. F. (1975). A spreading-activation theory of semantic processing. Psychological Review, 82(6), DBPEDIA (2013). Dbpedia website. GANDON F., CORBY O., DIOP I. & LO M. (2008). Distances sémantiques dans des applications de gestion d information utilisant le web sémantique. In Proc. Workshop Mesures de similarités sémantique, EGC, INRIA Sophia Antipolis - Méditerranée. GEONAMES (2013). Geonames website. IMDB (2013). Imdb website. JINNI (2013). Jinni website. KHELIF K., GANDON F., CORBY O. & DIENG-KUNTZ R. (2008). Using the Intension of Classes and Properties Definition in Ontologies for Word Sense Disambiguation. In Proc. 16th International Conference on Knowledge Engineering and Knowledge Management - Knowledge Patterns, EKAW, Acitrezza, Italy. LINKEDMDB (2013). Linked movie database website. linkedmdb.org/. M2GIL (2013). Camera-dream website. Master 2 Génie de l Informatique Logicielle, Université de Rouen. QUILLIAN M. (1968). Semantic memory. In M. MINSKY, Ed., Semantic Information Processing, p Cambridge, MA : MIT Press.

37 CA-Manager: A middleware between IE systems and knowledge repositories CA-Manager: a middleware for mutual enrichment between information extraction systems and knowledge repositories Hacene Cherfi, Martin Coste, and Florence Amardeilh Mondeca SA, 3 cité Nollez Paris Abstract: Knowledge enrichment aims at bridging the large gap between structured knowledge and the large volumes of unstructured text data that companies and people need to deal with daily. Alas, the process is very laborious and error-prone, even when performed semi-automatically. The two key steps in this process -semantic annotation and ontology population- still hold outstanding challenges although they are actively studied by researchers. While there exists a large number of tools, many of them lack compliance with Semantic Web standards, but more important, they lack the flexibility to customise the entire knowledge acquisition workflow. In this paper, we present the Content Augmentation Manager (CA-Manager) framework which plays a middleware role between Information Extraction (IE) tools and knowledge repositories (KR)s. CA- Manager allows us an easy plug-in of various types of components leading to create a virtuous cycle within the annotation workflow. Keywords: Knowledge acquisition from texts, Knowledge model population, Semantic annotation, Information extraction, Knowledge augmentation, Information consolidation. 1 Introduction One of the main challenges for the large adoption of Semantic Web technologies is to get semantic data in order to be able to develop smarter applications to search, browse, publish, infer, etc. Even Google understood this by buying Freebase 1, an online graph-based knowledge base of thousands of interconnected entities. Google can now build its new semantic search engine, called Knowledge Graph 2. The exponential growth of semantic data published through the Linked Open Data 1 2

38 IC 2013 Initiative is another important marker of the actual technological shift that we are going through. But everyone is not Google nor have semantic datasets ready to be publicly exposed (or not) to build the innovative services/applications of tomorrow. It is absolutely necessary to provide tools to support the creation of such knowledge repositories. The first step is the creation of an ontology to represent the knowledge of the concerned domain. An ontology has been defined as a formal conceptualization of a model, composed of concepts, properties (attributes and relations) and axioms. It can be understandable by machines, used for sharing and re-using knowledge and permitting reasoning thanks to the semantics explicitly represented in the ontology. This issue alone is a major research field of Semantic Web and we will assume in the rest of this paper that these ontologies were modelled and made available to implement the backbone of any semantic knowledge repository. The second step consists in populating the ontology with knowledge, i.e. the concept instances (also called individuals or entities) and their property values. However, whatever the field, knowledge is more often used in non or semi-structured documents (Cimiano, 2006). That is why in recent years researchers from information extraction, semantic annotation, knowledge augmentation or ontology population fields worked closely to find pertinent technological answers to that issue. In fact, as stated in (Nédellec & Nazarenko, 2005), Information Extraction (IE) and ontologies are involved in two main and related tasks: 1 Ontology-Based Information Extraction tools: IE needs ontologies and related knowledge repositories (also called knowledge bases, e.g. where the instances are stored) to extract relevant information and to semantically annotate corpora (Maynard et al., 2008); 2 Ontology Population and Augmentation: Ontology needs IE to populate the knowledge repositories with new instances discovered from the corpora and to enhance the ontology itself with upcoming concepts or relations (Petasis et al., 2007). These two tasks can be combined in a cyclic process: IE permits to add new instances to the ontology that in return aliments the gazetteers and other terminological resources used by the IE tools, etc. As a bonus, this cycle also delivers semantic annotations that link documents to knowledge entities to represent their content. In the following of this paper, we are presenting a middleware, named CA-Manager that eases the implementation of such process between IE tools and knowledge repositories.

39 CA-Manager: A middleware between IE systems and knowledge repositories 2 CA-Manager Technical Architecture The philosophy of the CA-Manager is to bridge the gap between the content annotation process, and the knowledge repository storage. CA- Manager is a middleware which has the purpose to handle the information extraction results and to populate an ontology-driven knowledge base with the extracted annotations. To achieve this goal, the CA-Manager relies on the recommendations made by the W3 Consortium and the Semantic Web community: 1 Represent knowledge using RDF 3 /OWL 4 languages; 2 Set up a service-oriented architecture (SoA). The strength of CA-Manager is to combine semantic technologies with a UIMA-based infrastructure 5 which has been enriched and customized to address the specific needs of both semantic annotation and ontology population tasks (see FIGURE 1). FIGURE 1 Knowledge Augmentation: creating added-value of contents Resource Description Framework (http://www.w3.org/tr/rdf-primer/) Ontology Web Language (http://www.w3.org/tr/2004/rec-owl-features ) Unstructured Information Management Architecture (http://uima.apache.org)

40 IC 2013 The UIMA framework provides a development platform for systems that analyze large volumes of unstructured information in order to discover knowledge that is relevant in a given domain. This UIMA architecture is the basis of the CA-Manager. UIMA advantage is to provide developers with an easy module integration and composition platform. This platform is flexible enough to let one arrange the modules in any combination in the workflow definition, and let one to add its own modules. Moreover, we stick to this architecture because the UIMA platform is widely used in the Information Extraction (IE) community. However, none of the UIMA existing modules addresses the quality control and validation of the generated annotations. UIMA workflow has some drawbacks among which: (i) the logical schema of the elementary data format, known as Common Analysis Structure (CAS), defines a high-level annotation schema but has to be refined for the purpose of each new application; (ii) the way the web services are exposed in UIMA is proprietary and different from Semantic Web standards; and (iii) it makes use of UML models to define the domain-oriented type systems instead of using ontologies. As (Wimalasuriya & Dou, 2010), we are convinced that ontologies are defining better templates for IE results, especially because of the semantic that can be represented and exploited for inferring new knowledge for instance. Therefore, we have implemented the CA-Manager framework in order to set up a more flexible architecture based on a combination of several UIMA Analysis Engines. UIMA provides us with a way to define and customize IE applications according to user needs and to order engines in a workflow accordingly. In doing so, each step of the annotation workflow is a component which can be plugged to the final application. We also aimed at improving the UIMA infrastructure with the native use of Semantic Web standards. We defined an RDF-based annotation schema dedicated to ontology population and semantic annotation tasks composed of entities, properties, metadata and offsets 6. Each analysis engine is controlled and enriched by the next engine in the workflow. This workflow is designed with a distributed service-oriented architecture relying on languages and protocols defined with Semantic Web formalisms. 3 CA-Manager Functional Components CA-Manager uses an ontology-based annotation schema to transform heterogeneous content (text, image, video, etc.) into semantically-driven 6 Position of the annotation in the text.

41 CA-Manager: A middleware between IE systems and knowledge repositories integrated and organized contents. Its workflow is composed of 5 main functional components (shown in FIGURE 2) that support building and managing customized pipelines for semantic contents annotations, ontology population and ontology-based information extraction systems: 1 Extraction: identify and tag domain-oriented knowledge (terms, named entities, relations) from content, performed by exiting IE tools (such as GATE, Luxid, GeolSemantics, etc.); 2 Consolidation: reconcile extracted knowledge with the domain ontology and the content of the knowledge repository (instances and property values); 3 Storage: export and store the reconciled knowledge; 4 Validation: let the human user validate the suggested annotations and knowledge; 5 Enrichment: export new validated terms and entities into the IE s linguistic resources (gazetteers, grammars, named entity lists). FIGURE 2 CA-Manager s components allowing mutual enrichment between IE tools and KRs. 3.1 Extracting knowledge from text The extraction component annotates content using existing information extraction tools compatible with UIMA and/or semantic resources coming from the Web (i.e. Linked Open Data). It converts annotations (metadata, structured information) into a normalized

42 IC 2013 representation, e.g. an RDF-based CAS. This component consists in two steps: split and extract. When applicable, the split step divides the input data into multiple parts, e.g., a corpus splits into a set of documents, a document into several sections, etc. The extract step uses available IE tools to process the documents and extract entities from unstructured contents. Then the CA-Manager applies a set of user-defined RDF/SPARQL 7 acquisition rules that transform the extraction outputs into an internal RDF-based CAS, compliant with the domain ontology that structures the application s knowledge base. This step is mandatory because the CA-Manager compares the extracted knowledge with the instances already stored in the knowledge repository during the next step. FIGURE 3 An example of bio-data of a person. In the following of this chapter, we will exemplify one workflow thanks to a knowledge base released in the SAIMSI project, funded by the ANR - French Research Agency, which aims at extracting heterogeneous information from the Web about threatening people and organisations. The added-value of SAIMSI project outcome is to accumulate and infer knowledge according to several sources crawled from the Web. FIGURE 3 shows how we store the bio-data of a person (i.e. Malika El-Aroud) out of the two persons 8 which we are authorized to search for according to CNIL 9. The other names that appears in the graph through the relation knows as shown in FIGURE 4 and throughout the rest of the paper are fake names RDF query language (http://www.w3.org/tr/rdf-sparql-query) Along with Usama Bin Laden. French privacy data and liberties regulation commission (http://www.cnil.fr/english/) Here, Naïma Elhariza and Nizar Trevorxe.

43 CA-Manager: A middleware between IE systems and knowledge repositories 3.2 Consolidating annotations and knowledge with an ontology repository The knowledge Consolidation component automatically checks completeness and correctness of the information collected. It is in charge of controlling annotations from linguistic extraction against ontology, normalizing, constructing a knowledge graph by aggregating the annotations and entities information, and accessing the knowledge repository to infer new annotations or instances (only if required by the application, inference rules need to be predefined according to a set of rules coming from domain experts). We studied in (Amardeilh, 2008) the various possible cases of instances and annotation creation and identified two axes of consolidation: the first axis defines the ontological element concerned, i.e. an instance of a class, a property value or a semantic annotation; the second axis defines the constraints to be checked, i.e. non redundancy, the domain and range restrictions and the element's cardinality. Every CA-Manager consolidation algorithm takes into account the two axis described here-before. In the knowledge Consolidation component, they are performed through three steps: merge, control, and infer Merge The merge step sends queries to the semantic repository to retrieve entities or annotations URIs, and subsequently eliminate duplicates within the CAS. These queries can be simple (class + label) or multicriteria (class + set of required properties that identify unambiguously an entity in the semantic repository). One can see in FIGURE 4 the genuine extractions of the two locations #187 and #366 given by the IE tool for respectively Contact and Arrest events. FIGURE 4 Two genuine extractions showing 2 locations, each on its right side. The FIGURE 5 shows the results of the annotation process with the knowledge-base-query consolidation done by CA-Manager and creating the spatial relation with the two locations shown on the right side.

44 IC 2013 FIGURE 5 The genuine annotation from IE tool showing 2 locations on the right. Hence in FIGURE 6, the locations are merged into only one entity with its Unique Resource Identifier (URI), here: FIGURE 6 The merged locations with a single reference URI. In (Castano et al., 2008), the authors compare this task with instance matching as in database integration field where record linkage is defined as the task of quickly and accurately identifying records corresponding to the same entity from one or more data sources. It also refers to the Entity Resolution problem, mostly investigated in ontology alignment applications but poorly in ontology population ones. To solve this issue, (Castano et al., 2008) define the identification power of instance properties. Not all the properties that define a concept are equally interesting to automatically identify an individual as part of this concept, only featuring properties are. For instance, a person can be queried by its name which is in most cases a highly identification property. However, in cases of homonymy, looking at the person name is clearly not enough and one might want to query on particular properties such as the date of birth that can better discriminate several instances sharing the same label. Such a multi-criteria search is often built from the set of restricted properties where cardinality equals at least to 1. If the algorithm fails to disambiguate between two instances because for example no featuring properties have been extracted and annotated in the corpora, then the new entity or annotation is tagged with an invalid metadata and will be displayed as such to the end-user.

45 CA-Manager: A middleware between IE systems and knowledge repositories Control It validates extracted annotations against the ontology model. Verification may include parameters such as domains and ranges of the entities, cardinalities, date formats, temporal information, the number formats, metric systems, etc. It also aims at resolving inconsistencies in the semantic annotations. For instance, if in the preceding step the extracted entity was merged with an existing instance, CA-Manager looks up to the properties of the extracted entity: are these property types authorized for the entity's class? Do these properties already exist in the merged instance? Do they have the same values? If not, how do we decide which value is the right one, especially when dealing with thesaurus values such as geographical locations, or with time values such as dates? The algorithms try to automatically resolve these issues and when not possible, they mark the new entity or annotation with an invalid metadata. All Invalid information is isolated in the knowledge base for further analysis and human validation. For example, the results of the annotation shown in FIGURE 7 of a Penalty event, state that Malika El-Aroud is convicted with a 10-yearsentence of prison. FIGURE 7 Example of penalty event extracted by IE tool. Hence, CA-Manager, will control this semantic graph against the ontology model and populate the knowledge base with an entity (i.e. a penalty unit) representing the 10-year-sentence penalty in order to share this entity and make it possible to query for people who are locked in prison with the same sentence (see in FIGURE 8). FIGURE 8 Additional information found in the ontological model Infer It may use a reasoning engine to apply inference rules in order to discover new entity properties (e.g., if A is B's mother, then A is a

46 IC 2013 female) and relations between entities. For instance, if two organisations are annotated as being involved in the same criminal event (same place, same time); then it is possible to propose to the user to merge the two organisations (one could be an alias of the other). The reasoning engine car also controls the overall coherence and quality of the semantic repository. For example, if a person A is known to be a sister of a person B, then A is a Female. If B is known to be a Male, then B is A s brother. 3.3 Storing annotations and knowledge in repositories The Storage component adds all new proposed knowledge instance to the chosen knowledge repository. It can also send the output (knowledge and semantic annotations) in RDF format to external metadata repositories. Other formats can be envisaged according to the project needs and requirements. It has two steps, serialise and store (optional) Serialize It transforms the enriched and consolidated RDF-based CAS in the requested application format (XML, RDF, OWL, NewsML 11, etc.). We mostly deal with RDF serialization as the one seen in FIGURE 9 which represent the contents of the FIGURE 10. FIGURE 9 An XML serialization of the example given in FIGURE Store CA-Manager exports its results to a knowledge repository: ITM 12 semantic repository, Sesame 13 or OWLIM 14 triplestore as long as it is connected to the targeted application infrastructure. It can also be sent to a Content Management System (CMS), as long as the output serialization fits the CMS input format, in order to enrich the existing content descriptions. We can see in FIGURE 10 the content of the example given in FIGURE An XML standard for annotating multimedia news. Intelligent Topic Map (http://www.mondeca.com) Sesame triplestore (http://www.openrdf.org/) RDF database management systems (http://www.ontotext.com/owlim)

47 CA-Manager: A middleware between IE systems and knowledge repositories FIGURE 10 Results stored in ITM. 3.4 Validating annotations and knowledge The domain experts can have access to a validation screen in order to approve or reject the updates to the knowledge base suggested by the CA- Manager. For example, given the following text: The results of the CA-Manager can be seen summarized as shown in FIGURE 11. FIGURE 11 Annotations' summary. Afterwards, the user may accept or reject the semantically-driven annotations using the user-interactive screen. The user can possibly complete the knowledge by creating new instances (see FIGURE 12).

48 IC 2013 FIGURE 12 An excerpt of the user-annotations' validation screen. Note: If an entity does not exist in the knowledge base, then the icon appears on its left. Here, all instances are new to the knowledge base, except the city of Paris. 3.5 Enriching and updating the IE tools The virtuous cycle drawn in FIGURE 2 is completed with the ability of enriching back the IE tool. This major capability is given by CA-Manager with the help of the underlying knowledge base (here ITM). The CA- Manager can propose to enrich and update the linguistic resources (gazetteers, controlled vocabularies, grammars ) of the IE tool with newly created terms, entities and facts. They are stored in a separated linguistic resource until the candidates are also validated by a domain expert who checks whether these new terms and entities have positive or negative impact on the extraction quality (recall and precision). They can be blacklisted or accepted in the reference linguistic resource. 4 Use case scenario descriptions The CA-Manager workflow is set up for three French research projects. SAIMSI project aims at collecting and aggregating information on dangerous persons and organisations. SAMAR is a platform for annotating news articles in Arabic language. And LegiLocal s goal is to annotate and normalize legal acts produced by territorial communities. One important feature in the CA-Manager process is that it is language-independent. In the SAMAR project, the IE tool (i.e. text mining tool: Luxid 15 ) processes Arabic documents while the knowledge repository is tri-lingual (English, French, and Arabic). Even is only 20% of the entities are labelled in Arabic language, we are able to disambiguate the annotation candidates with entities coming from IPTC 16 categories, JRC 17 lexicon, Freebase, DBPedia, and Geonames 18 knowledge bases. In this process, a mutual enrichment is done between International Press Telecommunications Council (www.iptc.org) EU- Joint Research Centre (http://ec.europa.eu/dgs/jrc/index.cfm) Resp. (http://dbpedia.org/about), and (www.geonames.org)

Web sémantique, données libres et liées, UNT

Web sémantique, données libres et liées, UNT Web sémantique, données libres et liées, UNT Yolaine Bourda September 20, 2012 Web sémantique De nombreux documents sont présents sur le Web. Pourtant il est parfois difficile d avoir des réponses à des

Plus en détail

Gestion de Contenus Web (WCM)

Gestion de Contenus Web (WCM) Web Content Management 1 Gestion de Contenus Web (WCM) Bernd Amann Modelware : vers la modélisation et la sémantisation de l information École CEA-EDF-INRIA 16-27 juin 2003 Cours No 1 - Gestion de Contenus

Plus en détail

Exposé: Web sémantique. Web 2.0: impact Sur les IHM, Plasticité. Présenté par: BEN AMOR Akram

Exposé: Web sémantique. Web 2.0: impact Sur les IHM, Plasticité. Présenté par: BEN AMOR Akram Exposé: Web sémantique. Web 2.0: impact Sur les IHM, Plasticité Présenté par: BEN AMOR Akram Plan Web Sémantique Définition et objectif Historique Principe général Quels sont les finalités et les objectifs

Plus en détail

Gestion de données complexes

Gestion de données complexes Master 2 Informatique Spécialité AIGLE Gestion de données complexes Amayas ABBOUTE Gilles ENTRINGER SOMMAIRE Sommaire i 1 - Introduction 1 2 - Technologies utilisées 2 2.1 API Jena........................................

Plus en détail

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME Intégration de données complexes pour une vision 360 du client Chloé Clavel EDF R&D Département ICAME Contexte : projet R&D sur l intégration de données complexes pour la connaissance client Objectif :

Plus en détail

Cartographie de mots : application à la visualisation de noms de marque

Cartographie de mots : application à la visualisation de noms de marque Université Montpellier II UFR Fac des Sciences Master 1 Informatique Université Montpellier II UFR Fac des Sciences Master 1 Informatique Cartographie de mots : application à la visualisation de noms de

Plus en détail

Catalogue des formations Edition 2015

Catalogue des formations Edition 2015 Antidot - Formations Catalogue des formations Edition 2015 : catalogue_formation_2015 Révision du 06.01.2015 Sommaire!!"##$%&'( )! $*$+,(-'(."##'+.'&( /!,'.0+"1"2%'( /!!."3'( /! $(3&"3"!(-4(5(.$,$1"24'(-'!(6"&#$,%"+!(7('-%,%"+()89:(;(

Plus en détail

Créez votre premier site web De la conception à la réalisation

Créez votre premier site web De la conception à la réalisation Chapitre 1 : Introduction A. Introduction 17 Chapitre 2 : Les langages A. L objectif 21 B. L HTML 21 1. L état des lieux 21 2. Les éléments HTML 21 3. Les attributs 22 4. Les caractères 23 5. Les espaces

Plus en détail

Noureddine Kerzazi noureddine.kerzazi@polymtl.ca

Noureddine Kerzazi noureddine.kerzazi@polymtl.ca Domaine de la modélisation des processus pour le génie logiciel. Noureddine Kerzazi noureddine.kerzazi@polymtl.ca DSL4SPM Domain-Specific-Language for Software Process Modeling Il s agit d un nouveau cadre

Plus en détail

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre Avant-propos 1. Objectif du livre 17 2. Illustrations des exemples de ce livre 18 2.1 Office 365 comme plateforme technologique pour une digital workplace 18 2.2 SharePoint et Yammer à l honneur 18 3.

Plus en détail

Master of Science HES-SO en Sciences de l information Rentrée Année académique 2015

Master of Science HES-SO en Sciences de l information Rentrée Année académique 2015 Master of Science HES-SO en Sciences de l information Rentrée Année académique 015 Formulaire relatif aux enseignements en prérequis en vue de demandes d équivalence Seuls les étudiants devant effectuer

Plus en détail

Indexation et interrogation de photos de presse décrites en MPEG-7

Indexation et interrogation de photos de presse décrites en MPEG-7 Indexation et interrogation de photos de presse décrites en MPEG-7 Emmanuel Bruno Jacques Le Maitre Elisabeth Murisasco Laboratoire SIS, Equipe Informatique Université de Toulon et du Var Bâtiment R, BP

Plus en détail

WEB 1.0, les tous débuts WEB 2.0. WEB 1.0 maturité LABD. Séance 9 : WEB Sémantique. web = pages statiques liées entre-elles par des liens hypertexts.

WEB 1.0, les tous débuts WEB 2.0. WEB 1.0 maturité LABD. Séance 9 : WEB Sémantique. web = pages statiques liées entre-elles par des liens hypertexts. WEB 1.0, les tous débuts LABD Master Info M1 2014-2015 web = pages statiques liées entre-elles par des liens hypertexts. Utilisateur = lecteur mise à jours (relativement) rares Séance 9 : WEB Sémantique

Plus en détail

Sophia Conf 2014. Bases de données RDF. versatilité, puissance et scalabilité. Bases de données RDF

Sophia Conf 2014. Bases de données RDF. versatilité, puissance et scalabilité. Bases de données RDF Sophia Conf 2014 versatilité, puissance et scalabilité Your business 2 juillet technologists. 2014 Sophia Conf Powering 2014 progress Agenda Introduction Vision du Web sémantique par Atos Modèle W3C vs

Plus en détail

Vers l automatisation de la construction de systèmes de médiation pour le commerce électronique

Vers l automatisation de la construction de systèmes de médiation pour le commerce électronique Vers l automatisation de la construction de systèmes de médiation pour le commerce électronique I. Introduction C. Reynaud, G. Giraldo Université Paris-Sud, CNRS UMR 8623, INRIA-Futurs L.R.I., Bâtiment

Plus en détail

Conférence de presse 17 mars 2008. Jean-Charles Hourcade, Directeur Général adjoint et CTO Thomson

Conférence de presse 17 mars 2008. Jean-Charles Hourcade, Directeur Général adjoint et CTO Thomson Conférence de presse 17 mars 2008 Jean-Charles Hourcade, Directeur Général adjoint et CTO Thomson 17 Actualité La Direction générale de la concurrence de la Commission européenne approuve le financement

Plus en détail

ZIMINA-POIROT Maria (SYLED - ILPGA, Sorbonne nouvelle Paris 3) zimina@msh-paris.fr

ZIMINA-POIROT Maria (SYLED - ILPGA, Sorbonne nouvelle Paris 3) zimina@msh-paris.fr Thème : Corpus multilingues et alignements textométriques TP «Analyse de corpus de textes juridiques (français/anglais) à l aide d outils de statistique textuelle Lexico3». Ressources : le corpus TRAD_JUR

Plus en détail

Architectures web pour la gestion de données

Architectures web pour la gestion de données Architectures web pour la gestion de données Dan VODISLAV Université de Cergy-Pontoise Plan Le Web Intégration de données Architectures distribuées Page 2 Le Web Internet = réseau physique d'ordinateurs

Plus en détail

Evolutions du Web et des langages

Evolutions du Web et des langages Evolutions du Web Evolutions du Web et des langages WEB statique Ces pages sont écrites en HTML Les pages demandées sont identiques quelque soit La personne qui les demande L heure de la demande Etc. WEB

Plus en détail

Créer un blog d entreprise Quels usages possibles pour un blog en entreprise et comment l intégrer dans un site internet? Principes et fonctionnement

Créer un blog d entreprise Quels usages possibles pour un blog en entreprise et comment l intégrer dans un site internet? Principes et fonctionnement 5 Créer un blog d entreprise Quels usages possibles pour un blog en entreprise et comment l intégrer dans un site internet? Principes et fonctionnement Les usages du blog en entreprise Démarrer un blog

Plus en détail

Fouille de données et sémantique : des techniques pour donner du sens aux données

Fouille de données et sémantique : des techniques pour donner du sens aux données Fouille de données et sémantique : des techniques pour donner du sens aux données Nathalie Aussenac-Gilles (IRIT) co-animatrice avec M. Boughanem de l axe masse de données et calcul http://www.irit.fr/-masses-de-donnees-et-calcul,677-?lang=fr

Plus en détail

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

ECRIRE A L ECOLE MATERNELLE

ECRIRE A L ECOLE MATERNELLE ECRIRE A L ECOLE MATERNELLE Bibliographie : Lire Ecrire Produire des textes Tome 2 A. M. CHARTIER B.CLESSE J. HEBRARD HATIER Pédagogie Ch. BOMPARD IEN 1 LA DICTEE A L ADULTE Compétences visées : Familiarisation

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

BES WEBDEVELOPER ACTIVITÉ RÔLE

BES WEBDEVELOPER ACTIVITÉ RÔLE BES WEBDEVELOPER ACTIVITÉ Le web developer participe aux activités concernant la conception, la réalisation, la mise à jour, la maintenance et l évolution d applications internet/intranet statiques et

Plus en détail

Cahier de charges (Source : "Java EE - Guide de développement d'applications web en Java" par Jérôme Lafosse) Module. Site Web dynamique JSP / Servlet

Cahier de charges (Source : Java EE - Guide de développement d'applications web en Java par Jérôme Lafosse) Module. Site Web dynamique JSP / Servlet Cahier de charges (Source : "Java EE - Guide de développement d'applications web en Java" par Jérôme Lafosse) Module Site Web dynamique JSP / Servlet Sujet : betaboutique Soutenance le 04 / 01 /2013 &

Plus en détail

Stage New Delhi octobre 2012

Stage New Delhi octobre 2012 Stage New Delhi octobre 2012 «L école du socle : donner du sens et des contenus à la continuité pédagogique» Enseignement de la langue française École : BO n 3-19 juin 2008 / BO n 1 du 5 janvier 2012 programmes

Plus en détail

Les typologies d information que le moteur est en mesure de rechercher sont :

Les typologies d information que le moteur est en mesure de rechercher sont : AIDE SUR LA BIBLIOTHEQUE VIRTUELLE Le système de recherche de la bibliothèque virtuelle permet l accès rapide aux informations qui intéressent les étudiants et qui sont disponibles dans le cyberespace

Plus en détail

Publication et intégration de données ouvertes

Publication et intégration de données ouvertes Publication et intégration de données ouvertes François Scharffe LIRMM, UM2 Gazouillez #lechatpito #datalift 1 Qu est-ce qu une donnée ouverte? Une donnée accessible sur le web sous une licence ouverte.

Plus en détail

OFFRES DE STAGES REGION EST. Market Unit 8 - Software Engineering & Testing

OFFRES DE STAGES REGION EST. Market Unit 8 - Software Engineering & Testing OFFRES DE STAGES REGION EST Market Unit 8 - Software Engineering & Testing 2013 EDITO Chère étudiante, cher étudiant Vous avez entre les mains notre catalogue rassemblant les opportunités de stages que

Plus en détail

Offre FlowUnit by CGI Tests automatisés de flux de données inter-applicatifs

Offre FlowUnit by CGI Tests automatisés de flux de données inter-applicatifs Offre FlowUnit by CGI Tests automatisés de flux de données inter-applicatifs CGI Group Inc. 2013 Agenda 1 2 3 4 5 6 7 Problématiques et enjeux Solutions et fonctionnalités Concepts Exécution et rapport

Plus en détail

OFFRE DE FORMATION L.M.D.

OFFRE DE FORMATION L.M.D. REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE OFFRE DE FORMATION L.M.D. MASTER PROFESSIONNEL ET ACADEMIQUE Systèmes d Information

Plus en détail

Comment exploiter les commentaires d internautes pour la recommandation automatique

Comment exploiter les commentaires d internautes pour la recommandation automatique Comment exploiter les commentaires d internautes pour la recommandation automatique Damien Poirier Paris, le 11 juin 2012 1/32 Contexte et problématique 2/32 Contexte et problématique 3/32 Contexte Mise

Plus en détail

Technologies du Web. Technologies avancées côté serveur. Mastère spécialisé Management et nouvelles technologies, 7 décembre 2009

Technologies du Web. Technologies avancées côté serveur. Mastère spécialisé Management et nouvelles technologies, 7 décembre 2009 Publication XML Technologies du Web Technologies avancées côté serveur Pierre Senellart (pierre.senellart@telecom-paristech.fr) Mastère spécialisé Management et nouvelles technologies, 7 décembre 2009

Plus en détail

Introduction au WEB Sémantique Cours 2 : Ontologies

Introduction au WEB Sémantique Cours 2 : Ontologies Cours 2 : Ontologies ESIL Université de la méditerranée Odile.Papini@esil.univmed.fr http://odile.papini.perso.esil.univmed.fr/index.html Plan du cours 1 Introduction 2 3 4 5 Bibliographie I Supports de

Plus en détail

Présentation de la plateforme d analyse linguistique médiévale

Présentation de la plateforme d analyse linguistique médiévale Présentation de la plateforme d analyse linguistique médiévale 1. Introduction Tout au long de ce document, notre projet sera présenté à travers la méthodologie suivie pour développer la plateforme d analyse

Plus en détail

Introduction au WEB Sémantique Cours 1 : Qu est ce que le WEB sémantique?

Introduction au WEB Sémantique Cours 1 : Qu est ce que le WEB sémantique? Cours 1 : Qu est ce que le WEB sémantique? ESIL Université de la méditerranée Odile.Papini@esil.univmed.fr http://odile.papini.perso.esil.univmed.fr/index.html Plan du cours Introduction 1 Introduction

Plus en détail

Programme de la licence informatique, université de Caen http://www.info.unicaen.fr

Programme de la licence informatique, université de Caen http://www.info.unicaen.fr Programme de la licence informatique, université de Caen http://www.info.unicaen.fr Unité Systèmes d'information CM : 45h - TD : 60h - TP : 12h - Coeff 2 Systèmes de Gestion de Bases de Données Modéliser

Plus en détail

Contributions à l étude des mesures sémantiques

Contributions à l étude des mesures sémantiques Contributions à l étude des mesures sémantiques École des mines d Alès Sébastien Harispe Plan Contributions à l étude des mesures sémantiques Estimation d IC par les fonctions de croyance Plan Contributions

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

IBM Content Analytics Libérer l Information

IBM Content Analytics Libérer l Information IBM Content Analytics Libérer l Information Patrick HOFLEITNER patrick_hofleitner@fr.ibm.com Août 2011 TABLE DES MATIERES RESUME...3 INTRODUCTION...4 LA PROBLEMATIQUE...5 1 L EXPLOSION DU CONTENU NON-STRUCTURE...5

Plus en détail

Projet CNRS-Mastodons ANalyse d IMages fondée sur des Informations TEXtuelles

Projet CNRS-Mastodons ANalyse d IMages fondée sur des Informations TEXtuelles Projet CNRS-Mastodons ANalyse d IMages fondée sur des Informations TEXtuelles Bruno Crémilleux, Pierre Gançarski, Mathieu Roche, Christian Sallaberry, Maguelonne Teisseire et al. Strasbourg novembre 2014

Plus en détail

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches Niveau C1 Descripteur global Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches La personne peut : comprendre en détail de longs discours et des échanges complexes

Plus en détail

Retour d expérience Inria sur sa GED

Retour d expérience Inria sur sa GED Retour d expérience Inria sur sa GED DSI SESI 13 octobre 2015 SOMMAIRE 1. Solution Alfresco 2. Implémentation Alfresco chez Inria 3. Cas d usage 13 octobre 2015-2 1 Solution Alfresco 13 octobre 2015-3

Plus en détail

SYLLABUS ISIT. OPTION 2 : Traduction 2. Module 1 : Traduction. Traduction générale vers A. Nombre de crédits

SYLLABUS ISIT. OPTION 2 : Traduction 2. Module 1 : Traduction. Traduction générale vers A. Nombre de crédits Traduction générale vers A Module 1 : Traduction 5 ECTS généraux : Acquérir la méthodologie et les techniques de la traduction Approfondir la connaissance de la langue source. spécifiques : Parfaire la

Plus en détail

www.u-bordeaux3.fr Master recherche Recherches linguistiques et applications informatiques ReLAI

www.u-bordeaux3.fr Master recherche Recherches linguistiques et applications informatiques ReLAI www.u-bordeaux3.fr Master recherche Recherches linguistiques et applications informatiques ReLAI Introduction sur la formation Le master ReLAI propose une formation de haut niveau couvrant tous les domaines

Plus en détail

Institut Paul Hankar

Institut Paul Hankar BES WEBDESIGNER ACTIVITE En utilisant des outils informatiques, le web designer réalise des éléments graphiques fixes ou animés, en 2 ou 3 dimensions, en respectant le schéma de navigation du site et sa

Plus en détail

Gestion collaborative de documents

Gestion collaborative de documents Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,

Plus en détail

Technologies du Web. Créer et héberger un site Web. Pierre Senellart. Page 1 / 26 Licence de droits d usage

Technologies du Web. Créer et héberger un site Web. Pierre Senellart. Page 1 / 26 Licence de droits d usage Technologies du Web Créer et héberger un site Web Page 1 / 26 Plan Planification Choisir une solution d hébergement Administration Développement du site Page 2 / 26 Cahier des charges Objectifs du site

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

Réalisation d un logiciel de Visioconférence Cahier des charges

Réalisation d un logiciel de Visioconférence Cahier des charges Master 1 Informatique Professionnel et Recherche Unifié Réalisation d un logiciel de Visioconférence Cahier des charges Version 2.0 du 06/02/08 envoyée à M. Michel Leclère, responsable du Master 1 Informatique

Plus en détail

JXDVDTek - UNE DVDTHEQUE EN JAVA ET XML

JXDVDTek - UNE DVDTHEQUE EN JAVA ET XML BALLOTE Nadia FRIULI Valerio GILARDI Mathieu IUT de Nice Licence Professionnelle des Métiers de l Informatique RAPPORT DU PROJET : JXDVDTek - UNE DVDTHEQUE EN JAVA ET XML Encadré par : M. CRESCENZO Pierre

Plus en détail

Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels

Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels EDITION DU 19 NOVEMBRE 2009 Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels Bénédicte Pincemin (éditeur) Les différents

Plus en détail

PLAte-forme Tsi Online - PLATO. 8 avril 2009 Présentation finale de l usage du financement sur crédit incitatif

PLAte-forme Tsi Online - PLATO. 8 avril 2009 Présentation finale de l usage du financement sur crédit incitatif PLAte-forme Tsi Online - PLATO 8 avril 2009 Présentation finale de l usage du financement sur crédit incitatif Contexte Recherches en indexation et fouilles de contenus multimédia au département TSI, Télécom

Plus en détail

Introduction au TALN et à l ingénierie linguistique. Isabelle Tellier ILPGA

Introduction au TALN et à l ingénierie linguistique. Isabelle Tellier ILPGA Introduction au TALN et à l ingénierie linguistique Isabelle Tellier ILPGA Plan de l exposé 1. Quelques notions de sciences du langage 2. Applications et enjeux du TAL/ingénierie linguistique 3. Les deux

Plus en détail

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton Linked Open Data Le Web de données Réseau, usages, perspectives Sommaire Histoire du Linked Open Data Structure et évolution du réseau Utilisations du Linked Open Data Présence sur le réseau LOD Futurs

Plus en détail

Technologies et Knowledge Management. Knowledge Management. Panorama des technologies. Gilles Balmisse. Journée EGIDE - 4 mars 2003 1

Technologies et Knowledge Management. Knowledge Management. Panorama des technologies. Gilles Balmisse. Journée EGIDE - 4 mars 2003 1 Journée EGIDE - 4 mars 2003 1 Knowledge Management Panorama des technologies Journée EGIDE - 4 mars 2003 2 AU SOMMAIRE Introduction PARTIE 1 Panorama des technologies PARTIE 2 Portail de KM Conclusion

Plus en détail

DOSSIER SPÉCIAL TRAVAIL COLLABORATIF ET GESTION DE CONTENU COMMENT AMÉLIORER LA COLLABORATION ET LA COMMUNICATION AU SEIN DE VOTRE ORGANISME?

DOSSIER SPÉCIAL TRAVAIL COLLABORATIF ET GESTION DE CONTENU COMMENT AMÉLIORER LA COLLABORATION ET LA COMMUNICATION AU SEIN DE VOTRE ORGANISME? DOSSIER SPÉCIAL TRAVAIL COLLABORATIF ET GESTION DE CONTENU COMMENT AMÉLIORER LA COLLABORATION ET LA COMMUNICATION AU SEIN DE VOTRE ORGANISME? AUTEUR : HEFAIEDH MYRIAM DOSSIER TRAVAIL COLLABORATIF ET GESTION

Plus en détail

Master Sciences et technologies Mention MI : Management de l Innovation

Master Sciences et technologies Mention MI : Management de l Innovation Master Sciences et technologies Mention MI : Management de l Innovation M2 Spécialité Ingénierie et Management de la Formation (IMFL ) Présentation des UE UE de spécialité UE1 «Management des connaissances

Plus en détail

PROSOP : un système de gestion de bases de données prosopographiques

PROSOP : un système de gestion de bases de données prosopographiques PROSOP : un système de gestion de bases de données prosopographiques Introduction : Ce document présente l outil en développement PROSOP qui permet la gestion d'une base de donnée prosopographique de la

Plus en détail

Raisonner le Web Sémantique avec des graphes : Application à un cas industriel

Raisonner le Web Sémantique avec des graphes : Application à un cas industriel Raisonner le Web Sémantique avec des graphes : Application à un cas industriel Olivier Carloni LIRMM, Université de Montpellier II, 161, rue Ada, F-34392 Montpellier cedex - France carloni@lirmm.fr Mondeca,

Plus en détail

Assises universitaires de français Moscou, 6 au 8 novembre 13 Université d Etat de la Région de Moscou. Introduction

Assises universitaires de français Moscou, 6 au 8 novembre 13 Université d Etat de la Région de Moscou. Introduction Assises universitaires de français Moscou, 6 au 8 novembre 13 Université d Etat de la Région de Moscou Atelier : Concevoir un programme de préparation à l'insertion universitaire, Alain Koenig, directeur

Plus en détail

Dafoe Présentation de la plate-forme UIMA

Dafoe Présentation de la plate-forme UIMA Laboratoire d Informatique de l université Paris-Nord (UMR CNRS 7030) Institut Galilée - Université Paris-Nord 99, avenue Jean-Baptiste Clément 93430 Villetaneuse, France 11 juillet 2007 Plates-formes

Plus en détail

GESTION DE PROJET. www.ziggourat.com - Tél : 01 44 61 96 00 N enregistrement formation : 11752861675

GESTION DE PROJET. www.ziggourat.com - Tél : 01 44 61 96 00 N enregistrement formation : 11752861675 GESTION DE PROJET www.ziggourat.com - Tél : 01 44 61 96 00 N enregistrement formation : 11752861675 Introduction à la Gestion de Projet... 3 Management de Projet... 4 Gestion de Projet informatique...

Plus en détail

Modèle de cahier des charges pour un site Internet

Modèle de cahier des charges pour un site Internet Modèle de cahier des charges pour un site Internet Modèle de cahier des charges Site Internet 1 Ce document a pour objectif de préciser quels éléments doivent être détaillés dans votre cahier des charges

Plus en détail

Ges3on de projet internet INA CPD 2014-2015

Ges3on de projet internet INA CPD 2014-2015 Ges3on de projet internet INA CPD 2014-2015 Auteur Magali Guyon Fiat Lux www.fiatlux.fr 1 Fiche pratique : la base d un site internet, le HTML et le css Structure d'une page HTML L Hypertext Markup Language,

Plus en détail

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique Des traitements aux ressources : le rôle d une architecture Frederik Cailliau Villetaneuse, le 9 décembre 2010 Sous la direction d Adeline Nazarenko 1. 2. 3. 4. 5. 6. 2 Sinequa Cifre à Sinequa Recherche

Plus en détail

Anglais CAHIER- PROGRAMME

Anglais CAHIER- PROGRAMME Anglais CAHIER- PROGRAMME Dans le présent document, le masculin est utilisé sans aucune discrimination et uniquement dans le but d alléger le texte. NOTE : Tous les renseignements contenus dans ce document

Plus en détail

S8 - INFORMATIQUE COMMERCIALE

S8 - INFORMATIQUE COMMERCIALE S8 - INFORMATIQUE COMMERCIALE Les savoirs de l Informatique Commerciale doivent être abordés en relation avec les autres savoirs (S4 à S7). Les objectifs généraux sont : o de sensibiliser les étudiants

Plus en détail

RAPPORT INTERNE N IRIT/RR 2009-18--FR

RAPPORT INTERNE N IRIT/RR 2009-18--FR CNRS, INP Toulouse, Université Paul Sabatier Toulouse III, Université des Sciences Sociales Toulouse 1, Université de Toulouse le Mirail RAPPORT INTERNE N IRIT/RR 2009-18--FR JOSIANE MOTHE, ALBERTO ASENCIO

Plus en détail

Nouvelles de l AS fouille d images. Émergence de caractéristiques sémantiques

Nouvelles de l AS fouille d images. Émergence de caractéristiques sémantiques Nouvelles de l AS fouille d images Émergence de caractéristiques sémantiques Patrick GROS Projet TEXMEX IRISA - UMR 6074, CNRS, université de Rennes 1, INSA Rennes, INRIA L AS fouille d images Qu est-ce

Plus en détail

Construction et enrichissement automatique d ontologie à partir de ressources externes

Construction et enrichissement automatique d ontologie à partir de ressources externes Construction et enrichissement automatique d ontologie à partir de ressources externes JFO 2009 Jeudi 3 décembre 2009 E. Kergosien (LIUPPA, Pau) M. Kamel (IRIT- UPS, Toulouse) M. Sallabery (LIUPPA, Pau)

Plus en détail

Description de Produit Logiciel. AMI News Monitor v2.0. SPD-AMINM-10 v1.0

Description de Produit Logiciel. AMI News Monitor v2.0. SPD-AMINM-10 v1.0 Description de Produit Logiciel AMI News Monitor v2.0 SPD-AMINM-10 v1.0 Octobre 2010 Sommaire 1 Préambule... 3 2 Approbations... 3 3 Fonctionnalités... 4 3.1 Principes... 4 3.2 Sources d information...

Plus en détail

Introduction pratique au Développement orienté Modèle Pierre Parrend, Mars 2005

Introduction pratique au Développement orienté Modèle Pierre Parrend, Mars 2005 MDA : Un Tutoriel Introduction pratique au Développement orienté Modèle Pierre Parrend, Mars 2005 1 Sommaire Table des matières 1 Sommaire 1 2 Introduction 2 2.1 A qui s adresse ce tutoriel......................

Plus en détail

INGÉNIERIE DES CONNAISSANCES BCT (3b)

INGÉNIERIE DES CONNAISSANCES BCT (3b) 08.12.1999 INGÉNIERIE DES CONNAISSANCES BCT (3b) Nathalie Aussenac-Gilles (IRIT) Jean Charlet (DSI/AP-HP) Ingénierie des connaissances BCT (N. Aussenac-Gilles, J. Charlet) BCT-1 PLAN La notion de BCT :

Plus en détail

Bien architecturer une application REST

Bien architecturer une application REST Olivier Gutknecht Bien architecturer une application REST Avec la contribution de Jean Zundel Ce livre traite exactement du sujet suivant : comment faire pour que les services web et les programmes qui

Plus en détail

DOSSIER DE SPECIFICATION LOGICIEL

DOSSIER DE SPECIFICATION LOGICIEL DOSSIER DE SPECIFICATION LOGICIEL Plateforme multimédia pour l'aide à la décision C3ED Rédacteur(s) : Liste de diffusion : Clarisse KOUO-MBILLE (CKM) Vincent TURMINE Vincent TURMINE (VT) Clarisse KOUO-MBILLE

Plus en détail

Master Etudes françaises et francophones

Master Etudes françaises et francophones Master Etudes françaises et francophones 1. modèle scientifique et profilage des contenus de la filière / Présentation et spécificités de la filière Les études romanes à Leipzig sont considérées comme

Plus en détail

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes

Plus en détail

CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE

CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE PREMIER MINISTRE SECRÉTARIAT GÉNÉRAL DU GOUVERNEMENT CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE SUR LES SITES INTERNET GÉRÉS PAR LA DOCUMENTATION

Plus en détail

Ecrire pour le web. Rédiger : simple, concis, structuré. Faire (plus) court. L essentiel d abord. Alléger le style. Varier les types de contenus

Ecrire pour le web. Rédiger : simple, concis, structuré. Faire (plus) court. L essentiel d abord. Alléger le style. Varier les types de contenus Ecrire pour le web Un texte web de lecture aisée pour l internaute, l est aussi pour les moteurs de recherche ; l écriture peut ainsi être mise au service du référencement naturel. De façon complémentaire,

Plus en détail

Master Informatique Aix-Marseille Université

Master Informatique Aix-Marseille Université Aix-Marseille Université http://masterinfo.univ-mrs.fr/ Département Informatique et Interactions UFR Sciences Laboratoire d Informatique Fondamentale Laboratoire des Sciences de l Information et des Systèmes

Plus en détail

Panorama des outils de veille. Myriel Brouland I-Expo 17 Juin 2009

Panorama des outils de veille. Myriel Brouland I-Expo 17 Juin 2009 Panorama des outils de veille Myriel Brouland I-Expo 17 Juin 2009 1 La veille s est affirmée en tant que discipline : Elle s inscrit dans un démarche d optimisation du management de l information au sein

Plus en détail

Ouvrir ce texte avec Word ou open office- Enregistrez-le dans un format portable sous le nom DM_votreNom

Ouvrir ce texte avec Word ou open office- Enregistrez-le dans un format portable sous le nom DM_votreNom STAGE DOCTORAL INFORMATIQUE POUR LA RECHERCHE Objectif général : BUREAUTIQUE TRAITEMENT DE TEXTE Il s agit de mettre en forme un document libre de droit (le discours de la méthode), de procéder à un certain

Plus en détail

Éléments d écriture. être exprimées clairement; être précises; fournir suffisamment de détails pertinents pour que le texte soit intéressant.

Éléments d écriture. être exprimées clairement; être précises; fournir suffisamment de détails pertinents pour que le texte soit intéressant. Éléments d écriture Idée Les idées servent de point de départ à l écriture et elles comportent à la fois le sujet choisi et l intention de l auteur. Elles doivent : être exprimées clairement; être précises;

Plus en détail

FRANÇAIS Langage oral. Lecture - écriture. Vocabulaire. Grammaire. Orthographe. MATHÉMATIQUES Nombres et calcul. Géométrie. Grandeurs et mesures

FRANÇAIS Langage oral. Lecture - écriture. Vocabulaire. Grammaire. Orthographe. MATHÉMATIQUES Nombres et calcul. Géométrie. Grandeurs et mesures FRANÇAIS Langage oral Demander des explications. Écouter et comprendre les textes lus par l enseignant. Restituer les principales idées d un texte lu par l enseignant. Dire un texte court appris par cœur,

Plus en détail

Intégration d'applications d'entreprise (INTA)

Intégration d'applications d'entreprise (INTA) Master 2 SITW - Recherche Intégration d'applications d'entreprise (INTA) Dr. Djamel Benmerzoug Email : djamel.benmerzoug@univ-constantine2.dz Maitre de Conférences A Département TLSI Faculté des NTIC Université

Plus en détail

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Architecture d'entreprise : Guide Pratique de l'architecture Logique Guides Pratiques Objecteering Architecture d'entreprise : Guide Pratique de l'architecture Logique Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam

Plus en détail

Éducatives Familiales

Éducatives Familiales Éducatives Familiales FICHE 6 : UN EXEMPLE, LE JEU DU MEMORY Type de jeu / description Jeu de mémoire (discrimination visuelle) 2 à 4 joueurs Choisir une thématique (Memory de la forêt, des animaux, de

Plus en détail

Cahier des charges. «Application Internet pour le portail web i2n» Direction du Développement numérique du Territoire

Cahier des charges. «Application Internet pour le portail web i2n» Direction du Développement numérique du Territoire Direction du Développement numérique du Territoire Cahier des charges «Application Internet pour le portail web i2n» Direction du Développement Numérique du Territoire Maître d Ouvrage : REGION BASSE-NORMANDIE

Plus en détail

La Chronique des matières premières

La Chronique des matières premières La Chronique des matières premières Céréales, minerais ou pétrole, les ressources naturelles sont au cœur de l économie. Chaque jour de la semaine, Dominique Baillard informe du cours des matières premières

Plus en détail

Hébergement du site Le site est hébergé par l Ecole nationale des chartes sur un serveur dédié à l Urfist.

Hébergement du site Le site est hébergé par l Ecole nationale des chartes sur un serveur dédié à l Urfist. Refonte du site web 5 décembre 2008 MAPA Réf. 08 Inform 3 Cahier des charges Projet de refonte du site web de l 5 décembre 2008 I Analyse de l existant Type du site actuel L URFIST de Paris dispose actuellement

Plus en détail

La Gestion Electronique des Documents

La Gestion Electronique des Documents La Gestion Electronique des Documents La mise en place d une solution La gestion de l information est devenue un enjeu stratégique majeur à l intérieur des organisations. D après l observation des projets

Plus en détail

Exemple introductif. Web des données. Exemple d architecture. Anne-Cécile Caron 2014-2015. Le web sémantique est composé :

Exemple introductif. Web des données. Exemple d architecture. Anne-Cécile Caron 2014-2015. Le web sémantique est composé : 1/19 2/19 Exemple introductif Les Rich Snippets de Google permettent au moteur de recherche d ajouter des informations, en plus d un simple lien vers un site, à partir d informations sémantiques trouvées

Plus en détail

Projet ORI-OAI Outil de Référencement et d Indexation Réseau de portails OAI. Rencontres Mondiales du Logiciel Libre 2007 Amiens, 13 juillet 2007

Projet ORI-OAI Outil de Référencement et d Indexation Réseau de portails OAI. Rencontres Mondiales du Logiciel Libre 2007 Amiens, 13 juillet 2007 Projet ORI-OAI Outil de Référencement et d Indexation Réseau de portails OAI Rencontres Mondiales du Logiciel Libre 2007 Amiens, 13 juillet 2007 Sommaire Introduction - contexte Les fonctions du système

Plus en détail

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE Annexe MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE L enseignement des mathématiques au collège et au lycée a pour but de donner à chaque

Plus en détail

Présentation générale du projet data.bnf.fr

Présentation générale du projet data.bnf.fr Présentation générale du projet data.bnf.fr La Bibliothèque nationale a mis en œuvre un nouveau projet, qui a pour but de rendre ses données plus utiles sur le web. Ceci nécessite de transformer données

Plus en détail

Analyse de contenu & big data Un état de l art des applications de la sémantique en 2013

Analyse de contenu & big data Un état de l art des applications de la sémantique en 2013 Analyse de contenu & big data Un état de l art des applications de la sémantique en 2013 Sommaire 1. Editorial de F.R. Chaumartin, fondateur de Proxem (page 2) 2. Moteur de recherche sémantique (page 3)

Plus en détail

rad-framework Software development plan document version 01 Oussama Boudyach April 20, 2011

rad-framework Software development plan document version 01 Oussama Boudyach April 20, 2011 rad-framework Software development plan document version 01 Oussama Boudyach April 20, 2011 1 Contents 1 Introduction 3 2 Documents et matériels 3 2.1 Document et matériel octroyé:....................................

Plus en détail