Approche Générique d Extraction Automatique des Evénements et leur Exploitation



Documents pareils
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

UNIVERSITÉ PARIS-SORBONNE

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Description de Produit Logiciel. AMI News Monitor v2.0. SPD-AMINM-10 v1.0

N SIMON Anne-Catherine

Les modes de recherche sur le Web 2.0

Apprentissage Automatique

ISTEX, vers des services innovants d accès à la connaissance

Trois approches du GREYC pour la classification de textes

Formation continue des personnels URCA. Offre de la Bibliothèque Universitaire

MASTER LPL : LANGUE ET INFORMATIQUE (P)

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

LE PLAISIR D APPRENDRE POUR APPRENDRE

LES LANGUES EN DANGER : UN DÉFI POUR LES TECHNOLOGIES DE LA LANGUE

Baccalauréat universitaire (bachelor) en mathématiques et sciences informatiques

SITE INTERNET BLOG SITE E-COMMERCE GRILLE D ANALYSE / AUDIT PREMIERE ANALYSE. Entreprises. o Public spécialisé o Etudiants o Enfants

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

AVANT-PROPOS INTRODUCTION INSTALLATION INSTALLER LE PLUGIN ZOTERO INSTALLER LE MODULE DE CITATION...

WF MEDIA.INFO ET N OUBLIONS PAS QU UNE COMMUNICATION RÉUSSIE, C EST AVANT TOUT UN IMPACT MESURABLE ET

Intégration d une étape de pré-filtrage et d une fonction multiobjectif en vue d améliorer le système ExtraNews de résumé de documents multiples

! Text Encoding Initiative

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Réussir. son. référencement. web. Olivier Andrieu. Groupe Eyrolles, 2008, ISBN :

Jean Danis 1, Jean-Guy Meunier 1, Jean-François Chartier 1, Motasem Alrahabi 2, Jean-Pierre Desclés 2. Résumé. Abstract. 1.

LIVRE BLANC Décembre 2014

Projet de programme pour l enseignement d exploration de la classe de 2 nde : Informatique et création numérique

Cognit Ive Cas d utilisation

Epilepsies : Parents, enseignants, comment accompagner l enfant pour éviter l échec scolaire?

Université de Lorraine Licence AES LIVRET DE STAGE LICENCE

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

Rapport : Base de données. Anthony Larcher 1

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Gestion collaborative de documents

L apprentissage automatique

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Intelligence Artificielle et Robotique

Le modèle standard, SPE (1/8)

Enseigner les Lettres avec les TICE

APPRENDRE LA CHIMIE EN ZEP

Master recherche. Spécialité «Savoirs et Expertises de l Activité Physique» Master

Vision prospective et obstacles à surmonter pour les assureurs

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

L annotation comme support à la collaboration autour de documents : l outil AnT&CoW

Qu est-ce qu une tâche?

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Le SMS fait entendre sa voix... Énergie solaire, énergie du futur? Recherche et développement technologique

N. Paparoditis, Laboratoire MATIS

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

Les apports de l informatique. Aux autres disciplines

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

FORMATIONS LINGUISTIQUES DIPLOMES, TESTS & EXAMENS D ESPAGNOL COCEF

TEXT MINING Tour d Horizon

Présentation de notre solution de formation en ligne

La Convergence des outils de veille et des sources

Référencement Vendredi 4 Juillet Ile Degaby

Dafoe Présentation de la plate-forme UIMA

DEFT 09 : détection de la subjectivité et catégorisation de textes subjectifs par une approche mixte symbolique et statistique

!" #$%&'(&)'*'+,--./&0'1&23,+2.)$4$%52'&%'6.%&2'

Content Manager

CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE

Classification Automatique de messages : une approche hybride

UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE MBA OPTION MIS. MIAGe METHODES INFORMATIQUES APPLIQUEES A LA GESTION

CARTOGRAPHIE DES STRUCTURES DE RECHERCHE EN STIC

CURRICULUM VITAE FORMATION. 2001/2002 : Thèse ès sciences de gestion, option marketing, à l IAE de Dijon, Université de Bourgogne :

Business Intelligence

Une plateforme de recherche et d expérimentation pour l édition ouverte

Thibault Denizet. Introduction à SSIS

Chapitre 1 Qu est-ce qu une expression régulière?

Analyse Sémantique de Nuages de Points 3D et d Images dans les Milieux Urbains

Concevoir sa stratégie de recherche d information

Partie II Approche théorique

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Vous n avez aucune installation à faire et aucune mise à niveau ne vous complique la vie. Vous allez adorer votre nouveau site.

Analyse dialectométrique des parlers berbères de Kabylie

Décompresser, créer une archive au format «ZIP»

Guide de l utilisateur. Faites connaissance avec la nouvelle plateforme interactive de

Introduction. M2206 Intégration web. Introduction. Introduction 20/01/2014

Master Informatique Aix-Marseille Université

ETRE VISIBLE SUR INTERNET. Search Engine Optimisation (SEO)

Allocution d ouverture de Jean DEBEAUPUIS, Directeur Général de l Offre de soins

Contribution aux rapports entre la logique combinatoire et les T[Σ]-algèbres.

Recherche bibliographique

Étude sémantique du pronom ON dans une perspective textuelle et contextuelle. Thèse de doctorat Anje Müller Gjesdal Université de Bergen

Recherche et veille documentaire scientifique

Le ranking de Augure Influencers La méthodologie AIR en détails

1 La visualisation des logs au CNES

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Chef de file dans le développement de solutions de gestion de contenu

La recherche d'information sur Internet

Soutien technique en informatique

Extraction d informations stratégiques par Analyse en Composantes Principales

Utilisation du TNI en classe d anglais. PROJET INNOVANT présenté par la SECTION D ANGLAIS du Lycée Jean-Paul de Rocca Serra, Porto-Vecchio

Transcription:

Université de Paris-Sorbonne École Doctorale Concepts et Langages Laboratoire LaLIC (Langue, Logique, Informatique et Cognition) Université de Tunis Institut Supérieur de Gestion Laboratoire LARODEC (Recherche Opérationnelle, Décision et Contrôle de Processus) T H È S E pour obtenir le grade de DOCTEUR DE L UNIVERSITÉ PARIS-SORBONNE Discipline : Mathématiques et Informatique Appliquées aux Sciences de l Homme Spécialité : Informatique Présentée et soutenue par : AYMEN EL KHELIFI le 30 Octobre 2012 Approche Générique d Extraction Automatique des Evénements et leur Exploitation Sous la direction de : M. Jean Pierre Desclés, Professeur émérite, en Informatique, Université Paris Sorbonne, Directeur de thèse. Mme Rim Faiz, Professeur en Informatique, Université de Carthage, Directeur de thèse. JURY : M. Guy Lapalme, Professeur en informatique, Université de Montréal (Canada), Rapporteur M. Abdelmajid Ben Hamadou, Professeur en informatique, Université de Sfax (Tunisie), Rapporteur M. Jean-Gabriel Ganascia, Professeur en informatique, Université PMC, Paris 6 (France), Examinateur Mme Delphine Battistelli, Maître de conférences (HDR), Université Paris Sorbonne (France), Examinateur 1

1 Domaines d applications et contexte de travail Acquérir des connaissances à partir de textes est une nécessité qui s'est accélérée ces dernières années, avec l explosion des données disponibles sur le Web et l apparition du Web 2.0. Cette masse grandissante de contenus textuels, disponible dans des documents numériques en ligne, nécessite un traitement automatique afin de filtrer des informations pertinentes et précises. Ce qui pose un défi à la communauté scientifique qui doit être en mesure de proposer des systèmes efficaces d extraction d informations notamment avec la diversité des domaines applications demandeurs de ce genre d outil. Le présent travail de thèse est réalisé au sein du laboratoire LaLIC 1, où une théorie aspectotemporelle a été développée depuis 1990 par J.P Desclés. Cette théorie considère que des opérateurs aspect-temporels agissent sur un noyau prédicatif (cf. chapitre 2). L opérateur aspecto-temporel s applique à un opérande constitué par la relation prédicative sous-jacente à l énoncé. Cette théorie inscrit ses analyses dans le cadre de la GAC et de la GRACE (Desclés et Ro, 2012) dont les objectifs sont bien plus larges que, uniquement, le traitement du temps et de l'aspect. Une méthode complémentaire à cette théorie est la technique linguistique et computationnelle de l Exploration Contextuelle (Desclés, 1997). Elle permet, entre autres, d identifier les relations sémantiques dans les textes. En effet, il existe des expressions qui structurent sémantiquement un texte et qui sont porteuses de la sémantique d une relation. Ces expressions, que nous appelons indicateurs, sont repérables à la surface des textes. Cependant, ceux-ci sont en général indéterminés sémantiquement : leur emploi dépend du contexte de leurs occurrences dans la proposition, dans la phrase ou dans le paragraphe. Il est donc nécessaire de repérer certains indices contextuels afin de réduire le bruit, qui, sans ces indices, serait trop important pour l utilisateur. En effet, un locuteur français, s il est confronté à une phrase contenant l expression "X a rencontré Y", supposerait naturellement qu elle exprime un événement de type rencontre entre deux personnes. Néanmoins, la simple présence de cette expression n est pas suffisante pour identifier clairement la relation. Par exemple, la phrase "Il est difficile de croire que X a rencontré Y" n indique pas une rencontre réalisée, bien au contraire. L objectif de l Exploration Contextuelle est alors de lever l indétermination sémantique des marqueurs linguistiques (les indicateurs associés à un point de vue) en tenant compte de leurs contextes par une approche automatisable. 1 Laboratoire de Langues, Logiques, Informatique et Cognition, www.paris-sorbonne.fr./lalic/ 2

Plusieurs applications ont été développées en se basant sur cette technique d exploration contextuelle pour aboutir à des annotations automatiques de textes (Desclés et Le Priole, 2010). Nous citons principalement les applications suivantes : résumé automatique et les fiches de synthèse (Blais, 2008), l extraction et la catégorisation des citations (Mourad, 2001; Alrahabi, 2010), évaluation des articles scientifiques par une analyse des citations entre auteurs par une approche bibliosémantique (Bertin, 2011), l identification des définitions à partir de textes scientifiques (Teissedre et al., 2008, Hacène, 2008), les flux RSS pour la rencontre (Djioua et al., 2007), l annotation des relations de localisation et d identification (Le Priol et al., 2006), l annotation des spécifications informatiques de besoins pour la conception de logiciels (Garcia-Flores, 2007), l identification des hypothèses dans des textes en biologie (Desclés et al., 2010, Makkaoui et al., 2011). Notre travail s inscrit dans ce cadre général d annotation automatique. Nous proposerons des algorithmes et des formalisations compatibles avec la théorie aspecto-temporelle ci-dessus et nous basons notre extraction des événements sur des annotations déterminées par l exploration contextuelle. 2 Problématique À travers l analyse des travaux existants sur l extraction des événements (Bettard, 2012), (Muller, 2012), (Pustojeosski, 2012), (Perent, 2012), (Shih-Hung et al. 2004), (Setzer et Gaizauskas, 2000), (Wei Li et al. 2006), SyDoM (Roussey et al. 2002), (Naughton et al. 2006) etc., nous avons constaté que les approches proposées présentent plusieurs insuffisances : Elles sont testées et validées sur un corpus de taille réduite (une dizaine de textes). Elles font appel dans leurs chaines de traitement à certaines analyses linguistiques (morphologique, syntaxique, grammaticale, et de dépendance fonctionnelle) qui nécessitent des ressources linguistiques non négligeables et un temps de traitement relativement important, sans pour autant garantir une qualité d analyse fiable. De plus, une petite partie de résultats d analyses préalables est utilisée pour fournir des procédures de décision qui identifient la présence des événements associés certaines phrases. Ceci empêche le passage à une grande échelle pour les systèmes qui se basent uniquement sur cette stratégie. Cependant, le traitement d un grand nombre de documents est évidemment une nécessité qui s est renforcée ces dernières années, au vu de la masse de documents disponibles en format électronique (Web 2.0 et services d Internet) qu il faut gérer afin d extraire ou de filtrer des informations, dans notre cas 3

liées à des événements pertinents. A titre d exemple, plusieurs agences de presse (Reuters, Aljazeera, CNN, etc.) publient quotidiennement des milliers d articles contenant plusieurs événements de toutes sortes; des blogueurs mettent en ligne des documents par rapport à ces mêmes événements, des internautes commentent ce contenu. Les preneurs de décision, se trouvent face à un grand nombre d événements extraits dont quelques uns seulement les concernent. Dans ce contexte, nous proposons de développer une approche capable d extraire les événements, avec une certaine catégorisation qui leur est attachée, à partir dans des corpus de grande taille. Ceci passe nécessairement par la réduction de la complexité de ce problème. D un point de vue théorique, nous pouvons catégoriser les travaux d extraction d événements, en deux grandes familles : grammaticales et spécifiques. Nous avons analysé en détails deux approches représentatives de ces deux familles, respectivement TimeML et ACE. Nous avons constaté une modélisation plate, un seul niveau hiérarchique des concepts pour TimeML, et une hyper spécification pour ACE (Chapitre 3). Les deux spécifications définissent les catégories par des exemples et elles ne se référent pas à des théories sémantiques qui généralisent l extraction d événements. En d autres termes, nous avons remarqué, que la notion d «événement» est souvent mal définie, peu formalisée, et ne s inscrit pas dans des cadres théoriques plus généraux pour une analyse discursive des textes. Ainsi, nous proposons de formaliser la définition des événements et leur reconnaissance dans les textes en proposant des cartes sémantiques sous-jacentes. Les définitions et les algorithmes que nous proposons sont compatibles avec la théorie linguistico-cognitive (Desclés, 1990) qui permet d expliquer d autres phénomènes linguistiques, allant audelà de l extraction des événements, comme l utilisation de référentielle et la prise en compte des opérateurs de pensé de la langue énonciative. Par ailleurs, nous avons constaté l absence d un schéma générique d annotation des événements, ce qui entraine des problèmes d interopérabilité entre des systèmes d extraction d événements. En effet, chaque système utilisant son propre schéma d annotation, ce dernier devient interprétable par un autre. Cela freine les ambitions déclarées du Web Sémantique où, par définition, les systèmes communiquent selon des standards et doivent s interpréter mutuellement. Par conséquent, un système quelconque doit être doté des capacités qui permettent la réutilisation des annotations. Pour cela, nous proposons de mettre en place des cartes sémantiques génériques 4

conçues comme des ontologies de haut niveau (Upper Level Ontology et Top Domain ontology). Ces cartes sémantiques opèrent au-dessous des domaines d applications, dans le but d assurer une réutilisation inter-domaines. Nous avons remarqué qu il n y a pas de scénarios génériques d exploitation des événements annotés. Nous proposons de mettre en place des mesures de similarités génériques entre les annotations sémantiques et les événements particuliers. Enfin, nous avons constaté que les résultats obtenus par les systèmes d extraction des événements ne sont pas toujours satisfaisants. À titre d exemple, lors de la dernière compagne d évaluation organisée par le Data Linguistic consortium 2 (ACE, 2009), le meilleur système a obtenu 14,4 % de précision. Nous proposons donc, dans le cadre de notre travail, d utiliser des techniques efficaces qui permettent d augmenter le taux de reconnaissance des événements et cela dans un temps raisonnable de traitement. 3 Objectifs de notre travail À la lumière des problèmes évoqués ci-dessus, nous proposons de mettre en place une approche automatique d annotation sémantique des segments textuels contenant des événements afin d extraire ces événements et les exploiter dans des applications plus finalisées. Nous commençons par une évaluation de la composante d extraction sur un corpus de documents écrits en français. Puis, nous avons testé cette composante sur un corpus de documents écrits en arabe. Nous avons choisi deux langues représentatives de deux familles différentes afin de montrer l aspect multi-langue de l approche. Un de nos objectifs, au-delà de la modélisation et de développement d'une application d extraction des événements, est de faire le point sur les différentes approches existantes dans ce domaine. Nous proposerons, aussi, de réduire la complexité de détection des événements, qui représente la source principale de lourdeur des systèmes existants. Nous proposerons d'introduire des définitions formelles de la notion d événement et des ressources linguistiques qui lui sont associées. Nous mettons en place des cartes sémantiques génériques et des règles permettant de les reconnaître dans le texte. 2 www.ldc.upenn.edu/ 5

Au niveau de l implémentation du système, nous suivons les standards du W3C pour les langages de spécification et les formats des résultats produits. Nous assurerons un accès convivial aux modules et aux ressources développées par le biais d interfaces dynamiques en fonction du rôle de l utilisateur. Ce rôle peut être un constructeur de cartes sémantiques, un exploiteur des résultats d annotation ou un administrateur. En ce qui concerne le regroupement des événements similaires, nous proposons de nouvelles mesures de similarités entre les événements qui exploitent la structure ontologique sousadjacente aux cartes sémantiques et le processus d annotations obtenus. Ces mesures donnent lieu à des regroupements hiérarchiques et peuvent être utilisées dans d autres tâches telles que l indexation et la recherche d événements ou dans un résumé automatique etc. L approche doit être réorganisée en composantes indépendantes, dans le but d assurer une réutilisation des composantes élémentaires par d autres systèmes dans d autres contextes d utilisation. 4 Approche proposée L approche que nous proposons s inscrit à la fois dans le cadre du traitement automatique de la langue et du Web sémantique. D une part, elle aborde l extraction d événements dans des textes et fournit des algorithmes capables d annoter automatiquement des corpus textuels de grande taille. D autre part, elle propose des ontologies linguistiques suivant les standards définis par le W3C. Ces standards sont respectés au niveau du format des résultats fournis aux utilisateurs à la sortie de chaque étape de la chaine de traitement. L approche consiste à nettoyer les documents provenant du Web les segmenter puis à repérer par la suite les événements présents dans ces documents. Il est proposé des scénarios d exploitation générique de ces annotations, comme un regroupement d événements similaires en utilisant de nouvelles mesures de similarités, la constituant de fiches de synthèse à partir d un ensemble de documents choisis par un utilisateur cherchant à rassembler dans une fiche toute déclaration textuelle au sujet d un événement particulier. Les mesures de similarités ont été intégrées dans un algorithme de Clustering. Mais, elles peuvent utiliser d autres tâches comme l indexation, les systèmes de question réponse, résumé automatique etc.). Cette approche est formée par quatre composantes que nous décrivons ci-après brièvement : 1. Le prétraitement consiste d une part, à détecter les frontières des phrases dans un texte, d autre part à nettoyer les documents, les images, et les affiches publicitaires. Cette 6

composante utilise les balises originales (qui accompagnent les documents téléchargés) dans le processus de reconnaissance des frontières des segments. 2. L extraction des événements permet d extraire les événements textuels. Elle se base sur un algorithme d annotation et des cartes sémantiques ainsi que des ressources linguistiques dédiées. Nous avons proposé, d abord, une formalisation des définitions des événements et du processus de leur extraction ainsi que les ressources linguistiques utilisées. Ensuite, nous avons mis en place un algorithme qui dispose d une complexité polynomiale inférieure à ceux proposés par les autres approches. Enfin, afin de montrer l aspect multi-langue de l approche nous avons ajusté à la carte sémantique et ses ressources à la langue arabe. 3. Le Clustering consiste à regrouper les segments se référant à un même événement ou à des événements similaires. Pour cela, nous avons mis en place deux mesures de similarité : une première mesure SimCatégorielle entre les annotations sémantiques en général, qui exploite le processus d annotation. La deuxième mesure EventSim intègre les paramètres d un événement. Les deux mesures ont été utilisées dans un algorithme de groupement hiérarchique (Clustering) mais elles sont génériques et peuvent être utilisées dans la recherche d information, des systèmes de question-réponse, le résumé automatique etc. 4. l exploitation des annotations permet d utiliser les annotations ajoutées au texte lors des étapes précédentes, sous forme de fiches de synthèse paramétrables par l utilisateur. Nous avons mis en place des interfaces graphiques qui permettent un développement d autres cartes sémantiques, et d autres ressources linguistiques, tout en respectant les standards W3C, au niveau de la représentation des données et au niveau des langages utilisés. Des fiches de synthèse des événements ont été mises en place. Elles sont dynamiques et paramétrées par l utilisateur. D une manière générale, nous chercherons à montrer quel est l intérêt d exploiter dans un texte les marques de surface révélant des informations sémantiques sans un traitement en profondeur du texte et sans une analyse morphosyntaxique ou syntaxique préalable. Ces marques de surface constituent effectivement des signes efficaces pour l identification des segments pertinents par des applications en recherche ou extraction d information. Une telle approche, à la différence d autres approches, plus courantes en TAL, qui emploient des techniques fréquentielles, permet une analyse fine et plus fiable des textes. Le contenu du texte devient catégorisé par des annotations associées à des cartes. Les segments se 7

distinguent à partir de leur rôle discursif. Par conséquent, c est l exploitation de tout ceci qui nous permettra de proposer d autres applications plus étendues que celles offertes par les systèmes d extraction des événements classiques dédiés à cette unique action. Par ailleurs, nous avons comparé notre méthode avec des méthodes d apprentissage automatique et des méthodes linguistiques par compilation (analyse morphosyntaxique, et représentation sémantique et programmatique par des grammaires locales) sur les mêmes corpus. Nous avons obtenu une amélioration de F-score, par rapport aux deux méthodes, de respectivement de 40% et 15%. 8