Université de Paris-Sorbonne École Doctorale Concepts et Langages Laboratoire LaLIC (Langue, Logique, Informatique et Cognition) Université de Tunis Institut Supérieur de Gestion Laboratoire LARODEC (Recherche Opérationnelle, Décision et Contrôle de Processus) T H È S E pour obtenir le grade de DOCTEUR DE L UNIVERSITÉ PARIS-SORBONNE Discipline : Mathématiques et Informatique Appliquées aux Sciences de l Homme Spécialité : Informatique Présentée et soutenue par : AYMEN EL KHELIFI le 30 Octobre 2012 Approche Générique d Extraction Automatique des Evénements et leur Exploitation Sous la direction de : M. Jean Pierre Desclés, Professeur émérite, en Informatique, Université Paris Sorbonne, Directeur de thèse. Mme Rim Faiz, Professeur en Informatique, Université de Carthage, Directeur de thèse. JURY : M. Guy Lapalme, Professeur en informatique, Université de Montréal (Canada), Rapporteur M. Abdelmajid Ben Hamadou, Professeur en informatique, Université de Sfax (Tunisie), Rapporteur M. Jean-Gabriel Ganascia, Professeur en informatique, Université PMC, Paris 6 (France), Examinateur Mme Delphine Battistelli, Maître de conférences (HDR), Université Paris Sorbonne (France), Examinateur 1
1 Domaines d applications et contexte de travail Acquérir des connaissances à partir de textes est une nécessité qui s'est accélérée ces dernières années, avec l explosion des données disponibles sur le Web et l apparition du Web 2.0. Cette masse grandissante de contenus textuels, disponible dans des documents numériques en ligne, nécessite un traitement automatique afin de filtrer des informations pertinentes et précises. Ce qui pose un défi à la communauté scientifique qui doit être en mesure de proposer des systèmes efficaces d extraction d informations notamment avec la diversité des domaines applications demandeurs de ce genre d outil. Le présent travail de thèse est réalisé au sein du laboratoire LaLIC 1, où une théorie aspectotemporelle a été développée depuis 1990 par J.P Desclés. Cette théorie considère que des opérateurs aspect-temporels agissent sur un noyau prédicatif (cf. chapitre 2). L opérateur aspecto-temporel s applique à un opérande constitué par la relation prédicative sous-jacente à l énoncé. Cette théorie inscrit ses analyses dans le cadre de la GAC et de la GRACE (Desclés et Ro, 2012) dont les objectifs sont bien plus larges que, uniquement, le traitement du temps et de l'aspect. Une méthode complémentaire à cette théorie est la technique linguistique et computationnelle de l Exploration Contextuelle (Desclés, 1997). Elle permet, entre autres, d identifier les relations sémantiques dans les textes. En effet, il existe des expressions qui structurent sémantiquement un texte et qui sont porteuses de la sémantique d une relation. Ces expressions, que nous appelons indicateurs, sont repérables à la surface des textes. Cependant, ceux-ci sont en général indéterminés sémantiquement : leur emploi dépend du contexte de leurs occurrences dans la proposition, dans la phrase ou dans le paragraphe. Il est donc nécessaire de repérer certains indices contextuels afin de réduire le bruit, qui, sans ces indices, serait trop important pour l utilisateur. En effet, un locuteur français, s il est confronté à une phrase contenant l expression "X a rencontré Y", supposerait naturellement qu elle exprime un événement de type rencontre entre deux personnes. Néanmoins, la simple présence de cette expression n est pas suffisante pour identifier clairement la relation. Par exemple, la phrase "Il est difficile de croire que X a rencontré Y" n indique pas une rencontre réalisée, bien au contraire. L objectif de l Exploration Contextuelle est alors de lever l indétermination sémantique des marqueurs linguistiques (les indicateurs associés à un point de vue) en tenant compte de leurs contextes par une approche automatisable. 1 Laboratoire de Langues, Logiques, Informatique et Cognition, www.paris-sorbonne.fr./lalic/ 2
Plusieurs applications ont été développées en se basant sur cette technique d exploration contextuelle pour aboutir à des annotations automatiques de textes (Desclés et Le Priole, 2010). Nous citons principalement les applications suivantes : résumé automatique et les fiches de synthèse (Blais, 2008), l extraction et la catégorisation des citations (Mourad, 2001; Alrahabi, 2010), évaluation des articles scientifiques par une analyse des citations entre auteurs par une approche bibliosémantique (Bertin, 2011), l identification des définitions à partir de textes scientifiques (Teissedre et al., 2008, Hacène, 2008), les flux RSS pour la rencontre (Djioua et al., 2007), l annotation des relations de localisation et d identification (Le Priol et al., 2006), l annotation des spécifications informatiques de besoins pour la conception de logiciels (Garcia-Flores, 2007), l identification des hypothèses dans des textes en biologie (Desclés et al., 2010, Makkaoui et al., 2011). Notre travail s inscrit dans ce cadre général d annotation automatique. Nous proposerons des algorithmes et des formalisations compatibles avec la théorie aspecto-temporelle ci-dessus et nous basons notre extraction des événements sur des annotations déterminées par l exploration contextuelle. 2 Problématique À travers l analyse des travaux existants sur l extraction des événements (Bettard, 2012), (Muller, 2012), (Pustojeosski, 2012), (Perent, 2012), (Shih-Hung et al. 2004), (Setzer et Gaizauskas, 2000), (Wei Li et al. 2006), SyDoM (Roussey et al. 2002), (Naughton et al. 2006) etc., nous avons constaté que les approches proposées présentent plusieurs insuffisances : Elles sont testées et validées sur un corpus de taille réduite (une dizaine de textes). Elles font appel dans leurs chaines de traitement à certaines analyses linguistiques (morphologique, syntaxique, grammaticale, et de dépendance fonctionnelle) qui nécessitent des ressources linguistiques non négligeables et un temps de traitement relativement important, sans pour autant garantir une qualité d analyse fiable. De plus, une petite partie de résultats d analyses préalables est utilisée pour fournir des procédures de décision qui identifient la présence des événements associés certaines phrases. Ceci empêche le passage à une grande échelle pour les systèmes qui se basent uniquement sur cette stratégie. Cependant, le traitement d un grand nombre de documents est évidemment une nécessité qui s est renforcée ces dernières années, au vu de la masse de documents disponibles en format électronique (Web 2.0 et services d Internet) qu il faut gérer afin d extraire ou de filtrer des informations, dans notre cas 3
liées à des événements pertinents. A titre d exemple, plusieurs agences de presse (Reuters, Aljazeera, CNN, etc.) publient quotidiennement des milliers d articles contenant plusieurs événements de toutes sortes; des blogueurs mettent en ligne des documents par rapport à ces mêmes événements, des internautes commentent ce contenu. Les preneurs de décision, se trouvent face à un grand nombre d événements extraits dont quelques uns seulement les concernent. Dans ce contexte, nous proposons de développer une approche capable d extraire les événements, avec une certaine catégorisation qui leur est attachée, à partir dans des corpus de grande taille. Ceci passe nécessairement par la réduction de la complexité de ce problème. D un point de vue théorique, nous pouvons catégoriser les travaux d extraction d événements, en deux grandes familles : grammaticales et spécifiques. Nous avons analysé en détails deux approches représentatives de ces deux familles, respectivement TimeML et ACE. Nous avons constaté une modélisation plate, un seul niveau hiérarchique des concepts pour TimeML, et une hyper spécification pour ACE (Chapitre 3). Les deux spécifications définissent les catégories par des exemples et elles ne se référent pas à des théories sémantiques qui généralisent l extraction d événements. En d autres termes, nous avons remarqué, que la notion d «événement» est souvent mal définie, peu formalisée, et ne s inscrit pas dans des cadres théoriques plus généraux pour une analyse discursive des textes. Ainsi, nous proposons de formaliser la définition des événements et leur reconnaissance dans les textes en proposant des cartes sémantiques sous-jacentes. Les définitions et les algorithmes que nous proposons sont compatibles avec la théorie linguistico-cognitive (Desclés, 1990) qui permet d expliquer d autres phénomènes linguistiques, allant audelà de l extraction des événements, comme l utilisation de référentielle et la prise en compte des opérateurs de pensé de la langue énonciative. Par ailleurs, nous avons constaté l absence d un schéma générique d annotation des événements, ce qui entraine des problèmes d interopérabilité entre des systèmes d extraction d événements. En effet, chaque système utilisant son propre schéma d annotation, ce dernier devient interprétable par un autre. Cela freine les ambitions déclarées du Web Sémantique où, par définition, les systèmes communiquent selon des standards et doivent s interpréter mutuellement. Par conséquent, un système quelconque doit être doté des capacités qui permettent la réutilisation des annotations. Pour cela, nous proposons de mettre en place des cartes sémantiques génériques 4
conçues comme des ontologies de haut niveau (Upper Level Ontology et Top Domain ontology). Ces cartes sémantiques opèrent au-dessous des domaines d applications, dans le but d assurer une réutilisation inter-domaines. Nous avons remarqué qu il n y a pas de scénarios génériques d exploitation des événements annotés. Nous proposons de mettre en place des mesures de similarités génériques entre les annotations sémantiques et les événements particuliers. Enfin, nous avons constaté que les résultats obtenus par les systèmes d extraction des événements ne sont pas toujours satisfaisants. À titre d exemple, lors de la dernière compagne d évaluation organisée par le Data Linguistic consortium 2 (ACE, 2009), le meilleur système a obtenu 14,4 % de précision. Nous proposons donc, dans le cadre de notre travail, d utiliser des techniques efficaces qui permettent d augmenter le taux de reconnaissance des événements et cela dans un temps raisonnable de traitement. 3 Objectifs de notre travail À la lumière des problèmes évoqués ci-dessus, nous proposons de mettre en place une approche automatique d annotation sémantique des segments textuels contenant des événements afin d extraire ces événements et les exploiter dans des applications plus finalisées. Nous commençons par une évaluation de la composante d extraction sur un corpus de documents écrits en français. Puis, nous avons testé cette composante sur un corpus de documents écrits en arabe. Nous avons choisi deux langues représentatives de deux familles différentes afin de montrer l aspect multi-langue de l approche. Un de nos objectifs, au-delà de la modélisation et de développement d'une application d extraction des événements, est de faire le point sur les différentes approches existantes dans ce domaine. Nous proposerons, aussi, de réduire la complexité de détection des événements, qui représente la source principale de lourdeur des systèmes existants. Nous proposerons d'introduire des définitions formelles de la notion d événement et des ressources linguistiques qui lui sont associées. Nous mettons en place des cartes sémantiques génériques et des règles permettant de les reconnaître dans le texte. 2 www.ldc.upenn.edu/ 5
Au niveau de l implémentation du système, nous suivons les standards du W3C pour les langages de spécification et les formats des résultats produits. Nous assurerons un accès convivial aux modules et aux ressources développées par le biais d interfaces dynamiques en fonction du rôle de l utilisateur. Ce rôle peut être un constructeur de cartes sémantiques, un exploiteur des résultats d annotation ou un administrateur. En ce qui concerne le regroupement des événements similaires, nous proposons de nouvelles mesures de similarités entre les événements qui exploitent la structure ontologique sousadjacente aux cartes sémantiques et le processus d annotations obtenus. Ces mesures donnent lieu à des regroupements hiérarchiques et peuvent être utilisées dans d autres tâches telles que l indexation et la recherche d événements ou dans un résumé automatique etc. L approche doit être réorganisée en composantes indépendantes, dans le but d assurer une réutilisation des composantes élémentaires par d autres systèmes dans d autres contextes d utilisation. 4 Approche proposée L approche que nous proposons s inscrit à la fois dans le cadre du traitement automatique de la langue et du Web sémantique. D une part, elle aborde l extraction d événements dans des textes et fournit des algorithmes capables d annoter automatiquement des corpus textuels de grande taille. D autre part, elle propose des ontologies linguistiques suivant les standards définis par le W3C. Ces standards sont respectés au niveau du format des résultats fournis aux utilisateurs à la sortie de chaque étape de la chaine de traitement. L approche consiste à nettoyer les documents provenant du Web les segmenter puis à repérer par la suite les événements présents dans ces documents. Il est proposé des scénarios d exploitation générique de ces annotations, comme un regroupement d événements similaires en utilisant de nouvelles mesures de similarités, la constituant de fiches de synthèse à partir d un ensemble de documents choisis par un utilisateur cherchant à rassembler dans une fiche toute déclaration textuelle au sujet d un événement particulier. Les mesures de similarités ont été intégrées dans un algorithme de Clustering. Mais, elles peuvent utiliser d autres tâches comme l indexation, les systèmes de question réponse, résumé automatique etc.). Cette approche est formée par quatre composantes que nous décrivons ci-après brièvement : 1. Le prétraitement consiste d une part, à détecter les frontières des phrases dans un texte, d autre part à nettoyer les documents, les images, et les affiches publicitaires. Cette 6
composante utilise les balises originales (qui accompagnent les documents téléchargés) dans le processus de reconnaissance des frontières des segments. 2. L extraction des événements permet d extraire les événements textuels. Elle se base sur un algorithme d annotation et des cartes sémantiques ainsi que des ressources linguistiques dédiées. Nous avons proposé, d abord, une formalisation des définitions des événements et du processus de leur extraction ainsi que les ressources linguistiques utilisées. Ensuite, nous avons mis en place un algorithme qui dispose d une complexité polynomiale inférieure à ceux proposés par les autres approches. Enfin, afin de montrer l aspect multi-langue de l approche nous avons ajusté à la carte sémantique et ses ressources à la langue arabe. 3. Le Clustering consiste à regrouper les segments se référant à un même événement ou à des événements similaires. Pour cela, nous avons mis en place deux mesures de similarité : une première mesure SimCatégorielle entre les annotations sémantiques en général, qui exploite le processus d annotation. La deuxième mesure EventSim intègre les paramètres d un événement. Les deux mesures ont été utilisées dans un algorithme de groupement hiérarchique (Clustering) mais elles sont génériques et peuvent être utilisées dans la recherche d information, des systèmes de question-réponse, le résumé automatique etc. 4. l exploitation des annotations permet d utiliser les annotations ajoutées au texte lors des étapes précédentes, sous forme de fiches de synthèse paramétrables par l utilisateur. Nous avons mis en place des interfaces graphiques qui permettent un développement d autres cartes sémantiques, et d autres ressources linguistiques, tout en respectant les standards W3C, au niveau de la représentation des données et au niveau des langages utilisés. Des fiches de synthèse des événements ont été mises en place. Elles sont dynamiques et paramétrées par l utilisateur. D une manière générale, nous chercherons à montrer quel est l intérêt d exploiter dans un texte les marques de surface révélant des informations sémantiques sans un traitement en profondeur du texte et sans une analyse morphosyntaxique ou syntaxique préalable. Ces marques de surface constituent effectivement des signes efficaces pour l identification des segments pertinents par des applications en recherche ou extraction d information. Une telle approche, à la différence d autres approches, plus courantes en TAL, qui emploient des techniques fréquentielles, permet une analyse fine et plus fiable des textes. Le contenu du texte devient catégorisé par des annotations associées à des cartes. Les segments se 7
distinguent à partir de leur rôle discursif. Par conséquent, c est l exploitation de tout ceci qui nous permettra de proposer d autres applications plus étendues que celles offertes par les systèmes d extraction des événements classiques dédiés à cette unique action. Par ailleurs, nous avons comparé notre méthode avec des méthodes d apprentissage automatique et des méthodes linguistiques par compilation (analyse morphosyntaxique, et représentation sémantique et programmatique par des grammaires locales) sur les mêmes corpus. Nous avons obtenu une amélioration de F-score, par rapport aux deux méthodes, de respectivement de 40% et 15%. 8