Solutions de traitement du document textuel avec prise en charge de ressources linguistiques

135 Schedae, 2006 Prépublication n 17 Fascicule n 1 Solutions de traitement du document textuel avec prise en charge de ressources linguistiques Abderrafih Lehmam Pertinence Mining SARL 82, avenue Jean Jaurès 94 400 Vitry sur Seine, France http://www.pertinence-mining.com lehmam@pertinence.net Résumé : Dans cette article nous avons choisi de présenter quelques solutions de traitement du document utilisant la technologie du text mining. Nous avons toutefois insisté sur celle du résumé de texte automatique. Après avoir défini le text mining nous avons d abord exposé une architecture construite informatiquement autour de ressources et de techniques linguistiques. L avenir des solutions en text mining ne fait que commencer avec l avènement Internet et la profusion du document électronique. Mots-clés : résumé automatique de texte, résumé automatique, plate-forme de veille, intelligence économique, outil de veille, cartographie de l information Abstract : The paper presents some solutions in text mining, with special focus on automatic summarization and applications to Arabic. After providing a definition of text mining, we describe a software architecture based on linguistic resources and techniques, and give an overview of several summarization techniques. This is only a beginning in the future of text mining technologies, with the growing prevalence of the Internet. Keywords : summarizer, automatic summarization, text summarization, document summarization, watch platform, information mapping Introduction Dans le monde professionnel il est important de mettre à disposition des technologies de traitement de l information permettant d aller rapidement à l essentiel dans un document textuel. Le but étant d assister l utilisateur, par des outils, afin qu il puisse passer moins de temps à chercher l information et davantage à en exploiter le contenu essentiel. Le traitement automatique du langage (TAL), de plus en plus, remplacé par le concept «Text Mining» chez Abderrafih Lehmam «Solutions de traitement du document textuel avec prise en charge de ressources linguistiques»

136 les professionnels, offre des possibilités réelles pour répondre aux besoins exprimés au niveau du traitement de document électronique. En effet, au vu du flot d information que nous connaissons ; accéder aujourd hui à l information textuelle utile est devenu un vrai «casse-tête» pour l utilisateur en quête d information textuelle réutilisable. Le Text Mining répond, en parti, à cette problématique. L étude du text mining repose particulièrement sur des liens très étroits entre des recherches en linguistique textuelle et sur les formalisations adéquates en vue d une réalisation informatique. L enjeu est ici de pouvoir d un côté valider la pertinence des recherches théoriques entreprises en linguistique et de l autre de pouvoir les rendre utiles pour la réalisation de logiciels efficaces en discernant entre ce qui peut être «informatisable» et ce qui ne peut pas l être. Le but est de produire des technologies réellement utilisées dans le monde professionnel telles que le résumé de texte automatique, les plates-formes de veille (technologique, sanitaire, intelligence économique ), la cartographie de l information textuelle issue de l actualité ou encore les moteurs et les métamoteurs de recherche sur Internet. Nous nous proposons dans cet article, d abord d exposer des technologies en ce domaine développées par la société Pertinence Mining et ensuite de les illustrer par des exemples illustrant des situations concrètes d utilisation. Nous nous focaliserons, toutefois, par manque de place, que sur la technologie du résumé de texte automatique. Dès lors, nous ne présenterons que rapidement les autres solutions sachant que ses technologies intègrent, toutes, la fonctionnalité de résumé de texte automatique. La méthode utilisée est initiée des travaux introduits par Edmundson (1968). Cette même méthode a été améliorée par plusieurs chercheurs, chacun y apportant une «valeur ajoutée» dans ses écrits et dans ses réalisations (Paice 1990, Lehmam 1995-2006, Radev 2000). Avec l avènement du document textuel électronique suite au développement fulgurant de l informatique, des besoins réels se posent maintenant au niveau de l extraction de l information utile noyée dans des gigaoctets voire des téraoctets de données textuelles véhiculées dans les différents supports et infrastructures numériques. Devant les besoins naissant provoqués par cette réalité préoccupante, nous avons tout naturellement choisi d axer nos recherches et développements, dans le cadre de la société Pertinence Mining, dans ce qu on appelle aujourd hui le text mining. Ce domaine de recherche propose de répondre au besoin d extraction, de filtrage et d exploitation d un flot d informations textuelles toujours plus abondant par des solutions liant les deux disciplines la linguistique et l informatique pour apporter des réponses à un besoin qui sera de plus en plus problématique et forcément tendant à s accroître dans l avenir. Les solutions que nous développons visent la résolution des problèmes liés à la surabondance d information. On peut définir le text mining comme ce processus qui permet d analyser le texte pour extraire les informations efficientes en vue d une réutilisation bénéfique pour des buts précis. Des outils s appuyant sur des méthodes principalement linguistiques, et parfois, faisant appel aux techniques des réseaux neuronaux, de la statistique ou du datamining, traduites dans des codes informatiques pour permettre de «comprendre» (mining) artificiellement le texte (text) en vue d extraire une quantité d information limitée mais pertinente afin de répondre au besoin recherché qui est principalement le gain de temps pour une meilleure productivité mais aussi l aide à la prise de décision. Dans le cadre du colloque ISDD 06, nous proposons de faire des démonstrations d applications conçues de façon à permettre le traitement intelligent de l information documentaire, en puisant dans des ressources linguistiques multilingues, pour l analyse, la recherche et l extraction de l information pertinente pour une meilleure utilisation. Ces solutions œuvrent dans : Le résumé de texte automatique multilingue ; La veille multilingue : collecte, traitement, visualisation, diffusion et exploitation ;

137 La cartographie de l information textuelle avec mesure de visibilité (baromètre) ; La méta-recherche avec filtrage des résultats des moteurs de recherche classiques. Nous nous contentons dans cet écrit à décrire rapidement la solution de résumé automatique. La solution Pertinence Summarizer (http://www.pertinence.net/ps) identifie les phrases les plus pertinentes d un texte en vue de leur extraction pour la constitution d un résumé, paramétrable dynamiquement. Cette application tient compte de la spécificité du texte et de sa thématique (domaines) en se fondant exclusivement sur des techniques d analyse linguistique du discours. Quelques points précisant ce qui est pris en charge lors du traitement : reconnaissance d éléments phrastiques pour évaluer la pertinence de la phrase en vue de sa sélection pour la constitution du résumé ; traitement morpho-syntaxique, dictionnaire morphologique spécifique ; base synonymique spécifique, terminologie du domaine, personnalisation par utilisateur ; structuration de la base des marqueurs selon les domaines ; spécialisation par domaine en vue de produire des résumés tenant compte du thème du texte ; Intégrations de thésaurus pour appuyer en pertinence les résumé produits ; prise en compte des termes pour les besoins d utilisateur, ce dernier est invité à entrer des termes/expressions en vue d aiguiller le résultat du résumé par rapport son besoin ; aide à la lecture rapide par coloration nuancée des phrases au moyen la couleur choisie ; navigation sur les termes d un domaine donné avec possibilité d extraction des synonymes, d antonymes ainsi que d autres relations sémantiques mais aussi des entités nommés trouvées dans le texte. Dans l exemple de copie d écran de Pertinence Summarizer ci-dessous (figure 1), il est montré une extraction des termes descripteurs du domaine juridique avec reconnaissance des termes non-descripteurs et descripteurs, en couleur jaune. En couleur rouge sont indiqués les termes non-descripteur exprimant la relation de synonymie (sanction pénale condamnation). Figure 1 : Extraction des termes d un domaine avec mise en relief de la relation de synonymie.

138 Cette fonctionnalité montre le degré d intelligence artificielle avancée du logiciel dans la mesure où l utilisateur a accès, en plus du résumé automatique, à la connaissance par l acquisition, la compréhension et l enrichissement de son capital lexique d un domaine donné grâce aux relations sémantiques explicitées automatiquement. Cette solution d accès rapide à l information textuelle est intégrée d office dans tous les outils 1 de Pertinence Mining. Ces derniers sont tous testables en ligne sur Internet. La prise en compte de ressources linguistiques va nous permettre la réalisation de fonctionnalités avancées dans Pertinence Summarizer : il est possible, par exemple, de naviguer sur les termes d un domaine donné avec possibilité d extraction de différentes relations sémantiques, à la demande : synonymes, antonymes, homonymes, sigles, entités nommés, etc. Une aide à la lecture rapide par coloration nuancée des phrases est aussi possible. L interface de soumission du document textuel à résumer propose diverses possibilités pour non seulement pouvoir extraire l information importante mais aussi pouvoir aider l utilisateur à exploiter cette dernière par la lecture rapide ou la lecture en diagonale du texte source. D autres fonctionnalités purement pragmatico-informatiques vont elles permettre la récupération des références anaphoriques orphelines. Pertinence Summarizer va non seulement, permettre de résumer des documents issus d un support matériel (disque dur, disquette, clefs USB, etc.), d une URL Internet ou intranet, d un copié/collé mais aussi de résumer automatiquement l ensemble des documents d un dossier ou d un répertoire et ceci en un seul clic. C est cette dernière fonctionnalité que nous avons choisie de montrer comme seconde illustration pour le traitement de la langue arabe. Par exemple, en imaginant que l utilisateur se trouve confronté à la réalisation d un rapport ou d un mémoire de thèse de doctorat ou autre, une solution pouvant résumer automatiquement un dossier de documents ne peut que lui faire gagner du temps quant à leur exploration. Dans ce cas précis, les résumés automatiques pourront rapidement lui fournir suffisamment d informations pertinentes pour l aiguiller vers le texte utile parmi un nombre important de documents présents dans un dossier. Le traitement de plusieurs dossiers ne peut que l assister dans sa productivité. Nous donnons ci-dessous un exemple traitant un dossier contenant de nombreux textes en langue arabe (figure 2). Figure 2 : Résumé automatique à la volée de nombreux documents contenus dans un répertoire. 1. Pertinence Information Network : plate-forme de veille (http://www.pertinence.net/pin). PODoo : métamoteur de recherche (http://www.podoo.net) Connivences : cartographie intelligente de l actualité (http://www.connivences.info)

139 Cette fonctionnalité permet l exploration rapide de l information pertinente qui est ici facilitée devant un gros volume de textes. Les résumés automatiques produits par Pertinence Summarizer à partir d un dossier ou d un répertoire vont donner suffisamment d informations efficientes pour que l utilisateur puisse décider de porter son choix sur les textes les plus intéressants à dépouiller. Ensuite, le bouton «Résumé avancé» va lui permettre d explorer en dynamique le texte source afin de récupérer rapidement l information quêtée. L intégration de terminologies ou de thesaurus par domaines thématiques va permettre des fonctionnalités intelligentes de text mining ou de fouille de texte comme montré plus haut. Conclusion La technologie du text mining est une discipline qui tendra à ce développer dans l avenir car les documents textuels électroniques sont devenus d un usage vulgarisé et ce dans une proportion toujours croissante. Comme le résumé automatique de texte, nous verrons de plus en plus apparaître des solutions innovantes qui proposeront des outils de traitement du document textuel pour faciliter l accès à l information. Pour notre part, nous continuons à réfléchir à d autres applications qui se fonderont strictement sur des ressources et des techniques linguistiques en vue de répondre à un problème crucial : la maîtrise de l information. La difficulté à résoudre reste toutefois l élaboration de bonnes formalisations qui permettraient de faire collaborer en bonne intelligence les deux disciplines à savoir la linguistique et l informatique. Bibliographie EDMUNDSON H.P. (1968), «New methods in automatic extraction», Journal of the ACM, 16 (2), p. 264-285. LEHMAM A. (1999), «Text structuration leading to an automatic summary system», Information Processing and Management, 35, p. 181-191, 1999, Elsevier Science, New York, USA. LEHMAM A (2002), «Résumé de texte automatique : vers des solutions professionnelles», Journée ATALA sur le résumé de texte automatique initiée et organisée par A. Lehmam (Pertinence Mining, Paris) avec l aide du laboratoire du Pr. J.-P. Desclés (LaLICC FRE 2520 CNRS Paris IV) ENST Paris, décembre 2002. LEHMAM A. (2006a), «Solutions de Text Mining pour l intelligence économique, vers la veille intelligente», Congrès TELMI 06 organisé par l ARIST Nord-Pas de Calais et l Université de Lille 3 (Master GIDE-PRISME UFR IDIST) «Les Outils de Veille Stratégique», 30 mars 2006, Lille, France. LEHMAM A. (2006b), «Technologie textuelle multilingue», AAFD 06 2 e Journées Thématiques «Apprentissage Artificiel et Fouille de Données», Université Paris 13, Institut Galilée, 27-28 avril, Paris, France. LEHMAM A., BOUVET P. (2004a), «Watch application, summarization and syndication in Arabic», in Proceedings of the conference nemlar '04 «arabic language resources and tools conference», p. 157-163, 22-23 Septembre 2004, Le Caire, Égypte. LEHMAM A., BOUVET P. (2004b), «Un résumeur automatique de textes multilingues intégré dans une plate-forme de veille ; application à la langue arabe», in Actes de la conférence JEP-TALN-RECITAL 2004, p. 111-122, Fès, Maroc. PAICE C.D. (1990), «Constructing literature abstracts by computer techniques and prospects», Information Processing and Management, 1, New York, Elsevier Science, p. 171-186. RADEV D (2000), «Summarization of multiple documents : clustering, sentence extraction», ANLP-NAACL Workshop on Automatic Summarization, April 2000, Seattle, USA.