Solutions de traitement du document textuel avec prise en charge de ressources linguistiques



Documents pareils
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

ISTEX, vers des services innovants d accès à la connaissance

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Entreposage de données complexes pour la médecine d anticipation personnalisée

Table des matières. Préface...5. Introduction...9

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Mendeley, pour gérer sa bibliographie et la partager. Patricia Volland-Nail

Dafoe Présentation de la plate-forme UIMA

DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION

THOT - Extraction de données et de schémas d un SGBD

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

Les documents primaires / Les documents secondaires

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

Vocabulaire juridique multilingue comparé. Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne

Le concept de veille. Définitions. Définition de l AFNOR

TEXT MINING von 7

PRISE EN MAIN RAPIDE

SECTION 5 BANQUE DE PROJETS

BIG Data et R: opportunités et perspectives

Master Informatique Aix-Marseille Université

Méthode de classification des réponses d un moteur de recherche

Europresse.com. Pour les bibliothèques publiques et de l enseignement. Votre meilleur outil de recherche en ligne. Guide version 1.

TEXT MINING Tour d Horizon

La recherche documentaire

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

CONTACT EXPRESS 2011 ASPIRATEUR D S

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Une méthode d apprentissage pour la composition de services web

Centre de formation digital et communication : www. Komelya.fr

«Un logiciel de gestion des références bibliographiques : pourquoi faire?»

et de la feuille de styles.

16 septembre Lundi de l Economie l. rencement. Foix. CCI Ariège

Cliquez pour du modifier titre le style

La solution pour gérer vos connaissances techniques et scientifiques

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

Premier colloque international sur la veille stratégique multilingue. Université de Genève (ETI, Suisse) mai 2008

Christelle MAZIERE (30 ans)

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

Entrepôt de données 1. Introduction

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

Recherche et veille documentaire scientifique

Recherche bibliographique

sommaire L organisation et la gestion des archives d entreprise...7

QUI SOMMES-NOUS? Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, disposant ou non d une structure de veille dédiée.

Utiliser SQL Server 2008 R2 Reporting Services comme source de donne es pour Microsoft Excel

Lecture critique et pratique de la médecine

Apprentissage Automatique

Quels apprentissages info-documentaires au collège?

WINDOWS SHAREPOINT SERVICES 2007

demander pourquoi mon site n'apparaît pas sur google ou pourquoi mon site n'est pas référencé par les moteurs de recherche?

Le Product Backlog, qu est ce c est?

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Créer et gérer des catégories sur votre site Magento

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier.

Classification Automatique de messages : une approche hybride

Installation d un manuel numérique 2.0

Memento de la recherche documentaire en santé

Le Grand Robert. de la langue française VISITE GUIDÉE VERSION TEXTE

Au-delà de la simple gestion de votre fonds documentaire, évoluez vers la gestion complète de vos flux d informations.

Quel est l apport de la détection d entités nommées pour l extraction d information en domaine restreint?

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

DIFFICULTÉS D ÉTUDIANTS À TROUVER DES ARCHÉTYPES DE MACHINES LORS D UNE RECHERCHE DANS UN HYPERTEXTE

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

RIHANE Abdelhamid Maitre de conférences Université de Constantine (ALGERIE)

LIVRE BLANC Décembre 2014

Etudier l informatique

Intelligence Inventive & Mapping des réseaux de Recherche. Expernova & Active Innovation Management GFII 5 Mars 2015

Concevoir son premier espace de cours sur la plateforme pédagogique Moodle

Guide et conseils généraux pour optimiser le référencement d un site internet

QlikView sur Mobile : Au-delà du reporting

Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, qu ils disposent ou non d une structure de veille dédiée.

1 Description générale. Résumé

Gestion collaborative de documents

Agence web en Suisse romande CH-1260 Nyon

Installation de Microsoft Office Version 2.1

SMALL DATA DANS LA VEILLE

Politique d acquisition et de développement des collections de la Bibliothèque de l EPFL

Service de la Gestion des Archives et de la Documentation. Direction des Ressources Humaines, des Moyens Généraux et des Systémes d information

Réussir sa recherche d information en SHS (1ère partie) 18 mars 2015

Installer Enterprise Miner 5.1 en SAS environnement Windows

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Position de l ASTEE sur l innovation en matière de services d eau et de déchets

des opportunités de succès. L A B O R ATO I R E CO N C E P T I O N D E P RO D U I T S & I N N OVAT I O N L C P I

MASTER LPL : LANGUE ET INFORMATIQUE (P)

7/26/2011. Analyse des besoins. Contextualisation. Univers de pensée et univers de croyance. Droit et interculturel. Les bases de connaissances

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR

Système clients serveur Kwartz Vulgarisation, identification, dossier personnel

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

LabCom SMILK. Social Media Intelligence and Linked Knowledge. ISTE 2013 Keynote thumb wrestling

Hervé Couturier EVP, SAP Technology Development

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Introduction au Data-Mining

Transcription:

135 Schedae, 2006 Prépublication n 17 Fascicule n 1 Solutions de traitement du document textuel avec prise en charge de ressources linguistiques Abderrafih Lehmam Pertinence Mining SARL 82, avenue Jean Jaurès 94 400 Vitry sur Seine, France http://www.pertinence-mining.com lehmam@pertinence.net Résumé : Dans cette article nous avons choisi de présenter quelques solutions de traitement du document utilisant la technologie du text mining. Nous avons toutefois insisté sur celle du résumé de texte automatique. Après avoir défini le text mining nous avons d abord exposé une architecture construite informatiquement autour de ressources et de techniques linguistiques. L avenir des solutions en text mining ne fait que commencer avec l avènement Internet et la profusion du document électronique. Mots-clés : résumé automatique de texte, résumé automatique, plate-forme de veille, intelligence économique, outil de veille, cartographie de l information Abstract : The paper presents some solutions in text mining, with special focus on automatic summarization and applications to Arabic. After providing a definition of text mining, we describe a software architecture based on linguistic resources and techniques, and give an overview of several summarization techniques. This is only a beginning in the future of text mining technologies, with the growing prevalence of the Internet. Keywords : summarizer, automatic summarization, text summarization, document summarization, watch platform, information mapping Introduction Dans le monde professionnel il est important de mettre à disposition des technologies de traitement de l information permettant d aller rapidement à l essentiel dans un document textuel. Le but étant d assister l utilisateur, par des outils, afin qu il puisse passer moins de temps à chercher l information et davantage à en exploiter le contenu essentiel. Le traitement automatique du langage (TAL), de plus en plus, remplacé par le concept «Text Mining» chez Abderrafih Lehmam «Solutions de traitement du document textuel avec prise en charge de ressources linguistiques»

136 les professionnels, offre des possibilités réelles pour répondre aux besoins exprimés au niveau du traitement de document électronique. En effet, au vu du flot d information que nous connaissons ; accéder aujourd hui à l information textuelle utile est devenu un vrai «casse-tête» pour l utilisateur en quête d information textuelle réutilisable. Le Text Mining répond, en parti, à cette problématique. L étude du text mining repose particulièrement sur des liens très étroits entre des recherches en linguistique textuelle et sur les formalisations adéquates en vue d une réalisation informatique. L enjeu est ici de pouvoir d un côté valider la pertinence des recherches théoriques entreprises en linguistique et de l autre de pouvoir les rendre utiles pour la réalisation de logiciels efficaces en discernant entre ce qui peut être «informatisable» et ce qui ne peut pas l être. Le but est de produire des technologies réellement utilisées dans le monde professionnel telles que le résumé de texte automatique, les plates-formes de veille (technologique, sanitaire, intelligence économique ), la cartographie de l information textuelle issue de l actualité ou encore les moteurs et les métamoteurs de recherche sur Internet. Nous nous proposons dans cet article, d abord d exposer des technologies en ce domaine développées par la société Pertinence Mining et ensuite de les illustrer par des exemples illustrant des situations concrètes d utilisation. Nous nous focaliserons, toutefois, par manque de place, que sur la technologie du résumé de texte automatique. Dès lors, nous ne présenterons que rapidement les autres solutions sachant que ses technologies intègrent, toutes, la fonctionnalité de résumé de texte automatique. La méthode utilisée est initiée des travaux introduits par Edmundson (1968). Cette même méthode a été améliorée par plusieurs chercheurs, chacun y apportant une «valeur ajoutée» dans ses écrits et dans ses réalisations (Paice 1990, Lehmam 1995-2006, Radev 2000). Avec l avènement du document textuel électronique suite au développement fulgurant de l informatique, des besoins réels se posent maintenant au niveau de l extraction de l information utile noyée dans des gigaoctets voire des téraoctets de données textuelles véhiculées dans les différents supports et infrastructures numériques. Devant les besoins naissant provoqués par cette réalité préoccupante, nous avons tout naturellement choisi d axer nos recherches et développements, dans le cadre de la société Pertinence Mining, dans ce qu on appelle aujourd hui le text mining. Ce domaine de recherche propose de répondre au besoin d extraction, de filtrage et d exploitation d un flot d informations textuelles toujours plus abondant par des solutions liant les deux disciplines la linguistique et l informatique pour apporter des réponses à un besoin qui sera de plus en plus problématique et forcément tendant à s accroître dans l avenir. Les solutions que nous développons visent la résolution des problèmes liés à la surabondance d information. On peut définir le text mining comme ce processus qui permet d analyser le texte pour extraire les informations efficientes en vue d une réutilisation bénéfique pour des buts précis. Des outils s appuyant sur des méthodes principalement linguistiques, et parfois, faisant appel aux techniques des réseaux neuronaux, de la statistique ou du datamining, traduites dans des codes informatiques pour permettre de «comprendre» (mining) artificiellement le texte (text) en vue d extraire une quantité d information limitée mais pertinente afin de répondre au besoin recherché qui est principalement le gain de temps pour une meilleure productivité mais aussi l aide à la prise de décision. Dans le cadre du colloque ISDD 06, nous proposons de faire des démonstrations d applications conçues de façon à permettre le traitement intelligent de l information documentaire, en puisant dans des ressources linguistiques multilingues, pour l analyse, la recherche et l extraction de l information pertinente pour une meilleure utilisation. Ces solutions œuvrent dans : Le résumé de texte automatique multilingue ; La veille multilingue : collecte, traitement, visualisation, diffusion et exploitation ;

137 La cartographie de l information textuelle avec mesure de visibilité (baromètre) ; La méta-recherche avec filtrage des résultats des moteurs de recherche classiques. Nous nous contentons dans cet écrit à décrire rapidement la solution de résumé automatique. La solution Pertinence Summarizer (http://www.pertinence.net/ps) identifie les phrases les plus pertinentes d un texte en vue de leur extraction pour la constitution d un résumé, paramétrable dynamiquement. Cette application tient compte de la spécificité du texte et de sa thématique (domaines) en se fondant exclusivement sur des techniques d analyse linguistique du discours. Quelques points précisant ce qui est pris en charge lors du traitement : reconnaissance d éléments phrastiques pour évaluer la pertinence de la phrase en vue de sa sélection pour la constitution du résumé ; traitement morpho-syntaxique, dictionnaire morphologique spécifique ; base synonymique spécifique, terminologie du domaine, personnalisation par utilisateur ; structuration de la base des marqueurs selon les domaines ; spécialisation par domaine en vue de produire des résumés tenant compte du thème du texte ; Intégrations de thésaurus pour appuyer en pertinence les résumé produits ; prise en compte des termes pour les besoins d utilisateur, ce dernier est invité à entrer des termes/expressions en vue d aiguiller le résultat du résumé par rapport son besoin ; aide à la lecture rapide par coloration nuancée des phrases au moyen la couleur choisie ; navigation sur les termes d un domaine donné avec possibilité d extraction des synonymes, d antonymes ainsi que d autres relations sémantiques mais aussi des entités nommés trouvées dans le texte. Dans l exemple de copie d écran de Pertinence Summarizer ci-dessous (figure 1), il est montré une extraction des termes descripteurs du domaine juridique avec reconnaissance des termes non-descripteurs et descripteurs, en couleur jaune. En couleur rouge sont indiqués les termes non-descripteur exprimant la relation de synonymie (sanction pénale condamnation). Figure 1 : Extraction des termes d un domaine avec mise en relief de la relation de synonymie.

138 Cette fonctionnalité montre le degré d intelligence artificielle avancée du logiciel dans la mesure où l utilisateur a accès, en plus du résumé automatique, à la connaissance par l acquisition, la compréhension et l enrichissement de son capital lexique d un domaine donné grâce aux relations sémantiques explicitées automatiquement. Cette solution d accès rapide à l information textuelle est intégrée d office dans tous les outils 1 de Pertinence Mining. Ces derniers sont tous testables en ligne sur Internet. La prise en compte de ressources linguistiques va nous permettre la réalisation de fonctionnalités avancées dans Pertinence Summarizer : il est possible, par exemple, de naviguer sur les termes d un domaine donné avec possibilité d extraction de différentes relations sémantiques, à la demande : synonymes, antonymes, homonymes, sigles, entités nommés, etc. Une aide à la lecture rapide par coloration nuancée des phrases est aussi possible. L interface de soumission du document textuel à résumer propose diverses possibilités pour non seulement pouvoir extraire l information importante mais aussi pouvoir aider l utilisateur à exploiter cette dernière par la lecture rapide ou la lecture en diagonale du texte source. D autres fonctionnalités purement pragmatico-informatiques vont elles permettre la récupération des références anaphoriques orphelines. Pertinence Summarizer va non seulement, permettre de résumer des documents issus d un support matériel (disque dur, disquette, clefs USB, etc.), d une URL Internet ou intranet, d un copié/collé mais aussi de résumer automatiquement l ensemble des documents d un dossier ou d un répertoire et ceci en un seul clic. C est cette dernière fonctionnalité que nous avons choisie de montrer comme seconde illustration pour le traitement de la langue arabe. Par exemple, en imaginant que l utilisateur se trouve confronté à la réalisation d un rapport ou d un mémoire de thèse de doctorat ou autre, une solution pouvant résumer automatiquement un dossier de documents ne peut que lui faire gagner du temps quant à leur exploration. Dans ce cas précis, les résumés automatiques pourront rapidement lui fournir suffisamment d informations pertinentes pour l aiguiller vers le texte utile parmi un nombre important de documents présents dans un dossier. Le traitement de plusieurs dossiers ne peut que l assister dans sa productivité. Nous donnons ci-dessous un exemple traitant un dossier contenant de nombreux textes en langue arabe (figure 2). Figure 2 : Résumé automatique à la volée de nombreux documents contenus dans un répertoire. 1. Pertinence Information Network : plate-forme de veille (http://www.pertinence.net/pin). PODoo : métamoteur de recherche (http://www.podoo.net) Connivences : cartographie intelligente de l actualité (http://www.connivences.info)

139 Cette fonctionnalité permet l exploration rapide de l information pertinente qui est ici facilitée devant un gros volume de textes. Les résumés automatiques produits par Pertinence Summarizer à partir d un dossier ou d un répertoire vont donner suffisamment d informations efficientes pour que l utilisateur puisse décider de porter son choix sur les textes les plus intéressants à dépouiller. Ensuite, le bouton «Résumé avancé» va lui permettre d explorer en dynamique le texte source afin de récupérer rapidement l information quêtée. L intégration de terminologies ou de thesaurus par domaines thématiques va permettre des fonctionnalités intelligentes de text mining ou de fouille de texte comme montré plus haut. Conclusion La technologie du text mining est une discipline qui tendra à ce développer dans l avenir car les documents textuels électroniques sont devenus d un usage vulgarisé et ce dans une proportion toujours croissante. Comme le résumé automatique de texte, nous verrons de plus en plus apparaître des solutions innovantes qui proposeront des outils de traitement du document textuel pour faciliter l accès à l information. Pour notre part, nous continuons à réfléchir à d autres applications qui se fonderont strictement sur des ressources et des techniques linguistiques en vue de répondre à un problème crucial : la maîtrise de l information. La difficulté à résoudre reste toutefois l élaboration de bonnes formalisations qui permettraient de faire collaborer en bonne intelligence les deux disciplines à savoir la linguistique et l informatique. Bibliographie EDMUNDSON H.P. (1968), «New methods in automatic extraction», Journal of the ACM, 16 (2), p. 264-285. LEHMAM A. (1999), «Text structuration leading to an automatic summary system», Information Processing and Management, 35, p. 181-191, 1999, Elsevier Science, New York, USA. LEHMAM A (2002), «Résumé de texte automatique : vers des solutions professionnelles», Journée ATALA sur le résumé de texte automatique initiée et organisée par A. Lehmam (Pertinence Mining, Paris) avec l aide du laboratoire du Pr. J.-P. Desclés (LaLICC FRE 2520 CNRS Paris IV) ENST Paris, décembre 2002. LEHMAM A. (2006a), «Solutions de Text Mining pour l intelligence économique, vers la veille intelligente», Congrès TELMI 06 organisé par l ARIST Nord-Pas de Calais et l Université de Lille 3 (Master GIDE-PRISME UFR IDIST) «Les Outils de Veille Stratégique», 30 mars 2006, Lille, France. LEHMAM A. (2006b), «Technologie textuelle multilingue», AAFD 06 2 e Journées Thématiques «Apprentissage Artificiel et Fouille de Données», Université Paris 13, Institut Galilée, 27-28 avril, Paris, France. LEHMAM A., BOUVET P. (2004a), «Watch application, summarization and syndication in Arabic», in Proceedings of the conference nemlar '04 «arabic language resources and tools conference», p. 157-163, 22-23 Septembre 2004, Le Caire, Égypte. LEHMAM A., BOUVET P. (2004b), «Un résumeur automatique de textes multilingues intégré dans une plate-forme de veille ; application à la langue arabe», in Actes de la conférence JEP-TALN-RECITAL 2004, p. 111-122, Fès, Maroc. PAICE C.D. (1990), «Constructing literature abstracts by computer techniques and prospects», Information Processing and Management, 1, New York, Elsevier Science, p. 171-186. RADEV D (2000), «Summarization of multiple documents : clustering, sentence extraction», ANLP-NAACL Workshop on Automatic Summarization, April 2000, Seattle, USA.

140