TEXT MINING. 10.6.2003 1 von 7



Documents pareils
MODULES 3D TAG CLOUD. Par GENIUS AOM

Manuel d utilisation NETexcom

Date de diffusion : Rédigé par : Version : Mars 2008 APEM 1.4. Sig-Artisanat : Guide de l'utilisateur 2 / 24

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv>

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte»

Chapitre 1 : Introduction aux bases de données

Seagate Technology LLC S. De Anza Boulevard Cupertino, CA 95014, États-Unis

Guide Utilisateur - Guide général d'utilisation du service via Zdesktop ou Webmail v.8. Powered by. Version EXOCA 1

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

C r é a t i o n D e S i t e s. P o l C R O V A T T O

Documentation Honolulu 14 (1)

EXTRANET STUDENT. Qu'est ce que Claroline?

NOS FORMATIONS EN BUREAUTIQUE

Google Drive, le cloud de Google

XTRADE TRADING CFD EN LIGNE. XTRADE - XFR Financial Ltd. CIF 108/10 1

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

1 Gestionnaire de Données WORD A4 F - USB / / 6020 Alco-Connect

Dell Server PRO Management Pack 4.0 pour Microsoft System Center Virtual Machine Manager Guide d'installation

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR

Fiche de l'awt La newsletter ou lettre d'information

«Manuel Pratique» Gestion budgétaire

Ecole Préparatoire SNV Université d Oran Semestre /2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z.

Manuel utilisateur logiciel Salles. Version 1.1

Théories de la Business Intelligence

L'assistance à distance

Le logiciel internet pour les consultants et entreprises en ressources humaines

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

MEDIAplus elearning. version 6.6

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

é n e r g i e c r é a t i v e Solution ing Renforcez le pouvoir de communication de votre entreprise

Nouveau Web Client marquant, Cumulus Video Cloud, optimisations de la base de données, et plus..

Aide : publication de décisions VS

LISTE DES FONCTIONNALITES - TINY v1.5 -

Outil collaboratif de lutte contre le gaspillage alimentaire et de promotion d'une consommation locale : Manuel d'utilisation

Guide Utilisateur - Guide général d'utilisation du service via Zdesktop ou Webmail v.8. Powered by. - media-2001.communication &.

Qlik Sense Desktop. Qlik Sense Copyright QlikTech International AB. Tous droits réservés.

Répondre à un courrier - Transférer un courrier 20

Configuration requise Across v6 (Date de mise à jour : 3 novembre 2014)

SOUTIEN INFORMATIQUE DEP 5229

Analyse tarifaire en ligne (TAO) de l'omc

Administration du site (Back Office)

Débuter avec OOo Base

MEGA ITSM Accelerator. Guide de Démarrage

E-marketing : Ce qu'il faut savoir

Guide de l exportation postale en ligne Objets interdits et admis conditionnellement

claroline classroom online

GUIDE DE DEMARRAGE RAPIDE:

Anaplan facilite la planification stratégique des effectifs dans une société de cloud computing en pleine expansion. Introduction. Cas d'usage.

LibreOffice Calc : introduction aux tableaux croisés dynamiques

HelpAndManual_unregistered_evaluation_copy GESTIONNAIRE D'ALARMES CENTRALISE OPTIM'ALARM. Manuel d'utilisation

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Contrôle interne et organisation comptable de l'entreprise

Edutab. gestion centralisée de tablettes Android

SYSTRAN 7 Guide de démarrage

EQUISIS E-BANKING A. "E-BANKING" VIREMENTS NATIONAUX PARAMETRAGE. Comptes centralisateurs financiers

Installation locale de JOOMLA SEPIA

CRM PERFORMANCE CONTACT

Module SpireAPI : fonctions communes aux application Spirea / Module Open-Source

Entrepôt de données 1. Introduction

Version Wraptor Laboratories. Installation de SpamWars 4.0 Édition Entreprise

Chapitre 10. Architectures des systèmes de gestion de bases de données

Guide de l'utilisateur

Mai n 38. Page 1 sur 5 17/05/2013. Découvrez le nouveau service d'aspone.fr :

OASIS Date de publication

Formation Administrateur de Données Localisées (Prodige V3.2) Recherche et consultation des métadonnées

Avantages de l'archivage des s

1 LE L S S ERV R EURS Si 5

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration

Partager mes photos sur internet

Atelier Le gestionnaire de fichier

Mise à jour Stable Recrutement juin 2014 Mise à jour de la version stable St. Gallen

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

PARAGON SYSTEM BACKUP 2010

Europresse.com. Pour les bibliothèques publiques et de l enseignement. Votre meilleur outil de recherche en ligne. Guide version 1.

Vos extraits de compte dans PC banking. Manuel d utilisation

LANDPARK ACTIVE DIRECTORY OPEN/LDAP

Reaper : utilisations avancées

La GEIDE. Dans une solution GEIDE, il est possible d'associer au sein même d'un dossier:

Décompresser, créer une archive au format «ZIP»

Les dossiers compressés (ou zippés)

Mes documents Sauvegardés

Les outils actuels permettent-ils d automatiser la production de cartes? De quels outils dispose-t-on?

Conférence des Nations Unies sur le Commerce et le Développement. La Plateforme de formation à distance TRAINFORTRADE GUIDE D'UTILISATION

Manuel de l'utilisateur d'intego VirusBarrier Express et VirusBarrier Plus

WysiUpStudio. CMS professionnel. pour la création et la maintenance évolutive de sites et applications Internet V. 6.x

CommandCenter Génération 4

ORGANISATION DES NATIONS UNIES POUR L EDUCATION, LA SCIENCE ET LA CULTURE CONVENTION SUR LA PROTECTION DU PATRIMOINE CULTUREL SUBAQUATIQUE

1. Installation du Module

Manuel utilisateur logiciel Camping. Version 2.3

Internet Explorer. Microsoft. Sommaire :

Prise en main du BusinessObjects XI R2 Service Pack 2/ Productivity Pack

Les dossiers, sous-dossiers, fichiers

Antidote et vos logiciels

Enquête 2014 de rémunération globale sur les emplois en TIC

SIG ET ANALYSE EXPLORATOIRE

GUIDE DE L UTILISATEUR Recoveo Récupérateur de données

Protosafe : un service en ligne d archivage de données médicales

Guide de démarrage rapide

Gestion collaborative de documents

Transcription:

TEXT MINING 10.6.2003 1 von 7

A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre sur les informations présentes dans les textes. Les pages suivantes vous informent // sur la recherche efficace d'informations dans une profusion de données //sur les caractéristiques essentielles de notre outil de Text Mining LexiQuest // sur la manière de passer au peigne fin rapidement et efficacement des textes libres selon des contenus significatifs // sur l'approche permettant de résoudre le problème de la recherche contextuelle // sur la méthode d'analyse automatique des contenus de documents // sur la catégorisation automatique des demandes de clients // sur la réception par tous les collaborateurs des informations nécessaires // sur l'enregistrement plus efficace de connaissances pour les organisations // sur l'utilisation concrète de Text Mining par des sociétés de renom Nous sommes à votre disposition pour toute demande d'informations sur Text Mining et LexiQuest : Appelez-nous au 01 266 90 30, ou envoyez-nous un e-mail à l'adresse info@spss.ch RECHERCHE D'INFORMATIONS DANS UNE PROFUSION DE DONNEES: UNE ENTREPRISE FASTIDIEUSE La fascinante et utile technologie décrite ci-après n'en est pas à ses débuts mais a déjà fait ses preuves dans le monde entier au quotidien. Elle va permettre de faire plus facilement face à l'impressionnant flot d'informations et de trouver «l'aiguille dans une botte d'informations». La recherche d'informations essentielles à toute prise de décision a depuis toujours été très importante. Alors que la difficulté consistait essentiellement auparavant à avoir accès à des informations, le problème aujourd'hui, en raison des formes de communication modernes, est de filtrer parmi la profusion d'informations disponibles celles vraiment exploitables. Qui n'a jamais essayé avec Google ou un autre moteur de recherche de rassembler des informations sur Internet, d'analyser péniblement les centaines de documents pour constater au final que l'avant-dernier document est précisément celui contenant l'information recherchée? Ou, transposé sur l'étude des marchés, dans combien d'enquêtes, les questions ouvertes n'ont pu être exploitées par simple manque de temps et de ressources permettant de les traiter sérieusement, alors que c'est précisément là que se trouvent des trésors d'informations pouvant se révéler d'une importance capitale pour une étude? 10.6.2003 2 von 7

AVEC LEXIQUEST, L A CATEGORISATION ET L'ANALYSE DE TEXTES SONT RAPIDES ET SIMPLES L'objectif du Text Mining est de trouver des informations importantes et des relations dans de grands volumes de textes comme il n'est pas rare d'en rencontrer dans des bases de données, dans des manuels techniques d'avions, dans le savoir global d'une entreprise, dans des demandes quotidiennes de clients ou même dans l'ensemble du WWW. LexiQuest est basé sur une technologie linguistique et trouve dans les documents les concepts et les relations entre ces concepts. LexiQuest trouve les informations essentielles dans le flot de documents de bases de données, sur Internet et dans les e-mails. LexiQuest est en mesure d'analyser les sources de données les plus diverses et de traiter 250 000 pages de texte par heure. LexiQuest est utilisé avec succès dans le monde entier et en plusieurs langues à domicile. LA QUESTION EST : COMMENT PASSER AU PEIGNE FIN RAPIDEMENT ET EFFICACEMENT DES TEXTES LIBRES EN FONCTION DE CONTENUS SIGNIFICATIFS POUR MOI? Depuis les débuts du traitement électronique de documents, des essais d'analyses de textes selon des critères thématiques ont été tentés. Les premières approches consistaient à comptabiliser les mots présents dans les documents, d'exclure les explétifs (comme par ex. le, la, les etc.) et d'utiliser des listes de synonymes, procédé comparable à l'approche des sciences sociales de l'analyse de contenus. L'inconvénient avec cette méthode est que les mots écrits de la même façon ne signifient pas toujours la même chose. «Boulanger» par exemple : S'agit-il ici de la profession ou de Monsieur Boulanger? La signification correcte ne peut être déduite qu'à partir du contexte. Les mêmes problèmes se posent également dans les traductions électroniques. Un exemple illustre l'importance de la reconnaissance d'un mot dans le contexte de la phrase. Le texte suivant a été traduit de l'anglais en russe avec un système de traduction électronique : The spirit is willing but the flesh is weak. Ensuite, le résultat russe a été traduit en sens inverse en anglais par le même système. Le résultat fut le suivant : The vodka s okay but the meat is rotten. L'APPROCHE LINGUISTIQUE EST LA SOLUTION Une compréhension automatique d'un texte qui garde un sens est possible uniquement lorsque les textes ne sont pas découpés en mots isolés mais lorsque les mots sont analysés en rapport avec leur environnement. Une méthode de ce 10.6.2003 3 von 7

type est par exemple disponible sous l'abréviation NLP (Natural Language Processing). Cette méthode permet non seulement de reconnaître des mots mais des concepts. Par concept, il faut comprendre un mot ou une combinaison de mots tenant compte du contexte. Il est essentiel à ce propos de faire une distinction entre les termes généraux, les noms, les organisations, les produits et les termes spécifiques à un secteur. Le contexte est important par ex. pour identifier si le nom «Charles de Gaulle» est utilisé pour la personne ou pour l'aéroport de Paris. Dès que les concepts significatifs ont été identifiés dans un texte, des questions de ce type se posent : A quels emplacements se trouvent ces concepts? A quelle fréquence retrouve-t-on ces concepts dans une quantité de texte donnée? Quels concepts apparaissent fréquemment dans le même rapport? ANALYSER AUTOMATIQUEMENT DES CONTENUS DE DOCUMENTS Les algorithmes linguistiques correspondants sont intégrés dans LexiQuest. Il est ainsi possible d'analyser de grandes quantités de documents en indiquant uniquement où se trouvent les documents. L'algorithme enregistre alors l'action et est en mesure de traiter le texte dans tous les formats courants comme Word, PowerPoint, HTML, XML, PDF etc. Il est même envisageable d'analyser des documents en différentes langues dans une même étape, l'algorithme exécutant en premier lieu une reconnaissance de la langue. Les pages Web peuvent ainsi être elles aussi rapidement analysées dans le but de trouver des concepts. Il est en outre possible d'exécuter périodiquement des analyses pour contrôler des pages Web (par exemple celles de la concurrence) à la recherche de modifications des contenus. Le résultat est ensuite représenté dans une fenêtre de navigateur (voir figure). Dans notre exemple, la partie gauche représente la liste des concepts automatiquement définis, organisés selon leur fréquence. Lors de la sélection d'un concept avec la souris, une représentation graphique du concept apparaît à droite indiquant quels autres concepts ont été détectés en relation avec celui-ci. Dans notre exemple, la partie économique de la page Web NZZ a été analysée à une date aléatoire et, à partir des concepts trouvés, le terme IMF (Fonds monétaire international) extrait avec ses contextes. 10.6.2003 4 von 7

LLa personne qui s'intéresse aux passages dans lesquels IMF et le concept «Gesinnung des Kubafreundes» (Opinion de l'ami de Cuba) apparaissent ensemble, peut sélectionner les deux dans le navigateur et, pour l'interprétation, accéder directement par un nouveau clic aux documents sources correspondants. Les termes sélectionnés y sont automatiquement mis en valeur (figure 2). 10.6.2003 5 von 7

EXEMPLE DE L'ANALYSE DE RECLAMATIONS Les algorithmes de Text Mining dans LexiQuest sont presque applicables de façon universelle. L'analyse de pages Web et de recherches d'informations en complément des systèmes de recherche traditionnels sont une première étape. Dans le secteur de la gestion des relations clients, une structuration de mails clients disponibles jusqu'ici dans une forme non structurée permet le regroupement et l'exploitation de données de toutes les sources existantes. Il en résulte de réelles analyses valides de réclamations par exemple lorsque le texte de réclamation est regroupé avec la base clientèle et les données de vente combinaison de Text Mining et Data Mining pour apprendre à mieux connaître les clients et leur proposer des offres adaptées à leurs besoins spécifiques. EXEMPLES d'utilisation DE TEXT M INING L'utilisation de LexiQuest s'avère également très judicieuse pour la catégorisation automatique de demandes. L'intégration dans un système d'email interne permet de transférer automatiquement aux postes compétents les e-mails de clients adressés à une société centrale. Le logiciel est également utilisé pour la transposition automatique de questions en texte libre en questions structurées, et enfin pour la création de propositions de messages de réponses personnalisés et automatiques. Pour assurer la cohérence, la précision et la vitesse de traitement des dossiers clients dans tous les pays, l'une des plus grandes banques européennes était à la recherche d'un système permettant à tous ses collaborateurs et collaboratrices dans le monde d'accéder rapidement et facilement à des informations actuelles sur les techniques bancaires européennes. Les informations étaient certes toutes stockées sur l'intranet de la banque mais rechercher un document précis dans la masse d'informations contenues dans le site était comparable à la recherche d'une aiguille dans une botte de foin. La recherche par mots-clés renvoyait de plus en plus des résultats non pertinents, ce qui rendait l'opération inefficace par rapport au temps requis. L'organisation des processus de recherche a été optimisée Pour rendre les processus de recherche plus efficaces, la banque a opté pour LexiQuest, un logiciel spécialisé basé sur la reconnaissance du langage naturel. Associé au moteur de recherche de la banque, il permet aux employés de poser des questions dans les termes de leur choix. Le logiciel LexiQuest Guide utilisé ne se contente pas de rechercher des termes spécifiés mais permet aux ordinateurs de comprendre le contexte et la signification du langage courant. Gain d'informations et de temps La facilité d'utilisation du logiciel et la méthode de recherche du Text Mining, permettent aux collaborateurs de la banque d'obtenir un niveau élevé d'informations dans tous les pays mais aussi de gagner du temps : le flot 10.6.2003 6 von 7

d'informations est maîtrisé et les informations recherchées sont trouvées plus fréquemment et plus rapidement. UN CONSTRUCTEUR AUTOMOBILE EUROPEEN A PU AMELIORER SA VEILLE SUR LA CONCURRENCE PAR L'UTILISATION DE TEXT MINING Le département recherche d'un grand constructeur automobile européen cherchait une méthode plus efficace et plus précise pour gérer la veille sur la concurrence. Pour rester compétitive, l'organisation et la classification des sources de renseignements sont d'une importance vitale. L'examen continu de toutes les sources d'informations possibles, y compris celles de la concurrence, s'avérait toutefois particulièrement laborieux. A cela venait s'ajouter le fait que les informations cruciales passaient souvent inaperçues compte tenu de la diversité des sources d'informations à analyser. LexiQuest intègre les sources les plus variées dans sa recherche d'informations C'est pourquoi le groupe a décidé d'implémenter LexiQuest Mine, capable aussi bien de répondre aux demandes de recherche que de manipuler de nombreuses sources de renseignements différentes comme par exemple les nouveaux messages, documents, e-mails, courriers ou présentations. Ces différentes ressources constituent en règle générale le système d'informations d'une société. En utilisant des techniques de traitement des informations statistiques et linguistiques, LexiQuest Mine extrait les termes et les informations clés figurant dans le système d'informations de la société. Grâce à l'utilisation de LexiQuest Mine, les utilisateurs peuvent suivre et analyser l'évolution de ces informations et leur lien avec d'autres informations connexes. La veille sur la concurrence de la société a été optimisée Grâce à ce suivi dynamique, LexiQuest Mine peut immédiatement intégrer des modifications d'informations et optimiser ses opérations de veille sur la concurrence : le constructeur automobile a ainsi pu non seulement améliorer la précision des recherches et le temps de rotation mais également réduire considérablement les coûts en termes de renseignements relatifs à la concurrence en limitant le nombre d'opérations manuelles liées à la collecte d'informations. VOUS TROUVEREZ DAVANTAGE D'EXEMPLES D'APPLICATIONS A L'ADRESSE : http://www.spss.com/spssbi/lexiquest/case_studies.htm 10.6.2003 7 von 7