TEXT MINING 10.6.2003 1 von 7
A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre sur les informations présentes dans les textes. Les pages suivantes vous informent // sur la recherche efficace d'informations dans une profusion de données //sur les caractéristiques essentielles de notre outil de Text Mining LexiQuest // sur la manière de passer au peigne fin rapidement et efficacement des textes libres selon des contenus significatifs // sur l'approche permettant de résoudre le problème de la recherche contextuelle // sur la méthode d'analyse automatique des contenus de documents // sur la catégorisation automatique des demandes de clients // sur la réception par tous les collaborateurs des informations nécessaires // sur l'enregistrement plus efficace de connaissances pour les organisations // sur l'utilisation concrète de Text Mining par des sociétés de renom Nous sommes à votre disposition pour toute demande d'informations sur Text Mining et LexiQuest : Appelez-nous au 01 266 90 30, ou envoyez-nous un e-mail à l'adresse info@spss.ch RECHERCHE D'INFORMATIONS DANS UNE PROFUSION DE DONNEES: UNE ENTREPRISE FASTIDIEUSE La fascinante et utile technologie décrite ci-après n'en est pas à ses débuts mais a déjà fait ses preuves dans le monde entier au quotidien. Elle va permettre de faire plus facilement face à l'impressionnant flot d'informations et de trouver «l'aiguille dans une botte d'informations». La recherche d'informations essentielles à toute prise de décision a depuis toujours été très importante. Alors que la difficulté consistait essentiellement auparavant à avoir accès à des informations, le problème aujourd'hui, en raison des formes de communication modernes, est de filtrer parmi la profusion d'informations disponibles celles vraiment exploitables. Qui n'a jamais essayé avec Google ou un autre moteur de recherche de rassembler des informations sur Internet, d'analyser péniblement les centaines de documents pour constater au final que l'avant-dernier document est précisément celui contenant l'information recherchée? Ou, transposé sur l'étude des marchés, dans combien d'enquêtes, les questions ouvertes n'ont pu être exploitées par simple manque de temps et de ressources permettant de les traiter sérieusement, alors que c'est précisément là que se trouvent des trésors d'informations pouvant se révéler d'une importance capitale pour une étude? 10.6.2003 2 von 7
AVEC LEXIQUEST, L A CATEGORISATION ET L'ANALYSE DE TEXTES SONT RAPIDES ET SIMPLES L'objectif du Text Mining est de trouver des informations importantes et des relations dans de grands volumes de textes comme il n'est pas rare d'en rencontrer dans des bases de données, dans des manuels techniques d'avions, dans le savoir global d'une entreprise, dans des demandes quotidiennes de clients ou même dans l'ensemble du WWW. LexiQuest est basé sur une technologie linguistique et trouve dans les documents les concepts et les relations entre ces concepts. LexiQuest trouve les informations essentielles dans le flot de documents de bases de données, sur Internet et dans les e-mails. LexiQuest est en mesure d'analyser les sources de données les plus diverses et de traiter 250 000 pages de texte par heure. LexiQuest est utilisé avec succès dans le monde entier et en plusieurs langues à domicile. LA QUESTION EST : COMMENT PASSER AU PEIGNE FIN RAPIDEMENT ET EFFICACEMENT DES TEXTES LIBRES EN FONCTION DE CONTENUS SIGNIFICATIFS POUR MOI? Depuis les débuts du traitement électronique de documents, des essais d'analyses de textes selon des critères thématiques ont été tentés. Les premières approches consistaient à comptabiliser les mots présents dans les documents, d'exclure les explétifs (comme par ex. le, la, les etc.) et d'utiliser des listes de synonymes, procédé comparable à l'approche des sciences sociales de l'analyse de contenus. L'inconvénient avec cette méthode est que les mots écrits de la même façon ne signifient pas toujours la même chose. «Boulanger» par exemple : S'agit-il ici de la profession ou de Monsieur Boulanger? La signification correcte ne peut être déduite qu'à partir du contexte. Les mêmes problèmes se posent également dans les traductions électroniques. Un exemple illustre l'importance de la reconnaissance d'un mot dans le contexte de la phrase. Le texte suivant a été traduit de l'anglais en russe avec un système de traduction électronique : The spirit is willing but the flesh is weak. Ensuite, le résultat russe a été traduit en sens inverse en anglais par le même système. Le résultat fut le suivant : The vodka s okay but the meat is rotten. L'APPROCHE LINGUISTIQUE EST LA SOLUTION Une compréhension automatique d'un texte qui garde un sens est possible uniquement lorsque les textes ne sont pas découpés en mots isolés mais lorsque les mots sont analysés en rapport avec leur environnement. Une méthode de ce 10.6.2003 3 von 7
type est par exemple disponible sous l'abréviation NLP (Natural Language Processing). Cette méthode permet non seulement de reconnaître des mots mais des concepts. Par concept, il faut comprendre un mot ou une combinaison de mots tenant compte du contexte. Il est essentiel à ce propos de faire une distinction entre les termes généraux, les noms, les organisations, les produits et les termes spécifiques à un secteur. Le contexte est important par ex. pour identifier si le nom «Charles de Gaulle» est utilisé pour la personne ou pour l'aéroport de Paris. Dès que les concepts significatifs ont été identifiés dans un texte, des questions de ce type se posent : A quels emplacements se trouvent ces concepts? A quelle fréquence retrouve-t-on ces concepts dans une quantité de texte donnée? Quels concepts apparaissent fréquemment dans le même rapport? ANALYSER AUTOMATIQUEMENT DES CONTENUS DE DOCUMENTS Les algorithmes linguistiques correspondants sont intégrés dans LexiQuest. Il est ainsi possible d'analyser de grandes quantités de documents en indiquant uniquement où se trouvent les documents. L'algorithme enregistre alors l'action et est en mesure de traiter le texte dans tous les formats courants comme Word, PowerPoint, HTML, XML, PDF etc. Il est même envisageable d'analyser des documents en différentes langues dans une même étape, l'algorithme exécutant en premier lieu une reconnaissance de la langue. Les pages Web peuvent ainsi être elles aussi rapidement analysées dans le but de trouver des concepts. Il est en outre possible d'exécuter périodiquement des analyses pour contrôler des pages Web (par exemple celles de la concurrence) à la recherche de modifications des contenus. Le résultat est ensuite représenté dans une fenêtre de navigateur (voir figure). Dans notre exemple, la partie gauche représente la liste des concepts automatiquement définis, organisés selon leur fréquence. Lors de la sélection d'un concept avec la souris, une représentation graphique du concept apparaît à droite indiquant quels autres concepts ont été détectés en relation avec celui-ci. Dans notre exemple, la partie économique de la page Web NZZ a été analysée à une date aléatoire et, à partir des concepts trouvés, le terme IMF (Fonds monétaire international) extrait avec ses contextes. 10.6.2003 4 von 7
LLa personne qui s'intéresse aux passages dans lesquels IMF et le concept «Gesinnung des Kubafreundes» (Opinion de l'ami de Cuba) apparaissent ensemble, peut sélectionner les deux dans le navigateur et, pour l'interprétation, accéder directement par un nouveau clic aux documents sources correspondants. Les termes sélectionnés y sont automatiquement mis en valeur (figure 2). 10.6.2003 5 von 7
EXEMPLE DE L'ANALYSE DE RECLAMATIONS Les algorithmes de Text Mining dans LexiQuest sont presque applicables de façon universelle. L'analyse de pages Web et de recherches d'informations en complément des systèmes de recherche traditionnels sont une première étape. Dans le secteur de la gestion des relations clients, une structuration de mails clients disponibles jusqu'ici dans une forme non structurée permet le regroupement et l'exploitation de données de toutes les sources existantes. Il en résulte de réelles analyses valides de réclamations par exemple lorsque le texte de réclamation est regroupé avec la base clientèle et les données de vente combinaison de Text Mining et Data Mining pour apprendre à mieux connaître les clients et leur proposer des offres adaptées à leurs besoins spécifiques. EXEMPLES d'utilisation DE TEXT M INING L'utilisation de LexiQuest s'avère également très judicieuse pour la catégorisation automatique de demandes. L'intégration dans un système d'email interne permet de transférer automatiquement aux postes compétents les e-mails de clients adressés à une société centrale. Le logiciel est également utilisé pour la transposition automatique de questions en texte libre en questions structurées, et enfin pour la création de propositions de messages de réponses personnalisés et automatiques. Pour assurer la cohérence, la précision et la vitesse de traitement des dossiers clients dans tous les pays, l'une des plus grandes banques européennes était à la recherche d'un système permettant à tous ses collaborateurs et collaboratrices dans le monde d'accéder rapidement et facilement à des informations actuelles sur les techniques bancaires européennes. Les informations étaient certes toutes stockées sur l'intranet de la banque mais rechercher un document précis dans la masse d'informations contenues dans le site était comparable à la recherche d'une aiguille dans une botte de foin. La recherche par mots-clés renvoyait de plus en plus des résultats non pertinents, ce qui rendait l'opération inefficace par rapport au temps requis. L'organisation des processus de recherche a été optimisée Pour rendre les processus de recherche plus efficaces, la banque a opté pour LexiQuest, un logiciel spécialisé basé sur la reconnaissance du langage naturel. Associé au moteur de recherche de la banque, il permet aux employés de poser des questions dans les termes de leur choix. Le logiciel LexiQuest Guide utilisé ne se contente pas de rechercher des termes spécifiés mais permet aux ordinateurs de comprendre le contexte et la signification du langage courant. Gain d'informations et de temps La facilité d'utilisation du logiciel et la méthode de recherche du Text Mining, permettent aux collaborateurs de la banque d'obtenir un niveau élevé d'informations dans tous les pays mais aussi de gagner du temps : le flot 10.6.2003 6 von 7
d'informations est maîtrisé et les informations recherchées sont trouvées plus fréquemment et plus rapidement. UN CONSTRUCTEUR AUTOMOBILE EUROPEEN A PU AMELIORER SA VEILLE SUR LA CONCURRENCE PAR L'UTILISATION DE TEXT MINING Le département recherche d'un grand constructeur automobile européen cherchait une méthode plus efficace et plus précise pour gérer la veille sur la concurrence. Pour rester compétitive, l'organisation et la classification des sources de renseignements sont d'une importance vitale. L'examen continu de toutes les sources d'informations possibles, y compris celles de la concurrence, s'avérait toutefois particulièrement laborieux. A cela venait s'ajouter le fait que les informations cruciales passaient souvent inaperçues compte tenu de la diversité des sources d'informations à analyser. LexiQuest intègre les sources les plus variées dans sa recherche d'informations C'est pourquoi le groupe a décidé d'implémenter LexiQuest Mine, capable aussi bien de répondre aux demandes de recherche que de manipuler de nombreuses sources de renseignements différentes comme par exemple les nouveaux messages, documents, e-mails, courriers ou présentations. Ces différentes ressources constituent en règle générale le système d'informations d'une société. En utilisant des techniques de traitement des informations statistiques et linguistiques, LexiQuest Mine extrait les termes et les informations clés figurant dans le système d'informations de la société. Grâce à l'utilisation de LexiQuest Mine, les utilisateurs peuvent suivre et analyser l'évolution de ces informations et leur lien avec d'autres informations connexes. La veille sur la concurrence de la société a été optimisée Grâce à ce suivi dynamique, LexiQuest Mine peut immédiatement intégrer des modifications d'informations et optimiser ses opérations de veille sur la concurrence : le constructeur automobile a ainsi pu non seulement améliorer la précision des recherches et le temps de rotation mais également réduire considérablement les coûts en termes de renseignements relatifs à la concurrence en limitant le nombre d'opérations manuelles liées à la collecte d'informations. VOUS TROUVEREZ DAVANTAGE D'EXEMPLES D'APPLICATIONS A L'ADRESSE : http://www.spss.com/spssbi/lexiquest/case_studies.htm 10.6.2003 7 von 7