TEXT MINING Tour d Horizon Media Campus WAN IFRA "Structurer, optimiser et valoriser son contenu éditorial : les outils de text mining" 24 novembre 2009, PARIS Philippe BONNY Cabinet de Conseil et d Etudes www.inevidence.fr
Cabinet de conseil et d études, fondé par des spécialistes du traitement de l information, Inevidence accompagne les entreprises dans leur stratégie face aux enjeux du Digital Prestations Nous réalisons trois types de prestations qui concourent ensemble à répondre aux besoins des entreprises face aux enjeux du numérique : Conseil : stratégique amont et accompagnement de comité de direction de projets Etudes : premium du champs informationnel numérique pour accélérer la prise de décision Formation : sur les leviers de performance créés autour du numérique Champs d'application : INTELLIGENCE D ENTREPRISE ENTREPRISE 2.0 3.0, ALL MINING, ENTERPRISE SEARCH, RECORDS MANAGEMENT, CLOUD COMPUTING... INTIMITÉ CLIENT SENTIMENT ANALYSIS, WEB CUSTOMER INTIMACY, TEXT MINING, SPEECH MINING,... BRAND IMAGE E REPUTATION, E SEMIOTIQUE, IMAGE MINING,... INNOVATION EMOTIONAL DESIGN, INTELLIGENCE COLLECTIVE, VEILLE CUSTOMER CO DESIGN MARCHÉ DES TECHNOLOGIES ALL MINING, 2.0 (3.0), VIRTUALIZATION, CLOUD COMPUTING...
Plan Introduction Exemples Métier et Définition Text Mining Inside Applications Facteurs Clés de Succès Conclusion
Introduction La production mondiale d information (en volume) dans : les bases structurées ont augmenté de 4% en 2006 et représentent environ 10% des données. les données non structurées représentent 90% du total et augmentent de 6400% par an. Source : IDC
Business Case #1 Business Need : COMMUNICATION «Comment mesurer et suivre les évolutions de l image de ma société, de mes produits ou mes services» Opportunités «De nombreux canaux d informations sont aisément accessibles (call center, emails, internet, presse, questionnaires ouverts, etc.)» Difficultés «Plus d un millier de nouveaux documents par jour!» (VOLUME) «Les personnes utilisent un langage très varié pour exprimer leur opinion» (COMPLEXITE)
Business Case #2 Business Need : STRATEGIE «Comment anticiper les mouvements stratégiques de mes concurrents» Opportunité «Mes concurrents sont connus et génèrent beaucoup d information dans le monde (études, internet, presse, etc.)» Difficultés «J ai de nombreux concurrents» (VOLUME) «Seuls certains éléments précis m intéressent (financiers, organisationnels, marketing, ), pas simple de les repérer, en outre les sources sont multilingues» (COMPLEXITE)
Business Case #3 Business Need : Innovation «Je cherche à substituer un composant chimique par un nouveau plus efficace» Opportunité «Je sais que de nouvelles familles de molécules ont des propriétés intéressantes» Difficultés «le champs de publication correspondant est vaste» (VOLUME) «comme le sujet est émergent, les propriétés de ces composés ne sont pas encore bien codifiées» (COMPLEXITE)
Définition du Text Mining Par analogie avec le Data Mining : Processus qui permet l extraction de connaissance à partir de données non structurées sous forme textuelles (en s affranchissant notamment des volumes à traiter et de la complexité inhérente au langage naturel dans les textes) Text Mining ~ Text Analytics, Unstructured Data Mining ou (FR) Fouille de Textes
Plan Introduction Exemples métier et Définition Text Mining Inside Applications Facteurs Clés de Succès Conclusion
Notions de base Concept : un thème, une propriété, une action, un sentiment, Entité nommée une personne, un lieu, une organisation,, une date, des nombres Mot & expression bonjour «développement durable» Caractère abc.123.
Architecture générale Focus R. Feldman & J. Sanger, The Text Mining Handbook
Fonctions Cœur du Text Mining Dans un corpus donné de documents : 1. analyse d occurrence de concepts (voir) 2. analyse de cooccurrence de concepts (voir) 3. identification de relations entre des concepts ou des jeux de concepts (voir) Analyse de tendances dans le temps des trois (voir)
Focus PreProcessing Traitement du langage naturel détection de la langue analyse morphosyntaxique lemmatisation catégorie syntaxique désambiguïsation sémantique Traitement «orienté» Catégorisation Extraction d information Entités nommées Extraction de relations Résolution de l anaphore.. Technologies linguistique, statistiques, neuromimétiques Tendances vers des technos hybrides Réduire training et réduire manuel
Focus Base de connaissance Formalismes lexique thesaurus ontologie Graphes conceptuels Réseaux Sémantiques Nature terminologique (langues) ex WordNet domaine sectoriels, applicatifs Langages (ontologies) W3C : RFD, RFDS, OWL ISO : Topics Maps Financial Ontology, OWL Logiciel Protégé
Focus Interface Utilisateur http://alibaba.informatik.hu berlin.de/
Synthèse Fonctions cœur du Text Mining => découverte PreProcessing => pilier du processus d analyse Base de connaissance => dilemme (réactivité x précision) Interface graphique => facteur d appropriation
Plan Introduction Exemples métier et Définition Text Mining Inside Applications Facteurs Clés de Succès Conclusion
Mode de livraison de la valeur du Text Mining Deux modes : Comme solution «pure» d analyse de corpus de documents Comme «brique technologique» intégrée dans des solutions plus larges de traitement de l information Documents (textuels) INPUT Documents (textuels) PROCESSUS TEXT MINING TEXT MINING Valeur pour l exploitation des documents (entités, cooccurrences, tendances, ) Valeur pour l exploitation des documents (entités, cooccurrences, tendances, ) OUTPUT Standard : ex. UIMA Unstructured Information Management Architecture
Segmentation des applications 1) L analyse de contenu L analyse de discours, l analyse de formulaire, 2) Les moteurs de recherche Recherche de documents, de données, d information 3) La gestion de contenu Création, édition, publication, classement, contenu, Veille KM 4) La business intelligence Analyse des ventes, des clients, de la production, aide à la décision, Documents (textuels) INPUT Documents (textuels) TEXT MINING TEXT MINING PROCESSUS Valeur pour l exploitation des documents (entités, cooccurrences, tendances, ) OUTPUT Valeur pour l exploitation des documents (entités, cooccurrences, tendances, )
Acteurs (Vision US) Alta Plana, Seth Grimes 2009
1) Analyse de contenu SOURCES > Secteurs historiques CHIMIE / PHARMACIE Littérature scientifique et médicale, rapport et mesures de traitements, bases de données chimiques, pharmaceutiques ou de symptômes médicaux OBJECTIFS Extraire des relations entre des éléments chimiques ou bio-médicaux ou marqueurs génétiques et des symptômes ex. RENSEIGNEMENT SECURITE INTERIEURE Notes et rapports de renseignements, communications interceptées, dossiers documentaires ; le tout multilingue Dossiers d enquêtes, rapports judiciaires et jugements, documents légaux, données géographiques et démographiques Suivre des organisations et des réseaux cibles, identifier des comportements et des modèles d attaques types, déduire des niveaux de risques Déduire des modèles d actes criminels (temporalité, géo spatialité, organisations, ) et aider les enquêtes et les poursuites BANQUES & ASSURANCES > Secteur plus récent ÉDITION ÉLECTRONIQUE Données financières structurées et non structurées (alertes, risques, tendances.) Sources produites ou agrégées par l éditeur(presse, dépêches, études, brevets, publications scientifiques, etc) Identifier et anticiper des risques marché pour optimiser le management des investissements Développer les capacités d analyse des sources proposées : identifier les acteurs, les thèmes, les tendances, etc.
1) Analyse de contenu (suite) SOURCES > Fonctions d entreprise INTELLIGENCE ECONOMIQUE & VEILLE Documents et rapports de concurrents, discours de dirigeants, articles de presse, sites web, blogs, brevets et publications associées au concurrents OBJECTIFS Analyser la stratégie des concurrents en croisant un ensemble de sources et d informations : identifier des tendances, des ruptures, des réseaux etc. MARKETING & COMMUNICATION (Opinion Mining, Sentiment Analysis) Données internes clients (fichier client, transcripts de call center, email, réponses à des questionnaires ouverts, etc) et données externes déclaration dans les blogs les newsgroups Construire une image fidèle du client, de ses besoins latents, de sa satisfaction et de sa loyauté RH Lettre de candidatures, et CV Extraire les compétences et les savoirfaire en combinant avec les critères de recrutement INNOVATION PRODUIT Croisement de sources de données sur les produits et sur les consommateurs (données internes et externes) Analyse et anticipation de tendances marché sur l offre et la demande produits de manière à identifier des éléments d innovation produit FRAUD DETECTION Call center transcript, demandes d indemnités, déclarations de sinistres, données clients Identifier/reconnaître des indicateurs («patterns») de risques potentiels de fraudes de clients.
2) Moteurs de recherche Indexation avancée de corpus Traitement du langage naturel des requêtes Cross linguisme Suggestion de mots clés Catégorisation des résultats
3) Gestion de contenu Création suggestion de contenu suggestion de métadonnées Navigation Classement automatique Génération de Taxonomie Search Moteur de recherche avancé Analyse Analyse de contenu Agrégation de contenu
4) Business Intelligence Analyse croisée des données structurées et non structurées Alimentation automatique de bases de données
Plan Introduction Exemples métier et Définition Text Mining Inside Applications Facteurs Clés de Succès Conclusion
Facteurs Clés de Succès (1/3) Business Value «User Centered» ou «Customer Centered» Analyse des besoins Culture outils Temporalité (occurrence et récurrence) Scénarios métiers Interface ergonomie visualisation
Facteurs Clés de Succès (2/3) Vision Systémique HUMAIN x SOURCES x OUTILS le bon dosage intervention de l humain sources : information brutes information traitées traitements : simple <> complexe compromis : puissance versus réactivité business model (éditeurs) OUTILS HUMAIN SOURCES
Facteurs Clés de Succès (3/3) Critères de choix de solutions Réponse fonctionnelle Robustesse / Scalability Administration Compétences : InSourcing/OutSourcing EcoSystème hôte OEM / Intégré dans solutions de GC Coûts globaux TESTER
Conclusions Le Text Mining offre deux propositions de valeurs pour les utilisateurs (ou les clients) : Un gain de temps pour l accès à l information et l extraction de connaissance : facteur de Productivité Un gain en intelligence par l identification de relations cachées ou l identification de tendances clés : facteur d Innovation Une opportunité à saisir pour les émetteurs de contenu (entreprise ou éditeur)
Cabinet de Conseil et d Etudes Adresse : 19 rue Ferdinand Duval, 75004 PARIS France Mobile : 06 74 45 26 25 Email : philippe.bonny@inevidence.com Web : www.inevidence.fr In Vivo : www.all mining.com
Annexes
Occurrences (exemple) Le discours diffus (Blogs) Le discours dédié (Forum) Base 932 paragraphes «pièces» Base 860 fils de discussion dédiés
Cooccurrences (exemple)
Relations (exemple) A Text Mining Technique Using Association Rules Extraction, Hany Mahgoub, Dietmar Rösner, Nabil Ismail and Fawzy Torkey, International Journal of Computational Intelligence 4;1 www.waset.org Winter 2008
Tendances (exemple) Dow Jones Economic Sentiment Indicator (ESI)