TEXT MINING Tour d Horizon



Documents pareils
La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Apprentissage Automatique

Marc SALLIERES CEO ALTIC

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

SAN07 IBM Social Media Analytics:

Comment valoriser votre patrimoine de données?

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Le décisionnel plus que jamais au sommet de l agenda des DSI

Customer Intelligence

LIVRE BLANC Décembre 2014

Les apports de l informatique. Aux autres disciplines

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Les ressources numériques

DESCRIPTIF DE MODULE S5 GSI

Business Intelligence avec Excel, Power BI et Office 365

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

IBM Social Media Analytics

Business Intelligence

Comment mesurer l'impact des solutions "on demand" sur la valeur du Système d Information?

Quels apprentissages info-documentaires au collège?

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Créer un site e-commerce avec PrestaShop Cloud Mise en place et suivi du projet

Le Tag Management à l ère du Smart Data

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

UserReplay. UserReplay. Départments ecommerce et Marketing. Service Client. Web Ops/ Infrastructure: Développement du site et Support technique

Intelligence Inventive & Mapping des réseaux de Recherche. Expernova & Active Innovation Management GFII 5 Mars 2015

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Junior ESSEC 1, avenue Bernard Hirsch Cergy / Tel : +33 (0) / Fax : +33 (0) / je@junioressec.

ISTEX, vers des services innovants d accès à la connaissance

Problématiques de recherche. Figure Research Agenda for service-oriented computing

La Business Intelligence pour les Institutions Financières. Jean-Michel JURBERT Resp Marketing Produit

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

L Agence Marketing de vos Projets

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

Sage 100. pour les PME. Faites de votre gestion un levier de performance

D origine destiné à la conception de blog, WordPress est devenu l outil incontournable dans la liste des systèmes de gestion de contenus..

Eurateach labellisé par la région et le FAFIEC. Si vous remplissez les conditions suivantes : Votre entreprise compte moins de 250 salariés

DOSSIER DE PRESSE. LEXSI.COM. Contacts presse : OXYGEN Tatiana GRAFFEUIL Audrey SLIWINSKI

Devenir une banque relationnelle de référence : pourquoi et comment?

Accélérer la transformation de vos nouveaux modèles assurances

Portail collaboratif Intranet documentaire Dématérialisation de processus

PrestaShop Cloud. Créer un site e-commerce avec. PrestaShop Cloud. Mise en place et suivi du projet. Créer un site e-commerce avec

Du référencement naturel au social marketing. Janvier 2010 Salon e-marketing

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Labs Hadoop Février 2013

Premier colloque international sur la veille stratégique multilingue. Université de Genève (ETI, Suisse) mai 2008

Malgré la crise, Le décisionnel en croissance en France

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Direction des bibliothèques. Sondage Ithaka S+R. Questionnaire français Université de Montréal

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

Introduction Big Data

Plénière 1 / Le retour sur investissement, nouveau paradigme de la communication? Mythes et réalités

De l information à la prise de décision : nouveaux modes d accès et d analyses pour la performance du business France,

ROI et performance web

Entrepôt de données 1. Introduction

Optimisez les coûts de possession de votre information et redonnez de la capacité d investissement au DSI

Gestion d E-réputation. Management de marque

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

Comment booster vos applications SAP Hana avec SQLSCRIPT

Gestion collaborative de documents

Tirez plus vite profit du cloud computing avec IBM

Les attentes du marché

Présentation Etude Multi Clients Sponsorisée Camille Marchand, Account Manager

Panorama des solutions Ecommerce

Assurance et Protection sociale Les enjeux du Digital Commerce

Cognit Ive Cas d utilisation

Digital : état de l'art et enjeux

Les nouveaux outils de pilotage de vos lancements. Valérie Trouillet Senior Principal, IMS Consulting

Master Marketing et Pratiques Commerciales parcours Management de la marque et communication Apprentissage Master 2

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

Des outils. pour les industriels et les distributeurs. Analysez. Valorisez. Optimisez. vos produits. vos produits. vos produits

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data

TRIBUNE BRAINWAVE GOUVERNANCE ET SéCURITé. Shadow IT, la menace fantôme. Une tendance irréversible mais pas dénuée de risques.

Le travail collaboratif : guide des services

Adaptabilité d un MOOC aux styles d apprentissage. Hubert Kadima Directeur de Recherche LARIS/EISTI hubert.kadima@eisti.fr

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

MICROSOFT DYNAMICS CRM & O Val

Canon Business Services 2013

FICHE DE POSTE. Gestionnaire des données du Portail des savoirs (H/F)

TRAVAUX DE RECHERCHE DANS LE

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Table des matières. Préface...5. Introduction...9

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

LE MEILLEUR DES SOLUTIONS COLLABORATIVE OPEN SOURCE. et pas que la GED

Cours n 2. UE706: Veille et intelligence économique EC3: Intelligence Économique et réseaux. Promo. Master : SIC. Documentation numérique

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

Offre IDALYS. Le conseil couvrant tous les aspects métiers du commerce digital. Mai 2013

Customer experience Management et «Listening Platforms»

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Constituer des profils d'experts scientifiques, de centres de recherche et d entreprises innovantes

GlobeAdvent. Aurélie Krau. Présente. Experte Technology for

Présentation de la majeure ISN. ESILV - 18 avril 2013

Déjeuner EIM Enterprise Information Management. Mardi 16 novembre 2010 Restaurant l Amourette Montreuil Thomas Dechilly CTO Sollan

Les compétences clés en 2015 La révolution du Big Data souffle sur les métiers du commerce et du marketing

Transcription:

TEXT MINING Tour d Horizon Media Campus WAN IFRA "Structurer, optimiser et valoriser son contenu éditorial : les outils de text mining" 24 novembre 2009, PARIS Philippe BONNY Cabinet de Conseil et d Etudes www.inevidence.fr

Cabinet de conseil et d études, fondé par des spécialistes du traitement de l information, Inevidence accompagne les entreprises dans leur stratégie face aux enjeux du Digital Prestations Nous réalisons trois types de prestations qui concourent ensemble à répondre aux besoins des entreprises face aux enjeux du numérique : Conseil : stratégique amont et accompagnement de comité de direction de projets Etudes : premium du champs informationnel numérique pour accélérer la prise de décision Formation : sur les leviers de performance créés autour du numérique Champs d'application : INTELLIGENCE D ENTREPRISE ENTREPRISE 2.0 3.0, ALL MINING, ENTERPRISE SEARCH, RECORDS MANAGEMENT, CLOUD COMPUTING... INTIMITÉ CLIENT SENTIMENT ANALYSIS, WEB CUSTOMER INTIMACY, TEXT MINING, SPEECH MINING,... BRAND IMAGE E REPUTATION, E SEMIOTIQUE, IMAGE MINING,... INNOVATION EMOTIONAL DESIGN, INTELLIGENCE COLLECTIVE, VEILLE CUSTOMER CO DESIGN MARCHÉ DES TECHNOLOGIES ALL MINING, 2.0 (3.0), VIRTUALIZATION, CLOUD COMPUTING...

Plan Introduction Exemples Métier et Définition Text Mining Inside Applications Facteurs Clés de Succès Conclusion

Introduction La production mondiale d information (en volume) dans : les bases structurées ont augmenté de 4% en 2006 et représentent environ 10% des données. les données non structurées représentent 90% du total et augmentent de 6400% par an. Source : IDC

Business Case #1 Business Need : COMMUNICATION «Comment mesurer et suivre les évolutions de l image de ma société, de mes produits ou mes services» Opportunités «De nombreux canaux d informations sont aisément accessibles (call center, emails, internet, presse, questionnaires ouverts, etc.)» Difficultés «Plus d un millier de nouveaux documents par jour!» (VOLUME) «Les personnes utilisent un langage très varié pour exprimer leur opinion» (COMPLEXITE)

Business Case #2 Business Need : STRATEGIE «Comment anticiper les mouvements stratégiques de mes concurrents» Opportunité «Mes concurrents sont connus et génèrent beaucoup d information dans le monde (études, internet, presse, etc.)» Difficultés «J ai de nombreux concurrents» (VOLUME) «Seuls certains éléments précis m intéressent (financiers, organisationnels, marketing, ), pas simple de les repérer, en outre les sources sont multilingues» (COMPLEXITE)

Business Case #3 Business Need : Innovation «Je cherche à substituer un composant chimique par un nouveau plus efficace» Opportunité «Je sais que de nouvelles familles de molécules ont des propriétés intéressantes» Difficultés «le champs de publication correspondant est vaste» (VOLUME) «comme le sujet est émergent, les propriétés de ces composés ne sont pas encore bien codifiées» (COMPLEXITE)

Définition du Text Mining Par analogie avec le Data Mining : Processus qui permet l extraction de connaissance à partir de données non structurées sous forme textuelles (en s affranchissant notamment des volumes à traiter et de la complexité inhérente au langage naturel dans les textes) Text Mining ~ Text Analytics, Unstructured Data Mining ou (FR) Fouille de Textes

Plan Introduction Exemples métier et Définition Text Mining Inside Applications Facteurs Clés de Succès Conclusion

Notions de base Concept : un thème, une propriété, une action, un sentiment, Entité nommée une personne, un lieu, une organisation,, une date, des nombres Mot & expression bonjour «développement durable» Caractère abc.123.

Architecture générale Focus R. Feldman & J. Sanger, The Text Mining Handbook

Fonctions Cœur du Text Mining Dans un corpus donné de documents : 1. analyse d occurrence de concepts (voir) 2. analyse de cooccurrence de concepts (voir) 3. identification de relations entre des concepts ou des jeux de concepts (voir) Analyse de tendances dans le temps des trois (voir)

Focus PreProcessing Traitement du langage naturel détection de la langue analyse morphosyntaxique lemmatisation catégorie syntaxique désambiguïsation sémantique Traitement «orienté» Catégorisation Extraction d information Entités nommées Extraction de relations Résolution de l anaphore.. Technologies linguistique, statistiques, neuromimétiques Tendances vers des technos hybrides Réduire training et réduire manuel

Focus Base de connaissance Formalismes lexique thesaurus ontologie Graphes conceptuels Réseaux Sémantiques Nature terminologique (langues) ex WordNet domaine sectoriels, applicatifs Langages (ontologies) W3C : RFD, RFDS, OWL ISO : Topics Maps Financial Ontology, OWL Logiciel Protégé

Focus Interface Utilisateur http://alibaba.informatik.hu berlin.de/

Synthèse Fonctions cœur du Text Mining => découverte PreProcessing => pilier du processus d analyse Base de connaissance => dilemme (réactivité x précision) Interface graphique => facteur d appropriation

Plan Introduction Exemples métier et Définition Text Mining Inside Applications Facteurs Clés de Succès Conclusion

Mode de livraison de la valeur du Text Mining Deux modes : Comme solution «pure» d analyse de corpus de documents Comme «brique technologique» intégrée dans des solutions plus larges de traitement de l information Documents (textuels) INPUT Documents (textuels) PROCESSUS TEXT MINING TEXT MINING Valeur pour l exploitation des documents (entités, cooccurrences, tendances, ) Valeur pour l exploitation des documents (entités, cooccurrences, tendances, ) OUTPUT Standard : ex. UIMA Unstructured Information Management Architecture

Segmentation des applications 1) L analyse de contenu L analyse de discours, l analyse de formulaire, 2) Les moteurs de recherche Recherche de documents, de données, d information 3) La gestion de contenu Création, édition, publication, classement, contenu, Veille KM 4) La business intelligence Analyse des ventes, des clients, de la production, aide à la décision, Documents (textuels) INPUT Documents (textuels) TEXT MINING TEXT MINING PROCESSUS Valeur pour l exploitation des documents (entités, cooccurrences, tendances, ) OUTPUT Valeur pour l exploitation des documents (entités, cooccurrences, tendances, )

Acteurs (Vision US) Alta Plana, Seth Grimes 2009

1) Analyse de contenu SOURCES > Secteurs historiques CHIMIE / PHARMACIE Littérature scientifique et médicale, rapport et mesures de traitements, bases de données chimiques, pharmaceutiques ou de symptômes médicaux OBJECTIFS Extraire des relations entre des éléments chimiques ou bio-médicaux ou marqueurs génétiques et des symptômes ex. RENSEIGNEMENT SECURITE INTERIEURE Notes et rapports de renseignements, communications interceptées, dossiers documentaires ; le tout multilingue Dossiers d enquêtes, rapports judiciaires et jugements, documents légaux, données géographiques et démographiques Suivre des organisations et des réseaux cibles, identifier des comportements et des modèles d attaques types, déduire des niveaux de risques Déduire des modèles d actes criminels (temporalité, géo spatialité, organisations, ) et aider les enquêtes et les poursuites BANQUES & ASSURANCES > Secteur plus récent ÉDITION ÉLECTRONIQUE Données financières structurées et non structurées (alertes, risques, tendances.) Sources produites ou agrégées par l éditeur(presse, dépêches, études, brevets, publications scientifiques, etc) Identifier et anticiper des risques marché pour optimiser le management des investissements Développer les capacités d analyse des sources proposées : identifier les acteurs, les thèmes, les tendances, etc.

1) Analyse de contenu (suite) SOURCES > Fonctions d entreprise INTELLIGENCE ECONOMIQUE & VEILLE Documents et rapports de concurrents, discours de dirigeants, articles de presse, sites web, blogs, brevets et publications associées au concurrents OBJECTIFS Analyser la stratégie des concurrents en croisant un ensemble de sources et d informations : identifier des tendances, des ruptures, des réseaux etc. MARKETING & COMMUNICATION (Opinion Mining, Sentiment Analysis) Données internes clients (fichier client, transcripts de call center, email, réponses à des questionnaires ouverts, etc) et données externes déclaration dans les blogs les newsgroups Construire une image fidèle du client, de ses besoins latents, de sa satisfaction et de sa loyauté RH Lettre de candidatures, et CV Extraire les compétences et les savoirfaire en combinant avec les critères de recrutement INNOVATION PRODUIT Croisement de sources de données sur les produits et sur les consommateurs (données internes et externes) Analyse et anticipation de tendances marché sur l offre et la demande produits de manière à identifier des éléments d innovation produit FRAUD DETECTION Call center transcript, demandes d indemnités, déclarations de sinistres, données clients Identifier/reconnaître des indicateurs («patterns») de risques potentiels de fraudes de clients.

2) Moteurs de recherche Indexation avancée de corpus Traitement du langage naturel des requêtes Cross linguisme Suggestion de mots clés Catégorisation des résultats

3) Gestion de contenu Création suggestion de contenu suggestion de métadonnées Navigation Classement automatique Génération de Taxonomie Search Moteur de recherche avancé Analyse Analyse de contenu Agrégation de contenu

4) Business Intelligence Analyse croisée des données structurées et non structurées Alimentation automatique de bases de données

Plan Introduction Exemples métier et Définition Text Mining Inside Applications Facteurs Clés de Succès Conclusion

Facteurs Clés de Succès (1/3) Business Value «User Centered» ou «Customer Centered» Analyse des besoins Culture outils Temporalité (occurrence et récurrence) Scénarios métiers Interface ergonomie visualisation

Facteurs Clés de Succès (2/3) Vision Systémique HUMAIN x SOURCES x OUTILS le bon dosage intervention de l humain sources : information brutes information traitées traitements : simple <> complexe compromis : puissance versus réactivité business model (éditeurs) OUTILS HUMAIN SOURCES

Facteurs Clés de Succès (3/3) Critères de choix de solutions Réponse fonctionnelle Robustesse / Scalability Administration Compétences : InSourcing/OutSourcing EcoSystème hôte OEM / Intégré dans solutions de GC Coûts globaux TESTER

Conclusions Le Text Mining offre deux propositions de valeurs pour les utilisateurs (ou les clients) : Un gain de temps pour l accès à l information et l extraction de connaissance : facteur de Productivité Un gain en intelligence par l identification de relations cachées ou l identification de tendances clés : facteur d Innovation Une opportunité à saisir pour les émetteurs de contenu (entreprise ou éditeur)

Cabinet de Conseil et d Etudes Adresse : 19 rue Ferdinand Duval, 75004 PARIS France Mobile : 06 74 45 26 25 Email : philippe.bonny@inevidence.com Web : www.inevidence.fr In Vivo : www.all mining.com

Annexes

Occurrences (exemple) Le discours diffus (Blogs) Le discours dédié (Forum) Base 932 paragraphes «pièces» Base 860 fils de discussion dédiés

Cooccurrences (exemple)

Relations (exemple) A Text Mining Technique Using Association Rules Extraction, Hany Mahgoub, Dietmar Rösner, Nabil Ismail and Fawzy Torkey, International Journal of Computational Intelligence 4;1 www.waset.org Winter 2008

Tendances (exemple) Dow Jones Economic Sentiment Indicator (ESI)