Analyse de contenu & big data Un état de l art des applications de la sémantique en 2013



Documents pareils
SMALL DATA DANS LA VEILLE

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

WHITEPAPER. Quatre indices pour identifier une intégration ERP inefficace

Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, qu ils disposent ou non d une structure de veille dédiée.

QUI SOMMES-NOUS? Cette solution s adresse aussi bien aux PME/PMI qu aux grands groupes, disposant ou non d une structure de veille dédiée.

Online Intelligence Solutions. Reed Expositions

Fonctionnalités principales par métiers.

LIVRE BLANC Décembre 2014

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Vos données sont-elles adaptées à l informatique en nuage?

CIMAIL SOLUTION: EASYFOLDER SAE

Cognit Ive Cas d utilisation

Qui sommes nous? +600 clients en France et à l international

Constituer des profils d'experts scientifiques, de centres de recherche et d entreprises innovantes

La Solution Logicielle Multicanal pour votre Centre de Contacts

La Convergence des outils de veille et des sources

La réponse aux enjeux des RH du 21 ème siècle

CONNEXION SUR LE MONDE DU CLOUD-RECRUITMENT

Irrigation Marketing. >1 : Un nouveau concept : l irrigation marketing

LES REFERENTIELS DES TROIS BACCALAUREATS PROFESSIONNELS DU TERTIAIRE COMMERCIAL VENTE COMMERCE SERVICES

Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

L Application Performance Management pourquoi et pour quoi faire?

Master Information Communication 2ème année Spé. Intelligence Economique et Territoriale

Le Recrutement Octobre

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Nell Armonia Shuttle Web

Introduction Big Data

Dossier de presse. Lancement du nouveau CIVIWEB : 18 février Sommaire

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Business Intelligence

Veille stratégique sur Internet Comprendre les enjeux, maîtriser les outils et partager l'information

IBM Social Media Analytics

X2BIRT : Mettez de l interactivité dans vos archives

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Modelio by Modeliosoft

Déjeuner EIM Enterprise Information Management. Mardi 16 novembre 2010 Restaurant l Amourette Montreuil Thomas Dechilly CTO Sollan

ÉVÉNEMENT «DYNAMISEZ VOTRE INTRANET» INTRANET, PANORAMA 2012 ET NOUVELLES TENDANCES JÉRÔME BAILLY

#BigData Dossier de presse Mai 2014

NEXITY. Nexity développe une stratégie d E-reputation à 360 sur la base des données sociales fournies par BuzzWatcher. CASE STUDY

Automatisez votre gestion et vos procédures commerciales

Les enjeux de la dématérialisation du courrier entrant

LES 7 ATOUTS NUMÉRIQUES DE MANAGEMENT D UN RÉSEAU DE FRANCHISE

ITSM - Gestion des Services informatiques

Le logiciel qui simplifie les relations avec tous les publics

CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE

Cursus 2013 Déployer un Content Management System

Cabinet de recrutement IT.

Business Intelligence avec Excel, Power BI et Office 365

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Garantir une meilleure prestation de services et une expérience utilisateur optimale

: seul le dossier dossier sera cherché, tous les sousdomaines

PRESENTATION. Plateforme d engagement et de relation client digitale

HARMONISEZ VOTRE. Insidjam ERP

France Telecom Orange

Gestion de la relation Client (CRM)

Solution. collaborative. de vos relations clients.

Système d information : démystification, facteur de croissance et conduite du changement

Les nouveaux tableaux de bord des managers

Le projet collaboratif 2.0

*Référent technologique ICS * IBM Premier Partner * 35 collaborateurs certifiés * Équipe commerciale qualifiée * Méthodologie éprouvée

Livret de Stages 2014 / 2015

DIGITAL MINDS. Chapitre 7, Les médias sociaux. 12 Clés pour Développer votre Business sur le Web WSI. All rights reserved.

Référencement naturel

Module Projet Personnel Professionnel

Agenda de la présentation

RESEAUX SOCIAUX : OUTILS DE PROSPECTION ET FIDELISATION?

Méthodologie de conceptualisation BI

Partie I Stratégies relationnelles et principes d organisation... 23

Le logiciel internet pour les consultants et entreprises en ressources humaines

TEXT MINING Tour d Horizon

Big Data : Quel usage au sein des projetsinternet?

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Solution de Pilotage des Activités de Service

MANAGEMENT PAR LA QUALITE ET TIC

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Gagner en performance avec un extranet. et mener son projet extranet?

MANAGEMENT PAR LA QUALITE ET TIC

ES Enterprise Solutions

CRM Service. Exemples de secteurs concernés. Fonctionnalités clés. Gestion de l activité quotidienne. Gestion complète de la force de vente

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Concevoir sa stratégie de recherche d information

Fouillez facilement dans votre système Big Data. Olivier TAVARD

LE RECRUTEMENT PARTICIPATIF

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

Business Intelligence simple et efficace

QLIKVIEW POUR SALESFORCE

Constat ERP 20% ECM 80% ERP (Enterprise Resource Planning) = PGI (Progiciel de Gestion Intégré)

eframe pour optimiser les reportings métiers et réglementaires

COMMENT METTRE A JOUR SON SITE WEB?

DOSSIER SUR LA VEILLE

Les cinq raisons majeures pour déployer SDN (Software-Defined Networks) et NFV (Network Functions Virtualization)

Marier Internet et Centre d appels. Opportunité du Centre de Relation Client

TRANSFORMATION DIGITALE NEWSLETTER - MARS 2014

PÉRENNISER LA PERFORMANCE

ELOECM Conference2015

Transcription:

Analyse de contenu & big data Un état de l art des applications de la sémantique en 2013 Sommaire 1. Editorial de F.R. Chaumartin, fondateur de Proxem (page 2) 2. Moteur de recherche sémantique (page 3) 3. Classification automatique de document (page 4) 4. Reconnaissance d entités nommées (page 5) 5. Matching sémantique (page 6) 6. Découverte automatique sur le web (page 7)

L édito François-Régis Chaumartin, fondateur de Proxem - frc@proxem.com Proxem développe des solutions stratégiques d analyse de contenu, sous forme d applications pour l utilisateur final ou d API permettant une intégration fine dans le SI. Contrairement à d autres acteurs, nous avons fait le choix de ne pas nous spécialiser (ou nous restreindre) sur un domaine applicatif donné. A ce jour, nos solutions sont utilisées quotidiennement par des grandes sociétés dans différents cadres applicatifs : analyse de documents RH ; analyse des opinions exprimées par les consommateurs à propos d une marque ; recherche ciblée d informations, à l échelle globale, sur une niche industrielle donnée Nous vivons dans une ère de big data caractérisée selon trois «V». Le volume traité annuellement par Proxem se compte en millions de documents. La vélocité avec laquelle ces documents arrivent nous a poussés à mettre en place une architecture technique sophistiquée capable de digérer en temps réel le flux intense venant des réseaux sociaux. Enfin, la variété des sujets que nous traitons est immense : banque de détail, assurance, automobile, recrutement, télécommunications, mode, bricolage, cosmétique, pétrole, industrie du vin, pathologies médicales, communautarisme Ces différents projets ont été l occasion pour Proxem d industrialiser (i) la collecte de documents textuels sur le Web, (ii) l analyse sémantique des textes pour en extraire un contenu structuré sous forme de métadonnées et (iii) la présentation de ces informations dans des tableaux de bord de synthèse, dans des moteurs de recherche, via l envoi d alertes 12 années de R&D cumulées nous permettent de vous proposer aujourd hui les meilleures solutions du marché dans ces domaines, et donc de vous apporter un avantage concurrentiel décisif. Vous trouverez sans les pages suivantes quelques exemples concrets d application de ces technologies. Je vous en souhaite une excellente lecture! Page 2

Moteur de recherche sémantique Trouver rapidement l information pertinente dans une base documentaire Organiser et trouver facilement les documents pertinents dans une grande base de données documentaire est une activité primordiale pour de nombreux départements d une entreprise. Il peut s agir d identifier : - Les brevets sur une technologie donnée, - L état de la protection intellectuelle sur un domaine, - L ensemble des fiches produit correspondant à une fonctionnalité spécifique, - La jurisprudence sur un sujet précis, - Etc. Un moteur de recherche sémantique permet d exploiter la richesse documentaire d une entreprise. A l inverse d un moteur classique, reposant sur des mots-clés, le moteur de recherche sémantique permet de rechercher et d explorer des concepts, champs sémantiques, gammes de produits, personnes, organisations de façon à simplifier le travail humain dans les opérations de recherche d information. Un moteur de recherche sémantique fonctionne en deux temps : chaque document est d abord analysé par un moteur sémantique comme Proxem Antelope ; il est ensuite indexé dans un moteur de recherche classique. L étape d indexation va à la fois prendre en compte le texte brut des documents et les données extraites lors de l analyse sémantique. Coté déploiement, la solution peut être totalement externalisée ou bien découpée en deux, le moteur de recherche étant directement intégré au SI pour plus de souplesse. Page 3

Classification automatique de documents Du routage automatique d emails au traitement d enquêtes Un système d information capable de de rediriger automatiquement un courrier vers la bonne personne ; un outil capable d étiqueter le contenu d une réponse à un sondage en fonction du type de problèmes rencontrés. Ces deux opérations en apparence très différentes reposent en réalité sur la même opération, la classification automatique de documents. Qu il s agisse de courrier internes ou de messages adressés à une entreprise par ses clients, le besoin d organiser les contenus textuels est de plus en plus important à l heure de la big data. La sémantique permet d organiser les contenus de plusieurs façons : - En fonction du sujet qu ils abordent, - En fonction de leur tonalité (positive, négative ), - En fonction de leur importance (priorité haute vs. priorité basse). Chaque document est analysé en deux étapes : une première analyse sémantique détermine de quoi parle le texte ; un module de classification va ensuite déterminer ce qu on en dit, c est-à-dire les classes auxquelles le document appartient (une classe est par exemple «positif», «neutre», «mitigé» ou «négatif» en analyse d opinion). La classification peut être effectuée avec un moteur de règle ou un système d apprentissage. Dans les deux cas, la qualité de l analyse sémantique en amont est décisive pour obtenir une bonne précision lors de la classification. Page 4

Reconnaissance d entités nommées Etablir un référentiel intelligent pour la connaissance client Dans une entreprise, le traitement des problèmes remontés par les clients passe par de nombreux outils et méthodes, à commencer par les outils de CRM. La «voix du client» s exprime de fait sur un nombre croissant de canaux : enquêtes de satisfaction, mails de réclamations, échanges téléphoniques, tweets, commentaires sur les forums Il est donc critique de centraliser cette information dans un référentiel permettant de comparer ces canaux entre eux. La sémantique permet d organiser cette big data textuelle et de la comparer selon des indicateurs statistiques : problèmes, produits et marques mentionnés par les clients de l entreprise, thématiques abordées, etc. Une vision d ensemble de la connaissance client se dégage ainsi et permet la prise de décision globale à partir des données analysées. Trois étapes s enchaînent dans ce cas d usage : collecte des documents, analyse sémantique et mise à disposition pour une analyse statistique. Ici l intégration est stratégique. Les canaux sont multiples, avec des technologies et de cycles de vie disparates. L objectif est de collecter tous les documents afin de les centraliser tout en alignant les métadonnées spécifiques à chaque canal. Chaque canal peut nécessiter une analyse sémantique spécifique, en fonction de la nature même des documents : par exemple un email, un tweet ou une réponse à un sondage nécessitent souvent des approches spécifiques. Enfin l analyse statistique peut être réalisée grâce à l outil intégrée de la solution Proxem ou être prise en charge par la solution de BI déjà présente dans le SI. Page 5

Matching sémantique Faire correspondre automatiquement l offre et la demande les mieux adaptées L identification de profils compétitifs est le métier des job boards et autres sites d offres d emploi, mais c est aussi le métier des ressources humaines d une entreprise. La constitution d une CVthèque est une étape indispensable, mais il devient vite difficile de s y retrouver lorsque l on recherche un profil précis dans un vivier de milliers de candidatures spontanées. La sémantique permet d établir automatiquement des correspondances entre une offre et un CV en analysant les compétences, expériences et qualités relatives à un poste. Cette opération de matching est également utilisée pour les annonces immobilières, les sites de rencontres ou toute autre plateforme proposant la rencontre d une offre et d une demande. Le matching s appuie sur la combinaison de l analyse sémantique et de techniques de recherche par similarité. L analyse sémantique va permettre d établir le lien entre les mots d un document et les concepts sous-jacents. Par exemple dans un CV de développeur, le terme «C++» sera associé au langage de programmation correspondant, qui est un «langage orienté objet». De même, dans une annonce «cherche développeur Java», le terme «Java» sera reconnu en tant que «langage orienté objet». Une recherche par similarité va ensuite établir la distance entre un document donné (l annonce «cherche développeur Java») et les documents du corpus pouvant correspondre (les CV). Toute choses égales par ailleurs, les CV des développeurs Java disponibles seront proposés en premier, puis ceux des développeurs C++. Page 6

Découverte automatique sur le web Identifier rapidement les documents et acteurs-clés d un secteur De toutes les sources d informations dont nous disposons à l heure actuelle, le web est sans doute la plus vaste et celle qui évolue le plus rapidement. Le défi du web est celui de la recherche d information : «tout» est sur le web, mais encore faut-il le trouver. Qu il s agisse de suivre l activité d une marque ou de ses concurrents (dans un processus de veille) ou de se documenter rapidement sur les écrits et auteurs incontournables d un domaine, la difficulté est double : (i) trouver tous les pages ou sites intéressants qui concernent un sujet puis (ii) éliminer les sites inintéressants et le «bruit» parasite qu il est très fastidieux de trier à la main. La collecte sémantique d information permet ainsi de séparer le bon grain de l ivraie et d identifier rapidement, au-delà de la simple recherche par mots-clés, un grand nombre d informations pertinences. La solution se découpe en trois parties principales : la collecte, la curation et l analyse sémantique. La collecte utilise de multiples techniques pour identifier un maximum de contenus potentiellement intéressants. Ici la priorité est donnée à la couverture pour être exhaustif. La curation va éliminer les contenus hors sujet. Elle s appuie sur différentes techniques dont des règles, une analyse sémantique de surface ou un classificateur par apprentissage proche d un anti-spam. Enfin l analyse sémantique extrait des informations structurées à partir des contenus, ce qui permet une analyse statistique. Page 7

Qui est Proxem? Proxem est éditeur de solutions stratégiques d analyse de contenu pour l entreprise. Proxem accompagne les entreprises dans la gestion de leur surcharge informationnelle à travers la conception et la mise en place de solution logicielles innovantes. Fondé en 2007, Proxem a consacré ses trois premières années à une R&D intensive. Les solutions logicielles de Proxem capitalisent ainsi sur 12 années-hommes de R&D dans ces domaines, en partie financées par quatre projets menés en partenariat avec les Universités Paris 7, Paris 10 et l Inria. Issue du monde de la recherche, Proxem place la R&D au cœur de ses valeurs et de son activité. Son histoire rend précieuses à ses yeux la transparence et la rigueur propre au monde scientifique. Proxem revendique une double expertise en Traitement Automatiques des Langues et en informatique. Sa culture de l innovation au service du business lui donne une capacité unique à mettre en œuvre rapidement des solutions opérationnelles et fonctionnelles. Page 8 Mél : contact@proxem.com 19 bd de Magenta, 75010 Paris. Tél : +33 1 42 39 18 19 Twitter : @proxem