Analyse de contenu & big data Un état de l art des applications de la sémantique en 2013 Sommaire 1. Editorial de F.R. Chaumartin, fondateur de Proxem (page 2) 2. Moteur de recherche sémantique (page 3) 3. Classification automatique de document (page 4) 4. Reconnaissance d entités nommées (page 5) 5. Matching sémantique (page 6) 6. Découverte automatique sur le web (page 7)
L édito François-Régis Chaumartin, fondateur de Proxem - frc@proxem.com Proxem développe des solutions stratégiques d analyse de contenu, sous forme d applications pour l utilisateur final ou d API permettant une intégration fine dans le SI. Contrairement à d autres acteurs, nous avons fait le choix de ne pas nous spécialiser (ou nous restreindre) sur un domaine applicatif donné. A ce jour, nos solutions sont utilisées quotidiennement par des grandes sociétés dans différents cadres applicatifs : analyse de documents RH ; analyse des opinions exprimées par les consommateurs à propos d une marque ; recherche ciblée d informations, à l échelle globale, sur une niche industrielle donnée Nous vivons dans une ère de big data caractérisée selon trois «V». Le volume traité annuellement par Proxem se compte en millions de documents. La vélocité avec laquelle ces documents arrivent nous a poussés à mettre en place une architecture technique sophistiquée capable de digérer en temps réel le flux intense venant des réseaux sociaux. Enfin, la variété des sujets que nous traitons est immense : banque de détail, assurance, automobile, recrutement, télécommunications, mode, bricolage, cosmétique, pétrole, industrie du vin, pathologies médicales, communautarisme Ces différents projets ont été l occasion pour Proxem d industrialiser (i) la collecte de documents textuels sur le Web, (ii) l analyse sémantique des textes pour en extraire un contenu structuré sous forme de métadonnées et (iii) la présentation de ces informations dans des tableaux de bord de synthèse, dans des moteurs de recherche, via l envoi d alertes 12 années de R&D cumulées nous permettent de vous proposer aujourd hui les meilleures solutions du marché dans ces domaines, et donc de vous apporter un avantage concurrentiel décisif. Vous trouverez sans les pages suivantes quelques exemples concrets d application de ces technologies. Je vous en souhaite une excellente lecture! Page 2
Moteur de recherche sémantique Trouver rapidement l information pertinente dans une base documentaire Organiser et trouver facilement les documents pertinents dans une grande base de données documentaire est une activité primordiale pour de nombreux départements d une entreprise. Il peut s agir d identifier : - Les brevets sur une technologie donnée, - L état de la protection intellectuelle sur un domaine, - L ensemble des fiches produit correspondant à une fonctionnalité spécifique, - La jurisprudence sur un sujet précis, - Etc. Un moteur de recherche sémantique permet d exploiter la richesse documentaire d une entreprise. A l inverse d un moteur classique, reposant sur des mots-clés, le moteur de recherche sémantique permet de rechercher et d explorer des concepts, champs sémantiques, gammes de produits, personnes, organisations de façon à simplifier le travail humain dans les opérations de recherche d information. Un moteur de recherche sémantique fonctionne en deux temps : chaque document est d abord analysé par un moteur sémantique comme Proxem Antelope ; il est ensuite indexé dans un moteur de recherche classique. L étape d indexation va à la fois prendre en compte le texte brut des documents et les données extraites lors de l analyse sémantique. Coté déploiement, la solution peut être totalement externalisée ou bien découpée en deux, le moteur de recherche étant directement intégré au SI pour plus de souplesse. Page 3
Classification automatique de documents Du routage automatique d emails au traitement d enquêtes Un système d information capable de de rediriger automatiquement un courrier vers la bonne personne ; un outil capable d étiqueter le contenu d une réponse à un sondage en fonction du type de problèmes rencontrés. Ces deux opérations en apparence très différentes reposent en réalité sur la même opération, la classification automatique de documents. Qu il s agisse de courrier internes ou de messages adressés à une entreprise par ses clients, le besoin d organiser les contenus textuels est de plus en plus important à l heure de la big data. La sémantique permet d organiser les contenus de plusieurs façons : - En fonction du sujet qu ils abordent, - En fonction de leur tonalité (positive, négative ), - En fonction de leur importance (priorité haute vs. priorité basse). Chaque document est analysé en deux étapes : une première analyse sémantique détermine de quoi parle le texte ; un module de classification va ensuite déterminer ce qu on en dit, c est-à-dire les classes auxquelles le document appartient (une classe est par exemple «positif», «neutre», «mitigé» ou «négatif» en analyse d opinion). La classification peut être effectuée avec un moteur de règle ou un système d apprentissage. Dans les deux cas, la qualité de l analyse sémantique en amont est décisive pour obtenir une bonne précision lors de la classification. Page 4
Reconnaissance d entités nommées Etablir un référentiel intelligent pour la connaissance client Dans une entreprise, le traitement des problèmes remontés par les clients passe par de nombreux outils et méthodes, à commencer par les outils de CRM. La «voix du client» s exprime de fait sur un nombre croissant de canaux : enquêtes de satisfaction, mails de réclamations, échanges téléphoniques, tweets, commentaires sur les forums Il est donc critique de centraliser cette information dans un référentiel permettant de comparer ces canaux entre eux. La sémantique permet d organiser cette big data textuelle et de la comparer selon des indicateurs statistiques : problèmes, produits et marques mentionnés par les clients de l entreprise, thématiques abordées, etc. Une vision d ensemble de la connaissance client se dégage ainsi et permet la prise de décision globale à partir des données analysées. Trois étapes s enchaînent dans ce cas d usage : collecte des documents, analyse sémantique et mise à disposition pour une analyse statistique. Ici l intégration est stratégique. Les canaux sont multiples, avec des technologies et de cycles de vie disparates. L objectif est de collecter tous les documents afin de les centraliser tout en alignant les métadonnées spécifiques à chaque canal. Chaque canal peut nécessiter une analyse sémantique spécifique, en fonction de la nature même des documents : par exemple un email, un tweet ou une réponse à un sondage nécessitent souvent des approches spécifiques. Enfin l analyse statistique peut être réalisée grâce à l outil intégrée de la solution Proxem ou être prise en charge par la solution de BI déjà présente dans le SI. Page 5
Matching sémantique Faire correspondre automatiquement l offre et la demande les mieux adaptées L identification de profils compétitifs est le métier des job boards et autres sites d offres d emploi, mais c est aussi le métier des ressources humaines d une entreprise. La constitution d une CVthèque est une étape indispensable, mais il devient vite difficile de s y retrouver lorsque l on recherche un profil précis dans un vivier de milliers de candidatures spontanées. La sémantique permet d établir automatiquement des correspondances entre une offre et un CV en analysant les compétences, expériences et qualités relatives à un poste. Cette opération de matching est également utilisée pour les annonces immobilières, les sites de rencontres ou toute autre plateforme proposant la rencontre d une offre et d une demande. Le matching s appuie sur la combinaison de l analyse sémantique et de techniques de recherche par similarité. L analyse sémantique va permettre d établir le lien entre les mots d un document et les concepts sous-jacents. Par exemple dans un CV de développeur, le terme «C++» sera associé au langage de programmation correspondant, qui est un «langage orienté objet». De même, dans une annonce «cherche développeur Java», le terme «Java» sera reconnu en tant que «langage orienté objet». Une recherche par similarité va ensuite établir la distance entre un document donné (l annonce «cherche développeur Java») et les documents du corpus pouvant correspondre (les CV). Toute choses égales par ailleurs, les CV des développeurs Java disponibles seront proposés en premier, puis ceux des développeurs C++. Page 6
Découverte automatique sur le web Identifier rapidement les documents et acteurs-clés d un secteur De toutes les sources d informations dont nous disposons à l heure actuelle, le web est sans doute la plus vaste et celle qui évolue le plus rapidement. Le défi du web est celui de la recherche d information : «tout» est sur le web, mais encore faut-il le trouver. Qu il s agisse de suivre l activité d une marque ou de ses concurrents (dans un processus de veille) ou de se documenter rapidement sur les écrits et auteurs incontournables d un domaine, la difficulté est double : (i) trouver tous les pages ou sites intéressants qui concernent un sujet puis (ii) éliminer les sites inintéressants et le «bruit» parasite qu il est très fastidieux de trier à la main. La collecte sémantique d information permet ainsi de séparer le bon grain de l ivraie et d identifier rapidement, au-delà de la simple recherche par mots-clés, un grand nombre d informations pertinences. La solution se découpe en trois parties principales : la collecte, la curation et l analyse sémantique. La collecte utilise de multiples techniques pour identifier un maximum de contenus potentiellement intéressants. Ici la priorité est donnée à la couverture pour être exhaustif. La curation va éliminer les contenus hors sujet. Elle s appuie sur différentes techniques dont des règles, une analyse sémantique de surface ou un classificateur par apprentissage proche d un anti-spam. Enfin l analyse sémantique extrait des informations structurées à partir des contenus, ce qui permet une analyse statistique. Page 7
Qui est Proxem? Proxem est éditeur de solutions stratégiques d analyse de contenu pour l entreprise. Proxem accompagne les entreprises dans la gestion de leur surcharge informationnelle à travers la conception et la mise en place de solution logicielles innovantes. Fondé en 2007, Proxem a consacré ses trois premières années à une R&D intensive. Les solutions logicielles de Proxem capitalisent ainsi sur 12 années-hommes de R&D dans ces domaines, en partie financées par quatre projets menés en partenariat avec les Universités Paris 7, Paris 10 et l Inria. Issue du monde de la recherche, Proxem place la R&D au cœur de ses valeurs et de son activité. Son histoire rend précieuses à ses yeux la transparence et la rigueur propre au monde scientifique. Proxem revendique une double expertise en Traitement Automatiques des Langues et en informatique. Sa culture de l innovation au service du business lui donne une capacité unique à mettre en œuvre rapidement des solutions opérationnelles et fonctionnelles. Page 8 Mél : contact@proxem.com 19 bd de Magenta, 75010 Paris. Tél : +33 1 42 39 18 19 Twitter : @proxem