La détection automatique de l opinion : contraintes et enjeux Frédéric Marcoul Responsable R&D de Spotter fmarcoul@spotter.com Ana Athayde Président Directeur Général de Spotter aathayde@spotter.com RÉSUMÉ La détection automatique des opinions est un enjeu capital dans le cadre du développement de la société Spotter, spécialisée dans la veille et l analyse du discours médiatique et des conversations sur Internet. Nous présentons ici le processus actuel de l analyse des opinions au sein de l entreprise, les attentes, les enjeux et les contraintes relatives à son automatisation ainsi que les collaborations avec des laboratoires de recherche dans le cadre du programme de Recherche & Développement de Spotter. ABSTRACT Présentation de la société Spotter Approche globale et méthodologie d analyse des opinions Etude de cas : le débat européen sur la réglementation du roaming Outils et méthodes actuellement utilisés au sein de Spotter Enjeux et contraintes de la détection automatique des opinions Orientations R&D de Spotter et collaboration avec la recherche MOTS CLES Traitement automatique de la langue, analyse du discours, opinions, prises de parole, veille, linguistique, médias, web 2.0.
2 Atelier FODOP 08 1. Présentation de la société Spotter Spécialisé dans la veille et l analyse du discours media et des conversations sur Internet, Spotter crée depuis 1998 des solutions flexibles et interactives dédiées à la prise de décision pour les entreprises et institutions nationales et internationales. Les solutions de Spotter, conçues sur mesure et implémentées à la demande des clients, répondent aux besoins de 5 grands secteurs d activité détaillés dans le schéma ci-dessous. Figure 1 Secteurs d activité de Spotter Les clients de Spotter comprennent des références prestigieuses en France et à l international, tels que la Commission Européenne (Direction Générale de la Communication, Direction Générale de l Information et des Médias), le Conseil de l Europe, le Ministère de l Intérieur anglais, McDonalds, EDF, Gaz de France, Goodyear, Havas Media, Coca-Cola, Michelin, Publicis Consultants, Ketchum, Weber Shandwick, Duke, la Fédération Internationale d Athlétisme, le Comité International Olympique, l Agence Mondiale Antidopage, le Comité d Organisation de la Coupe du Monde de Rugby. Dans le cadre de son activité, Spotter développe des méthodologies et des technologies qui lui sont propres afin de répondre à ses besoins de récolte, stockage, traitement, analyse, diffusion et management de l information. Spotter dispose d un pôle en charge de la Recherche & Développement composé d ingénieurs informatiques, de linguistes et de docteurs en informatique linguistique ; ce pôle assure le développement de logiciels spécifiques dédiés aux métiers de veille et d analyse des médias et d Internet. Il est accompagné, dans le cadre de projets collaboratifs, par des laboratoires de recherche dans les domaines du traitement automatique de la langue, de la linguistique et de la statistique.
La détection automatique de l opinion 3 2. Approche globale et méthodologie d analyse des opinions L analyse des opinions est au centre des préoccupations de Spotter et fait partie intégrale de son offre de services. Elle trouve trois applications majeures : - l étude du discours médiatique et des opinions exprimées par les journalistes, - l analyse et la cartographie du positionnement des acteurs du débat, - la détection, l évaluation et l étude des opinions exprimées sur Internet. La méthodologie mise en place par Spotter prend en compte les particularités de chaque problématique. Par exemple, pour l étude du discours médiatique il faut faire la distinction entre la parole du journaliste/auteur et la parole explicite ou implicite des acteurs qui sont cités par l auteur. Suite à la création et à l épuration du corpus sur un objet d analyse, au travers de l application de scénarios thématiques permettant d assurer la pertinence des documents, Spotter procède dans un premier temps à l identification des entités nommés et en particulier des personnes et organismes, en distinguant celles présentes dans la base de connaissances des nouvellement détectées. Pour ces dernières, un travail spécifique est réalisé afin d identifier les différentes dénominations utilisées dans le corpus pour nommer les personnes/organismes et vérifier que ceux-ci sont toujours citées au même titre. Par une méthode d occurrences relatives nous évaluons le niveau de visibilité de ces entités dans l ensemble du corpus (et par catégorie particulière). Puis nous identifions, au travers de scénarios de discours, celles «qui parlent», c est à dire, celles dont les déclarations et opinions sont citées par l auteur. A l issue de l analyse des entités nous étudions les différentes prises de parole afin de cerner les thématiques associées et de nous assurer que celles-ci ont un rapport avec l objet d analyse de départ. Nous étudions ensuite chaque opinion exprimée par thématique afin d évaluer sa coloration, identifier les arguments avancés par le locuteur et voir dans quelle mesure le journaliste/auteur reste en retrait où s implique dans le débat au travers des déclarations de l entité. L analyse du niveau d implication du journaliste/auteur dans le débat est complémenté par l identification des opinions qui lui sont propres, exprimées explicitement ou implicitement au travers notamment de l ironie. Une attention particulière est ici donnée aux titres, chapeaux, premiers paragraphes ainsi qu aux conclusions des documents. Enfin, nous procédons à des regroupements par coloration, arguments et par typologie des entités (gouvernement, association de consommateurs, députés, industriels, citoyens, etc.), puis nous établissons une cartographie de l ensemble des acteurs afin notamment de détecter les mouvements/évolutions des opinions et d analyser les tendances de fond.
4 Atelier FODOP 08 3. Etude de cas : le débat européen sur la réglementation du roaming La Direction Générale de la Société de l Information et des Médias de la Commission Européenne, dont le Commissaire Européen est Mme Viviane Reding, a confié à Spotter depuis 2006 la veille et l analyse des médias sur 8 pays européens. Ce projet vise à suivre au plus près l actualité liée aux différentes thématiques gérées par l institution ainsi qu à identifier et comprendre les opinions et le positionnement des différents acteurs impliqués dans le débat. Dans ce cadre, Spotter a suivi et analysé l implémentation de la réglementation européenne sur le roaming 1, finalisé avant l été 2007. Nous vous présentons cidessous le fil conducteur de l analyse des opinions réalisée par Spotter. Toute analyse du discours médiatique s initie par trois questions fondamentales : Combien a-t-on publié? Qui a publié? Sur quoi a-t-on parlé? La réponse à ces questions se traduit par trois graphiques qui positionnent la problématique et permettent d identifier l étendu du champ d analyse. Le volume de publication, illustré par le graphique suivant, a pour objectif de visualiser l évolution du débat dans le temps, d identifier les moments forts (pics de publication) et d analyser les tendances relatives aux thématiques analysées. Figure 2. Graphique de volume de publication de trois séries chronologiques 1 Appels de téléphonie mobile à partir d un pays étranger.
La détection automatique de l opinion 5 L origine des publications peut être représentée sous plusieurs formes selon les besoins de l analyse. Elle peut être croisée avec les thématiques d analyse majeures afin d offrir une vue détaillée de leur niveau de présence sur chaque pays étudié. Figure 3. Origine du volume de publication par pays et par thème majeur L analyse du discours médiatique relatif à l implémentation de la réglementation sur le roaming peut être structurée en trois phases clés, pour lesquelles il est nécessaire d identifier les acteurs impliqués dans le débat, d analyser leurs opinons et de les positionner. La première phase correspond à une phase de débat national et européen très ouverte qui se finalise par l accord obtenu entre les différents pays européens sur le projet de réglementation; la deuxième phase, préalable au vote au Parlement européen, présente un débat beaucoup plus structuré autour de propositions concrètes et avec de nouveaux acteurs les députés européens qui se positionnent; enfin, la troisième phase à l issue du vote, où l analyse se concentre autour de l identification des messages de la Commission européenne qui sont ou ne sont pas relayées par les médias, ainsi que sur les réactions nationales au résultats du vote. Le graphique suivant traduit les points clés de la réglementation sur le roaming qui ont été mis en avant par les médias à l issu du vote du Parlement européen et leur niveau de reprise par pays. Figure 4. Points clés de la réglementation mis en avant par les médias
6 Atelier FODOP 08 En ce qui concerne les acteurs impliqués dans le débat, il est intéressant d analyser leur niveau de présence, le taux de reprise de leurs déclarations ainsi que leur dispersion/concentration selon le nombre de pays, de sources et d auteurs ayant effectué des reprises. Le graphique suivant présente les personnalités dont les déclarations ont été reprises avant et après le vote sur la réglementation du roaming, le nombre de pays ayant repris ces déclarations, ainsi que la coloration des avis exprimées par celles-ci lors de leurs prises de parole. Figure 5. Points clés de la réglementation mis en avant par les médias Enfin, on s intéresse aux avis et opinions exprimées par les journalistes de manière explicite ou implicite. Cette analyse se concentre sur la prise de parole des journalistes en sachant que celles-ci peuvent se faire en introduction, conclusion et commentaire de déclarations d autres acteurs reprises dans leurs discours. Figure 6. Coloration des jugements exprimés par les journalistes
La détection automatique de l opinion 7 4. Outils et méthodes actuellement utilisées au sein de Spotter Spotter dispose actuellement d un ensemble d outils d analyse statistique et linguistique basés sur une approche de scénarios permettant de construire progressivement l analyse. Ces outils permettent de rechercher et d identifier les entités nommées et d évaluer leur niveau de présence. Ils permettent également d identifier avec une qualité proche de 90% des prises de parole grâce à l application de scénarios de discours. Les résultats obtenus sont soumis à un contrôle qualité humain afin de garantir que les résultats finaux sont 100% pertinents. Les thèmes et sous thèmes associés à l objet d analyse sont également identifiés par de scénarios thématiques. Après avoir trouvé les réponses aux questions «Qui parle?» et «Sur quoi?», nous procédons à une analyse approfondie du corpus et à l extraction semiautomatique des opinions et arguments. Celles-ci sont ensuite regroupés par sources et entités afin d évaluer le degré d intensité et de dispersion des opinions. Figure 7. Processus d analyse des opinions de Spotter
8 Atelier FODOP 08 5. Enjeux et contraintes de la détection automatique des opinions La détection automatique des opinions apparaît comme une orientation fondamentale dans l activité de Spotter, trois enjeux ont été clairement identifiés : - la réduction des temps de production, l augmentation des volumes traités et la rapidité des traitements quotidiens, - l augmentation de la fiabilité des analyses grâce au gain d objectivité dû à la diminution de l intervention humaine dans les premières phases d analyse, - l amélioration de la détection des signaux faibles ou émergeants permettant de limiter les risques des analyses basées sur une grille pré-établie. Toutefois, l automatisation de la détection des opinions doit se faire tout en garantissant le maintient d une qualité des résultats rendus au client. Compte tenu des difficultés inhérentes au traitement automatique de la langue et le fait que les résultats machine ne sont pas toujours 100% pertinents, l outil mis en place par Spotter doit combiner traitement automatique et contrôle qualité humain. Il est donc nécessaire d identifier au sein du processus automatique de la détection des opinions, les phases où l intervention humaine peut contribuer de manière significative à une amélioration des résultats, et d identifier les interventions qui doivent être prises en compte par l outil dans des traitements futurs (système d apprentissage), de celles qui sont spécifiques à un projet donné et qui ne doivent pas être considérées comme des nouvelles règles. 6. Orientations R&D de Spotter et collaboration avec la recherche De par son parcours, Spotter a su maîtriser les méthodologies d analyse du discours médiatique et des conversations sur Internet et travaille actuellement sur une structure logicielle linguistique à même de répondre aux besoins de l analyse des opinions à partir des données issues des médias. Sa grande force est d arriver à un haut niveau qualitatif en croisant les qualités des technologies informatiques et sa grande maîtrise linguistique. Spotter travaille actuellement avec des laboratoires de recherche afin de mettre en place et d adapter ces briques logicielles à l univers du Web 2.0 et permettre un traitement en temps réel de très grands volumes d information multilingue non structurée et de gérer les difficultés inhérentes au langage Web et SMS. Etant confronté au haut niveau d exigence de qualité de ses clients, Spotter recherche pas le «tout automatique», mais à maximiser la synergie entre la compétence humaine et la puissance de calcul de la machine afin de parfaire au maximum les résultats qui leurs sont présentés. La technologie chez Spotter est ainsi au service de l intelligence humaine.