ACADÉMIE D AIX-MARSEILLE École Doctorale Sciences et Agronomie THÈSE

Dimension: px
Commencer à balayer dès la page:

Download "ACADÉMIE D AIX-MARSEILLE École Doctorale Sciences et Agronomie THÈSE"

Transcription

1 ACADÉMIE D AIX-MARSEILLE École Doctorale Sciences et Agronomie THÈSE Présentée pour obtenir le grade de Docteur en Sciences de l Université d Avignon et des Pays de Vaucluse Spécialité : Informatique Stratégies robustes de compréhension de la parole basées sur des méthodes de classification automatique par Nathalie CAMELIN Soutenue publiquement le 26 novembre 2007 devant un jury composé de : M. Marc EL-BÈZE Professeur, LIA, Université d Avignon Président du jury M. Emilio SANCHIS Professeur, Université Polytechnique, Valencia Rapporteur M. Kamel SMAILI Professeur, LORIA, Université de Nancy2 Rapporteur M. Philippe LANGLAIS Professeur, RALI/DIRO, Université de Montréal Examinateur Mme Géraldine DAMNATI Docteur, France Télécom R&D, Lannion Examinateur M. Frédéric BECHET Maître de Conférences, LIA, Université d Avignon Co-Directeur de thèse M. Renato DE MORI Professeur, LIA, Université d Avignon Directeur de thèse Laboratoire d'informatique Laboratoire d Informatique d Avignon Université d'avignon

2 2

3 Résumé Le cadre de cette thèse concerne le problème de la compréhension automatique de la parole dans des applications acceptant de la parole téléphonique spontanée multilocuteurs. L étude consiste en l intégration de méthodes de classification automatique dans les processus de décodage et de compréhension de la parole. Nos travaux portent sur l adaptation de ces méthodes, ayant obtenu d excellents résultats sur le langage écrit, aux particularités des sorties d un système de reconnaissance automatique de parole. La principale difficulté du traitement de ce type de données réside dans le caractère incertain des paramètres d entrée des classifieurs. Parmi toutes les méthodes de classification existantes, nous avons choisi d en utiliser trois. La première est à base d arbres de décisions sémantiques, elle a notamment prouvé son efficacité dans le cadre de la compréhension pour la tâche ATIS. Les deux autres sont des méthodes de classification à large marge : l algorithme de boosting et les machines à support vectoriel. Ces deux méthodes sont considérées par la communauté scientifique de l apprentissage automatique parmi les plus performantes. Elles ont par exemple, été appliquées avec succès dans des tâches de classification d appels sur l application How May I Help You?. Une méthode d étiquetage de séquences, les champs conditionnels aléatoires (Conditional Random Fields - CRF), est également étudiée et utilisée. Deux cadres applicatifs sont abordés : PlanResto est une application touristique de dialogue oral homme-machine. Elle permet aux utilisateurs de formuler en langage naturel une demande concernant un restaurant sur Paris. La compréhension doit alors s effectuer en temps réel et consiste en la construction d une requête à une base de données. Dans ce cadre, l accord consensuel des différents classifieurs, considérés comme des experts sémantiques, est utilisé en tant que mesure de confiance ; SCOrange est un corpus de sondage téléphonique. Il vise à collecter les messages des utilisateurs de mobiles exprimant leur satisfaction vis à vis du service client. La compréhension s effectue off-line et consiste à évaluer les proportions des différentes opinions exprimées selon un thème (Accueil, Efficacité,... ) et une polarité. Les classifieurs permettent d extraire les avis des utilisateurs dans une stratégie visant à évaluer de manière fiable les proportions des opinions ainsi que leur évolution. 3

4 4

5 Abstract The work presented in this PhD thesis deals with the automatic Spoken Language Understanding (SLU) problem in multiple speaker applications which accept spontaneous speech. The study consists in integrating automatic classification methods in the speech decoding and understanding processes. My work consists in adapting methods, which have already shown good performance in text domain, to the particularities of an Automatic Speech Recognition (ASR) system outputs. The main difficulty of the process of this type of data is due to the uncertainty in the input parameters for the classifiers. Among all existing automatic classification methods, we chose to use three of them. The first is based on Semantic Classification Trees, it notably shown its efficiency in SLU for the ATIS task. The two other classification methods are large margin ones based on boosting and support vector machines. These last two methods are considered among the most performant ones in the scientific community of machine learning. For example, they were successfuly applied in call routing tasks on How May I Help You?. A sequence labelling method, Conditional Random Fields (CRF), is also studied and used. Two applicative frameworks are investigated : PlanResto is a tourism application of human-computer dialogue. It enables users to ask information about a restaurant in Paris in natural language. The real-time speech understanding process consists in building a request for a database. Within this framework, the consensual agreement of the different classifiers, considered as semantic experts, is used as a confidence measure ; SCOrange is a spoken telephone survey corpus. The purpose is to collect messages of mobile users expressing their opinion about the customer service. The off-line speech understanding process consists in evaluating proportions of opinions about a topic (courtesy, efficiency,... ) and a polarity. Classifiers enable the extraction of users opinions in a strategy that can reliably evalute the distribution of opinions and their temporal evolution. 5

6 6

7 Remerciements En premier lieu, je tiens à remercier comme il se doit chaque membre de mon jury. Marc El-Bèze, président du jury, mes rapporteurs Emilio Sanchis et Kamel Smaïli mais également Philippe Langlais, examinateur, pour le temps qu ils ont bien voulu consacrer à mon manuscrit. Je tiens à leur exprimer mes remerciements les plus sincères car je ne doute pas que ce fut une tâche laborieuse de se plonger dans mon travail, les descriptions de corpus, les nombreuses expériences.... Toutes les remarques qu ils m ont adressées autant que les discussions que nous avons eues m ont permis d apporter plus de clarté à ce document, du moins je l espère. Plus particulièrement, je tiens à remercier chaleureusement mon équipe encadrante. Je remercie Géraldine Damnati pour son soutien, son intérêt constant vis à vis de mon travail et sa disponibilité malgré la distance. Je tiens à lui exprimer le réel plaisir que fut pour moi cette collaboration. Je tiens à exprimer également ma profonde gratitude à Renato De Mori, mon directeur de thèse, pour les conseils qu il m a prodigués et sa détermination à faire de moi une bonne chercheuse. Je suis honorée d avoir fait ma thèse sous sa direction. Enfin, pour en terminer avec mes chefs mais non des moindres, je tiens à remercier spécialement Frédéric Béchet, co-directeur de ma thèse. Je ne sais comment exprimer en quelques mots des remerciements qui soient à la hauteur de l encadrement qu il m a accordé. Je le remercie pour son aide, les nombreuses discussions qui m ont permis de mieux appréhender le domaine et pour l intêret constant qu il a porté à mon travail. Par son expérience et ces encouragements ("bon alors..., c est fini?"), il m a aidée à mener à bien cette thèse. Je remercie les membres du Laboratoire Informatique d Avignon et de l IUP GMI, pour m avoir accueillie avec tant de chaleur, pour m avoir intégrée dans cette grande famille et surtout pour une ambiance inégalable, certainement enviée de tous! Je n ai aucun doute quant au fait que cette ambiance a joué pour beaucoup dans la réussite de ma thèse. À ce stade des remerciements, une question se pose : Comment remercier plus particulièrement certains sans risquer d en oublier d autres tout autant impliqués dans ma vie de doctorante heureuse? Quel dilemme, dois-je commencer une énumération non-exhaustive? Je me lance. Je remercie donc Christian Raymond et Jens Grivolla pour une cohabitation de bureau improbable mais dont je ne garde que de bons souvenirs. Plus particulièrement, je re- 7

8 mercie l équipe festive qui met l ambiance lors des nombreux évènements organisés au labo : JP, Cathy, Mireille, Dom, Laurence, Philou, Pierrot, Thierry, Jef, Georges, Fred, Corinne, Christophe, Gillou, Nimaan, Titi et plus récemment, MJ, Eric, Alain et Tifred (nouveau co-locataire de bureau très sympathique). Je remercie également les inclassables, collègues de boulot ou amis perso, ils ont été présents à chaque fête qui a rythmé mes années de thèse : Laurianne et Thomas, Christian, Antho et Bérénice, William et Virginie, Nico et Nicole, Ben et Laure, Alex. Plus spécifiquement, je remercie Loic Barrault pour avoir toujours été présent tout au long de mon cursus universitaire. Son amitié sans faille, ses encouragements et surtout sa bonne humeur constante ont été pour moi un soutien formidable. Bien évidemment, je n oublie pas sa petite famille, mon amie Nathalie et les petites puces Romane et Louisa. Pour tous les moments de joie que l on a vécu ensemble merci, et que ça continue même dans 7 ans... Je tiens également à exprimer ma profonde gratitude à mon amie Mathilde pour toutes nos petites réunions entre filles qui exorcisaient tous mes malheurs et me redonnaient du baume au cœur. J en viens enfin à la partie familiale. Je remercie toute ma famille d Aix, ma grandmère, mes oncles et tantes, mes cousins et cousines qui m ont toujours soutenue. Plus particulièrement, je remercie mes parents qui m ont toujours encouragée dans mes études, qui ont toujours exprimé leur fierté à mon égard. Ce soutien permanent et cette croyance en moi m ont toujours poussée de l avant, merci pour tout. Je tiens également à exprimer un remerciement tout particulier à mon petit frère qui je l espère de tout cœur trouvera bientôt la voie qui lui convient. Pour terminer ces remerciements, je dédie cette thèse à mon mari Stéphane et à ma fille Sarah. Je sais que les derniers mois n ont pas été très faciles. Je remercie mon chéri pour sa patience, son amour, son dévouement et sa compréhension. Je le remercie d avoir toujours été présent, dans les bons moments comme dans les difficiles et d avoir toujours cru en moi. Enfin je remercie le plus adorable bébé du monde, t avoir près de moi durant les dix-huit derniers mois a été un cadeau formidable. 8

9 Table des matières Introduction 13 I Cadre théorique 17 1 Reconnaissance et compréhension automatique de la parole Introduction Reconnaissance automatique de la parole Modèles acoustiques Modèles de langage Mesures d évaluation Compréhension automatique de la parole Rôle et description Approche linguistique Approche stochastique Mesures d évaluation Conclusion Quelques méthodes de segmentation/étiquetage et classification Introduction Segmentation/étiquetage Les Modèles de Markov Cachés - HMM Les Modèles de Markov à Maximum d Entropie - MEMM Les Champs Conditionnels Aléatoires - CRF Trois méthodes de classification automatique Les arbres de décision sémantique L algorithme de Boosting Les machines à supports vectoriels - SVM Conclusion II Méthodes de classification automatique et compréhension dans un système de dialogue oral 49 Introduction 51 9

10 3 Cadre expérimental : l application PlanResto Présentation des corpus Transcription manuelle et transcription automatique Notations Choix des représentations Représentation linguistique Représentation sémantique Analyse du comportement des classifieurs Questions préalables Robustesse vis à vis des erreurs de reconnaissance Volume de données nécessaire d apprentissage Capacité à modéliser le bruit Validation expérimentale Protocole expérimental Classification de transcriptions manuelles et automatiques Apprentissage sur corpus bruité Stratégies de combinaison de résultats Exploiter la liste des n meilleures hypothèses Adopter le consensus de classifieurs Amélioration de la robustesse du module de compréhension Stratégie séquentielle par arbre de décision Génération d une liste structurée des n meilleures hypothèses d interprétations conceptuelles DU 1 : validation de l interprétation conceptuelle Objectif Procédé de validation DU 2 : validation conceptuelle Indicateurs de confiance Procédé de validation Évaluation Situation de confiance Résultats Conclusion 81 III Détection automatique d opinions dans une application de sondage téléphonique 85 Introduction 87 6 Cadre expérimental : le corpus SCOrange Présentation des corpus Protocole de collecte

11 6.1.2 Transcription automatique Représentation sémantique Expressions subjectives Étiquettes conceptuelles Classification et évaluation Représentation structurée de l information et segmentation automatique Représentation structurée de l information Analyse préliminaire Éléments de structuration Évaluation Apport d une représentation structurée pour la tâche de classification Techniques de segmentation automatique Analyse Préliminaire Utilisation des Champs conditionnels aléatoires (CRF) Modèles de langages spécifiques aux opinions Conclusion Analyse automatique d opinions dans des corpus oraux de sondage Détection d opinions et problématique des sondages Formulation du problème Analyse de Sondage Détection d Opinions Stratégie de détection des opinions Protocole et mesures d évaluation des erreurs Application à des transcriptions manuelles et automatiques Évaluation de la stratégie Comparaisons des performances des deux systèmes Introduction de connaissances a priori Réglage du système et analyse des erreurs Analyse de l évolution des proportions dans le temps Conclusion 136 Bilan général 139 Liste des illustrations 143 Liste des tableaux 147 Bibliographie 151 Publications personnelles

12 Annexes 162 A Application SCOrange - Étude de la satisfaction globale 165 A.1 Présentation A.2 Détails des erreurs A.3 Accord inter-annotateurs - La mesure Kappa A.4 Test de la SATGLOB sur le sous-corpus TEST contenant seulement les polarités plus et moins A.5 Précision de la SATGLOB en fonction du nombre de thèmes exprimés B Application SCOrange - Expériences sur les grappen 171 B.1 Avant-propos : Convertir les scores de BoosTexter en probabilités B.2 Premières expériences B.2.1 Protocole B.2.2 Évaluation B.3 GrappeN et modèle de langage B.3.1 Protocole B.3.2 Résultats et commentaires B.3.3 Autres résultats C Application SCOrange - Utilisation des semi-crf 179 C.1 Présentation des champs conditionnels aléatoires semi-markoviens C.2 TooLsemi-CRF C.3 BoosTexter puis TooLsemi-CRF C.4 TooLsemi-CRF puis BoosTexter C.5 Conclusion

13 Introduction La mise en place d une interface de communication entre l homme et la machine qui soit agréable, naturelle et efficace est un défi que relève la communauté scientifique depuis les années 60. La place privilégiée que tient le langage oral comme vecteur d information dans notre société explique l expansion fulgurante du traitement automatique de la parole notamment pour des applications de dialogue homme-machine. Un des avantages spécifiques à considérer la parole comme moyen d accès aux ordinateurs est qu un utilisateur lambda peut avec un minimum de formation interagir de manière rapide avec un système complexe Objet de la thèse Ma thèse se situe à l intersection de trois domaines scientifiques : la Reconnaissance Automatique de la Parole (RAP), le Traitement Automatique de la Langue Naturelle (TALN) et l Apprentissage Automatique (AA). Le travail présenté dans ce document expose l étude de différentes méthodes de classification automatique pour la compréhension automatique de la parole. Généralement exécuté en deux temps, un premier processus de décodage permet de transformer le signal émis par le locuteur en unités lexicales ; puis le processus de compréhension à proprement dit en extrait le sens. Dans ce cadre, il ne s agit pas du développement théorique de nouvelles méthodes de classification mais plutôt de l adaptation de méthodes éprouvées, ayant obtenu d excellents résultats sur le langage écrit, aux particularités des sorties d un système de reconnaissance automatique de parole. La principale difficulté dans le traitement de ce type de données par un classifieur réside dans le caractère incertain des paramètres donnés en entrée. Cette thèse a été effectuée en partenariat avec l équipe reconnaissance vocale de France Télécom Recherche et Développement (FTR&D), basée à Lannion. L objet de ce partenariat est l étude de l intégration de méthodes de classification automatique (classifieurs) dans les processus de décodage et de compréhension de la parole pour une interprétation sémantique fiable. Nous nous plaçons ici dans le cadre des applications acceptant de la parole téléphonique spontanée multi-locuteurs. Les méthodes de classification seront appliquées 13

14 Introduction d une part à de la compréhension temps-réel dans le cadre d un serveur vocal interactif touristique et d autre part à de la compréhension off-line dans le cadre de l extraction d information à partir d un serveur vocal interactif de sondage. Motivations Les premiers niveaux dans la compréhension d un message consistent tout d abord à identifier les entités présentes. Généralement, des grammaires modélisant le langage de l application sont utilisées pour résoudre cette première tâche. Ces entités peuvent ensuite être structurées par rapport à une analyse syntaxique, les liens de référence peuvent être résolus, et enfin, si le domaine sémantique est suffisamment restreint, une représentation sémantique complète du message peut être obtenue. Plusieurs articles (Haffner et al., 2003; Schapire et Singer, 2000) ont montré que les outils de classification de texte peuvent être un moyen efficace d extraire ces entités (concepts) de la transcription d un tour de parole provenant d un dialogue. Cette approche a 2 avantages principaux : premièrement, l intervention humaine est limitée dans le sens où aucun mot-clé ni aucune grammaire ne doivent être définis afin de caractériser un concept. Néanmoins, un corpus d entraînement doit nécessairement contenir, pour chaque tour de parole, l ensemble des concepts qu il implique ; deuxièmement, les classifieurs sont plus robustes au bruit généré par les erreurs du module de Reconnaissance Automatique de la Parole (RAP) et aux effets dus à la parole spontanée parce qu ils reposent sur des processus d apprentissage discriminant. Ils peuvent être directement entraînés sur les sorties du module RAP et ainsi inclure les données bruitées dans la construction de leur modèle. Dans l approche classique du processus de traitement automatique de la parole, les phases de transcription et de compréhension sont exécutées séquentiellement. La transcription parole/texte n utilise que des informations acoustiques et des contraintes linguistiques de très faible portée. Les modèles de langages employés dans ce module sont généralement basés sur des modèles n-grammes où la probabilité d apparition d un mot ne dépend que du ou des deux derniers mots précédents (modèles bi-grammes ou tri-grammes). Cependant, des informations de plus haut niveau sont souvent nécessaires pour résoudre certaines ambiguïtés de transcription. De plus, chaque erreur générée par le module de transcription risque de générer une erreur d interprétation, notamment si celles-ci touchent les mots pertinents pour la compréhension. Afin d améliorer les performances d interprétation du système, l approche suivie au LIA consiste à permettre une collaboration entre les modules de reconnaissance et de compréhension (Raymond et al., 2004b, 2003). Dans ce cadre, deux perspectives d utilisation des classifieurs seront abordées. 14

15 Introduction Les méthodes de classification automatique : des experts sémantiques. Dans les applications de dialogue homme-machine, la représentation sémantique du message peut consister en une requête à une base de données ou bien en une suite d actions à effectuer. Le module de reconnaissance génère des hypothèses sur les mots généralement sous forme de listes de plusieurs hypothèses ou de graphes de mots. La meilleure hypothèse au niveau acoustique est alors traitée par le module de compréhension. La génération non pas d une meilleure hypothèse mais d une liste de meilleures hypothèses permet de proposer des solutions alternatives au module de compréhension. Cependant, dans le cas de la parole téléphonique spontanée, ces meilleures hypothèses ne diffèrent bien souvent que par des mots vides au sens de l application (hésitations, phénomènes spontanés,... ). On souhaite utiliser les classifieurs afin que la meilleure hypothèse choisie soit également celle étant la plus intéressante au niveau du sens. Les classifieurs peuvent ainsi être utilisés en tant que mesure de confiance au niveau sémantique. Les méthodes de classification automatique : des extracteurs d opinions. La détection d opinions ou encore d assertions objectives ou subjectives dans un texte est un domaine de recherche en pleine expansion (Wiebe et al., 2005; Choi et al., 2005). Du point de vue des utilisateurs, les deux principales applications de ce type de détection concerne d une part l analyse automatique d opinions dans des messages contenant l avis de consommateurs sur un produit ou un phénomène particulier (Popescu et Etzioni, 2005) et d autre part l analyse de la subjectivité d une phrase pour les systèmes de résumé automatique ou de question/réponse (Riloff et Wiebe, 2003). D un point de vue scientifique, la problématique posée par la détection d opinions se situe dans le cadre de la compréhension automatique de messages. Au niveau sémantique, ce problème constitue une possibilité d aborder un niveau intermédiaire entre la simple détection des entités présentes et l analyse sémantique complète du message, qui n est pas envisageable sur des messages complexes. 15

16 Introduction Organisation du document Ce document est organisé en trois parties. La première partie expose le cadre théorique de la thèse. Le premier chapitre soumet un bref état de l art des deux modules de traitement automatique de la parole. Tout d abord celui de la Reconnaissance Automatique de la Parole (RAP) ; les modèles acoustiques et de langage qu il implique sont notamment décrits. Ensuite, le module de compréhension automatique de la parole ; en outre, les approches linguistiques et stochastiques sont abordées ; Le second chapitre présente d une part des méthodes de segmentation/étiquetage, des classiques modèles de markov cachés aux plus récents champs conditionnels aléatoires (CRF) en passant par les modèles de markov à maximum d entropie. Les CRF seront par la suite intégrés dans un de nos systèmes de compréhension. D autre part, les trois méthodes de classification automatique que nous avons choisi d utiliser dans notre étude sont présentées : les arbres de décisions sémantiques, l algorithme de boosting et les machines à supports vectoriels. La seconde partie concerne l intégration des classifieurs pour la compréhension temps-réel dans le cadre d une application touristique de dialogue homme-machine. Le chapitre 3 décrit le cadre applicatif concret : l application de dialogue téléphonique PlanResto permettant de rechercher un restaurant sur Paris ; Le chapitre 4 analyse le comportement des classifieurs afin de définir la meilleure stratégie de leur intégration dans l application ; Le chapitre 5 propose une stratégie basée sur l utilisation redondante de classifieurs qui détermine des situations de confiance en fonction desquelles le gestionnaire de dialogue peut déterminer la suite à donner au dialogue. La dernière partie est consacrée à la détection automatique d opinions dans des corpus de sondages téléphoniques. Le chapitre 6 est dédié à la présentation du cadre expérimental : le corpus SCOrange, un recueil d interventions utilisateurs exprimant leurs opinions vis à vis du service-client ; Le chapitre 7 explore les solutions possibles afin de dé-complexifier les messages autour de la représentation structurée de l information et la segmentation automatique des interventions ; Le dernier chapitre expose l analyse automatique d opinions dans un corpus de sondage téléphonique. Le problème est d abord formulé puis la stratégie proposée évaluée. Pour finir, une analyse de l évolution de l expression de la satisfaction des utilisateurs dans le temps est examinée. Un bilan clôt ce document en évoquant les originalités de la thèse ainsi que les perspectives concernant les différents travaux réalisés. 16

17 Première partie Cadre théorique 17

18

19 Chapitre 1 Reconnaissance et compréhension automatique de la parole Sommaire 1.1 Introduction Reconnaissance automatique de la parole Modèles acoustiques Modèles de langage Mesures d évaluation Compréhension automatique de la parole Rôle et description Approche linguistique Approche stochastique Mesures d évaluation Conclusion Introduction Le cadre de mon étude est la compréhension automatique de la parole (en tempsréel ou off-line) dans des serveurs vocaux interactifs. Les serveurs vocaux sont des serveurs informatiques dotés d applications qui permettent d établir une communication entre l homme et la machine. En 1948, Shannon a proposé dans la théorie mathématique de la communication (Shannon, 1948) un modèle de communication centré sur la transmission de l information. C est un modèle linéaire schématisé par cinq éléments : source d information, émetteur, récepteur, destination et source de bruit. Ce modèle est représenté dans la figure

20 Chapitre 1. Reconnaissance et compréhension automatique de la parole Message Signal Signal+Bruit Message Source d information Emetteur Récepteur Destination Source de bruit FIG. 1.1 Théorie de la communication de Shannon. Une source d information produit le message qu elle souhaite communiquer. Un émetteur code le message en signal qu il peut émettre sur le canal de transmission. Le récepteur décode le message perçu en provenance du canal afin que le destinataire obtienne le message. Tout ceci s effectuant dans un contexte bruité. Ce modèle est à la base de tous les systèmes actuels de traitement automatique de la parole. Le locuteur est la source de l information qu il émet grâce à son appareil phonatoire. Elle est captée par un appareil d enregistrement de la machine, destinataire de l information. Plusieurs problèmes se posent au niveau de la transmission de l information. D une part, les problèmes relatifs à l émetteur comme son élocution, son accent, son débit ou encore son énergie. D autre part, le bruit, comme exposé dans le modèle de Shannon, qui concerne l environnement dans lequel est émis la parole. Le signal perçu par un microphone est composé de la parole à laquelle s ajoute le bruit ambiant, les interférences dues au canal lui-même (par exemple, problème de couverture du réseau pour les cellulaires),.... Dans les applications qui nous intéressent, la transmission de l information n est pas achevée à la réception du signal mais lorsque le sens de celle-ci est obtenu, i.e. lorsque l information est comprise par la machine. Le processus de compréhension de la parole, qui se fait naturellement chez l homme, est d ordinaire traité en deux temps par la machine. Dans un premier temps, une transformation du signal reçu en une séquence de mots (unités lexicales) est effectuée par le module de reconnaissance automatique de la parole (RAP). Dans un deuxième temps, le sens véhiculé par la suite de mots issus du module RAP est extrait par le module de compréhension automatique de la parole. Lorsque ce processus est effectué sur de la parole spontanée, les disfluences inhérentes à ce type de parole (les répétitions, les hésitations, les reformulations, les pauses,... ) ainsi que les digressions sont à prendre en compte. Actuellement, la compréhension automatique de la parole spontanée ne peut s effectuer que dans un cadre applicatif restreint. La machine "intelligente" présentée dans les films tels que AI ou I-robot ou plus anciennement 2001 Odyssée de l espace et capable de tenir une conversation ouverte, de donner un avis subjectif ne constitue pas un but atteignable à ce jour. Les modules de reconnaissance et de compréhension automatique de la parole sont présentés dans les sections suivantes. 20

21 1.2. Reconnaissance automatique de la parole 1.2 Reconnaissance automatique de la parole Le module RAP permet d extraire l information lexicale contenue dans le signal de parole. On en distingue 3 types : on parle de système de reconnaissance de mots isolés lorsque le locuteur marque une pause entre chaque mot prononcé ; les systèmes de reconnaissance de mots connectés permettent la reconnaissance d un ou plusieurs mots prédéfinis ; enfin, le système de reconnaissance qui nous intéresse est celui de la parole continue. Il permet de traiter un flux de parole continue et ainsi permet au locuteur de s exprimer de manière naturelle. Dans ce dernier type de systèmes de reconnaissance, on peut notamment citer CUED- HTK (Woodland et al., 1998), CMU Sphinx (Lee et al., 1990), Microsoft Whisper (Huang et al., 1995) ou encore des systèmes de reconnaissance français : LIMSI (Gauvain et al., 1994) par le LIMSI, SPEERAL (Nocera et al., 2002) par le LIA, ANTS (Brun et al., 2005) par le LORIA. Les systèmes de reconnaissance de la parole continue actuels adoptent une approche probabiliste qui consiste à rechercher la séquence de mots W la plus vraisemblablement prononcée étant donné le signal de parole A émis par le locuteur. Cette approche s exprime par l équation suivante (énoncée dans le cadre de la reconnaissance de la parole par (Jelinek, 1976)) : W = argmax P(W A) (1.1) W Le théorème de Bayes permet de reformuler cette équation par : W = argmax W P(W)P(A W) P(A) (1.2) Or la probabilité a priori de la séquence d observations acoustiques P(A) n est pas calculable. En effet, il est impossible de générer deux fois le même signal même si un même locuteur prononce une même phrase. L équation se formule alors : W = argmax P(A W)P(W) (1.3) W Au final, l étape de reconnaissance de la parole revient à maximiser le produit de deux probabilités : P(A W) qui représente la probabilité d une séquence d observations acoustiques A étant donnée une séquence de mots W ; P(W) qui représente la probabilité a priori d une séquence de mots W. Le module de reconnaissance est constitué de deux sous-modules principaux : l un contenant le modèle acoustique et l autre le modèle de langage. Le premier sous-module permet de calculer la probabilité P(A W) de l équation 1.3 tandis que le second permet 21

22 Chapitre 1. Reconnaissance et compréhension automatique de la parole de calculer la probabilité P(W) de cette même formule. Les modèles sont brièvement présentés dans les sous-sections suivantes Modèles acoustiques Le rôle des modèles acoustiques est d estimer la probabilité qu un évènement linguistique particulier ait généré le signal de parole émis. Les évènements linguistiques sont une séquence d éléments de base qui peuvent être de différents types : phonèmes, diphones, syllabes, mots, etc. Les modèles de Markov cachés (Hidden Markov Model - HMM) sont les modèles les plus largement utilisés pour la modélisation acoustique du signal. Les éléments de base les plus souvent utilisés sont les phonèmes. Les modèles de Markov cachés Un HMM est un automate stochastique qui permet de générer une séquence d observations X = x 1, x 2, x 3,.... Chaque état E i génère une observation x k avec une densité de probabilité P(x k E i ). La transition de l état E i à l état suivant s exprime par la probabilité P(E i+1 E i ). Seules les transitions gauche-droite sont permises respectant ainsi les contraintes temporelles du signal de parole. Un schéma classique de HMM pour un phonème est illustré par la figure 1.2. P(E1 E1) P(E2 E2) P(E3 E3) P(E2 E1) P(E3 E2) P(E4 E3) P(E5 E4) E1 E2 E3 E4 E5 FIG. 1.2 Schéma d un HMM pour un phonème. Seuls les états de couleur rouge génèrent des observations. Un phonème est généralement représenté par 3 états (de couleur rouge sur la figure) auxquels sont ajoutés un état de début et un état de fin (de couleur verte sur la figure) permettant ainsi la concaténation de plusieurs phonèmes afin d obtenir des mots puis des phrases. En pratique, seules les observations sont connues, les états eux ne sont pas observables directement d où le nom de modèles de Markov cachés. Les HMM sont présentés plus en détail dans la section dans le cadre d une tâche d étiquetage. L entraînement du modèle acoustique, concaténation des HMM de phonèmes, se fait à partir d un corpus d apprentissage de différentes réalisations des phonèmes de la langue considérée. Un chemin dans cet automate représente alors toutes les chaînes possibles de mots. Le chemin obtenant la plus forte probabilité permet l alignement optimal du signal acoustique sur le modèle de Markov. Le décodage est l opération qui permet de retrouver le meilleur chemin. Le problème de résolution du meilleur chemin 22

23 1.2. Reconnaissance automatique de la parole dans un HMM peut être résolu par différents algorithmes (e.g. : algoritme de Viterbi (Forney, 1973), méthode itérative de Baum-Welch (Baum, 1972)) Modèles de langage Une fois les formes lexicales mises en correspondance par le modèle acoustique avec les différents éléments acoustiques prononcés, il est important de créer une cohérence linguistique. Il a par exemple été montré dans (Mariani, 1990) qu une suite de 9 phonèmes peut être transcrite en suites de mots différentes dont seulement quelques-unes sont syntaxiquement correctes. Il est donc indispensable d introduire des connaissances linguistiques dans le système de reconnaissance afin de guider le décodage vers des hypothèses de phrases cohérentes du point de vue syntaxique ou grammatical. On distingue deux grandes approches : les modèles à bases de grammaires et les modèles probabilistes. Les modèles à bases de grammaires sont mis au point par des experts en linguistique tandis que les modèles probabilistes tentent de décrire automatiquement un langage à partir de l observation de corpus. Les modèles probabilistes sont les plus largement utilisés dans le domaine RAP notamment pour la réponse probabiliste qu ils génèrent (les modèles à base de grammaires formulant une réponse en oui/non). Néanmoins, il se peut que dans certains cas leur réponse soit syntaxiquement incohérentes, c est pourquoi une approche mixte, les grammaires probabilistes, a également été proposée (Fu, 1974). Nous nous proposons d étudier ici seulement le modèle le plus largement utilisé, c est à dire le modèle probabiliste et plus spécifiquement les modèles n-grammes. D autres variantes, tels les modèles à base de classes, de séquences, cache et trigger, sont présentées en détails dans (Federico et De Mori, 1998) en langue anglaise ou dans (Haton et al., 2006) en langue française. Les modèles n-grammes Les modèles de langage à base de chaîne de Markov tentent de déterminer la probabilité a priori de la séquence de mots W = w 1, w 2,..., w n selon l équation 1.4. P(W k ) = k i=1 P(w i h i ) (1.4) où h i = {w 1,..., w i 1 } pour i > 2 h i = {w 1 } pour i = 2 h i = { } pour i = 1 Le principal problème dans l utilisation de modèles de langage probabilistes réside dans la longueur de l historique considéré. En effet, il est très difficile de calculer la probabilité P(w i w 1, w 2,..., w i 1 ) au cours du décodage. De plus, les corpus d apprentissage ne contiennent généralement pas tous les historiques possibles de chaque mot, 23

24 Chapitre 1. Reconnaissance et compréhension automatique de la parole ce qui rend cette probabilité incalculable. L idée des modèles n-grammes est alors d approximer l historique du mot par un sous-historique de taille réduite et fixe, les n derniers mots de celui-ci : P(w i w 1, w 2,..., w i 1 ) = P(w i w i n+1,..., w i 1 ). Généralement, n prend les valeurs 2 ou 3, on parle alors respectivement de modèles bi-grammes et tri-grammes. Pour n = 3, les termes de l équation précédente se résument alors par : P(W k ) P(w 1 ) P(w 2 w 1 ) k i=3 P(w i w i 2 w i 1 ) (1.5) La probabilité d apparition d un mot est, quant à elle, presque toujours estimée par le critère de maximum de vraisemblance selon la formule : p(w i w i n+1,..., w i 1 ) = #(w i n+1,..., w i 1, w i ) #(w i n+1,..., w i 1 ) (1.6) où #(... ) est le prédicat représentant le cardinal de l ensemble (...). Ici, cela correspond au nombre d occurrences de la suite de mots w 1... w k dans le corpus d apprentissage. Le problème de cette modélisation vient du fait que toutes les séquences de mots n apparaissent pas dans le corpus d apprentissage, empêchant le calcul du nombre d occurrences et induisant ainsi une probabilité nulle dans le calcul de l équation 1.6. Afin de pallier ce problème, plusieurs approches ont été développées pour pouvoir modéliser les événements qui n ont pas été rencontrés lors de la phase d apprentissage. Certaines utilisent des connaissances sur le langage pour générer des événements manquants, comme les modèles à base de classes, d autres des techniques de lissage dont les plus connues sont basées sur des méthodes de repli (back-off ) sur des modèles n-grammes d ordre inférieur Mesures d évaluation Une des mesures les plus utilisées pour évaluer les performances d un système de reconnaissance automatique de la parole est le taux d erreur mot (Word Error Rate - WER). Cette mesure se base sur la comparaison entre la phrase produite par le système et la phrase de référence (celle effectivement prononcée). Un alignement mot à mot est réalisé entre les deux phrases et la comparaison s effectue selon les différents types d erreurs sur les mots que peut commettre le système : insertions (I), délétions (D) et substitutions (S). Le calcul s effectue selon la formule suivante : WER = #(I) + #(D) + #(S) 100 (1.7) #(mots de la référence) 24

25 1.3. Compréhension automatique de la parole 1.3 Compréhension automatique de la parole Rôle et description Une fois l information lexicale extraite du signal sonore par le module RAP, il s agit de donner un sens à cette information. En effet, dans la discussion sur la communication homme-machine effectuée dans la section 1.1, nous avons mis l accent sur le fait que la communication s apparente à un processus de transmission d information. Afin que cette information soit traitable par la machine, il s agit d extraire le sens utile, l intention, l idée qu a voulu véhiculer le locuteur. Afin de représenter le sens, il s agit de transformer le signal de parole en une interprétation sémantique, une expression formelle qui traduit selon un langage intermédiaire le sens porté par le signal prononcé. Les éléments de base qui composent l interprétation sémantique sont appelés les concepts. Deux choix doivent être pris par le module de compréhension. Le premier est celui concernant la représentation du sens. En effet, le choix de la représentation de l interprétation sémantique (ou représentation sémantique) est essentiel. Pour être performant, la représentation sémantique choisie doit être adaptée, représentative des données à analyser. On peut remarquer que dans la littérature, chaque système adopte une représentation qui lui est propre (quelques systèmes sont présentés dans les sous-sections suivantes). Cette diversité des représentations sémantiques s explique par la diversité des données traitées dans chaque application et par le fait qu il n existe pas de représentation sémantique générique qui puisse répondre aux besoins de tous les systèmes correspondants. Par conséquent, dans la pratique chaque système adopte une représentation sémantique ad hoc. La représentation sémantique s inspire de différents formalismes : logique des prédicats du premier ordre, langage de concepts, requêtes SQL,.... Le second choix concerne la méthode utilisée pour l obtention de la représentation sémantique. Il existe deux types de méthodes, celles issues de l analyse linguistique (analyseur syntaxique, grammaire syntaxico-sémantique,... ) ou les méthodes de classification ou d étiquetage. Ce deuxième type de méthodes est l objet du second chapitre du présent document. En général, le système de compréhension se situe en aval du système de reconnaissance automatique de la parole. Dans ce cas, les entrées possibles du système sont : :e graphe de mots : Chaque chemin du graphe est une hypothèse émise par le système RAP pour la transcription du signal en parole. Chaque transition dans ce graphe est un mot, le score associé à chaque mot est la combinaison des scores donnés par le modèle acoustique (cf. sous-section 1.2.1) et le modèle de langage (cf. sous-section 1.2.2) ; la liste des n meilleures hypothèses de phrases : Seuls les n chemins du graphe supportant les n meilleurs scores sont considérés indépendamment les uns des autres ; la meilleure hypothèse : Le système de compréhension traite uniquement l hypothèse de mots qui présente le score le plus fort. La plupart des systèmes de compréhension suivent une des deux grandes approches suivantes (non exclusives) : linguistiques (Minker et al., 1996) ou stochastiques (Pierac- 25

26 Chapitre 1. Reconnaissance et compréhension automatique de la parole cini et al., 1993; Riccardi et Gorin, 1998). Ces deux grandes familles de systèmes sont présentées dans les sous-sections suivantes Approche linguistique Cette première approche se base sur une analyse syntaxico-sémantique complète ou partielle de la phrase. Les analyseurs utilisent la logique et les mathématiques pour analyser le langage. Un exemple classique d arbre syntaxique et d arbre sémantique est illustré par la figure 1.3. P P HORS-FOCUS RESTAURANTS S V GN je recherche les je recherche DET les GN N restos ADJ chinois GP DET N du quinzième restaurants SPECIALITE chinois du LIEU ARRONDISSEMENT quinzième a- arbre d analyse syntaxique b- arbre d analyse sémantique FIG. 1.3 Exemple d arbres d analyse linguistique. Un des premiers à avoir modélisé le langage de cette manière est Chomsky en 1957 (Chomsky, 1957). Il crée les grammaires formelles afin de caractériser le langage par un ensemble de règles représentant les différentes possibilités d association des mots entre eux. Une grammaire formelle permet avec un nombre fini de règles de générer et analyser un langage donné. Ces grammaires sont habituellement divisées en 4 types selon leur capacité descriptive : les grammaires non restreintes, les grammaires contextuelles, les grammaires hors contexte et enfin les grammaires régulières. Le premier type de grammaire n implique aucune restriction sur les règles définissant le langage, en revanche les 3 autres types impliquent des restrictions de plus en plus fortes sur ces règles. Ainsi les grammaires régulières sont les plus restrictives. Les grammaires hors contexte sont les plus utilisées pour le traitement du langage naturel, bien qu il ait été prouvé que celui-ci n est pas engendré par une grammaire de ce type (Pullum et Gazdar, 1982). Cette utilisation répandue vient du bon compromis existant entre la capacité de description des grammaires hors contexte et les restrictions qu elles induisent au niveau de l analyse grammaticale : ces restrictions permettent une analyse efficace 1 et la puissance de description des grammaires hors contexte permet de décrire une grande partie de la structure d un langage. Pour des applications restreintes concernant le traitement du langage naturel, les grammaires régulières sont préférées aux grammaires hors contexte : puisque la partie visée du langage est déterminée, la 1 La complexité d une grammaire hors contexte est polynomiale alors que les grammaires contextuelles ont une complexité exponentielle. Les grammaires non restreintes sont quant à elles indécidables. 26

27 1.3. Compréhension automatique de la parole capacité de description des grammaires régulières s avère suffisante. Notamment dans le contexte de dialogue où nous avons à faire à des phrases courtes, il est aisément possible d obtenir une grammaire régulière à partir d une grammaire hors contexte. De plus, leur analyse grammaticale est plus efficace en terme de rapidité, la complexité étant linéaire. Du fait des spécificités du langage parlé (répétitions, hésitations, reprises,... ), les messages oraux spontanés sont agrammaticaux et une analyse syntaxique complète ne peut être engagée. Or, le propos des systèmes n est pas de rejeter ces phrases mais d en proposer une interprétation sémantique. Ainsi, des grammaires orientées vers les aspects sémantiques ont été proposées telles que les grammaires sémantiques (Burton, 1977) ou plus connue et utilisée les grammaires de cas (Fillmore, 1968). Les réseaux sémantiques ont été proposés par Quillian (Quillian, 1966) comme un modèle psychologique de la mémoire associative, c est à dire un modèle de représentation de l organisation des informations en mémoire. Un réseau sémantique est un graphe dont les sommets représentent des concepts (entités, attributs, états,... ) et les arcs représentent les relations entre ces concepts (sorte-de, objet, agent,... ). Une autre technique consiste à faire évoluer un analyseur syntaxique en un analyseur sémantique. C est le cas de l analyseur linguistique TINA développé à l institut technologique du Massachusetts (MIT). Cette analyse utilise une grammaire hors contexte transformée de façon automatique en un automate portant des probabilités sur les arcs, ce qui permet d avantager les constructions les plus courantes. Les nœuds de cet automate font référence à des catégories particulières, qui peuvent être sémantiques (comme les lieux) ou bien syntaxiques (par exemple les verbes ou les adjectifs) (Seneff, 1989). Un analyseur robuste a été ajouté qui intervient en cas d échec (Seneff, 1992). Il est obtenu en modifiant la grammaire autorisant des analyses partielles. Dans ce mode, l analyseur effectue un traitement gauche-droite classique, mais un ensemble exhaustif des analyses possibles est généré commençant à chaque mot de l énoncé. L aspect inhabituel de cet analyseur robuste est qu il exploite l historique du dialogue en autorisant les champs du schéma à être hérités des énoncés précédents Approche stochastique L intérêt principal des approches stochastiques est la limitation de l intervention d un expert humain lors du développement d un système de compréhension. En effet, aucun modèle explicite (ensembles de règles ou de grammaires) ne doit être écrit. Néanmoins, la construction de systèmes de compréhension stochastiques demande de grandes quantités de données annotées afin de modéliser automatiquement à base de probabilités les régularités du langage. Le passage d une application à une autre nécessite un travail humain moins conséquent que dans le cas de modèles linguistiques où la totalité de la grammaire, généralement spécifique au domaine, doit être ré-écrite. Comme présenté dans la sous-section 1.2, l approche stochastique consiste à représenter le signal en une suite d unités linguistiques. Dans le système de compréhension, 27

28 Chapitre 1. Reconnaissance et compréhension automatique de la parole l unité linguistique choisie est le concept 2. On suppose qu il y a une correspondance séquentielle entre mots W et concepts C de la phrase (Vidal et al., 1993; Lefèvre et Bonneau-Maynard, 2002). L approche consiste à rechercher l ensemble des concepts C le plus vraisemblablement émis par le signal de parole A selon l équation suivante : C = argmax P(C A) (1.8) C Le théorème de Bayes nous permet de reformuler cette équation ainsi : C = argmax P(A W)P(W C)P(C) (1.9) C,W En ne tenant compte que de la résolution en compréhension, cette équation se simplifie par P(A W) qui représente la probabilité d une séquence d observation acoustique A étant donnée une séquence de mots W, probabilité qui est traitée par le système de reconnaissance. La compréhension se résume alors à la résolution de l équation suivante : C = argmax P(W C)P(C) (1.10) C Les termes de cette équation représentent deux modèles particuliers : Le modèle de réalisation lexicale est représenté par P(W C), la probabilité d une suite de mots étant donnée une suite de concepts. Elle peut être estimée par un modèle n grammes de mots conditionné par les concepts : P(W C) P(w 1 c 1 )P(w 2 w 1, c 2 ) N i=1 (w i w 1,..., w i n + 1, c i ) (1.11) Le modèle sémantique est représenté par P(C), la probabilité a priori d une suite de concepts. Elle peut être estimée par un modèle m grammes classique (cf : 1.2.2). Formalisé ainsi, le modèle de compréhension peut être représenté par un HMM où les états cachés représentent les concepts et les observations représentent les mots. Le problème de la compréhension peut alors être assimilé à un problème de segmentation/étiquetage du signal. Cette problématique est présentée dans le chapitre suivant. Plusieurs modèles de compréhension ont été fondés sur ce principe, notamment : Modèle de Pieraccini : Pieraccini, Levin et Vidal présentent dans (Pieraccini et al., 1993) le problème de compréhension comme un problème de traduction. La compréhension est représentée par un processus séquentiel qui se résume à traduire une suite de mots en un langage formel intermédiaire représentant le sens de la suite de mots et amenant à une suite d actions que le système doit entreprendre ; 2 Un concept peut être défini comme une classe de mots liés par un même sujet et des propriétés sémantiques communes. 28

29 1.3. Compréhension automatique de la parole CHRONUS : Ce système dont l acronyme signifie Conceptual Hidden Representation of Natural Unconstrained Speech a été développé par le laboratoire AT&T (Pieraccini et Levin, 1995) et implémente le modèle de Pierracini. Ainsi, la représentation sémantique est construite en deux étapes. La première consiste en une analyse lexicale de la phrase afin de la simplifier par lemmatisation, regroupement de mots,.... La seconde consiste à associer chaque élément de la phrase simplifiée avec le concept sémantique correspondant ; le modèle du LORIA : Ce modèle de compréhension est une extension du modèle de Pieraccini. Il est composé de trois modules : un premier module de génération de concepts (Jamoussi et al., 2004) spécifiques à l application, un second module de décodage du signal en une suite de concepts et un troisième module de génération de l action correspondante. D autres modèles ont choisi une représentation sémantique sous forme d arbre ou de graphe comme le modèle HUM (Hidden Understanding Model) de BBN ou encore dans (Segarra et al., 2002) et CHANEL (Kuhn et De Mori, 1995) de l université Mc Gill de Montréal, à base d arbres de décisions sémantiques présentés dans la section Mesures d évaluation La mesure d évaluation spécifique à la compréhension est le taux d erreur concept (Concept Error Rate - CER). Cette mesure est utilisée afin d évaluer la qualité du système de compréhension en fonction de l ensemble des concepts émis par celui-ci. Suivant le même paradigme que celui de l évaluation d un système de reconnaissance automatique (cf. la sous-section 1.2.3), la liste des concepts de référence est comparée avec la liste des concepts émis par le système. Le CER est évalué en fonction des insertions (I), délétions (D) et substitutions (S) au niveau des concepts selon l équation suivante : CER = #(I) + #(D) + #(S) 100 (1.12) #(concepts de la référence) On remarque que, dans ce cadre, les erreurs de reconnaissance des mots ne sont pas prises en compte. En effet, la détection de concepts reste possible en dépit d une transcription erronée si une majorité de mots pertinents au sens de la compréhension n est pas touchée par ces erreurs. Notons également que la valeur de cette mesure peut être supérieure à 100% lorsque de nombreuses erreurs sont commises par le système (la valeur du numérateur est supérieure à celle du dénominateur). D autres mesures provenant de la recherche en extraction d information peuvent également être utilisées pour évaluer le système de compréhension. La précision représente le pourcentage de concepts corrects trouvés par le système sur la totalité des concepts émis par le système. Précision = #(concepts corrects trouvés) #(concepts trouvés) 100 (1.13) 29

30 Chapitre 1. Reconnaissance et compréhension automatique de la parole Le rappel représente le pourcentage de concepts corrects retrouvés parmi tous ceux qu il fallait retrouver effectivement selon la référence. Rappel = #(concepts corrects trouvés) #(concepts à trouver) 100 (1.14) Enfin, la fmesure permet de combiner à la fois précision et rappel en une mesure unique. On détermine ainsi l efficacité globale du système selon l équation suivante : Fmesure = 2 Précision Rappel Précision + Rappel (1.15) 1.4 Conclusion Dans ce chapitre, j ai introduit dans un premier temps la notion de communication homme-machine. La communication est représentée par un transfert d information entre une source et une destination. Le transfert est effectué à l aide de deux modules présentés dans les sections suivantes : le module de reconnaissance et le module de compréhension. Le traitement linguistique réalisé par ces modules se heurte aux problèmes inhérents à la communication orale (environnements bruités, variabilité des locuteurs,... ). De plus, dans les applications qui nous intéressent, la parole est spontanée. Cette spontanéité entraîne de nombreuses disfluences dans le discours telles que les hésitations, répétitions, reprises,.... Tous ces problèmes compliquent le traitement automatique de la parole et impliquent l implémentation de systèmes toujours plus robustes. Dans l approche classique du processus de traitement automatique de la parole, les modules sont exécutés séquentiellement. Le module de reconnaissance produit des hypothèses de mots traduisant les paroles du locuteur puis le module de compréhension calcule une représentation sémantique généralement à partir de la meilleure hypothèse. La transcription parole/texte n utilise que des informations acoustiques et des contraintes linguistiques de très faible portée. En effet, les modèles de langage employés sont basés sur des modèles n-grammes où la probabilité d apparition d un mot ne dépend généralement que du ou des deux derniers mots précédents (modèles bigrammes et tri-grammes). Cependant, des informations de plus haut niveau sont souvent nécessaires pour résoudre certaines ambiguïtés de transcription. Chaque erreur générée par le module de transcription risque alors de générer une erreur d interprétation. C est pourquoi certains systèmes tentent d appréhender le problème de compréhension dans sa globalité en créant une coopération entre module de reconnaissance et module de compréhension. Le système Phillips (Haust et al., 1995), par exemple, propose une architecture deux passes où le module de compréhension travaille directement sur le graphe de mots proposé par le module de reconnaissance. Wang a, quant 30

31 1.4. Conclusion à lui, proposé une architecture en une passe (Wang, 2003) en considérant que, dans un système de dialogue, c est le sens qui nécessite d être retrouvé et non pas les mots. Son système de reconnaissance est basé sur un modèle de langage sémantique (i.e. prenant en compte le sens pour définir la séquence de mots). Il a en outre démontré que la réduction du WER n implique pas forcément une réduction du CER. Le travail présenté dans cette thèse suit l approche du LIA (Raymond et al., 2003; Estève et al., 2001) : les solutions proposées pour l optimisation de la compréhension reposent sur la coopération entre module de reconnaissance et module de compréhension. La première solution proposée dans la partie II est basée sur une architecture en deux passes. Des méthodes de classification automatique sont utilisées pour calculer des scores de confiance attribués aux sorties du module de compréhension. Ces nouvelles mesures de confiance sémantiques permettent de définir des états de fiabilité qui renforcent la robustesse du système. La seconde solution proposée dans la partie III repose sur une architecture en une passe. Des modèles de langage spécifiques ont été créés au niveau du module de reconnaissance afin que les solutions proposées soient plus pertinentes pour la compréhension. L utilisation de méthodes de classification automatique sur les sorties de ce module RAP spécifique a été appliquée dans un cadre de sondage automatique d opinions. 31

32 Chapitre 1. Reconnaissance et compréhension automatique de la parole 32

33 Chapitre 2 Quelques méthodes de segmentation/étiquetage et classification Sommaire 2.1 Introduction Segmentation/étiquetage Les Modèles de Markov Cachés - HMM Les Modèles de Markov à Maximum d Entropie - MEMM Les Champs Conditionnels Aléatoires - CRF Trois méthodes de classification automatique Les arbres de décision sémantique L algorithme de Boosting Les machines à supports vectoriels - SVM Conclusion Introduction J ai avancé dans la section 1.3 que le choix de la représentation sémantique est crucial car il détermine l architecture du module de compréhension. En outre, j ai présenté des représentations sémantiques plus ou moins complexes basées sur des analyses sémantiques complètes ou partielles de la phrase, des grammaires de cas,.... La représentation sémantique que nous adoptons est une représentation ad hoc : une liste prédéfinie de concepts relatifs à l application visée. Rappelons que les concepts sont les briques élémentaires qui permettent de construire l interprétation sémantique, représentation formelle du sens qui est véhiculé par le message émis par le locuteur. 33

34 Chapitre 2. Quelques méthodes de segmentation/étiquetage et classification Un concept est représenté par un couple (attribut/valeur), la valeur peut éventuellement être accompagnée d une polarité. Par exemple, dans le cas d extraction d entités nommées, les couples (date/"26 novembre") et (lieu/"avignon") sont des concepts possibles ; dans le cas de la détection d opinions, on peut donner comme exemple de concepts les couples suivants : (thème/"accueil",positive), (holder/"nathalie"). Nous avons choisi de suivre une approche probabiliste de la compréhension. Sa résolution se résume à celle de l équation Par ce choix, nous nous situons à la fois dans le même paradigme que la communication bruitée (présenté dans la section 1.2) mais également dans celui de la classification. J ai montré dans la sous-section que le problème de la compréhension abordé par une approche statistique s apparente à un problème de segmentation/étiquetage du signal d entrée. La classification, la segmentation et l étiquetage de données séquentielles sont des problématiques au cœur de nombreux domaines scientifiques. Il s agit de transformer une séquence observée en une séquence d étiquettes. L étiquetage d une séquence d observation X = x 1... x n consiste à déterminer parmi toutes les segmentations possibles, Y = y 1... y n, la meilleure séquence d étiquettes Y telle que : Y P(X, Y) = argmax P(Y X) = argmax Y Y P(X) Les ensembles X et Y sont finis. = argmax P(Y, X) (2.1) Y Les modèles de Markov cachés (Hidden Markov Model - HMM) sont les modèles les plus largement utilisés pour résoudre ce type de tâches. Ce sont des modèles génératifs qui définissent la probabilité jointe des séquences d observations et d étiquettes. Ils sont présentés brièvement dans la sous-section Des modèles discriminants sont récemment apparus : les Modèles de Markov à Maximum d Entropie (Maximum Entropy Markov Model - MEMM) (McCallum et al., 2000), présentés dans la sous-section 2.2.2, ainsi que les Champs Conditionnels Aléatoires (Conditional Random Fields -CRF- ) (Lafferty et al., 2001), présentés dans la section Ces modèles définissent la probabilité conditionnelle des séquences d observations par rapport aux séquences d étiquettes. Une variante des CRF a été introduite dans (Sarawagi et Cohen, 2005) : les semi-crf (voir l annexe C). L avantage principal de ces modèles par rapport aux HMM est la possibilité d utiliser l ensemble des observations d une séquence pour prédire une étiquette. C est également l avantage que présentent les méthodes de classification. L objet de cette thèse est l intégration de ces méthodes discriminantes dans le module de compréhension. Les méthodes retenues sont présentées comme suit. La première méthode présentée dans la section est basée sur les arbres de décisions sémantiques (Kuhn et De Mori, 1995). Cette méthode a, par exemple, prouvé son efficacité dans le cadre de la compréhension pour la tâche ATIS. Deux méthodes de classification à large marge, reconnues comme les plus performantes par la communauté scientifique de l apprentissage automatique, sont ensuite présentées : l algorithme du boosting (Freund et Schapire, 1996) dans la section et les machines à supports vectoriels (Vapnik, 1982) dans 34

35 2.2. Segmentation/étiquetage la section Ces méthodes ont notamment été appliquées avec succès dans le système How May I Help You (HMIHY) de AT&T pour une tâche de classification d appel (call routing). 2.2 Segmentation/étiquetage Les Modèles de Markov Cachés - HMM Un HMM est défini par : 1. Un ensemble fini d états Y ; 2. Un espace d observation X ; 3. Une loi de probabilité définissant la probabilité de l état initial {P(y 1 )} ; 4. Un ensemble de probabilités de transition d un état y au suivant y : {P(y y), y Y, y Y} ; 5. Un ensemble de probabilités d émission d une observation selon les états : {P(x y), y Y} ; De plus, les deux hypothèses suivantes sont admises : la probabilité d être dans un état à l instant t ne dépend que de l état à l instant précédent ; l observation émise à un instant t ne dépend que de l état à l instant t. La probabilité jointe d une séquence d observation X et d une séquence d états Y est alors donnée par : P(X, Y) = P(y 1 )P(x 1 y 1 ) T t=2 P(y t y t 1 )P(x t y t ) (2.2) Appliqué à une tâche de classification, de segmentation ou d étiquetage, un HMM doit ainsi modéliser toutes les séquences d observations possibles afin de déterminer les probabilités jointes des séquences d états et d observations. Or, notre problème (classification) ne nécessite pas de modéliser toutes ces possibilités. De plus, il est difficile de représenter les interactions entre plusieurs états ou même de créer des dépendances plus grandes entre états tant le problème deviendrait incalculable pour le HMM Les Modèles de Markov à Maximum d Entropie - MEMM Les modèles conditionnels discriminants, tels les MEMM, sont une alternative aux problèmes soulevés précédemment. Ces modèles définissent une loi de probabilité conditionnelle d une séquence d étiquettes sachant une séquence d observations : P(Y X) = P(y 1 x 1 ) T t=2 P(y t y t 1, X) (2.3) 35

36 Chapitre 2. Quelques méthodes de segmentation/étiquetage et classification En analysant cette équation, on remarque que la probabilité P(x t y t ) qui imposait qu une observation émise à l instant t ne dépende que de l état à l instant t ne fait plus partie de l équation, on remarque également qu aucune hypothèse particulière n est faite sur X. Ainsi, aucune hypothèse n est nécessaire sur les observations et le modèle ne perd pas de temps à modéliser l ensemble des observations. De plus, les probabilités de transitions entre étiquettes peuvent exploiter des caractéristiques arbitraires, nonindépendantes sur les séquences d observations sans pour autant devoir modéliser ces dépendances. Ces caractéristiques peuvent être différents niveaux de représentation de l observation (e.g. : mots, POS, lemmes). Malgré tous ces avantages, (Lafferty et al., 2001) ont mis en évidence un comportement indésirable de ce genre de modèles appelé effet du biais des étiquettes présenté dans la sous-section Les Champs Conditionnels Aléatoires - CRF Effet de biais des étiquettes Le problème du biais des étiquettes (label bias problem) vient du fait que les transitions entre états ne dépendent que des états mis en cause dans la transition et non de l ensemble des états du modèle. Ce problème est expliqué par (Lafferty et al., 2001) par l exemple présenté figure 2.1. Il s agit d un modèle à états-finis conçu pour distinguer les mots rib et rob. r:_ 1 i:_ 2 b:_ 0 3 r:_ 4 o:_ 5 b:_ FIG. 2.1 Effet de biais des étiquettes : Un exemple. Les paires observation-label o : l sont placés sur les transitions. Le symbole _ représente une étiquette de sortie vide. Supposons que la séquence d observations est rib. Lors de la première étape, l observation r coïncide avec les deux transitions quittant le premier état, ainsi les probabilités sont distribuées équitablement sur ces 2 transitions. Ensuite, les 2 états 1 et 4 ayant une seule transition vers un autre état, l observation d un i n influe pas sur les probabilités de transitions aux états suivants. Ainsi, les 2 chemins 0123 et 0453 seront équivalents, indépendamment de la séquence observée. En effet, du fait que les transitions ne génèrent pas les observations mais sont conditionnées par elles, les états n ayant qu un état suivant ignorent l observation. Plus généralement, les états ayant une faible entropie sur la distribution des états suivants ne prennent que peu en compte l observation. 36

37 2.2. Segmentation/étiquetage De ce fait, si le corpus d apprentissage contient plus de rob que de rib, il sera légèrement préféré à l autre chemin et le mot rob sera toujours décodé. Les champs conditionnels aléatoires (Conditional Random Fields -CRF) solutionnent l effet du biais des étiquettes d une manière purement probabiliste en garantissant la convergence vers le maximum de vraisemblance global. L ensemble des observations d une séquence est prise en compte dans la prédiction d une étiquette. Ce n est donc pas le seul historique immédiat qui contraint l attribution d une étiquette à une observation mais potentiellement toutes les observations précédentes et suivantes. Présentation des CRF Soit G = (V, E) un graphe tel que Y = (Y v ) v V, afin que Y soit indexé par les sommets de G. Alors (X, Y) est un CRF si, conditionnellement à X, la variable aléatoire Y v obéit aux propriétés de Markov respectivement au graphe G : P(Y v X, Y w, w = v) = P(Y v X, Y w, w v), où w v signifie que w et v sont voisins dans G. Ainsi, un CRF est globalement conditionné sur les observations X. Selon la théorie fondamentale des champs aléatoires (Hammersley et Clifford, 1971), la probabilité conditionnelle d une séquence d étiquettes Y connaissant la séquence d observations X est de la forme : P θ (Y X) exp( λ k t k (e, Y e, X) + µ k s k (v, Y v, X)) (2.4) e E,k v V,k où λ k et µ k sont des vecteurs de poids. t k (e, Y e, X) et s k (v, Y v, X) sont des vecteurs de caractéristiques. Un vecteur de caractéristiques est supposé donné et fixe. Dans le cas d un CRF ayant une structure semblable à un HMM, les caractéristiques peuvent s appliquer sur les transitions entre états (représentées par t k (e, Y e, X) dans la formule 2.4) et sur les états-observations (représentées par s k (v, Y v, X) dans la formule 2.4). Pour plus de simplicité, ces caractéristiques seront représentées par f k. Soit f = { f 1, f 2,...}, l ensemble des fonctions caractéristiques, alors : F j (Y, X) = n i=1 où i représente la position i dans le graphe. f j (y i 1, y i, X, i) (2.5) Par exemple, une caractéristique booléenne pourrait être vraie dans le cas où l observation x i est en majuscule et l étiquette y i est NOM_PROPRE. Lors de l apprentissage, il s agit alors de déterminer le vecteur de poids θ : θ = (λ 1, λ 2,... ; µ 1, µ 2,...). Il doit maximiser la log-vraisemblance conditionnelle sur les données d apprentissage. Cela peut s écrire : 37

38 Chapitre 2. Quelques méthodes de segmentation/étiquetage et classification L(θ) = n i=1 log P θ (y i x i ) (2.6) Il existe plusieurs méthodes de résolutions. (Malouf, 2002) compare plusieurs de ces méthodes (Viterbi, Improved Iterative Scaling - IIS - (Della Pietra et al., 1997),... ). Selon (Do et Artières, 2005), l algorithme de Viterbi est utilisé si le CRF a une structure en chaîne, l algorithme Belief Propagation (Weiss et Freeman, 2001) peut être utilisé pour une structure en arbre et Loopy Belief Propagation (Pearl, 1988; Murphy et al., 1999) est utilisé dans le cas d une structure quelconque. CRF++ : Une implémentation des champs conditionnels aléatoires L outil CRF++ 1 implémente la méthode basée sur les champs conditionnels aléatoires. Nous l utilisons dans les expériences présentées section L outil est développé en langage C++ (d où le nom) et s utilise d une manière très simple. CRF++ implémente un apprentissage par méthode Newtonienne (LBFGS) et un décodage grâce à l algorithme Viterbi. Cette boîte à outils a été utilisée avec succès pour de nombreuses tâches de traitement automatique du langage naturel comme la désambiguïsation sémantique, la décomposition en groupes grammaticaux, l étiquetage morpho-syntaxique ou encore la détection d entités nommées. 2.3 Trois méthodes de classification automatique Les arbres de décision sémantique L application des arbres de décision sémantique au langage naturel a été introduite par Kuhn et De Mori dans (Kuhn et De Mori, 1995). Présentation des arbres de décisions sémantiques Appliqués aux systèmes de reconnaissance de la parole, ils permettent d extraire le sens d un ou plusieurs mots. Pour cela, l arbre de décision sémantique (Semantic Classification Tree - SCT) construit automatiquement des règles à partir d un corpus d entraînement. Ces règles sont construites sur des ensembles de mots. La nouveauté des algorithmes de SCT réside dans la construction des questions pour l apprentissage de l arbre de décision. Cette construction se fait à partir d un ensemble d expressions régulières Π 0 associé à la racine de l arbre : Soient : V l ensemble des mots du vocabulaire du corpus d entraînement, w V n importe quel mot du vocabulaire, le symbole "+" indiquant la présence de n importe quelle séquence de mots non vides dans l expression régulière, Π 0 contient les quatre éléments suivants : 1 Il est disponible librement sur http ://www/chasen.org/ taku/software/crf++/. 38

39 2.3. Trois méthodes de classification automatique Π 0 = {w, +w, w+, +w+} L ensemble des questions appliquées à la racine, Q 0, est obtenu en considérant toutes les expressions régulières Π 0j possibles appliquées sur tous les w du vocabulaire V selon les quatre éléments de Π 0. Il y a donc 4 V possibilités où V représente la taille du vocabulaire. Chaque expression régulière est alors testée à la racine de l arbre. Le critère d impureté de Gini est utilisé pour choisir la meilleure question à chaque nœud Q i. Soient les classes c 1, c 2,..., c k dont les probabilités de répartitions sont p 1, p 2,..., p k alors le critère de Gini du nœud Q i s exprime par : i(q i ) = 1 k p 2 j. j=0 La meilleure question pour Q i est celle qui apporte la plus grande variation d impureté entre Q i et ses fils. Si les deux enfants de Q i sont notés OUI et NON, et les proportions d éléments de Q i que la question va envoyer dans les enfants OUI et NON sont respectivement notées p oui et p non, la variation d impureté est alors définie par : i = i(q i ) p oui i(oui) p non i(non). Par exemple, si +W est l expression régulière qui maximise i, les phrases qui sont acceptées par cette expression régulière font partie d un corpus C 1oui associé au fils de la branche du corpus nommé OUI. Les autres font partie du corpus C 1non associé au fils nommé NON. L ensemble des questions associé à C 1oui est obtenu par la substitution suivante : + Π 0 nous menant à Π 0 W. En général, étant donnée une expression régulière : +W 1 + W W i +... où W i est déjà déterminé par une série de mots, les questions sont générées en remplaçant chaque + par Π 0, c est à dire : Π 0 W 1 + W W i W 1 Π 0 W W i W 1 + W 2 Π W i Soit + le nombre de symboles + dans l expression régulière originale, le nombre de cas est alors : 4 + V. Lorsque le SCT est construit, il prend des décisions sur la base de règles de classification statistique apprises sur ces expressions régulières. Les règles apprises par le SCT sont donc résistantes aux diverses formulations du locuteur car elles ne dépendent que d un petit nombre de mots. En revanche, si un seul des mots composants de la règle est mal reconnu, elle ne s applique pas. La figure 2.2 est un schéma d exemple simplifié d arbre. 39

40 Chapitre 2. Quelques méthodes de segmentation/étiquetage et classification oui <+ w +> 1 non oui <+ w w > 1 2 non oui <+ w +> 3 non class1 class2 oui <+ w + w + > 1 4 non class3 no_class oui < w w + w + > non class4 class1 class2 FIG. 2.2 Schéma simplifié d un arbre de classification sémantique.chaque nœud de l arbre est une question oui/non obtenue dynamiquement pendant le processus de construction de l arbre, les w i sont des mots du vocabulaire. Les questions sont construites à partir d expressions régulières qui sont appliquées sur les échantillons à classer. Dans ce cas, l ordre des mots rentre en ligne de compte. LIA-SCT : Implémentation basée sur les arbres de décision sémantique LIA-SCT 2 est un logiciel libre développé par le Laboratoire Informatique d Avignon. Cet outil est un classifieur basé sur les arbres de décision destiné à travailler sur des phrases. Dans cette implémentation particulière des SCT, on peut représenter chaque élément de l échantillon en plusieurs niveaux et construire les expressions régulières en mélangeant ces différents niveaux. Par exemple, si tous les mots sont aussi représentés par leur POS (Part Of Speech, ex : Adverbe, Article, etc. ou Localité, Spécialité, Dizaine, etc.), l expression régulière produite pendant le processus de construction de l arbre peut être construite à la fois à partir de mots et de POS L algorithme de Boosting Dans (Freund et Schapire, 1996), Schapire et Freund proposent avec leur algorithme AdaBoost, une méthode de classification à base de boosting. L algorithme d AdaBoost Le but du boosting est d améliorer la précision des règles de classification en combinant plusieurs hypothèses dites faibles (hypothèses peu précises). Les algorithmes de boosting travaillent en re-pondérant répétitivement les exemples dans le jeu d entraînement et en ré-exécutant l algorithme d apprentissage précisément sur ces données re-pondérées. Cela permet à l apprenant faible de se concentrer sur les exemples les plus compliqués (ou problématiques). L algorithme de boosting obtient ainsi un ensemble d hypothèses faibles qui sont ensuite combinées en une seule règle 2 Il est disponible sur la page personnelle de F.Béchet depuis http :// 40

41 2.3. Trois méthodes de classification automatique de classification appelée hypothèse finale ou combinée. Typiquement, l hypothèse finale est un vote pondéré des hypothèses faibles. Cet algorithme est présenté plus formellement dans la figure 2.3 comme défini par Schapire dans (Schapire, 1999). Un exemple graphique simplifié est présenté dans la figure 2.4 Étant donné : Un jeu de données S : (x 1,y 1 ),...,(x m,y m ) où, à chaque exemple x i X, on associe une étiquette y i Y = { 1, +1} ; Une distribution initiale des poids D 1 (i) = 1/m uniforme sur ces données ; Un apprenant faible (weak learner). Alors pour chaque tour t = 1,..., T : Entraîner l apprenant faible sur le jeu de données S avec la distribution D t ; Obtenir l hypothèse faible h t : X { 1, +1} ainsi que l erreur ɛ t = i:h t (x i ) =y i D t (i) Calculer la pondération du tour t : α t = 1 2 ln ( 1 ɛ t ɛ t ) Mettre à jour la distribution : D t+1 (i) = D t(i)exp( α t y i h t (x i )) Z t avec Z t un facteur de normalisation permettant à D t+1 d être une distribution. En sortie, on obtient une hypothèse finale combinée qui est un vote pondéré de toutes les T hypothèses faibles : h f inal = sign( α t h t (x)) t=1 FIG. 2.3 Algorithme général d AdaBoost.MH et AdaBoost.MR. La version simple d AdaBoost présentée ci-dessus permet de faire de la classification "uni-label", c est à dire que l on associe une seule étiquette (label en anglais) à chaque exemple. Dans le cas de la classification de texte et par exemple de textes journalistiques, un document peut appartenir à plusieurs classes (les étiquette finance et politique ne sont, par exemple, pas exclusives). Schapire et Singer ont donc voulu créer une version d AdaBoost qui soit "multi-labels" (Schapire et Singer, 2000). Soient : X l ensemble des documents, x un document, Y l ensemble des étiquettes, γ un sous-ensemble d étiquettes, y une étiquette. En classification uni-label, un exemple se définit par un couple (x, y), en classification multi-labels, on définit un exemple par un couple (x, γ) avec γ Y l ensemble de tous les y associés à x. Le but de l apprentissage est d obtenir une fonction qui ordonne les différentes étiquettes en fonction de leur appartenance ou pas à l ensemble des étiquettes correspondant à un exemple. Cette fonction est de la forme : f : X Y R et telle que : y 1 est considéré de meilleur rang que y 2 si f (x, y 1 ) > f (x, y 2 ) Si Y est l ensemble des étiquettes associées à x alors un bon algorithme d apprentissage aura tendance à affecter un meilleur rang aux étiquettes appartenant à γ qu à celles 41

42 Chapitre 2. Quelques méthodes de segmentation/étiquetage et classification FIG. 2.4 Schéma simplifié de l algorithme de boosting. À chaque tour de l algorithme, une hypothèse faible permettant de séparer les données est faite. Les exemples mal classés voient leur poids augmenter à la distribution suivante. L hypothèse finale est une combinaison des hypothèses faibles. n appartenant pas à γ. Deux algorithmes de boosting ont été développés pour la version multi-labels d Ada- Boost : AdaBoost.MH et AdaBoost.MR. Ils ne se différencient que par le choix du calcul de la distribution des poids sur les exemples. Dans AdaBoost.MH, on choisit de minimiser la perte de Hamming tandis que dans AdaBoost.MR, on choisit de minimiser la fonction de perte (ranking loss), i.e. on privilégie les hypothèses faibles qui minimisent le nombre de mauvais classements. BoosTexter BoosTexter 3 est un outil basé sur le boosting développé par Schapire et Singer (Schapire et Singer, 2000). Il permet de faire de la catégorisation de textes multilabels, c est à dire qu on peut associer un exemple à plusieurs catégories (sans exclusivité). Dans le cas de cette implémentation, la forme du système d apprentissage est un arbre de classification à un seul niveau. En effet, le test de la racine n est qu un simple test de présence ou d absence d un n-gram dans la phrase donnée. Tous les éléments du lexique de l application sont susceptibles d être choisis comme questions. L algorithme de base utilisé est AdaBoost.MH. Cet outil a notamment été utilisé sur l application How May I Help You (Gorin et al., 3 Il est téléchargeable sur le site de R.Schapire : http :// schapire/boostexter.html. 42

43 2.3. Trois méthodes de classification automatique 1997) (e.g. dans (Tur et al., 2003)), une application téléphonique automatique de type call-routing du laboratoire AT&T qui permet aux clients d une compagnie téléphonique d accéder par téléphone aux informations concernant leur compte, leur facture, leur ligne, Les machines à supports vectoriels - SVM Les machines à supports vectoriels (Vector Support Machines -SVM) ont été proposées par Vapnik (Vapnik, 1982, 1995). Présentation des SVM Les SVM permettent de construire un classifieur à valeurs réelles qui offre en particulier une bonne approximation du principe de minimisation du risque structurel. L idée de la minimisation du risque structurel est de trouver une hypothèse h pour laquelle l erreur vraie minimale est garantie. L erreur vraie de h est la probabilité que h fasse une erreur sur un exemple non-vu et extrait aléatoirement du corpus de test. Les SVM découpent le problème de classification en 2 sous-problèmes : transformation non-linéaire des entrées et choix d une séparation linéaire optimale. Le premier sous-problème à traiter est celui de travailler dans un espace où les données soient linéairement séparables. Pour ce faire, les données sont projetées dans un espace de dimension supérieure par une transformation basée sur un noyau (voir figure 2.5). Le noyau est une fonction qui retourne la valeur du produit scalaire des images des 2 arguments K(x 1, x 2 ) = Φ(x 1 ), Φ(x 2 ). Le noyau peut être, par exemple, linéaire, polynomial ou encore gaussien. FIG. 2.5 Projection des données d entrées dans un espace où elles sont linéairement séparables. Le deuxième sous-problème est traité dans cet espace transformé. Les classes y sont séparées par des classifieurs linéaires qui déterminent un hyperplan optimal. L hyperplan optimal est celui qui sépare correctement toutes les données et qui maximise la marge, la distance du point le plus proche à l hyperplan (représentée par d dans la figure 2.6). Les hyperplans peuvent être déterminés au moyen d un nombre de points 43

44 Chapitre 2. Quelques méthodes de segmentation/étiquetage et classification limité qui seront appelés les "vecteurs supports". hyperplan optimal d : Distance du plus proche vecteur à l hyperplan vecteurs supports d FIG. 2.6 Hyperplan optimal et marge maximale. Plus formellement et selon (Collobert et al., 2002), soit x R d un vecteur d entrée de dimension d du corpus de test et y { 1; +1} la classe d étiquettes, soit x i la ième composante de x et y i sa classe, T le nombre d exemples du corpus d entraînement, alors une décision de classification est prise pour x selon la formule suivante : ) y = sign y i α i K(x, x i ) + b ( T i=1 (2.7) α = {α 1,..., α T } et b étant les paramètres du modèle. L entraînement du SVM consiste à trouver le α qui minimise la fonction objective suivante : T Q(α) = α i i=1 suivant les contraintes suivantes : T i=1 T i=1 T j=1 coût (e.g. : maximum de vraisemblance, moindre carré). α i α j y i y j K(x i, x j ) (2.8) α i y i = 0 et 0 α i C, C étant une fonction de Application des SVM à du texte Cette classe d algorithmes d apprentissage a été utilisée avec succès dans plusieurs tâches telles que la catégorisation de texte (Joachims, 44

45 2.3. Trois méthodes de classification automatique 1998) ou l identification de texte dans des images (Chen et al., 2001). De même beaucoup de travaux ont été menés avec succès sur de la parole (reconnaissance du locuteur (Ho et Moreno, 2004; Wan et Campbell, 2000), reconnaissance de formes acoustiques (Smith et Niranjan, 2000)). On peut citer notamment la tâche de classification d appels effectuée sur l application HMIHY? où les SVM permettent une baisse de 50% du taux d erreur de classification de type d appel (Haffner et al., 2003). Pour appliquer les SVM sur du texte (écrit ou oral), la technique la plus simple employée est celle du sac de mots où tous les mots sont représentés par des chiffres. Le lexique complet représente alors un vecteur et chaque phrase sera codée par ce vecteur. L utilisation des SVM dans ce cas est alors pleinement justifiée (Joachims, 1998) : ils ont le potentiel pour gérer ce grand nombre de données ; le vecteur représentant chaque phrase contient peu de données qui ne sont pas des 0. Les SVM sont adaptés aux problèmes de ce type (vecteurs creux) ; la plupart des problèmes de catégorisation de texte sont linéairement séparables. Soient L = {l 1, l 2,... l #(L) } le lexique de l application et #(L) le nombre de mots contenus dans ce lexique. Une phrase est alors représentée par un vecteur de taille #(L). Les composantes non nulles de ce vecteur sont le nombre d occurrences de chaque mot apparaissant dans la phrase. L ordre des mots dans la phrase n entre pas en jeu. Par exemple, soit le lexique {a, b, c, d, e}, la phrase "adebab" est alors représentée par le vecteur de coordonnées : [22011]. Soient N le nombre de phrases contenues dans un corpus, Ci le concept associé à la phrase i. Ce corpus est alors représenté par une matrice N (#(L) + 1) de la forme : l 11 l 12 l 1#(L) C 1 l 21 l 22 l 2#(L) C l N1 l N2 l N#(L) C N Cette représentation des données donne lieu à des vecteurs creux, c est à dire que la majorité des composantes ont une valeur nulle. SVMTorch Torch est un toolkit contenant des méthodes d apprentissage automatique développé par l IDIAP, institut de recherche suisse. SVMTorch 4 est un des outils de ce toolkit basé sur les machines à supports vectoriels. SVMTorch est adapté aussi bien aux problèmes de régression qu aux problèmes de classification (Collobert et al., 2002). Leur algorithme de décomposition pour les problèmes de classification est inspiré de celui proposé par Joachims (Joachims, 1998) dans l application SVM Light. 4 il téléchargeable sur le site de l IDIAP : http :// 45

46 Chapitre 2. Quelques méthodes de segmentation/étiquetage et classification 2.4 Conclusion Dans un premier temps, j ai présenté trois méthodes utilisées dans des tâches de segmentation/étiquetage. Une comparaison de ces méthodes peut être effectuée à l aide de la figure 2.7 Y i-1 Y Y i i+1 Y i-1 Y Y i i+1 Y i-1 Y Y i i+1 X X X i-1 i i+1 X a- HMM b- MEMM c- CRF FIG. 2.7 Représentation des HMM (1), MEMM (2) et CRF (3) sous forme de modèles graphiques. Un cercle non-rempli indique le fait que la variable n est pas générée par le modèle. On remarque tout d abord que seuls les HMM sont génératifs et requièrent donc des hypothèses particulières sur les observations. En revanche, les MEMM et CRF étant des modèles discriminants, aucune hypothèse n est requise sur les observations. On remarque également que les HMM et MEMM sont représentés par des graphes orientés. Cela permet d exprimer les lois de probabilités (jointes ou conditionnelles) respectivement selon les formules 2.2 et 2.3. Le graphe des CRF n étant pas orienté, on remarque bien que les probabilités conditionnelles sur les étiquettes peuvent dépendre de l ensemble des observations comme le montrent les équations 2.4,2.5 et 2.6. L avantage principal des modèles discriminants par rapport à des modèles génératifs tels que les HMM est la possibilité d utiliser l ensemble des observations d une séquence pour prédire une étiquette. Ce n est donc pas le seul historique immédiat qui contraint l attribution d une étiquette à une observation mais potentiellement toutes les observations précédentes et suivantes. Concernant l application des méthodes discriminantes au problème plus spécifique du traitement automatique de la parole, plusieurs articles (Haffner et al., 2003),(Schapire et Singer, 2000) ont montré que les outils de classification de texte peuvent être un moyen efficace d extraire des concepts de la transcription d un tour de parole provenant d un dialogue. Cette approche présente 2 avantages principaux : premièrement, l intervention humaine est limitée dans le sens où aucun mot-clé ni aucune grammaire ne doivent être définis afin de caractériser un concept. Néanmoins, un corpus d entraînement doit nécessairement contenir, pour chaque tour de parole, l ensemble des concepts qu il implique ; deuxièmement, les classifieurs sont plus robustes au bruit généré par les erreurs du module de Reconnaissance Automatique de la Parole (RAP) et aux effets dus à la parole spontanée parce qu ils reposent sur des processus d apprentissage discriminant. Ils peuvent être directement entraînés sur les sorties du module RAP et ainsi inclure les données bruitées dans la construction de leur modèle, alors que X 46

47 2.4. Conclusion les grammaires acceptent uniquement des phrases bien formées. C est pourquoi, dans un second temps, j ai présenté trois méthodes de classification automatique : les arbres de décisions sémantiques, l algorithme du boosting et enfin les machines à supports vectoriels. L aspect théorique de ces méthodes a été exposé ainsi que les outils implémentant ces méthodes que j utilise dans les expériences décrites dans les deux parties suivantes. Chacun de ces outils a déjà montré son efficacité dans les modules de compréhension des systèmes de dialogue développées soit sur la tache ATIS (informations sur des vols) soit sur l application HMIHY (consultation de données clients). J observe plusieurs points de divergence entre les différentes méthodes retenues. Une première distinction peut être faite entre les classifieurs à large marge et les arbres de décision. Le problème de maximisation de la marge est présenté dans la section relative aux machines à support vectoriel. Une seconde distinction peut être faite entre les implémentations des machines à support vectoriel et les deux autres classifieurs. En effet, les outils LIASCT et BoosTexter ont été implémentés pour traiter spécifiquement du texte. En revanche, l utilisation des SVM nécessite une représentation particulière de la phrase. Du fait de la spécificité de chacun des classifieurs employés (implémentation de différents algorithmes, différents formats d entrées -représentation de la phrase-) et des différences mises en relief précédemment, chaque classifieur peut être assimilé à un expert sémantique indiquant sa décision sur la tâche demandée. Les parties suivantes présentent comment ces différents points de vue sont utilisés afin de parvenir à un module de compréhension robuste. 47

48 Chapitre 2. Quelques méthodes de segmentation/étiquetage et classification 48

49 Deuxième partie Méthodes de classification automatique et compréhension dans un système de dialogue oral 49

50

51 Introduction Je me place dans le cadre des applications de dialogue acceptant de la parole téléphonique spontanée multi-locuteurs. La stratégie de dialogue considérée permet une initiative mixte entre le système et l utilisateur : certaines parties du dialogue sont ouvertes et dirigées par l utilisateur alors que d autres suivent un modèle de dialogue contraint. Ces spécifications ont une conséquence directe sur le type d application envisagée : pour chaque application, le gestionnaire de dialogue doit disposer d un modèle sémantique complet. Cela signifie que toutes les interventions possibles d un utilisateur visant à résoudre une tâche prévue par l application sont susceptibles d être comprises par le système. Les interventions hors sujet doivent ainsi être reconnues comme telles. Ce cadre restrictif est néanmoins réaliste dans la mesure où l on veut traiter de la parole téléphonique réellement spontanée. En effet, les contraintes liées aux difficultés du décodage de parole font que ces deux paramètres : ouverture/fermeture du type de langage accepté d un côté, et ouverture/fermeture du domaine sémantique géré par l application d un autre côté, sont opposés. On peut envisager un domaine sémantique large si le langage est très contrôlé et réciproquement on peut traiter de la parole spontanée téléphonique sur un domaine sémantique restreint. Le système de dialogue oral homme-machine considéré dans cette étude s apparente à une interface entre un utilisateur et une base de données. Le but du dialogue est de formaliser les requêtes qui seront adressées à la base de données (voir figure 2.8). On peut trouver dans cette famille de systèmes l ensemble des systèmes de réservations (hôtels, restaurants, trains, avions - ATIS (Price, 1990) -, etc.), de renseignements (AGS (Sadek et al., 1996)) ainsi que les systèmes de relation clientèle (accès, questions sur des factures, suivis de commande, etc.) (How May I Help You? (Gorin et al., 1997)). PlanResto est une application de dialogue téléphonique permettant de rechercher un restaurant à Paris. Dans les applications de dialogue oral téléphoniques, interpréter consiste à trouver des instances de structures conceptuelles représentant la connaissance du domaine sémantique. La compréhension du langage oral (Spoken Language Understanding - SLU) est le processus permettant d obtenir ces structures ou composants sémantiques. Un module de compréhension a été élaboré par le LIA pour le système de dialogue PlanResto. Ce module permet la génération d une liste pondérée des n meilleures hypothèses sémantiques en suivant l approche de collaboration entre module de transcrip- 51

52 " Bonjour, je recherche un restaurant grec dans le 15e s il vous plait " " il y a un restaurant grec à l adresse [...] " Synthèse de la parole Reconnaissance de la parole il y a un restaurant grec à l adresse [...] bonjour je recherche un restaurant grec dans le quinzième s il-vous-plait Gestionnaire de dialogue Compréhension spécialité : grecque lieu : quinzième arrondissement FIG. 2.8 Représentation du système de dialogue PlanResto. tion et module de compréhension. Ce processus est présenté dans la section 5.2. Grâce à l intégration de méthodes de classification automatique au niveau du module de compréhension, je souhaite augmenter la robustesse de ce module. Une stratégie de décision a été proposée en considérant les résultats des classifieurs comme des mesures de confiance. Je propose dans la section suivante un bref état de l art sur ces deux domaines que sont les stratégies de décision et les mesures de confiances. Le premier chapitre présente les détails de l application. Dans le second chapitre, des expériences sur les classifieurs sont présentées afin d une part d appréhender les outils de classification et d autre part de réaliser une étude préliminaire de leur comportement en amont de leur intégration dans le système PlanResto. Cette intégration est présentée dans le dernier chapitre. Mesures de confiance et stratégie de décision, un bref état de l art L estimation de la confiance d une interprétation soulève diverses questions : le choix du panel de mesures de confiance (mot, concept ou intervention), la définition de l ensemble des caractéristiques impliquées dans l estimation de la confiance, la combinaison efficace des différentes caractéristiques et le choix de la stratégie de décision qui prend en compte tout ceci. Par exemple dans (Hazen et al., 2002), l approche proposée calcule des mesures de confiances sur plusieurs niveaux : phonétiques, mots ou phrase. Le calcul de ces 52

53 mesures est effectué à partir de caractéristiques extraites de l hypothèse de reconnaissance au niveau mot et phrase. Dans (Komatani et Kawahara, 2000), deux mesures de confiance sont introduites pour les sorties du module RAP, une sur la teneur des mots et l autre sur la catégorie d un concept. Dans (Garcia et al., 2003), deux mesures de confiance sont présentées : la première évalue pour chaque concept l appartenance des mots au support correspondant tandis que la seconde calcule la probabilité pour un concept d appartenir à la séquence de concepts prédits. Dans les systèmes de dialogue oral, il est important d utiliser des mesures de confiance qui intègrent des informations relatives au contexte dialogique plutôt que d utiliser des caractéristiques basées seulement sur des indices acoustiques ou linguistiques. Ce contexte dialogique peut être pris en considération si l on définit une mesure de confiance sémantique, relative à la compréhension d une intervention, prenant en compte les attentes du dialogue. L intégration des attentes du gestionnaire de dialogue est proposée dans (Abdou et Scordilis, 2001) : un analyseur sémantique parcourt une phrase issue du module RAP, le contenu sémantique de chaque hypothèse est alors comparé avec les prédictions de dialogue ainsi que la classification du style d énoncé basé sur les caractéristiques prosodiques. De même, dans (Pradhan et Ward, 2002), les attentes du dialogue sont représentées par des catégories dialogiques qui sont utilisées comme des caractéristiques. Celles-ci sont utilisées, en conjonction avec des caractéristiques acoustiques et linguistiques, dans un arbre de décision entraîné à associer à chaque interprétation sémantique une mesure de confiance. Concernant la combinaison de plusieurs sources de connaissances à différents niveaux, (Sarikaya et al., 2005) passe en revue les approches qui intègrent des caractéristiques sémantiques et celles du module RAP pour remarquer que dans la plupart des cas cette intégration dans le processus de décision est plutôt ad hoc. Dans le même article, les mesures de confiances sont considérées au niveau mot et concept. Les hypothèses de concepts sont associées avec des séquences de mots qui ne peuvent se chevaucher. La mesure de confiance associée à un concept est fonction de mesures de confiance sémantiques des mots. Ces dernières peuvent dépendre de caractéristiques extraites de la phrase entière. Les études précédentes, pour la plupart, utilisent les mesures de confiance sur les concepts pour valider ou rejeter les hypothèses de concepts selon un seuil sur la mesure de confiance. Toutefois les mesures de confiance au niveau de l intervention ont également été étudiées, par exemple dans (Abdou et Scordilis, 2001; Carpenter et al., 2001) où une fiabilité globale est associée à une interprétation. Cette valeur peut être utilisée dans une stratégie de rejet ou pour réordonner un ensemble alternatif d hypothèses d interprétation. Comparée aux études précédentes, la stratégie que nous proposons met en avant les points clés suivants : La mesure de confiance d une hypothèse de concept est donnée selon deux dimensions : la confiance dans le concept γ ainsi que la confiance dans les mots supports du concept γ w. En plus de ces mesures données au niveau concept, un ensemble réduit d états de fiabilité est défini afin de caractériser l interprétation 53

54 complète Γ w ; Chacune des deux dimensions implique un ensemble différent de caractéristiques dont les composantes sont des informations sémantiques à travers les classifieurs, des informations acoustiques et linguistiques ainsi que des informations dialogiques ; Diverses caractéristiques sont combinées par les classifieurs. Divers points de vue sont ainsi obtenus : leur consensus définit alors un ensemble d états de fiabilité au niveau du concept ou au niveau de l interprétation globale ; Les états de fiabilité des hypothèses correspondent à une mesure de confiance globale. Le type d erreur possible d interprétation est alors prédit. L utilisation conjointe de l état de fiabilité et du S nbest permet une stratégie de correction d erreurs particulière. Celle-ci rejette ou ajoute un concept à la meilleure interprétation obtenue à la première étape du processus de compréhension. 54

55 Chapitre 3 Cadre expérimental : l application PlanResto Sommaire 3.1 Présentation des corpus Transcription manuelle et transcription automatique Notations Choix des représentations Représentation linguistique Représentation sémantique Présentation des corpus Le corpus est un ensemble de dialogues entre PlanResto et différents utilisateurs recherchant un restaurant sur Paris. Pour chaque dialogue, on considère l ensemble des interventions utilisateurs. Quelques exemples d interventions sont données dans le tableau 3.1. "je ne suis pas un utilisateur régulier" "euh oui j aimerais sélectionner une spécialité qu est-ce_qu il y a comme spécialités" "consulter les solutions" "euh oui je voudrais la liste des restaurants japonais à Paris" "euh des restaurants pour des menus inférieurs à cent francs " TAB. 3.1 Exemples d interventions utilisateurs. 55

56 Chapitre 3. Cadre expérimental : l application PlanResto pas loin du métro graphe Module RAP de FTR&D 1Best nbest pas loin du métro moins du métro moins de vingt euros pas loin du Trocadéro pas loin du métro opéra pas loin du métro FIG. 3.1 Différents formats de sortie possibles du module RAP. L ensemble du corpus représente environ 12K interventions réparties selon trois corpus : entraînement, développement et test. 1. Corpus d entraînement : noté APP, il est composé de 6.6k interventions. Un modèle de langage a été appris sur ce corpus et intégré dans le module de RAP. Ce module est géré par France Télécom Recherche & Développement (FTR&D). 2. Corpus de développement : noté DEV, il contient 4k interventions. 3. Corpus de test : noté TEST, il contient 1.6k interventions. Une comparaison de ces trois corpus est présentée dans le tableau 3.2. Corpus proportion nb mots du corpus total différents APP 54% 28k 1.1k DEV 33% 16k 0.6k TEST 13% 6k 0.4k TAB. 3.2 Comparaison des trois corpus PlanResto en fonction du nombre d interventions, nombre de mots, nombre de mots différents Transcription manuelle et transcription automatique Lors d une intervention client, le signal est traité par le module RAP de FTR&D dont la sortie peut prendre plusieurs formes : graphe de mots, liste des n meilleures hypothèses (nbest). Dans cette étude, on considère le nbest, n étant déterminé par un seuil sur le score de reconnaissance. La notation 1Best, qui indique que n = 1, signifie que seule la meilleure hypothèse de l intervention est considérée. Les différentes sorties possibles sont illustrées par la figure

57 3.2. Choix des représentations Le corpus considéré dans sa forme 1Best contient environ 27% d erreurs sur les mots (cf. sous-section WER 1.2.3) pour le corpus de test et environ 25.6% pour le corpus de développement. FTR&D fournit également les transcriptions exactes des interventions, c est à dire transcrites manuellement par des annotateurs humains. Ces transcriptions sont notés Man Notations Une intervention est considérée selon son corpus d origine et son moyen de transcription. Par extension, l ensemble des interventions d un corpus sera noté par son corpus d origine. Par exemple, les interventions du corpus de développement transcrites manuellement seront notées DEV.Man tandis que TEST.nBest représentera l ensemble des n meilleures hypothèses du module RAP pour chacune des interventions du corpus de test. 3.2 Choix des représentations Représentation linguistique Un mot est défini selon 3 niveaux d abstraction : sa forme graphique, sa catégorie morpho-syntaxique et une étiquette spécifique à l application. Pour PlanResto, il existe 11 étiquettes spécifiques à l application présentées dans le tableau 3.3. Type Étiquettes Exemples Quantité UNITE, CENTAINE, deux, trois, cents, cinquante, premier, DIZAINE, ORDINAL onzième Devise DEVISE francs Spécialité culinaire PLAT, SPEC kébab, chinois, fromage, pizzeria Lieu XLOC, XPAYS, XVILLE Montparnasse, France, Auvergne, Bourgogne, Paris Autre OTHER je, cherche, restaurant, nouvelle TAB. 3.3 Liste des étiquettes de niveau 3 spécifiques de PlanResto associés aux mots. L opération qui transforme une phrase dans sa suite de formes morpho-syntaxiques est notée POS(Phrase) (pour Part Of Speech). L opération qui transforme une phrase dans sa suite d étiquettes spécifiques à l application est notée SEM(Phrase) (pour étiquette SEMantique). Un exemple d intervention représentée sur les 3 niveaux est donné dans le tableau

58 Chapitre 3. Cadre expérimental : l application PlanResto Niveau MOT POS SEM Exemple "un restaurant russe euh vingt-six un s il-vous-plaît" "DETMS NMS AMS ADV CHIF CHIF MOTINC" "OTHER OTHER SPEC OTHER DIZAINE OTHER OTHER" TAB. 3.4 Exemple d une intervention représentée selon 3 niveaux Représentation sémantique Une liste de 59 concepts est fournie par FTR&D : marqueurs d actes communicatifs (e.g : demande d aide, demande de répétition), marqueurs linguistiques (e.g. : contestation, réponse positive), classes spécifiques (e.g : adresse, horaire), verbe être (e.g. :forme positive, forme négative), etc.. La liste complète est donnée dans le tableau 3.5. Concepts avec valeurs Lieux un lieu Prix un prix Specialite une spécialité culinaire valeur(ord) un ordinal valeur(card) un cardinal Classe Spécifiques claadresse claambiance claarrondissement clacapaciteaccueil claconnexion claespacesverts clahautslieuxreligieux clahoraire clainformation clalieu clamessage clamusees clanom claplaces claprix claprixexterne claquartiers clarestaurant claspecialite clastations clatel verbe être vb(neg_rmoi) vb(pos_rmoi) Aucun concept (hors focus) BCK Aucun concept marqueurs d actes communicatifs ma(aide) demande d aide ma(end_of_session) demande à quitter ma(raz) demande de remize à zéro ma(reeng_diag) ma(repeter) demande de répétition ma(modeguide) demande à être guidé ma(petiterelance) marqueurs linguistiques ml(contest) contestation ml(inver_v_suj) inversion verbe/sujet ml(neg_pre) négation pécédent un verbe ml(non) réponse négative ml(object) pronom à la troisième personne ml(ord(prec)) ordinal indiquant la précédence ml(ord(svt)) ordinal indiquant le suivant ml(ord(dernier)) ordinal indiquant le dernier ml(tous) toutes les réponses ml(oui) réponse positive opérateurs modaux op(neg_krif_auditeur) op(neg_krif_locuteur) op(pos_kif_auditeur) op(pos_kif_locuteur) op(pos_krif_auditeur) op(pos_krif_locuteur) Divers consulter dans peu_importe retour mini maxi utilisateur_regulier TAB. 3.5 Liste des concepts de l application PlanResto. Ces concepts sont issus de l implémentation du système de dialogue ARTIMIS (Sadek et al., 1996) pour PlanResto qui utilise le formalisme logique KLONE. Ils représentent les unités sémantiques élémentaires qui, extraites à partir du texte, permettent 58

59 3.2. Choix des représentations la construction de l interprétation sémantique puis celle de l interprétation contextuelle (voir la section 1.3). Certains concepts sont reliés à la gestion du dialogue (confirmation, contestation,... ) et d autres au domaine d application (lieu, date,... ). Dans l application Planresto, un concept est représenté par une paire attribut/valeur. On peut distinguer deux types de concepts : les concepts avec valeur spécifique. Ils correspondent généralement à un champ de la base de données utilisée par l application. Ils sont souvent représentés localement dans une phrase par des séquences de mots contigus, telles les dates, les prix, les numéros de téléphone,... ; les concepts sans valeurs particulières. Ils sont utiles dans l interprétation du sens du message utilisateur. Ils sont parfois détectables au travers de séquences de mots plus complexes où des séquences de mots parfois non contigus. Par exemple, le syntagme un restaurant chinois correspond au concept (Spécialité/chinois) alors que le syntagme non pas le correspond au concept (Contestation/). Une approche à base de transducteurs à nombre d états fini (Raymond et al., 2006) est utilisée pour extraire les séquences de concepts associées aux phrases issues du module RAP. Un regroupement des concepts de cette liste a été effectué selon 28 classes de concepts. L ensemble des 28 classes ainsi que leur signification sont donnés dans le tableau 3.6. ALI AMB BAK DAD DIN DME DNU DPR FIN HOR LDM LIS LOC MDE Accès à une liste Ambiance Aucun concept Demande d adresse Demande d informations Écouter un message Numéro de téléphone Demande de proposition Quitter Horaire Demande de lieu Élément d une liste Lieu Demande d aide MEN MRE NEG NOM NON NRE OUI PDM PRA PRI REP RES SPC UTR Menu Mise en relation Négation Nom du restaurant Non Redémarrage Oui Prix du menu Prix approximatif Prix Répéter Restaurant Spécialité Utilisateur régulier TAB. 3.6 Liste des classes de concepts de l application PlanResto. Par exemple, la classe redémarrage - NRE regroupe les concepts : ma(raz), ma(reeng_diag) et ma(petiterelance), la classe accès à une liste - ALI regroupe les concepts : ml(ord(prec)), ml(ord(svt)), ml(ord(dernier)). Cette liste de classes de concepts ne permet pas de construire une représentation sémantique. Dans le cadre de l utilisation de méthodes de classification pour la com- 59

60 Chapitre 3. Cadre expérimental : l application PlanResto préhension, cette liste permet de se placer dans un problème de classification des interventions. Ainsi, retrouver une de ces classes permet de valider ou non l interprétation sémantique construite par les transducteurs sur le premier jeu d étiquettes. Ces classes ne sont pas exclusives et une intervention peut être associée à une ou plusieurs de classes. 60

61 Chapitre 4 Analyse du comportement des classifieurs Sommaire 4.1 Questions préalables Robustesse vis à vis des erreurs de reconnaissance Volume de données nécessaire d apprentissage Capacité à modéliser le bruit Validation expérimentale Protocole expérimental Classification de transcriptions manuelles et automatiques Apprentissage sur corpus bruité Stratégies de combinaison de résultats Exploiter la liste des n meilleures hypothèses Adopter le consensus de classifieurs Trois méthodes de classification (arbre de décision sémantique, boosting et machines à supports vectoriels) sont étudiées dans cette section respectivement au travers des trois classifieurs : LIASCT, BoosTexter et SVMTorch. Alors que LIASCT a été spécialement conçu pour traiter des phrases issues du module RAP, BoosTexter a été conçu pour traiter du texte écrit. SVMTorch lui n a pas été spécifiquement conçu pour traiter du texte. Ces considérations suggèrent une analyse préliminaire des classifieurs afin d appréhender leur comportement pour ensuite définir la meilleure stratégie de leur utilisation. Une stratégie sera proposée dans le chapitre Questions préalables L application de méthodes de classification automatique sur du texte issu d un module RAP suscite quelques interrogations sur le comportement des classifieurs. 61

62 Chapitre 4. Analyse du comportement des classifieurs Robustesse vis à vis des erreurs de reconnaissance. La première interrogation à laquelle je souhaite apporter une réponse est la suivante : Dans quelle mesure les méthodes de classification peuvent être affectées par les erreurs issues du module RAP? En réponse, on sait que : 1. les erreurs de reconnaissances sont de trois types : insertions, délétions et substitutions de mots ; 2. les modèles de classification tels que nous les utilisons sont basés sur un test de présence ou absence des mots. Ainsi, il paraît raisonnable de penser que les erreurs de reconnaissance impliquent des erreurs de classification Volume de données nécessaire d apprentissage. La seconde interrogation que je me pose est la suivante : Augmenter la taille du corpus d apprentissage permet-il d augmenter la robustesse d un modèle? Il est difficile de prévoir le volume de données nécessaire à la construction d un modèle de classification robuste. En effet, il paraît raisonnable de penser qu une tâche de classification simple, c est à dire avec peu de concepts bien définis et non-ambigus, nécessite moins de corpus qu une tâche de classification plus ardue, c est à dire avec des concepts flous ou subjectifs. Néanmoins, que penser de l augmentation du volume des données d apprentissage pour une tâche donnée, simple ou ardue? Cela mène-t-il obligatoirement à l augmentation de la robustesse du modèle et cela exclu-t-il les phénomènes de sur-apprentissage? Je présume que dans tous les cas, afin qu un modèle soit robuste, les données doivent nécessairement être représentatives des futures données à classer Capacité à modéliser le bruit. Dans un système de dialogue oral, les méthodes de classification sont appliquées sur les sorties du module RAP. Est-ce que les erreurs de transcription sont modélisables? En construisant un modèle sur les sorties du module RAP, le corpus d apprentissage sera similaire au corpus de test. Je suppose que plus les données testées reflètent les données d entraînement, meilleures sont les performances du système. En revanche, des questions se posent sur la robustesse d un modèle appris sur des phrases erronées. D un côté, cela peut aider le modèle à ne pas focaliser sur les petits mots qui sont souvent insérés et également sur les mots qui sont souvent supprimés (par exemple parce qu ils sont en dehors du vocabulaire du modèle de langage), mais concernant les erreurs de substitution, il est peu probable qu un mot soit toujours substitué par un même autre. Dans ce cas, qu est-ce que cela implique-t-il lorsqu il y a substitution sur un mot choisi dans la construction du modèle? 62

63 4.2. Validation expérimentale 4.2 Validation expérimentale J ai mené sur les corpus de PlanResto les expériences présentées ci-dessous afin de m efforcer d apporter des réponses aux interrogations soulevées précédemment Protocole expérimental La tâche de classification a été simplifiée. Le but de l application étant la recherche d un restaurant, seuls les 3 concepts apparaissant comme des paramètres essentiels à la résolution de la tâche par le système ont été retenus : Lieux, Prix et Spécialité. Selon notre définition d un concept (cf. l introduction du chapitre 2 2.1), un concept est un couple (attribut/valeur). Ici, seul l attribut est recherché, sa valeur n est pas prise en compte dans le processus de classification. Les concepts considérés ne sont pas exclusifs. En effet, l utilisateur peut évoquer dans une même intervention, par exemple, à la fois une spécialité et un lieu : je souhaite un restaurant euh vietnamien dans le premier arrondissement. Ainsi, plusieurs concepts peuvent être associés à une intervention. Dans le cas contraire, lorsqu aucun des concepts considérés n est exprimé, l intervention est considérée hors-sujet : je ne suis pas un utilisateur régulier et associée au concept correspondant AUTRE. Pour simplifier un peu plus le problème, une étiquette est créée pour chaque combinaison possible de concepts. Ainsi, nous nous plaçons dans un cadre de classification supervisée multi-classe, uni-label, où à une intervention donnée doit être associée une seule des classes suivantes : LIEU, PRIX, SPEC, [LIEU-PRIX], [LIEU-SPEC], [PRIX- SPEC], [LIEU-PRIX-SPEC], [AUTRE]. Une intervention est représentée par les mots qui la composent selon 3 niveaux d abstraction (voir la sous-section 3.2.1). Ce protocole a été répété dans plusieurs expériences présentées dans les sections suivantes. Les différences entre les expériences présentées résident dans les différents corpus utilisés à l apprentissage et au test Classification de transcriptions manuelles et automatiques Deux modèles d apprentissage sont entraînés : un sur le corpus APP.Man et l autre sur la concaténation des deux corpus APP.Man et DEV.Man. Deux corpus sont testés : TEST.Man et TEST.1Best. Les résultats sont donnés dans le tableau 4.1. Le faible taux d erreur obtenu sur les concepts pour le corpus TEST.Man témoigne des bonnes performances des classifieurs sur une tâche simple (multi-valeurs et unilabel), quel que soit le classifieur. Les performances sont améliorées lorsque le corpus utilisé à l apprentissage est de taille plus importante. 63

64 Chapitre 4. Analyse du comportement des classifieurs Corpus utilisés à WER du CER obtenu par le classifieur l apprentissage le test Corpus LIASCT BoosTexter SVMTorch APP.Man TEST.Man TEST.1Best APP.Man + TEST.Man DEV.Man TEST.1Best TAB. 4.1 CER obtenu par les différents classifieurs selon les corpus utilisés à l apprentissage et au test. Les résultats obtenus sur le corpus bruité valident l hypothèse que nous avions émise : les performances des modèles de classification sont affectées par les erreurs du module de reconnaissance. En effet, l application des classifieurs sur un corpus bruité (WER=27%) implique une augmentation du CER néanmoins de moindre mesure (environ 7% en absolu) Apprentissage sur corpus bruité Différentes combinaisons de corpus sont utilisées à l apprentissage afin d obtenir des corpus de taille variable contenant plus ou moins de bruit. Les tests sont effectués sur le corpus TEST.ASR.1best. Les résultats sont donnés dans le tableau 4.2. corpus utilisés à CER obtenu par le classifieur l apprentissage LIA-SCT BoosTexter SVMTorch APP.Man + DEV.1Best App.Man + DEV.Man + DEV.1Best DEV.1Best APP.Man + DEV.nBest DEV.nbest TAB. 4.2 CER obtenu par les différents classifieurs sur le corpus TEST.1Best en fonction de différents corpus d apprentissage. L utilisation du corpus DEV.nBest seul perturbe les classifieurs. Dans ce corpus, une même intervention est représentée n fois, avec une augmentation du nombre d erreurs sur les mots en fonction de n. Il est assez logique que l introduction de tant de bruit ne permette pas de modéliser celui-ci. Aucune indication n est donnée aux classifieurs permettant un regroupement des différentes sorties d une même intervention. En revanche, la perturbation est moindre lorsque le corpus DEV.nbest est utilisé conjointement au corpus d apprentissage ne contenant pas d erreurs. Le meilleur résultat de LIA-SCT dans ces expériences est obtenu en utilisant la concaténation des corpus APP.Man et DEV.1Best à l apprentissage. Le corpus semble alors de taille assez importante et le bruit ne semble ni l affecter, ni l aider. En effet, il montre une performance similaire dans l expérience précédente où DEV.Man est sub- 64

65 4.3. Stratégies de combinaison de résultats stitué à DEV.1Best. On note également la contre-performance, par rapport aux deux autres classifieurs, de LIA-SCT avec le modèle construit sur la concaténation des trois corpus APP.Man+DEV.Man+DEV.1Best. Il semble que, dans ce cas, LIA-SCT souffre d un problème de sur-apprentissage et ne puisse pas généraliser sur des données test ne reflétant pas la majorité des données d apprentissage. Les performances de BoosTexter dans les expériences utilisant le corpus DEV.nBest à l apprentissage sont mauvaises (une augmentation de 30 à près de 100% du CER par rapport à la meilleure performance). En revanche, les expériences utilisant le corpus DEV.1Best obtiennent toutes de bons résultats équivalent à ceux obtenus dans les expériences avec corpus non bruités. Que le corpus d apprentissage soit bruité (i.e. contenant des erreurs de transcriptions en mots) ou non, on obtient un taux d erreur sur les concepts inférieur à 10%. Rappelons que la construction du modèle de BoosTexter se fait en posant une question de présence/absence d un mot à chaque tour. Une analyse des règles construites dans les expériences utilisant les corpus (APP.Man+DEV.1Best), (APP.Man+DEV.Man+DEV.1Best) et (APP.Man+DEV.Man) a montré que les mots choisis sont identiques et les scores équivalents, le nombre d exemples mal classés reste inchangé dans ces expériences. L introduction de corpus bruités ne permet pas de diminuer le taux d erreur sur les concepts. Le modèle de classification ne modélise pas ce bruit. Ainsi, même si les corpus de test sont similaires au corpus d apprentissage (en taux d erreur mot), cela ne permet pas d augmenter les performances d interprétation. Les résultats de SVMTorch mettent en évidence une meilleure performance de celuici lorsque le corpus d apprentissage est de grande taille. SVMTorch est la méthode qui obtient les meilleurs résultats. Globalement pour chaque classifieur, l intégration de bruits dans l apprentissage n améliore, ni ne perturbe les performances. Cette remarque est à relativiser en raison de la faible taille du corpus de développement. En effet, on peut penser que la taille du corpus de développement est trop petite pour permettre aux classifieurs de généraliser les erreurs rencontrées. Dans les expériences précédentes, la modification des entrées des classifieurs ne semblent pas permettre une amélioration des performances. Afin d atteindre ce but, nous allons maintenant tenter d exploiter les sorties des classifieurs. 4.3 Stratégies de combinaison de résultats Dans cette section, nous allons exposer deux stratégies de combinaisons de résultats des classifieurs. Une fois les paramètres d entrée choisis, le modèle appris, les résultats de la classification obtenus, il est possible de mettre en place une stratégie de combinaison des divers résultats. Cette combinaison exploite la redondance des résultats. Il paraît raisonnable de penser que la redondance, i.e. lorsque plusieurs expériences mènent à un même résultat, augmente la fiabilité de ce résultat. 65

66 Chapitre 4. Analyse du comportement des classifieurs Une combinaison des scores à différents niveaux a été proposée par exemple dans (Hakkani-Tür et al., 2005) où différentes méthodes de combinaison sur différents classifieurs sont comparées Exploiter la liste des n meilleures hypothèses La représentation pour une intervention transcrite par le module RAP choisie est la liste des n meilleures 1 transcriptions automatiques. Ainsi, pour une même intervention, différents résultats de classification sont obtenus en appliquant les classifieurs sur cette liste. Afin d assurer la viabilité de l exploitation de ces résultats, une première expérience est réalisée avec comme critère d évaluation le score Oracle. Ce score permet d obtenir la borne supérieure d une méthode en choisissant explicitement la réponse correcte dans la liste des réponses renvoyées. Si cette réponse est présente dans la liste alors l intervention est considérée comme correctement étiquetée. Cette méthode permet ainsi d obtenir le nombre maximum de phrases qu il est possible d étiqueter correctement. Les résultats des classifieurs sur le TEST.nBest sont présentés dans le tableau 4.3. Corpus utilisé à CER obtenu par le classifieur l apprentissage LIA-SCT BoosTexter SVMTorch APP.Man+DEV.Man TAB. 4.3 CER calculé selon le score Oracle obtenu sur le corpus TEST.nBest. L expérience évaluée selon le score Oracle encourage l exploitation de la liste des n meilleures hypothèses pour LIASCT et BoosTexter. En effet, une baisse significative de 6 points en absolue (soit plus de 60% en relatif) est envisageable par rapport au meilleur score obtenu dans le tableau 4.1. En revanche, les performances de SVMTorch ne peuvent au mieux être améliorées seulement de 1.3% (soit 15% en relatif). Ainsi, différentes méthodes de combinaison sont appliquées à LIASCT et BoosTexter pour lesquels un gain significatif est probable. Trois méthodes de vote semblent les plus intuitives : Le vote majoritaire : Le concept apparaissant le plus souvent dans le nbest est choisi ; Le vote moyen par score de confiance du module RAP 2, noté Gscore : La moyenne des scores de confiance est faite pour chaque hypothèse classée avec un même concept ; le concept obtenant le score le plus fort est choisi. Le vote OneBest ou Très majoritaire : Si un concept apparaît en écrasante majorité, i.e. n fois plus que les autres, il est choisi. Sinon le concept associé à la meilleure hypothèse est choisi. 1 selon une combinaison de scores acoustiques et linguistiques. 2 combinaison entre score acoustique et linguistique. 66

67 4.3. Stratégies de combinaison de résultats Le modèle est appris sur le corpus APP.Man+DEV.Man. Les résultats obtenus sont reportés dans le tableau 4.4. LIA-SCT BoosTexter Résultat sur TEST.Man Résultat sur TEST.1Best Score Oracle Vote majoritaire Vote moyen par GScore Vote One-Best ou Très majoritaire (n=15) 9.0 (n=10) 9.4 TAB. 4.4 Résultats obtenus sur TEST.nBest selon différentes combinaisons des résultats. À titre d information et pour comparaison, les résultats obtenus sur TEST.Man et TEST.1Best sont reportés. La méthode de combinaison obtenant les meilleurs résultats est One-Best ou très majoritaire. Cette méthode permet d obtenir des résultats équivalents à ceux obtenus sur TEST.1Best. Ainsi dans le cas où le vote majoritaire est privilégié et indique un concept différent de celui porté par la meilleure hypothèse, les corrections d erreurs contrebalancent les nouvelles erreurs puisque le score final est équivalent à celui obtenu par le choix exclusif de la OneBest. Les deux autres méthodes ne donnent pas de résultats concluants. Même si, comme le montre le score Oracle, il est possible d obtenir le bon concept en décidant sur l ensemble des n meilleures hypothèses pour une intervention, les résultats obtenus sur une combinaison simple des résultats mettent en relief l indécision des classifieurs vis-à-vis de toutes ces solutions Adopter le consensus de classifieurs Les expériences menées précédemment reposaient sur le paramétrage des entrées et des sorties des classifieurs afin d améliorer les performances de classification. Une nouvelle stratégie de combinaison consiste à exploiter les résultats des différents classifieurs pour une même intervention. Il a été montré précédemment (chapitre 2) que les classifieurs utilisés s appuient sur des algorithmes de classification différents ainsi que sur des formats d entrées différents (e.g. : sacs de mots ou n-grams) dans le calcul du score attribué à chaque concept. Ainsi, chaque classifieur est considéré comme un expert apportant son point de vue sur un problème. Si ces différents experts arrivent à la même conclusion, i.e. s il y a redondance, le résultat obtenu est considéré plus fiable que dans le cas où un seul expert est considéré. Dans le tableau 4.5, les expériences précédentes sont reportées (9 étiquettes, unilabel, apprentissage sur APP.Man+DEV.Man et test sur TEST.1Best) afin d évaluer les performances du consensus de tous les classifieurs. 67

68 Chapitre 4. Analyse du comportement des classifieurs 9 concepts 28 concepts uni-label multi-label CER Couverture CER Couverture LIASCT BoosTexter SVMTorch Consensus TAB. 4.5 Comparaison du CER de chaque classifieur et de leur consensus. Le consensus permet d obtenir un CER de 7.8% soit une diminution des erreurs d environ 6% par rapport au meilleur classifieur. Ce consensus est obtenu sur 95% du corpus. Du fait de la large couverture du consensus et des bons résultats obtenus par les classifieurs, il semble que la tâche soit si simple qu elle ne nécessite pas l avis de plusieurs experts pour obtenir de bonnes performances. Afin de mieux percevoir le potentiel du consensus des classifieurs, la classification a été testée sur la tâche non simplifiée, c est à dire sur l ensemble des 28 concepts globaux. Ces concepts n étant pas exclusifs, la tâche de classification devient multi-labels. Les résultats sont reportés dans le tableau 4.5. Dans une tâche de classification moins simple, le consensus des classifieurs apparaît alors comme un moyen simple et efficace d améliorer significativement les performances. En effet, pour un CER moyen de moins de 20% pour chaque classifieur pris indépendemment, on arrive à un CER de 8.9% pour le consensus. La couverture est alors réduite de moins de 25% mais dans ce sous-ensemble, le taux d erreur est bien moindre. On retrouve un résultat équivalent à celui obtenu sur la tâche de classification simplifiée. 68

69 Chapitre 5 Amélioration de la robustesse du module de compréhension Sommaire 5.1 Stratégie séquentielle par arbre de décision Génération d une liste structurée des n meilleures hypothèses d interprétations conceptuelles DU 1 : validation de l interprétation conceptuelle Objectif Procédé de validation DU 2 : validation conceptuelle Indicateurs de confiance Procédé de validation Évaluation Situation de confiance Résultats Dans le chapitre précédent, une étude du comportement des classifieurs dans le cadre simplifié d une application touristique téléphonique a été présentée. Il s agit maintenant de les intégrer dans le module de compréhension du système de dialogue Plan- Resto présenté dans la figure Stratégie séquentielle par arbre de décision Nous proposons une stratégie séquentielle afin de retrouver ces concepts et d évaluer leur fiabilité dans l optique de réduire les effets des erreurs de reconnaissance. Afin d améliorer la précision de l interprétation, on intègre les méthodes de classification automatique dans le module de compréhension en tant que sources de connaissances sémantiques. Chaque source de connaissances représente un point de vue différent sur 69

70 Chapitre 5. Amélioration de la robustesse du module de compréhension l interprétation, se basant sur différents mots, contextes ou caractéristiques pour estimer la fiabilité d un concept. La première étape de la stratégie consiste à générer des hypothèses sur les concepts à partir du treillis de mots généré par le module RAP, c est le processus de décodage conceptuel. Dans la lignée des solutions proposées dans (Levin et Pieraccini, 1995; Kuhn et De Mori, 1995), un automate à états finis (Finite State Automata -FSM-)est proposé pour transformer un treillis de mots en concepts. Dans (Raymond et al., 2003), une méthode est présentée afin d obtenir l interprétation d un tour de parole en utilisant des transducteurs. Ils modélisent des modèles de langages dépendant des concepts afin de générer une liste des meilleures hypothèses conceptuelles L nbest. Les détails de cette approche sont donnés dans (Raymond et al., 2004a) et sont brièvement rappelés dans la section 5.2. Une fois l interprétation générée, l étape suivante consiste à estimer sa confiance. Le processus d estimation de la fiabilité d une interprétation proposée s appuie sur une stratégie séquentielle représentée par un arbre de décision. Les nœuds de cet arbre correspondent à des unités de décision (decision unit - DU) contenant l ensemble redondant de classifieurs. L unité de décision calcule un score et évalue les mesures de confiance ainsi que les caractéristiques contenues dans L nbest. La sortie de cette unité de décision est un prédicat booléen (vrai ou faux). La décision prise est fonction du consensus de l ensemble des classifieurs utilisés sur le même ensemble de caractéristiques dans l unité. L unité met également à disposition des unités suivantes le résultat de son calcul. L arbre de diagnostique a été construit manuellement. Chacune de ses feuilles représente un état de fiabilité. L implémentation de l arbre a été faite de manière à maximiser la séparation entre interprétations correctes et incorrectes tout en assurant une bonne couverture de l ensemble des messages. L arbre de décision est illustré par la figure 5.1. La stratégie séquentielle proposée s appuie sur 2 unités de décision. La première, notée DU 1 et présentée dans la section 5.3, s efforce de diagnostiquer si la meilleure hypothèse d interprétation conceptuelle produite par le processus de décodage conceptuel est correcte. La seconde, notée DU 2 et présentée dans la section 5.4 s attache à valider de manière indépendante les concepts présents dans une hypothèse. Contrairement à l utilisation des classifieurs faite dans (Hacioglu, 2004) pour le chunking sémantique, les classifieurs sont utilisés pour valider les hypothèses de concepts générées par les FSM. Les classifieurs et les FSM évaluent les interprétations indépendamment. En général, les classifieurs apprennent leur modèle de classification sur des exemples annotés et prennent des décisions sur des caractéristiques qui sont automatiquement sélectionnées. Les FSM quant à eux évaluent essentiellement des séquences de mots en utilisant une connaissance linguistique a priori. Ainsi, contrairement à (Sarikaya et al., 2005), la mesure de confiance sémantique associée à un concept n est pas obtenue par composition des scores de confiance sur les mots mais par une évaluation directe et globale de la présence d un concept dans la phrase selon le point de vue de différents experts. 70

71 5.2. Génération d une liste structurée des n meilleures hypothèses d interprétations conceptuelles L nbest Γ 1 W 1,1 Γ W 1,1 I(Γ 1 )=? Vrai DU 1 Faux DU 2 DU 2 Mesures de confiance RAP C(Γ W 1,1 )=? Vrai Faux Vrai Faux SC SC SC SC FIG. 5.1 Implémentation de la stratégie de décision par un arbre de diagnostique. 5.2 Génération d une liste structurée des n meilleures hypothèses d interprétations conceptuelles La compréhension de la parole peut être vue comme un problème de transduction (Segarra et al., 2002). Selon ce point de vue, le module de compréhension est un système qui prend en entrée les hypothèses de mots issues du module RAP afin de générer l ensemble des concepts supportés par ces hypothèses. L originalité du système de décodage conceptuel proposé est qu il prend en entrée le treillis de mots générés par le module RAP pour produire une liste de n meilleures hypothèses conceptuelles. L interprétation commence avec un processus de transduction dans lequel un modèle de langage stochastique est implémenté par un FSM pour générer des concepts. Á chaque concept γ est associé sa séquence de mots support γ w. La valeur du concept s extrait de son support. Par exemple, la séquence de mots γ w ="station de métro de la place de l Opéra" est le support du concept γ = LIEU indiquant la valeur METRO : OPERA. L interprétation d un tour de parole contenant N concepts est représentée à la fois par sa séquence de concepts (notée Γ = {γ 1, γ 2,... γ N }) et ses séquences de mots correspondantes (notée Γ w = {γ w 1, γw 2,... γw L }). Il n est pas exclu que les différents supports aient des mots en communs. Un FSM est implémenté manuellement pour chaque concept élémentaire comme un automate à états finis approximant une grammaire du langage naturel. Ces FSM sont des transducteurs qui traitent des mots en entrée pour donner en sortie les concepts induits par les phrases acceptées. Leur définition dépend de la stratégie du dialogue. Les 71

72 Chapitre 5. Amélioration de la robustesse du module de compréhension FSM peuvent être liés soit au gestionnaire de dialogue (confirmation, contestation,... ) soit au domaine de l application (lieu, date,... ). Ils peuvent être écrits manuellement pour les concepts indépendants du domaine (dates, montants,... ) ou induits par les données lorsqu assez de corpus est disponible. Tous les transducteurs sont regroupés dans un seul et même transducteur. La résolution de l interprétation menant à la liste structurée des n meilleures hypothèses conceptuelles est présentée en détail dans (Raymond et al., 2004). Toutes les opérations sur les FSM sont réalisées avec le toolkit AT&T FSM (Mohri et al., 2002). Le résultat de ce processus est une liste structurée des n meilleures hypothèses d interprétation notée L nbest. Les informations y sont hiérarchisées selon 3 niveaux : 1. premier niveau : la n-best liste des séquences d interprétation Γ 1, Γ 2,..., Γ n ; 2. second niveau : la m-best liste de chaque séquence de mots relatifs à chaque interprétation Γ i : Γ w i,1, Γw i,2,..., Γw i,m ; 3. troisième niveau : la liste des meilleures séquences de mots W i,j trouvées dans G W 1 pour chaque séquence de mots support d un concept Γ w i,j. Ainsi, L nbest représente simplement toutes les interprétations possibles d une intervention. Un exemple est donné dans le tableau 5.1. Dans (Raymond et al., 2004), une méthode a été proposée afin de calculer la probabilité qu une interprétation Γ obtenue à chaque phrase d une liste des n meilleures hypothèses d interprétation conceptuelle soit correcte selon le rang de la phrase et un ensemble de mesures de confiance acoustiques, linguistiques et sémantiques. Le calcul de cette probabilité est souvent imprécis. Les classifieurs sont introduits afin d améliorer la fiabilité d une interprétation conceptuelle. 5.3 DU 1 : validation de l interprétation conceptuelle Objectif Le but de cette unité de décision est de valider l interprétation sémantique Γ 1 du L nbest. Dans cette unité, seul l attribut du concept est testé, la valeur n est pas prise en compte. DU 1 prend en entrée d une part la séquence de mots W 1,1 support de l interprétation Γ 1 et d autre part l ensemble des concepts γ 1,1,..., γ 1,n qui composent cette interprétation. DU 1 évalue alors si le prédicat I(Γ) (confiance globale dans l -I-nterprétation de Γ) est vérifié. Ce prédicat est vérifié si l ensemble des concepts de Γ sont prédits par toutes les méthodes de classification impliquées dans DU 1. Parce que ces méthodes ne s appuient pas sur les mêmes algorithmes et n utilisent pas les mêmes formats d entrée, ils n utilisent pas les mêmes informations pour caractériser un concept et réagissent différemment aux erreurs issues du module RAP. Ainsi, leur accord ou désaccord sur la 1 G W est le graphe d hypothèses de mots généré par le module RAP 72

73 5.3. DU 1 : validation de l interprétation conceptuelle Phrase prononcée : "dans le quartier des Halles le restaurant autour de dix euros par personne" Phrase reconnue : "dans le quartier des vins euh le restaurant autour de dix euros par personne" L nbest Γ 1 Γ W 1,1 W 1,1 Γ W 1,2 W 1,2 γ 1 =dans γ 2 =claquartier γ 3 =clarestaurant γ 4 =Prix γ1 W =[dans] γw 2 =[le quartier] γw 3 =[restaurant] γw 4 =[autour de dix euros par personne] dans le quartier des vins euh le restaurant autour de dix euros par personne γ W 1 =[dans] γw 2 =[le quartier] γw 3 =[restaurant] γw 4 =[deux mille euros par personne] dans le quartier des vins euh le restaurant entre deux mille euros par personne Γ W 1,2 γ1 W =[dans] γw 2 =[le quartier] γw 3 =[restaurant] γw 4 =[trente-huit euros par personne] Γ 2 Γ 3 Γ 4 W 1,2 Γ W 2,1 W 2,1 Γ W 3,1 W 3,1 Γ W 4,1 W 4,1 Γ W 4,2 W 4,2 dans le quartier des vins euh le restaurant de trente-huit euros par personne γ 1 =Lieux γ 2 =clarestaurant γ 3 =Prix γ1 W =[dans le quartier des Halles] γw 2 =[restaurant] γw 3 =[autour de dix euros par personne] dans le quartier des Halles restaurant autour de dix euros par personne γ 1 =dans γ 2 =claquartier γ 3 =clarestaurant γ 4 =Spécialité γ 5 =Prix γ1 W =[dans] γw 2 =[le quartier] γw 3 =[restaurant] γw 4 =[breton] γw 5 =[autour de dix euros par personne] dans le quartier des vins euh le restaurant breton de dix euros par personne γ 1 =dans γ 2 =claquartier γ 3 =clarestaurant γ 4 =valeur(card) γ W 1 =[dans] γw 2 =[le quartier] γw 3 =[restaurant] γw 4 =[deux] dans le quartier des vins euh le restaurant entre deux euros par personne γ W 1 =[dans] γw 2 =[le quartier] γw 3 =[restaurant] γw 4 =[deux] dans le quartier des vins euh le restaurant entre deux des euros par personne TAB. 5.1 Exemple d une liste structurée des n meilleures hypothèses d interprétation. présence ou non d un concept semble être une bonne mesure de confiance. Nous considérons ainsi que le consensus des classifieurs à propos d un concept, le désigne comme correct. 73

74 Chapitre 5. Amélioration de la robustesse du module de compréhension Procédé de validation Soit V γ = {γ 1, γ 2,..., γ 28 } l ensemble du vocabulaire des 28 concepts présentés à la sous-section Soit une représentation sémantique Γ, une séquence de symboles de V γ, obtenue par le biais des FSM comme présenté dans la section précédente. Soit V Γ un vecteur à 28 composantes dans {0, 1} où V Γ [i] = 1 si et seulement si γ i Γ et V Γ [i] = 0 sinon. Le vecteur V Γ représente alors l interprétation sémantique d une phrase sous forme de vecteur donnée par le système de décodage à base de FSM. On remarque qu avec cette notation, l apparition de plusieurs occurrences d un même concept n est pas pris en compte. Seule sa présence ou non dans l interprétation est considérée. Chaque support W 1,1 est représenté selon les 3 niveaux linguistiques présentés dans la sous section et analysé par les classifieurs afin de rechercher l ensemble des concepts qu il contient. Pour chaque méthode de classification n acceptant pas le multilabel, un modèle binaire est construit pour chacun des 28 concepts. En revanche un seul modèle est construit pour les méthodes acceptant le multi-label. Le corpus utilisé à l apprentissage est la concaténation de APP.Man et DEV.1Best où chaque intervention est étiquetée par l ensemble des concepts associés. Chaque classifieur produit alors un vecteur V classi f qui indique sa décision. V classi f [i] = 1 si et seulement si le classifieur classi f valide la présence du concept γ i. Ce vecteur représente ainsi l interprétation conceptuelle Γ classi f (W) donnée par le classifieur classi f sur la suite de mots W. Trois interprétations sont ainsi obtenues : Γ SCT (W), Γ BOOST (W) et Γ SVM (W) respectivement les interprétations de LIA-SCT, BoosTexter et SVMTorch. L unité de décision DU 1 évalue si le prédicat I(Γ 1 ) est vérifié ainsi : DU 1 : I(Γ 1 ) = Vrai ssi Γ 1 = Γ SCT (W 1,1 ) = Γ BOOST (W 1,1 ) = Γ SVM (W 1,1 ) (5.1) i.e. ssi i [1, 28], V Γ [i] = V SCT [i] = V BOOST [i] = V SVM [i] Le schéma 5.2 illustre le procédé de décision de l unité DU 1. Cette unité de décision donne son avis sur la cohérence de l interprétation fournie par le processus de décodage en fonction de la meilleure chaîne de mots. En cas de non validation (i.e. (I(Γ 1 ) = VRAI) ), cette unité permet également de fournir les informations suivantes : un classifieur peut avoir détecté la présence d un concept dans W 1,1 qui n a pas été détecté par notre décodage. Dans ce cas, et notamment si tous les classifieurs ont détecté sa présence, il est probable que l interprétation Γ 1 ait subi une suppression ; les classifieurs peuvent ne pas avoir détecté dans W 1,1 un concept présent dans Γ 1, dans ce cas il est fortement probable que l interprétation Γ 1 ait généré une fausse insertion. Par contre, cette unité ne peut pas nous renseigner sur la cohérence d une apparition multiple d un concept. 74

75 5.4. DU 2 : validation conceptuelle I(Γ 1 ) Résultat de DU 1 I(Γ 1 ) =Vrai ssi Γ 1 = Γ SCT (W 1,1 ) = Γ BOOST (W 1,1 ) = Γ SVM (W 1,1 ) Γ SCT (W 1,1 ) Γ BOOST (W 1,1 ) Γ SVM (W 1,1 ) LIA-SCT BoosTexter SVMTorch DU 1 Γ 1 L nbest W 1,1, POS(W 1,1 ), SEM(W 1,1 ) FIG. 5.2 Procédé de validation de l unité de décision DU DU 2 : validation conceptuelle Alors que l objectif de DU 1 est d évaluer la confiance d une interprétation dans sa globalité, l objectif de DU 2 est de valider chacun de ses concepts. Plus précisément, cette unité de décision évalue la pertinence de l ensemble des mots contenus dans γ w support de γ à l aide d un ensemble d indicateurs de confiance relatifs soit à la phrase soit au concept. L intérêt est donc d évaluer la pertinence de chaque concept, en tant que paire attribut/valeur indépendamment des autres. Les 3 classifieurs LIA-SCT, Boos- Texter et SVMTorch sont utilisés pour évaluer cette pertinence attribut/valeur. Leur décision s appuie sur un nouvel ensemble de caractéristiques qui sont les indicateurs de confiance présentés dans la sous-section suivante Indicateurs de confiance Voici la liste de l ensemble des mesures de confiance utilisées dans DU 2 : AC est un indicateur de confiance acoustique (Raymond et al., 2003) basé sur la comparaison de la probabilité donnée par le modèle de reconnaissance de la parole pour une hypothèse donnée à celle qui aurait était obtenue par un modèle 75

76 Chapitre 5. Amélioration de la robustesse du module de compréhension sans contrainte sur les boucles de phonèmes. Cette mesure de confiance est relative à γ w ; LC est un indicateur de confiance linguistique (Estève et al., 2003) qui calcule pour une hypothèse donnée le rapport entre le nombre de n-grammes vus dans le corpus d apprentissage et le nombre de n-grammes non-vus ; SC est un indicateur de confiance sémantique dérivé des scores de classification donnés par les différents classifieurs dans l unité de décision DU 1. Il correspond au nombre de classifieurs ayant défini le concept γ comme présent dans l interprétation ; DC est un descripteur du contexte de dialogue. Ce contexte est représenté par l invite de dialogue, le prompt, énoncée avant l intervention de l utilisateur. Chaque prompt est étiqueté par type de message énoncé (prompt ouvert, demande de confirmation, requête spécifique,... ). Une distribution a priori des concepts selon chaque prompt est obtenue sur le corpus d apprentissage ; R représente le rang de la meilleure hypothèse contenant γ w dans la liste des n meilleures hypothèses classique ; d autres paramètres sont également pris en compte : nombre de mots de l intervention, nombre de concepts de l interprétation, Procédé de validation DU 2 prend en entrée Γ W 1,1 qui correspond à la suite de W 1,1 à laquelle est associé l ensemble des concepts γ 1,..., γ i,..., γ I de l interprétation Γ 1. Le résultat de DU 2 est le prédicat C(Γ W 1,1 ) (confiance dans l ensemble des constituants Conceptuels de ΓW 1,1 ). Lorsque ce prédicat est vérifié, cela signifie que l ensemble des concepts γ i, en tant que paire attribut/valeur, ont été individuellement estimés comme étant corrects. Un corpus d apprentissage est constitué à partir de l ensemble des listes du L nbest obtenu sur le corpus de développement. Alors que seule l interprétation Γ 1 sera vérifiée par le biais de Γ W 1,1, il est judicieux d augmenter la taille du corpus d apprentissage en prenant en compte l ensemble des listes L nbest. Un modèle de classification est appris pour chacun des 28 concepts par chaque classifieur. Chacun de ces modèles évalue si le concept est correct ou incorrect. Le prédicat C classi f (γ i ) est vérifié si et seulement si le classifieur classi f a classé comme correct le concept γ i. Le concept γ i est considéré comme correct si l ensemble des classifieurs l a validé. Ceci est noté C(γ i ). L unité de décision DU 2 détermine C(Γ W 1,1 ) selon le processus suivant, pour chaque composant γ i de Γ 1 : l ensemble des caractéristiques (AC, LC, SC, DC, R, Autres) est calculé pour γ i. Cet ensemble est noté indicateurs(γ i ) ; les 3 modèles de classification appris pour valider le concept γ i sont appliqués et déterminent si le concept γ i est correct par le prédicat C classi f (γ i ) ; le concept γ i est exprimé correct ou non par le prédicat C(γ i ). Son estimation est donnée par la formule 5.2 ; 76

77 5.5. Évaluation γ i correct? : C(γ i ) = 3 1 C classi f (γ i ) (5.2) Lorsque l ensemble des concepts γ i de Γ 1 ont été vérifiés, DU 2 prend une décision selon l équation : DU 2 : C(Γ W 1,1 ) = I i=1 C(γ i) (5.3) Ce procédé est illustré par la figure 5.3 Les performances de classification binaire en correct/incorrect des classifieurs de cette unité de décision sont données dans le tableau 5.2. CORPUS étiquette #exemples LIA-SCT BoosTexter SVM-Torch Développement Incorrect Correct Test Incorrect Correct TAB. 5.2 Performance de classification des 3 classifieurs utilisés dans DU 2 évalué selon le CER. On remarque que les résultats obtenus sur le corpus de développement (qui est le corpus d apprentissage des modèles de classification) sont très bons, supérieurs à 95% de bonne classification. En revanche, les résultats obtenus sur le corpus de test sont en baisse d environ 10 points pour l ensemble des classifieurs. Ce comportement est semblable a celui observé dans les expériences de la sous-section Les résultats de classification sur des nouvelles données sont bien moins performants que ceux obtenus sur le corpus d apprentissage lorsque beaucoup de bruit est introduit à l apprentissage. Ici, alors que seul Γ W 1,1 est testé, l apprentissage a été constitué de l ensemble des données allant jusqu au niveau Γ W 3,5. Ce niveau a en effet été évalué expérimentalement comme le meilleur compromis entre un corpus d apprentissage trop réduit et un corpus d apprentissage trop bruité afin d obtenir un modèle de classification plus robuste. 5.5 Évaluation Situation de confiance Le processus de décision prend en entrée une liste structurée des n meilleures hypothèses de L nbest et commence par traiter la meilleure hypothèse Γ 1 de cette liste avec DU 1. L implémentation de la stratégie de décision est réalisée par un arbre de diagnostique dont les nœuds sont les unités de décisions DU 1 et DU 2 comme présenté dans la figure 5.1. Cette implémentation est simplifiée car seul le consensus total de l ensemble des classifieurs est considéré. Une stratégie plus sophistiquée pourrait prendre en compte des consensus partiels, c est à dire concernant deux des trois classifieurs. Quatre Situations de Confiance (SC) sont ainsi définies et notées : 77

78 Chapitre 5. Amélioration de la robustesse du module de compréhension C(Γ W 1,1) Résultats de DU 2 C(Γ W 1,1) = I C(γ i ) i=1 oui non i = I? C(γ i ) = C SCT (γ i ) C SVM (γ i ) C BOOST (γ i ) C SCT (γ i ) C BOOST (γ i ) C SVM (γ i ) LIA-SCT BoosTexter SVMTorch indicateurs(γ i ) calcule indicateurs de confiance pour γ i i = i + 1 DU 2 i = 1 Γ W 1,1 FIG. 5.3 Procédé de validation de l unité de décision DU 2 78

79 5.5. Évaluation SC 1 : I(Γ 1 ) C(Γ 1 ) SC 2 : I(Γ 1 ) C(Γ 1 ) SC 3 : I(Γ 1 ) C(Γ 1 ) SC 4 : I(Γ 1 ) C(Γ 1 ) SC 1 correspond à la situation de confiance la plus favorable, celle où la validation est totale tant au niveau global de l interprétation Γ 1 qu au niveau de chaque constituant conceptuel. SC 2 et SC 3 sont des situations de confiance intermédiaires où il est probable qu un ou plusieurs des constituants conceptuels de l interprétation Γ 1 soit erroné ou manquant. SC 4 correspond à la situation de confiance la plus défavorable où ni l interprétation Γ 1, ni l ensemble de ses constituants n a été validé Résultats Les résultats obtenus sur le corpus de test sont donnés dans la figure 5.4 en fonction du CER et de la couverture (Couv.). La couverture d un état SC i est représentée par le quotient suivant : nombre d exemples appartenant à l état SC i sur le nombre total d exemples. Couv. = 100% CER = 17.0 DU 1 Vrai Faux Couv. = 74.6% CER = 11.4 Couv. = 25.4% CER = 27.4 Vrai DU DU 2 2 Faux Vrai Faux Couv. = 58.4% CER = 5.9 Couv. = 16.2% CER = 28.6 Couv. = 7.6% CER = 18.0 Couv. = 17.7% CER = 30.8 SC 1 SC 2 SC 3 SC 4 FIG. 5.4 Résultats de la stratégie d interprétation pour les unités de décision DU 1 et DU 2 sur le corpus de test. Bien que les expériences menées précédemment selon un protocole simplifié n aient pas mis en évidence un gain à introduire des corpus bruités à l apprentissage, nous 79

80 Chapitre 5. Amélioration de la robustesse du module de compréhension avons choisi d intégrer le corpus DEV.1Best à l apprentissage des modèles de classification de DU 1. Cela nous a permis d obtenir un CER de 11.4% sur 74.6% du corpus. En comparaison, si tous les processus de décision (FSM et classifieurs) avaient été appris entièrement sur les transcriptions manuelles, le taux d erreur en concept aurait été de 13.8% sur une couverture de 83%. Les expériences menées dans le chapitre précédent sur une tâche de classification simplifiée n avaient pas permis de mettre en évidence la capacité ou non des classifieurs à modéliser le bruit. En effet, les résultats obtenus avec des modèles de classification appris sur un corpus propre ou bruité étaient équivalents. En revanche, les résultats obtenus ici semblent indiquer que l apprentissage sur des données issues du module RAP contraint les classifieurs à ne pas focaliser que sur les supports des concepts mais sur un contexte plus large. Alors que l apprentissage sur les données transcrites manuellement permet une couverture du consensus de plus de 10%, le CER lui augmente fortement (de 11.4 à 13.8). Le but de chaque unité de décision étant de séparer au mieux des situations de confiance, l apprentissage sur corpus bruité est préféré. Les résultats indiquent que le consensus des classifieurs est une mesure de confiance sémantique pertinente. Le CER est clairement lié aux situations de confiance que produisent les différents consensus. En fonction du CER obtenu dans ces différentes situations, celles-ci peuvent être classées de la plus à la moins favorable ainsi : SC 1 > SC 3 > SC 2 > SC 4. L état SC 1 représente clairement la situation de confiance optimale. En effet, si les deux unités de décisions DU 1 et DU 2 expriment respectivement I(Γ 1 ) = VRAI et C(Γ W 1,1 ) = VRAI alors le CER chute de 17.0 à 5.9 soit une amélioration de la compréhension de plus de 60% sur une couverture encore large de près de 60%. De même, l état de situation de confiance SC 4 est clairement le plus défavorable avec un CER de plus de 30 mais réduit sur une couverture de moins de 18%. Le gain que permet chaque classifieur dans les unités de décision DU 1 et DU 2 est illustré dans le tableau 5.3. L ordre dans lequel les classifieurs apparaissent est sans importance. DU classifieur Couv. CER aucun aucun 100% 17.0 DU 1 +LIA-SCT 86.5% BoosTexter 76.1% SVMTorch 74.6% DU 2 +LIA-SCT 65.6% 9.1 +BoosTexter 61.5% 6.9 +SVMTorch 58.4% 5.9 TAB. 5.3 Performances des unités de décision DU 1 et DU 2 en fonction du nombre de classifieurs impliqués. Comme le montrent les résultats, chaque classifieur ajouté fait décroître le taux d erreur mot. Néanmoins, le gain que permet l ajout du troisième classifieur est beaucoup plus faible que ceux obtenus lors des deux premiers ajouts. Cela justifie que l on ajoute 80

81 5.5. Évaluation pas un classifieur de plus à l ensemble des trois classifieurs impliqués dans les unités de décision. 81

82 Chapitre 5. Amélioration de la robustesse du module de compréhension 82

83 Conclusion Dans un premier temps, j ai présenté le cadre applicatif de l étude. Celui-ci concerne un système de dialogue oral téléphonique à but touristique. Les interlocuteurs expriment leurs demandes de manière naturelle et spontanée. Dans un second temps, j ai analysé le comportement des classifieurs sur une tâche simplifiée dans le cadre de l application présentée dans le premier chapitre. Les centres d intérêts principaux de cette étude concernaient notamment les trois points suivants : impacts des erreurs de reconnaissances sur la classification, capacité des classifieurs à modéliser ce bruit et combinaison des différents résultats de classification. Sur le premier point, comme cela était supposé, une baisse dans les performances de classification a été notée lorsque celle-ci concerne les interventions issues du module RAP. Les critères de WER et CER sont donc corrélés. Concernant la capacité des classifieurs à modéliser le bruit, les expériences menées sur la tâche simplifiée n ont pas permis d éclairer ce point. Quant à la combinaison de résultats de classification, j ai mené deux expériences. Une première concerne la combinaison des résultats de classification obtenus sur la liste des n meilleures hypothèses de mots issues du modèle RAP ; les résultats peu concluants restent à approfondir. Dans la seconde expérience je me suis intéressée à la combinaison des résultats des différents classifieurs. Une baisse significative du taux d erreur mot a été observée dans le cas où les différents classifieurs impliqués s accordent sur la classification. Finalement, une stratégie de décision séquentielle a été proposée, basée sur un arbre de diagnostique dont les nœuds sont des unités de décision. La stratégie suit la conjecture que l hypothèse d interprétation issue du processus de décodage du module de compréhension doit être interprétée avec différents types de connaissances sémantiques. Différentes méthodes de classification automatique ainsi que des automates à états finis forment un ensemble d experts sémantiques. Deux unités de décision font intervenir tout ou partie de ces experts sémantiques : la première unité permet d examiner une interprétation (séquence de concepts) extraite d une intervention utilisateur tandis que la deuxième unité vérifie un à un les différents concepts (paire attribut/valeur) associés. Différentes sources de connaissances (e.g. : mots, étiquettes morpho-syntaxique, indicateurs de confiance,... ) sont employées par les experts pour exprimer leur décision. La stratégie proposée permet d isoler des situations de confiance dans lesquelles la qualité de l interprétation peut être prédite. Ces états de fiabilité sont conditionnés par des 83

84 Chapitre 5. Amélioration de la robustesse du module de compréhension indicateurs de confiance (CER et couverture) assignés à chaque hypothèse d interprétation. Le nombre de ces états est délibérément petit afin de garantir que chaque état estime correctement la fiabilité d une interprétation. Cette information est essentielle pour le choix du gestionnaire de dialogue sur la poursuite de l échange. En effet, il peut décider de demander ou non une confirmation ou une clarification au locuteur, selon que la fiabilité proposée par l état est forte ou non. Une telle stratégie repose sur le pouvoir discriminant de différentes méthodes de classification. Lors de la phase d apprentissage, ces méthodes sélectionnent des caractéristiques issues d un corpus de développement de taille assez réduite. Les dernières expériences ont notamment permis de noter que l apprentissage effectué sur du corpus transcrit automatiquement permet d obtenir de meilleurs résultats de classification sur ce type de transcription. Bien que cela n affirme pas que les modèles construits modélisent le bruit, j en déduis que ce type d apprentissage permet de se focaliser sur un contexte plus global que les mots supports des concepts mais également de moins prendre en compte les mots sujets aux erreurs de reconnaissance. Pour conclure, il a été montré dans (Raymond et al., 2007), que la stratégie reposant sur la combinaison de classifieurs surpasse une stratégie basée seulement sur des mesures de confiance acoustiques. Ce résultat démontre l intérêt de l intégration des méthodes de classification automatique dans le module de compréhension pour cette application. 84

85 Troisième partie Détection automatique d opinions dans une application de sondage téléphonique 85

86

87 Introduction Au cours des dernières années, il y a eu une croissance du nombre de publications focalisées sur la détection et la classification des opinions et de la subjectivité dans un texte. Les motivations pour cette tâche viennent du désir de fournir des outils d informations statistiques par exemple aux gouvernements pour connaître l opinion des gens sur la dernière réforme politique ou encore aux commerciaux pour connaître l avis des consommateurs sur un produit en particulier. Quel est le ressenti de la population face aux récentes émeutes des banlieues? Que pensent les ans de la dernière boisson Coca-Cola Black? Actuellement, les réponses sont obtenues via un questionnaire souvent fermé (de type QCM) lors de campagnes de sondages. Plusieurs chercheurs du domaine de l intelligence artificielle et du traitement automatique du langage tente d apporter des solutions à la détection d opinions à partir de texte (Riloff et Wiebe, 2003; Popescu et Etzioni, 2005; Wiebe et al., 2005). En effet, un éventail très varié d applications (résumés de textes, systèmes de questions/réponses, extraction d informations,... ) pourrait bénéficier d un système pouvant différencier une phrase factuelle d une phrase subjective, i.e. exprimant une opinion. Beaucoup de ces travaux tentent de détecter les opinions au niveau du document. Lorsque la détection se fait au niveau de la phrase, c est souvent pour la classer comme subjective ou objective, l opinion n est pas caractérisée. Mon travail sur la détection d opinions présente trois originalités majeures : Il s agit de traiter de la parole libre et spontanée. La personne s exprimant sans contrainte, le contenu recueilli est riche d informations diverses mais contient aussi les disfluences (répétitions, hésitations,... ) inhérentes à ce type de parole ; Le langage considéré est oral et la transcription automatique. Les incertitudes sur les mots liées aux erreurs classiques des modules de transcription sont à prendre en compte ; Chaque opinion de l intervention est caractérisée par sa polarité mais également par un thème relatif à l application. Le cadre de l étude est donc la détection et la caractérisation fine d opinions sur du contenu issu de la transcription automatique de la parole spontanée. 87

88 Détection d opinions, un bref état de l art L analyse d opinions a récemment fait l objet d une grande attention de la part de la communauté scientifique (atelier d ACL 2006 Sentiment and Subjectivity in Text, DEFT 07). Une forte motivation provient notamment du désir de fournir des applications pouvant automatiquement extraire et analyser les opinions touchant au domaine politique ou commercial (Popescu et Etzioni, 2005; Kim et Hovy, 2006). Les applications de traitement du langage naturel telles que les systèmes de question/réponse, de résumé automatique, profitent également d une telle tâche comme le montrent par exemple les travaux de (Yu et Hatzivassiloglou, 2003; Stoyanov et Cardie, 2006; Riloff et Wiebe, 2003). De nombreux travaux précédents portent sur la détection d opinions au niveau du document. Le but est de classer un document comme exprimant un avis positif ou négatif (Pang et al., 2002; Turney, 2002). Nombres d algorithmes ont été développés afin d apprendre automatiquement des motifs génériques représentant des expressions subjectives. Certains requièrent du texte annoté par des étiquettes spécifiques au domaine, une liste de mots-clés définie manuellement, des séparations entre textes factuels et subjectifs,.... D autres ont focalisé sur une recherche des opinions au niveau de la phrase. Il s agit d une tâche d extraction fine d opinion. Celle-ci se divise généralement en 2 tâches : 1. identifier le texte subjectif par rapport au texte factuel et extraire ainsi uniquement les segments potentiellement porteurs d opinions. Cette tâche peut être vue comme de la classification binaire (objectif ou subjectif ). 2. déterminer l orientation subjective du segment (positif ou négatif ). Pour cette dernière tâche, des listes d adjectifs, de noms, de mots potentiellement subjectifs sont appris dans le segment et ses environs à partir de corpus (Wiebe, 2000; Hatzivassiloglou et Wiebe, 2000; Wiebe et al., 2001). Certains travaux introduisent une troisième tâche qui permet de déterminer l intensité, la source ou le thème de l opinion (Bethard et al., 2004; Kim et Hovy, 2006; Wilson et al., 2004). Concernant les travaux que nous menons, nous proposons de déterminer le thème de l opinion en même temps que sa polarité. Alors que la détection d opinions connaît un grand succès dans le domaine TALN, peu de travaux ont été menés sur des corpus de messages oraux. Dans ce cas, en plus des difficultés liées à la tâche, nous avons à faire face aux problèmes liés la reconnaissance automatique notamment les erreurs de transcription (insertion, délétion ou substitutions de mots). De plus, nous assumons que notre définition des opinions ne prend pas en compte la dimension des sentiments (la part affective des opinions) comme cela est défini dans (Kim et Hovy, 2004). En effet, les sentiments des clients ne reflètent pas nécessairement l opinion qu ils portent vis-à-vis du service client. Par exemple, dans l intervention suivante : "oui j ai été satisfait euh de l accueil qui m a été réservé mais vous avez rien d autre à faire que 88

89 de faire des enquêtes de satisfaction et d ennuyer les gens sur leur portable à longueur de temps merci au_revoir", la personne est satisfaite de l accueil mais apparemment ennuyée par le dérangement causé par ce sondage. Une approche typique de l analyse d opinions consiste à créer un lexique de départ contenant un ensemble de mots exprimant une polarité (polarisés) : les seeds (Hatzivassiloglou et McKeown, 1997; Wilson et al., 2005). D autres ont choisi d implémenter des algorithmes d extraction automatique de patrons de texte pertinents vis-à-vis du domaine de l application visée (Riloff et Wiebe, 2003). Le but de ces ensembles de mots et patrons spécifiques est bien entendu d améliorer la reconnaissance des opinions fines. S inspirant de cette approche, nous avons choisi de créer un lexique de seeds. L originalité du protocole de construction de ce lexique est qu il est à la fois manuel et automatique. La partie manuelle permet de recueillir des mots polarisés tandis que la partie automatique permet de recueillir les mots liés aux opinions de l application. Ce protocole est décrit dans la sous-section Nous avons également choisi de créer un ensemble de patrons qui sont associés à chaque label recherché dans notre application. La construction de ces patrons résulte de l analyse des erreurs de classification qui ont mis en évidence des phrases idiomatiques non prises en compte par les classifieurs. L évaluation de ces patrons est présentée dans la sous-section

90 90

91 Chapitre 6 Cadre expérimental : le corpus SCOrange Sommaire 6.1 Présentation des corpus Protocole de collecte Transcription automatique Représentation sémantique Expressions subjectives Étiquettes conceptuelles Classification et évaluation Présentation des corpus Le corpus SCOrange est un recueil d interventions d utilisateurs exprimant leurs opinions sur le service-client Orange Protocole de collecte Un corpus de interventions a été recueilli de la manière suivante, dans le cadre d une expérimentation. Pendant 3 mois, un échantillon de personnes ayant eu recours au service-client reçoit un SMS lui proposant de donner son avis sur le service reçu. Les personnes sont invitées par un court message à appeler un numéro gratuit qui leur permet d exprimer leur degré de satisfaction vis à vis du service-client. En composant ce numéro, le message vocal suivant les invite à laisser un message : "[... ] Vous avez récemment contacté notre service clientèle. Nous souhaitons nous assurer que vous avez été satisfait de l accueil et de la suite donnée à votre appel. N hésitez pas à me faire part de tous vos commentaires et de vos suggestions sur notre service, ceux-ci nous 91

92 Chapitre 6. Cadre expérimental : le corpus SCOrange aideront à nous améliorer. Nous vous remercions de votre aide et nous restons à votre disposition. Laissez votre message après le signal sonore." L ensemble de ces interventions a été transcrit manuellement au niveau mots, opinions et divers marqueurs (indication de disfluence et marqueurs discursifs). Un exemple d intervention annotée manuellement est donné dans le tableau 6.1. "euh <marqdis> ben </marqdis> <(EFF,POS)> tout était bien </(EFF,POS)> heu j avais pas grand chose euh à demander non plus c est juste pour remettre en route <fauxdep> mon tel* </fauxdep> euh <reprise> mon portable </reprise> vu que je l avais perdu mais que le magasin l a retrouvé <marqdis> donc voilà </marqdis> non <repet> non <repet> le <(ACC,POS)> <reprise> l accueil </reprise> était très bien </(ACC,POS)> <formpol> merci bonne journée </formpol>" TAB. 6.1 Exemple d une intervention transcrite et annotée manuellement. Légende des annotations : La balise <... > ouvre une annotation tandis que </... > la clôt. La signification des annotations est la suivante : marqdis correspond à un marqueur discursif, (EFF,POS) correspond à une opinion positive sur le thème de l efficacité, fauxdep correspond à un faux départ, repet correspond à une répétition, (ACC,POS) correspond à une opinion positive sur le thème de l accueil. Du fait que les messages ont été enregistrés à l origine dans l optique d un traitement par opérateur, aucune consigne de nature à faciliter le traitement automatique n a été donnée : pas de conseils sur le mode d élocution, question ouverte et même incitation à laisser des commentaires. Ainsi, les messages recueillis sont réalistes et de longueur variable (d une dizaine à plusieurs centaines de mots). L ensemble des interventions est découpé en deux corpus : le corpus d entraînement, noté APP1, contient environ 77% des interventions tandis que celui de test, noté TEST1, contient les 23 autres pourcents Transcription automatique L objectif est la mise en place d un système de traitement automatique de ces messages. La première étape consiste en l implémentation d un module de reconnaissance automatique de la parole continue. Du fait du degré de liberté laissé aux utilisateurs dans l énoncé de leur message, on observe une assez grande dispersion dans la distribution des fréquences des mots. Ceci est d autant plus le cas dans les portions des messages où les utilisateurs relatent l origine de leur problème qui peut être de nature assez variée. Une fois les noms propres filtrés pour raison de confidentialité, le corpus d apprentissage dans son ensemble contient mots différents pour un nombre total de occurrences. Près de la moitié des mots n apparaissent qu une seule fois dans le corpus d apprentissage, et la restriction du lexique aux mots d occurrence supérieure ou égale à 2, conduit à un lexique de mots. 92

93 6.2. Représentation sémantique Un premier modèle, noté Reco1, de type bi-gramme a donc été construit sur la base de ce lexique réduit. Aux mots du vocabulaire s ajoutent des éléments spécifiques aux données, tels qu un modèle de rejet particulier pour les noms propres ou encore une grammaire de numéros de téléphones. Ces éléments sont intégrés au modèle bi-gramme. À cause des très nombreuses disfluences et du bruit, spécialement dans les longs messages, le WER n est pas le même pour tous les messages. Par exemple, les messages de petites tailles (contenant moins de 20 mots) obtiennent de meilleures performances que les messages plus longs. Ceci est montré dans le tableau 6.2. WER <20 <30 <40 <50 <60 >60 taille (nb mots) TAB. 6.2 Corrélation entre le WER et la longueur des messages (en mots). Du fait du nombre très important de disfluences au sein des messages, mais aussi souvent de la mauvaise qualité acoustique des messages (messages dits bruités), le taux d erreur mot moyen obtenu avec ce modèle sur l ensemble du corpus est de 58%. Ce taux très important est à relativiser car il inclut toutes les répétitions, hésitations et digressions effectuées par les utilisateurs. D autres modèles seront présentés et expérimentés par la suite. Un corpus transcrit manuellement portera l extension Man alors qu un corpus transcrit automatiquement portera l extension Reco1. Le corpus d apprentissage est transcrit uniquement manuellement, cela est noté APP1.Man. Il a servi à l apprentissage du modèle Reco1. Le corpus de test a été à la fois transcrit manuellement, noté TEST1.Man, et automatiquement, noté TEST1.Reco Représentation sémantique Deux ensembles d annotations ont été fournies par FTR&D. Le premier concerne un ensemble d étiquettes concernant la satisfaction globale du client. Cette première annotation manuelle proposée globalement à une intervention s exprime selon 3 polarités : PLUS, MOINS et NEUTRE. L étude qui porte sur cet ensemble de concepts est présentée en annexe A. Nous nous intéressons ici à l annotation plus fine qui a été réalisée manuellement selon ces thèmes principaux : l accueil ACC, l attente ATT, l efficacité du service par rapport au dernier problème soulevé EFF et l efficacité d Orange en général GEN. La représentation sémantique considérée est donc une liste d étiquettes conceptuelles. 93

94 Chapitre 6. Cadre expérimental : le corpus SCOrange Expressions subjectives Lors de la phase d annotation des interventions, il a été demandé de repérer les séquences de mots supports des concepts recherchés. Un tel segment est alors mis en évidence par une balise de début et de fin du concept : [balise ouvrante du concept] séquence de mots supports du concept [balise fermante du concept]. Ce sont ces segments supports d un concept que nous nommons expressions subjectives. Par exemple, si l on considère l intervention présentée dans le tableau 6.1, deux expressions subjectives sont présentes : "tout était bien", support du concept (EFF,POS) ; "l accueil était très bien", support du concept (ACC,POS). On remarque ainsi que plusieurs expressions subjectives peuvent être contenues dans un même message, comme le montre l exemple donné dans le tableau 6.3 "oui c est monsieur NOMS PRENOMS j avais appelé donc le service client ouais j ai été très bien accueilli des bons renseignements sauf que ça ne fonctionne toujours pas donc je sais pas si j ai fait une mauvaise manipulation ou y a un problème enfin voilà sinon l accueil était et les conseils très judicieux même si le résultat n est pas n est pas là merci au revoir" TAB. 6.3 Exemple de message contenant plusieurs expressions subjectives Étiquettes conceptuelles L ensemble d étiquettes considéré permet de qualifier l opinion évoquée dans une intervention selon les thèmes accueil, attente, efficacité et général. Ces thèmes sont exprimés selon une polarité qui peut être positive (POS) ou négative (NEG). Un concept est représenté par un couple (thème,polarité). Au total, un ensemble de 8 concepts est ainsi considéré : (ACC,POS), (ACC,NEG), (ATT,POS), (ATT,NEG), (EFF,POS), (EFF,NEG), (GEN,POS), (GEN,NEG). La taille moyenne des messages en fonction du nombre de concepts exprimés est présentée dans les tableaux 6.4. CORPUS : APP1 Nb concept Répartition Taille moy. par message (% corpus) (en nb mots) ou plus CORPUS : TEST1 Nb Concept Répartition Taille moy. par phrase (% corpus) (en nb mots) ou plus TAB. 6.4 Répartition des messages dans le corpus en fonction du nombre de concepts exprimés. 94

95 6.2. Représentation sémantique On observe que la répartition des interventions en fonction du nombre de concepts exprimés n est pas similaire dans les corpus d apprentissage et de test. Le fractionnement en deux sous-corpus de l ensemble des interventions récoltées a été réalisé temporellement, les interventions du corpus de test ayant été enregistrées après celles du corpus d entraînement. Une des raisons possibles pour que les personnes évoquent plus d opinions à un temps donné qu à un autre peut être que l opinion générale sur le service client évolue au fil du temps. Nous verrons dans le dernier chapitre de quelle manière cette opinion générale est évaluée et comment une variation de celle-ci est décelée. Alors que l on pouvait présumer qu il existe une relation proportionnelle entre le nombre de concepts exprimés et la longueur du message, on constate que ceci n est pas vérifié. En effet, on note qu autant voire plus de mots sont nécessaires pour n exprimer aucun concept que pour en exprimer plusieurs. Plusieurs explications peuvent être avancées en étudiant de plus près les messages du corpus. Beaucoup de messages sont hors-sujet car le locuteur s exprime autant sur sa situation personnelle que sur son ressenti vis-à-vis du service-client. De plus, le protocole d annotation des interventions permet qu une même expression subjective soit le support de plusieurs concepts. Certaines expressions sont concises comme par exemple "tout va bien". Quelques exemples de messages sont donnés dans le tableau 6.5 afin de mieux visualiser la complexité des messages. "oui j ai effectivement appelé le service_client dernièrement <(EFF,POS)><(ACC,POS)> j ai été très satisfaite les personnes étaient polies aimables correctes et ont tout fait pour m apporter satisfaction dans ce que je leur demandais </(EFF,POS)></(ACC,POS)> merci" "<(GEN,POS)><(EFF,POS)><(ATT ;POS)> service_client parfait très rapide excellent </(ATT ;POS)></(EFF ;POS)></(GEN ;POS)> merci au_revoir" "oui bonjour donc oui effectivement j avais contacté le service en_fait c était pour une résiliation de forfait hein parce_que bon j avais plusieurs forfaits à mon nom pour mes enfants donc qui veulent voler de leurs propres ailes maintenant par_contre éventuellement si vous pouvez me rappeler parce_que j ai fait une bêtise quand j ai envoyé un recommandé hier et justement en disant que je je désirais résilier et en_fait j ai mis deux courriers dedans et c était une résiliation que sur un numéro et pas sur l autre donc si éventuellement vous pouviez me rappeler pour voilà qu on puisse savoir comment faire j ai essayé sur le portail Internet mais bon j ai des difficultés à à envoyer un voilà je vous remercie au_revoir" TAB. 6.5 Exemples d interventions annotées mettant en évidence que le nombre de concepts exprimés n est pas fonction de la longueur d une intervention. 95

96 Chapitre 6. Cadre expérimental : le corpus SCOrange 6.3 Classification et évaluation La tâche de compréhension consiste à retrouver l ensemble des opinions exprimées dans l intervention au travers des différentes expressions subjectives. Nous proposons de résoudre la tâche par la classification d une intervention selon les 8 concepts présentés dans la sous-section précédente. Les concepts n étant pas exclusifs, un modèle de classification binaire est créé pour chaque concept à rechercher. On détecte ainsi la présence ou l absence d un concept. Lors de la classification d une intervention, chaque modèle de classification est appliqué. Tous les concepts détectés présents sont associés à l intervention et représentent l ensemble des opinions exprimées par le locuteur. L ensemble d opinions de référence du message est alors la concaténation d une seule occurrence de chaque concept extrait de l ensemble des expressions subjectives (tableau 6.6). Un exemple de classification L ensemble des opinions exprimées dans ce message est recherché : "oui bonjour ben écoutez oui j ai j ai effectivement contacté le service_client pour et en_fait oui <(ACC,POS)> j ai j ai été très bien reçu </(ACC,POS)> et en_plus <(EFF,POS)> ils m ont proposé des des d autres forfaits plus intéressants avec plusieurs avantages </(EFF,POS)> oui c est <(ACC,POS)> j ai été satisfait de comment ils ont reçu c est c était très bien </(ACC,POS)> je vous remercie au_revoir" Ce message contient 3 expressions subjectives, la première est le support du concept (ACC,POS), la seconde de (EFF,POS) et la troisième à nouveau de (ACC,POS). La classification de l intervention sera considérée correcte si et seulement si (ACC,POS) est détecté présent, (EFF,POS) est détecté présent et les autres modèles de classification répondent tous absents. TAB. 6.6 Évaluation de la classification d une intervention. 96

97 Chapitre 7 Représentation structurée de l information et segmentation automatique Sommaire 7.1 Représentation structurée de l information Analyse préliminaire Éléments de structuration Évaluation Apport d une représentation structurée pour la tâche de classification Techniques de segmentation automatique Analyse Préliminaire Utilisation des Champs conditionnels aléatoires (CRF) Modèles de langages spécifiques aux opinions Conclusion Comme cela a été montré dans l analyse du corpus présentée au chapitre précédent, les messages traités dans cette application sont complexes. D une part, les messages sont constitués de parole très spontanée dans le sens où le langage n est pas contraint et les utilisateurs sont même incités à laisser des commentaires. De plus, les conditions d enregistrement ne sont pas optimales, elles sont réelles et impliquent donc un bruit ambiant. Le canal d enregistrement est le téléphone, souvent cellulaire impliquant notamment des problèmes dans la transmission du signal. D autre part, la tâche de classification concerne la détection d opinion, c est à dire une information subjective diffuse tout au long de l intervention. En effet, le message est une succession de segments factuels (donc hors-sujet pour notre application) et d expressions subjectives. Telle que nous l avons définie, la détection d opinions consiste à qualifier les expressions subjectives des interventions. 97

98 Chapitre 7. Représentation structurée de l information et segmentation automatique Afin de mieux repérer ces portions de message support du sens, je propose dans un premier temps de déterminer des éléments de structuration de l information, c est à dire de repérer quels sont les ensembles de mots spécifiques à l expression d une opinion. Dans un second temps, nous proposons des techniques de segmentation du message, ceci afin d extraire de manière automatique les expressions subjectives et écarter de l analyse les ensembles de mots hors-sujet. 7.1 Représentation structurée de l information Analyse préliminaire Protocole expérimental Comme défini dans la section 6.2.2, un concept est représenté par un couple (thème,polarité). Je propose dans un premier temps de détecter les opinions exprimées selon trois différents ensembles de classes : recherche des concepts : l ensemble des huit concepts déterminés dans la sous-section qualifie les interventions à classer ; recherche des thèmes : chaque expression subjective est considérée uniquement en fonction du thème qu elle supporte. Les 4 thèmes Accueil, Attente, Efficacité et Général sont les classes à rechercher dans une intervention. ; recherche de la polarité : seules les polarités exprimées par les expressions subjectives sont estimées. La classification se porte sur l ensemble {POS, NEG} mais n est pas binaire. En effet, même si contraires, ces deux classes ne sont pas exclusives au niveau de l intervention car elles peuvent porter sur différentes expressions subjectives. Les trois classifieurs BoosTexter, LIA-SCT et SVMTorch sont entraînés sur le corpus APP1.Man afin de détecter l opinion exprimée dans une intervention. Pour chaque protocole d expérience, un modèle binaire est créé afin de tester l absence ou la présence de chacune des classes considérées. Les tests sont réalisés sur le corpus TEST1.Man. Les caractéristiques utilisées pour la représentation d une intervention sont uniquement les mots qui composent cette intervention. Les expériences effectuées sur la recherche indépendante du thème et de la polarité ne sont données qu à titre indicatif. En effet, une combinaison des deux résultats n est pas envisageable car plusieurs thèmes et plusieurs polarités peuvent être exprimés dans la même intervention. L intervention étant traitée dans sa globalité, il est impossible de déterminer la correspondance entre thème et polarité. Évaluation Les résultats des expériences réalisées suivant les protocoles présentés cidessus sont donnés dans le tableau 7.1. Ils sont exprimés en fonction de la précision (P), du rappel (R) et de la fmesure (F) tels que définis dans la sous-section Des 3 classifieurs utilisés, BoosTexter est celui qui obtient globalement les meilleurs résultats. SVMTorch obtient des résultats voisins mais dans la majorité des cas en des- 98

99 7.1. Représentation structurée de l information thème polarité concept P R F P R F P R F LIA-SCT BoosTexter SVMTorch TAB. 7.1 Résultats des classifieurs pour les tâches de classification de thème, polarité et concept. sous des performances de BoosTexter. En revanche, le problème semble mal posé pour LIA-SCT qui obtient de très mauvais résultats. On note que les résultats de classification obtenus sont insuffisants pour l exploitation d un système automatique de détection d opinions. La meilleure précision obtenue dans la classification de concepts est de 63% sur un faible rappel de 41%. En revanche on observe de meilleurs résultats sur les tâches de classification de thème ou de polarité. On obtient notamment un résultat correct avec une fmesure de 77% dans la recherche de la polarité. Les résultats obtenus par les classifieurs mettent en évidence que la tâche est difficile. Dans l application SCOrange, les messages sont longs (jusqu à 2 minutes de signal enregistrés), les concepts recherchés ont des supports diffus dans le message sans valeur connue. L information subjective recherchée se retrouve alors noyée au milieu d informations factuelles, hors focus pour notre application. Dans les sections suivantes, l effort va être mis sur la recherche des portions de messages exprimant une expression subjective afin que la représentation de l intervention soit focalisée sur l information pertinente qu elle contient Éléments de structuration Les "seeds" Une approche classique de l analyse des sentiments consiste à créer un lexique de départ contenant un ensemble de mots exprimant une polarité positive ou négative (Wilson et al., 2005). Cet ensemble de mots dépend bien entendu de l application visée et la polarité donnée à ces mots est une polarité a priori puisqu elle est susceptible d être modifiée par le contexte. Le protocole de constitution des seeds s effectue en trois temps. Dans un premier temps et selon l approche classique, il s agit de définir une liste de mots qui expriment a priori une polarité positive ou négative. À partir du lexique de l application, j ai extrait manuellement tous les mots polarisés. Exemple : aberrant, compliments, discourtois, embêtement,.... Au total 737 mots. Ensuite, une liste de mots susceptibles d être pertinents vis à vis de l application est extraite automatiquement du lexique de l application. Pour ceci, les mots des n-grammes (n : 1 à 3) choisis par BoosTexter à chaque tour pour la construction de son modèle sont extraits. Ces mots proviennent des modèles construits lors des expériences présentées dans la section précédente pour les 3 protocoles. Au total 659 mots. 99

100 Chapitre 7. Représentation structurée de l information et segmentation automatique Enfin, ces deux listes sont regroupées au sein d une seule liste de mots polarisés. Afin de généraliser cette liste, les mots sont lemmatisés, c est à dire que les marques de genre, nombre ou conjugaison sont ôtées, la casse minuscule uniquement est utilisée. Cet ensemble de lemmes polarisés est noté seeds. Au total, on obtient un lexique de 566 seeds. Les "tokens" La représentation des interventions sous forme de seeds permet de focaliser sur les mots qui sont a priori pertinents pour l application. Néanmoins, cette représentation réduit de manière drastique l information que contient l intervention. Les tokens sont alors créés afin de conserver un minimum de contexte. Chaque intervention du corpus d apprentissage est traitée par un analyseur de surface afin d obtenir l intervention sous forme d une suite de syntagmes. Si ce syntagme contient un seed, il est considéré comme un syntagme polarisé. Si 2 syntagmes polarisés sont côte à côte, il sont regroupés. De la même façon, si 2 syntagmes polarisés sont séparés par un syntagme non polarisé, on regroupe ces 3 syntagmes. L ensemble des syntagmes ou regroupement de syntagmes ainsi obtenus est ensuite généralisé. Deux représentations sont adoptées : 1- chaque mot non seeds est remplacé par sa forme morpho-syntaxique ; 2- chaque mot non seeds est remplacé par son lemme. Au final, on obtient une liste exhaustive de tokens qui contient : les seeds ; les syntagmes (ou regroupement de syntagmes) polarisés sous leur forme canonique ; les syntagmes polarisés sous forme morpho-syntaxique. Un ensemble de 7693 tokens est ainsi obtenu. Quelques exemples de tokens obtenus autour du seed gentil et autour des seeds aller, bien et parfait sont présentés dans le tableau 7.2. Étiqueter un message en grappen Dans la lignée des tokens, les grappen sont introduites. De la même façon que les tokens sont des regroupements de seeds en contexte, les grappen sont des regroupements de tokens en contexte. Dans chaque message, les suites de mots supports de tokens sont coloriées. Un même mot peut ainsi être colorié par plusieurs tokens. 2 ensembles de mots coloriés séparés par 0 à N mots non coloriés sont alors regroupés pour former une grappen. Ce protocole de construction est illustré par la figure 7.1 pour le cas où N = Évaluation L ensemble des opinions recherchées est caractérisé par les 8 concepts (thème,polarité). Une expérience a été réalisée pour chaque élément de structuration présenté précédemment. 100

101 7.1. Représentation structurée de l information ID_2998 gentil ID_6778 très gentil ID_0136 ADV gentil ID_2787 être très gentil très compétent ID_7440 VE3S ADV gentil ADV compétent ID_3288 le personne être très gentil ID_1844 DETFS personne VE3S ADV gentil ID_0274 aller ID_0289 aller bien ID_0290 aller bien ce être parfait ID_2643 être parfait ID_4310 parfait ID_0283 aller bien PPER3MS VE3S parfait TAB. 7.2 Exemples de tokens obtenus autour du seed gentil et autour des seeds aller, bien et parfait. FIG. 7.1 Exemple d une phrase dont les seeds sont écrits en rouge, les tokens sont surlignés en jaune et les grappe4 sont encapsulées dans des boites mauves. Selon l expérience, l intervention est représentée ainsi : Les mots : par la série de mots qui la compose, par exemple : "tout va bien c est parfait merci beaucoup" ; Les seeds : par la série de seeds qui la compose, par exemple : "aller bien parfait merci" ; Les tokens : par l ensemble des tokens présents dans l intervention. Chaque token est représenté par un identifiant, toujours sur le même exemple : "ID_0283 ID_0276 ID_0290 ID_0289 ID_0274 ID_2643 ID_4310 ID_3609" ; Les grappen : par la série de mots appartenant à une grappen. Le tableau 7.3 contient les performances des 3 classifieurs LIA-SCT (L), BoosTexter (B) et SVMTorch (T) pour l ensemble des expériences en fonction de la précision (P), du rappel (R) et de la fmesure (F). En ce qui concerne les grappen, plusieurs expériences ont été menées avec des N allant de 0 à 5. En effet, au delà de 5, généralement toute la phrase est contenue dans une seule grappe(> 5). Pour une question de lisibilité 101

102 Chapitre 7. Représentation structurée de l information et segmentation automatique des résultats, seuls les résultats avec N = 4 sont présentés, globalement ce sont les meilleurs. mots seeds tokens grappe4 P R F P R F P R F P R F L TEST1.Man B T L TEST1.Reco1 B T TAB. 7.3 Performance de classification des opinions selon les 8 concepts avec différentes représentations de l intervention. Utilisation des seeds Globalement, les performances des classifieurs sont meilleures lorsque l intervention est représentée par les seeds que par l ensemble des mots. On remarque notamment que SVMTorch (T) obtient de bien meilleurs résultats, plus 4 points de fmesure (F) sur le corpus transcrit manuellement et plus 9 points sur le corpus transcrit automatiquement. Ceci s explique par le moyen de représenter une intervention pour ce classifieur. Une intervention est représentée par un vecteur dont chaque composante est une entrée du lexique utilisé, soit un lexique de composantes dans le cas des mots et de 566 composantes dans le cas des seeds. Utilisation des tokens Concernant les classifieurs à large marge, excepté pour Boos- Texter sur le corpus transcrit manuellement, il y a un petit gain lorsque l on passe d une représentation en mots à une représentation en tokens. Ce gain est d ailleurs bien marqué pour SVMTorch sur le corpus transcrit automatiquement, plus 5 points en absolu. Pour ces classifieurs la représentation en seeds est à préférer. En revanche, pour le classifieur à base d arbre de décision sémantique, les performances sont nettement améliorées. En effet, au contraire des classifieurs qui basent leur représentation selon la technique du sac de mots, l arbre de décision sémantique tient compte du contexte de chaque mot qu il choisit afin de construire son modèle. Ainsi, l ajout de contexte aux mots porteurs de sens viabilise les expressions régulières construites à chaque nœud de l arbre de classification. Utilisation des grappen Dans la plupart des expériences précédentes, BoosTexter obtient les meilleurs résultats. C est pourquoi en raison des mauvais résultats obtenus avec les grappe4, les deux autres classifieurs n ont pas été testés sur cet élément de représentation. En revanche, d autres expériences ont été menées qui utilisent les grappe4. Ces expériences sont exposées en annexe B. La première expérience propose une nouvelle combinaison des grappe4 permettant d obtenir une probabilité sur chaque hypothèse 102

103 7.1. Représentation structurée de l information d étiquette. La deuxième expérience définit un modèle de langage basé sur les grappe4. Des intersections entre différents modèles de langage (polarité, thème et concept) sont ensuite proposées et obtiennent de bons résultats. En effet, une de ces combinaisons obtient une fmesure de 54.2% sur le corpus transcrit manuellement et une fmesure de 44.6% sur le corpus transcrit automatiquement Apport d une représentation structurée pour la tâche de classification Les résultats obtenus montrent bien la difficulté de la classification de concepts d opinions dans le type de messages traités. La dernière série d expériences met en évidence que la classification est plus performante lorsque l information contenue dans la phrase est structurée, que se soit par les seeds ou les tokens. L intérêt des tokens par rapport aux seeds n est pas évident. Néanmoins, on note que le gain obtenu par l utilisation des tokens dans les expériences réalisées sur le corpus transcrit automatiquement est plus significatif que celui observé sur le corpus transcrit manuellement. Cela peut s expliquer par le fort WER observé sur ce corpus. La recherche d ensemble de mots plus solides qu un mot isolé permet de mieux caractériser une opinion. De plus, les dernières expériences réalisées sur les grappe4 ont permis d obtenir de meilleurs résultats. Les éléments de structuration que représentent les grappe4 s apparentent à une segmentation de l intervention. Cette segmentation tend par son protocole de construction à retrouver les portions de messages subjectives, qui elles-mêmes tendent très probablement à modéliser les expressions subjectives annotées manuellement. Pour évaluer cette hypothèse, un alignement entre la transcription de référence et la transcription automatique est nécessaire mais indisponible actuellement. Afin de mettre en évidence la difficulté de traiter la tâche sur des interventions longues, une étude a été réalisée sur la relation entre WER et taille de l intervention. Le WER obtenu avec le modèle Reco1 a été associé à chaque intervention transcrite manuellement sur laquelle le nombre de mots est comptabilisé. La figure 7.2 met en évidence la corrélation entre WER et longueur de la phrase. En effet, il est intéressant de constater que le taux d erreur mot est fonction de la longueur du message car, les modèles de transcriptions étant des modèles bi-grammes, cela n est a priori pas le cas. En revanche, la complexité du point de vue de la reconnaissance (taux de disfluences, digressions,... ) est effectivement fonction de la longueur des messages. Cette dernière étude ainsi que les résultats obtenus sur les grappe4 présupposent qu en segmentant le message, la détection des concepts peut s avérer plus performante. Une segmentation est disponible sur le corpus transcrit manuellement grâce à l ensemble des expressions subjectives mais aucune segmentation n est disponible sur le corpus transcrit automatiquement. La recherche de la meilleure segmentation automatique est le propos de la section suivante. 103

104 Chapitre 7. Représentation structurée de l information et segmentation automatique 80 CORPUS TEST Nombre de mots (en moyenne) Taux d erreur mot FIG. 7.2 Nombre de mots en moyenne par intervention en fonction du taux d erreur mot. 7.2 Techniques de segmentation automatique Analyse Préliminaire Protocole Le message est maintenant considéré comme une suite de segments. Les segments considérés pour les corpus transcrits manuellement sont les expressions subjectives manuellement annotées. L ensemble des expressions subjectives est notée Manseg. En revanche, aucune segmentation manuelle n est disponible sur le corpus transcrit automatiquement. Une première tentative de segmentation automatique intégrée au niveau du module de reconnaissance Reco1 a été réalisée, avec pour objectif de proposer un découpage des messages pour faciliter la tâche de classification en aval. L idée est d évaluer l apport d une segmentation a priori et non supervisée des messages en utilisant un automate bruit/parole pour détecter automatiquement les pauses réalisées par les locuteurs. Les segments isolés par l automate bruit/parole sont soumis indépendamment les uns des autres au système de reconnaissance Reco1 qui génère à partir de ces segments les hypothèses de reconnaissance associées. Même s il n y a pas a priori de corrélation entre la présence de pauses et le changement de thématique, cette première approche a le mérite d être simple à mettre en œuvre. Nous noterons Reco1seg l ensemble des segments de Reco1 issus de l automate bruit/parole. 104

105 7.2. Techniques de segmentation automatique Le protocole de classification est le suivant : l ensemble des segments, dans un cas les expressions subjectives et dans l autre les hypothèses de reconnaissances des segments isolés par l automate bruit/parole, sont soumis indépendamment les uns des autres au module de classification ; les différents modèles de classification se prononcent sur la présence ou l absence des 8 concepts recherchés pour chacun de ces segments ; les concepts associés à un message sont obtenus par concaténation de tous les concepts détectés présents dans chacun de ses segments. Une illustration de ce protocole est présenté dans le tableau 7.4. Un exemple de classification avec segmentation L ensemble des opinions exprimées dans ce message est recherché : "allô oui ben alors y a rien à dire <(GEN,POS)> tout est impeccable </(GEN,POS)> euh <(ACC,POS)> quand on vous appelle on a toujours quelqu un de très accueillant</(acc,pos)> et puis voilà au_revoir et bon courage" Deux concepts sont à identifier : (GEN,POS) et (ACC,POS). Si l on considère la classification de l intervention transcrite manuellement, les deux segments "tout est impeccable " et "quand on vous appelle on a toujours quelqu un de très accueillant" sont analysés indépendamment par les modèles. Si le résultat du premier segment est (GEN,POS) et celui du deuxième segment est (GEN,POS) (ACC,POS), le message obtiendra l ensemble (GEN,POS) (ACC,POS) (une seule occurrence est retenue par concept). TAB. 7.4 Évaluation de la classification d une intervention avec segmentation du message d entrée. Évaluation Les résultats des différentes expériences sont reportées dans le tableau 7.5 en fonction de la précision (P), du rappel (R) et de la fmesure (F). Les classifieurs utilisés sont LIA-SCT (L), BoosTexter (B) et SVMTorch (S). Les différentes représentations possibles selon les éléments de structuration présentés dans la section précédente sont testés. En comparaison des résultats obtenus sans segmentation du message d entrée présentés dans le tableau 7.1, on note une amélioration globale des performances sur le corpus transcrit automatiquement. On remarque également que les expériences faisant intervenir des représentations d interventions plus structurées obtiennent de meilleurs résultats. En revanche, une nette amélioration des résultats est observée sur le corpus transcrit manuellement qui obtient jusqu à 70% de fmesure. 105

106 Chapitre 7. Représentation structurée de l information et segmentation automatique mots seeds tokens P R F P R F P R F L TEST.Manseg B T L TEST.Reco1seg B T TAB. 7.5 Expériences réalisées avec segmentation du message d entrée. Conclusion L amélioration obtenue sur le corpus transcrit manuellement grâce à la classification uniquement des expressions subjectives présuppose qu une segmentation automatique plus performante du message transcrit automatiquement permettrait d améliorer les résultats également sur ces corpus. Une expérience intéressante qui validerait cette hypothèse consisterait à classer les versions transcrites automatiquement des expressions subjectives. Celles-ci ne sont pas disponibles actuellement. De même que la figure 7.2 indique la corrélation entre taille de l intervention et taux d erreur mot, la figure 7.3 illustre la corrélation entre erreurs de classification (représentées par la fmesure) et taux d erreur mot. Plus le taux d erreur mot est grand, plus la fmesure est faible même pour le corpus TEST.Man qui lui ne connaît aucune erreur de transcription. On observe également que plus le taux d erreur mot est élevé, ce qui correspond à des interventions en moyenne plus longues, plus le gain obtenu avec segmentation du message est avantageux par rapport aux expériences sans segmentation. La mise en évidence d une corrélation entre longueur de l intervention et difficulté de classer celle-ci nous incite à rechercher une méthode de segmentation automatique. La segmentation est considérée performante si celle-ci permet une amélioration des performances du processus de détection des opinions. En d autres termes, la performance de la segmentation n est pas évaluée comme telle sur un critère par exemple de meilleur recoupement avec les expressions subjectives mais uniquement en fonction du gain obtenu au niveau de la détection des concepts Utilisation des Champs conditionnels aléatoires (CRF) En raison d une part des conditions d enregistrement des messages (environnements bruités) et d autre part de la subjectivité du contenu des messages (que ce soit celle du locuteur ou celle de l annotateur), la tâche de détection d opinion s est avérée difficile. Les méthodes classiques de classification appliquées sur des segments porteurs de sens permettent d obtenir de bons résultats. En revanche appliquées à la totalité du message, ces méthodes ont montré leurs limites. La nécessité est apparue de trouver une méthode de segmentation automatique qui permette d extraire les segments porteurs de sens de l ensemble du message. 106

107 7.2. Techniques de segmentation automatique TEST.Man, sans segmentation TEST.Man, avec segmentation TEST.Reco1, sans segmentation TEST.Reco1, avec segmentation Fmesure Taux d erreur mot FIG. 7.3 Erreurs de classification (représentées par la fmesure) en fonction du taux d erreur mot. Les CRF, présentés dans la sous-section 2.2.3, sont potentiellement une solution à la résolution de ce problème. Ils permettent à la fois de segmenter et étiqueter et sont déjà appliqués dans le domaine de la détection d opinion (Choi et al., 2005). L avantage principal de ces modèles est la possibilité d utiliser l ensemble des observations d une séquence pour produire la séquence d étiquettes. Ce n est donc pas le seul historique immédiat qui contraint l attribution d une étiquette à une observation mais potentiellement toutes les observations précédentes et suivantes. D où leur utilisation dans des tâches conjointes de segmentation-étiquetage. De plus, une variante a été proposée pour résoudre directement cette double tâche : les semi-crf. Les expériences réalisées avec les semi-crf sont présentés en annexe C. Protocole Les expériences présentées sont réalisées avec l outil CRF++ présenté dans la section Dans CRF++, les observations peuvent être représentées sur plusieurs niveaux et chaque observation doit être associée à une étiquette. Ainsi, chaque élément issu d une expression subjective sera annoté par un concept et les autres seront associés à l étiquette "Aucun". Étant donné qu une étiquette unique doit être associée à une observation, le choix a été fait de n étiqueter chaque composant d une expression subjective qu avec le concept associé le plus majoritairement représenté dans le corpus d appren- 107

108 Chapitre 7. Représentation structurée de l information et segmentation automatique tissage. Segmenter et Étiqueter avec CRF++ Les résultats sont donnés dans le tableau 7.6. On observe une précision équivalente à celle obtenue avec les modèles de classification avec segmentation du message d entrée. Le rappel, lui, est équivalent à celui obtenu avec les modèles de classification traitant le message d entrée sans segmentation. MOTS SEEDS MOTS+SEEDS P R F P R F P R F TEST.Man TEST.Reco TAB. 7.6 Segmenter et étiqueter avec CRF++. L utilisation de ce toolkit permet d obtenir de meilleurs résultats que ceux obtenus avec des méthodes de classification. En effet, on observe une fmesure de 52% sur TEST.Man comparé à 50.3% obtenu avec BoosTexter. L objectif de 70% de fmesure obtenu grâce à une segmentation manuelle n est pas encore atteint. Afin d accroitre les performances, nous proposons d utiliser les CRF comme méthode de segmentation et un modèle de classification, ici BoosTexter, pour détecter les opinions. Au niveau des CRF, le modèle le plus performant est celui utilisant la représentation mots+seeds, c est donc celui qui sera utilisé dans les expériences suivantes. Segmenter avec CRF++ puis étiqueter avec BoosTexter Je propose une segmentation par les CRF selon deux ensembles d étiquettes. La segmentation binaire correspondant à différencier simplement les expressions subjectives du reste de l intervention. La segmentation plus fine se fait selon les 9 étiquettes : (ACC,POS) (EFF,POS) (ATT,POS) (GEN,POS) (AUCUN) (ACC,NEG) (EFF,NEG) (ATT,NEG) (GEN,NEG) Une intervention est représentée sur 2 niveaux : les mots et les seeds. Un exemple de représentation de l intervention "services client très satisfaisant et renseignements efficaces merci" est donnée dans le tableau 7.7. segmentation binaire service service OK client client OK très NULL OK satisfaisant satisfaisant OK et NULL AUCUN renseignements renseignement OK efficaces efficace OK merci merci AUCUN segmentation plus fine service service (EFF ;POS) client client (EFF ;POS) très NULL (EFF ;POS) satisfaisant satisfaisant (EFF ;POS) et NULL (AUCUN) renseignements renseignement (EFF ;POS) efficaces efficace (EFF ;POS) merci merci (AUCUN) TAB. 7.7 Format des données d entrées de CRF++ dans le cas d une segmentation binaire et d une segmentation plus fine. 108

109 7.2. Techniques de segmentation automatique Lors de la phase de segmentation, CRF++ attribue une étiquette à chaque composant (mot+seed). L étiquette attribuée par CRF++ permet de segmenter le message de la façon suivante : à chaque changement d étiquette, un nouveau segment est créé. L ensemble des composants consécutifs portant la même étiquette forment un segment. Chaque segment est ensuite classé par un modèle de classification. Le modèle de classification est appris avec BoosTexter. L apprentissage se fait sur les expressions subjectives de APP.Man. Elles sont représentées sur 2 niveaux : les mots et les seeds. Ainsi le segment "<(GEN,NEG)> je suis entièrement pas satisfaite du tout </(GEN,NEG)>" est représenté par : je suis entièrement pas satisfaite du tout, entièrement pas satisfaire, (GEN,NEG). Les performances de ce modèle sont présentées dans le tableau 7.8 On note qu une segmentation optimale permet d obtenir une fmesure de 72% sur l ensemble des expressions subjectives du corpus de test transcrites manuellement. Precision Rappel Fmesure TEST.Manseg 77% 67% 72% TAB. 7.8 Performance du modèle de classification BoosTexter entrainé et testé uniquement sur les expressions subjectives. Les résultats de cette expérience sur le corpus de test sont présentés dans le tableau 7.9. seg. binaire seg. fine P R F P R F TEST.Man 53,1 62,6 57,5 56,3 63,8 59,8 TEST.Reco1 39,9 39,8 39,9 41,5 39,7 40,6 TAB. 7.9 Résultats de classification obtenus avec BoosTexter dans les expériences de segmentation fine et binaire avec CRF++. L utilisation d une méthode de classification pour détecter les opinions améliore les performances. En effet, on note une amélioration en valeur absolue de 8 points environ sur les deux corpus sur TEST.Man et TEST.Reco1. Je propose une variante dans l évaluation de ce système. Les segments étiquetés AUCUN ne sont pas étiquetés par BoosTexter. Ainsi le classifieur ne donne son avis que sur l ensemble des segments détectés comme porteurs de sens par CRF++. Les résultats de cette expérience sont donnés dans le tableau 7.10 seg. binaire seg. fine P R F P R F TEST.Man 80,9 50,2 61,9 79,6 57,6 66,8 TEST.Reco1 55,9 25,9 35,4 56,5 27,2 36,7 TAB Résultats de la classification de BoosTexter des segments porteurs de sens selon CRF

110 Chapitre 7. Représentation structurée de l information et segmentation automatique Les résultats obtenus sur le corpus TEST.Man sont améliorés de près de 7 points lorsque les segments jugés hors-sujet par CRF++ sont écartés de la classification. Ce résultat approche celui que nous avons obtenu à l aide de la segmentation manuelle (70% de fmesure). C est donc un bon résultat obtenu dans un processus complètement automatique. En revanche, les résultats obtenus sur les corpus transcrits automatiquement ne sont pas exploitables au niveau d une application de détection automatique d opinions et il faut reconnaître que l on observe une baisse de 4 points. Conclusion Plusieurs expériences ont été menées avec l outil CRF++ afin d évaluer le protocole expérimental qui optimise les performances de classification, notamment une combinaison de cet outil avec BoosTexter. Les résultats obtenus sur le corpus transcrit manuellement dans un processus totalement automatique sont comparables à ceux obtenus par segmentation manuelle. Les CRF permettent d obtenir une segmentation automatique : la partie étiquetage est gérée par BoosTexter. La combinaison CRF++/BoosTexter a permis d obtenir un module de détection d opinions sur les transcriptions exactes totalement automatique. En effet, la fmesure de 70% obtenue par ce système correspond aux resultats que l on peut actuellement observé dans l état de l art. Les résultats obtenus sur les corpus issus du module RAP ne sont pas exploitables. Une méthode de segmentation spécifique au texte transcrit automatiquement et intégrée dans le module RAP est présentée dans la sous-section suivante Modèles de langages spécifiques aux opinions Présentation La segmentation proposée sur le modèle Reco1 s est avérée insuffisante. En effet, il subsiste d une part des segments assez longs et porteurs de plusieurs expressions subjectives (enchaînés sans pause). Il arrive d autre part que des expressions subjectives soient tronquées par la segmentation automatique (si l utilisateur hésite par exemple alors qu il exprime une opinion). Du fait du nombre très important de disfluences au sein des messages, mais aussi souvent de la mauvaise qualité acoustique des messages, le taux d erreur mot moyen obtenu avec ce modèle sur l ensemble du corpus est de 58%. Ce taux très important est à relativiser car il inclut toutes les répétitions, hésitations et digressions effectuées par les utilisateurs. Dans un deuxième temps, les problématiques de segmentation et de reconnaissance ont été intégrées à travers un nouveau type de modèle de langage. L idée est de ne modéliser explicitement que les expressions subjectives. Pour cela, un sous-corpus a été extrait pour chaque concept qui regroupe l ensemble des expressions subjectives associées à ce concept dans le corpus d apprentissage initial. Un sous-modèle bi-gramme a ainsi été estimé pour chaque concept à partir du sous-corpus associé. Par ailleurs, un modèle englobant de type bi-gramme portant sur les concepts euxmêmes (les 8 concepts d opinions plus le concept AUCUN) a été estimé pour modéliser 110

111 7.2. Techniques de segmentation automatique les enchaînements entre les différentes expressions subjectives. Les portions qui ne correspondent à aucune expression d opinion sont, quant à elles, modélisées par un "modèle filler", une boucle de phonèmes hors contexte, sans contrainte a priori sur les enchaînements de phonèmes. Enfin, un sous-modèle supplémentaire a été estimé pour les segments qui correspondent à des formules de politesse, souvent en début et en fin de message. En effet ces segments présentent une forte régularité et leur modélisation permet d éviter une trop grande dérive du décodage dans le modèle de phonèmes bouclés. L ensemble est compilé au sein d un unique modèle, noté Reco2. La figure 7.4 présente ces trois types de modèles sur un exemple de message. message oui c est monsieur NOMS PRENONS j avais appelé donc le service_client ouais j ai été très bien accueilli des bons renseignements sauf que ça ne fonctionne toujours pas donc je ne sais pas si j ai fait [... ] ML Global bi-gramme AUCUN (ACC;POS) (EFF;POS) (EFF;NEG) AUCUN ML bi-gramme Spécifique ML(ACC;POS) ML(EFF;POS) ML(EFF;NEG) j ai été très bien accueilli bons renseignements ça ne fonctionne toujours pas Boucle de Phonèmes oui c est monsieur NOMS PRENONS j avais appelé donc le service_client ouais / des / sauf que / donc je ne sais pas si [ ] FIG. 7.4 Exemple de message annoté avec les 3 types de modèles de langage (ML) utilisés L ensemble des expressions subjectives extrait sur tous les concepts représente environ occurrences de mots et le nombre de mots différents par sous-corpus ne dépasse pas 780 pour une moyenne de 470. Le premier intérêt est donc d avoir réduit fortement le champ lexical. Par ailleurs, les messages se caractérisent globalement par un haut degré de disfluences. Or à nouveau, les parties les plus disfluentes ne sont pas celles où le locuteur exprime son opinion mais plutôt celles où il relatent l origine de son problème initial. On observe ainsi une réduction du degré de disfluences dans les segments extraits. Ceci est illustré dans le tableau Hormis les répétitions, qui ne sont pas les phénomènes les plus problématiques pour la reconnaissance, l ensemble des indicateurs ont un pourcentage plus faible dans les segments d opinion extraits. La baisse la plus significative concerne les marqueurs 111

112 Chapitre 7. Représentation structurée de l information et segmentation automatique Indicateur # messages # segments pauses remplies faux départs reprises répétitions marqueurs discursifs TAB Pourcentage des indicateurs de disfluences dans le corpus global et dans le corpus extrait. discursifs qui sont assez difficiles à modéliser du fait de la variété de leurs contextes d apparition et qui peuvent perturber le traitement ultérieur des messages du fait de leur ambiguïté. Les mots "bon" ou "bien" par exemple peuvent à la fois être porteurs de sens pour une opinion et neutres quand ils sont employés pour articuler le discours. La sortie de ce système est une séquence de segments d opinion séparés éventuellement par un marqueur du modèle filler. À chaque segment, est associée l étiquette du modèle de langage spécifique qui a généré ce segment ainsi que le score de confiance qui y est associé. L avantage principal de ces modèles de langages spécifiques aux opinions est de produire des hypothèses d expressions subjectives qui peuvent être traitées directement par les classifieurs lors du processus de détection d opinion. Évaluation Selon un protocole identique à celui présenté dans la section 7.2.1, les classifieurs LIA-SCT (L), BoosTexter (B) et SVMTorch (T) détectent les concepts contenus dans les interventions en fonction de la classification effectuée sur l ensemble des segments d opinions de l intervention issus du modèle Reco2. Les résultats sont présentés dans le tableau 7.12 mots seeds tokens P R F P R F P R F L TEST.Reco2 B T TAB Résultats de classification des concepts sur les segments issus du modèle Reco2 en fonction de la précision (P), du rappel (R) et de la fmesure (F). Grâce à ces modèles de langages spécifiques aux opinions, les performances sur le texte transcrit automatiquement augmentent de 4 points par rapport aux transcriptions automatiques issues de Reco1. Les résultats sont équivalents à ceux obtenus sur le texte transcrit manuellement sans segmentation du message d entrée. On en déduit que le deuxième modèle de reconnaissance qui tend à segmenter avant le processus de détection des opinions facilite le travail de classification. 112

113 7.3. Conclusion Corpus Classif. mots seeds tokens ML grappe4 L AnnexeB TEST.Man B TAB B.7 T L AnnexeB TEST.Reco1 B TAB B.7 T TAB F-mesure obtenues dans les expériences sans segmentation avec LIA-SCT (L), Boos- Texter (B) et SVMTorch (T). TEST.Manseg mots seeds tokens LIASCT BoosTexter SVMTorch TAB F-mesure obtenues dans les expériences utilisant la segmentation manuelle du message. 7.3 Conclusion Dans un premier temps, j ai proposé divers éléments de structuration de l information afin de représenter le message d une manière plus ciblée quant à notre application, c est à dire permettant de mettre en relief les éléments subjectifs du message. Dans un second temps et toujours dans le but de focaliser sur les parties subjectives du message, j ai présenté différentes techniques de segmentation. Les résultats des diverses expériences sont résumés ainsi : aucune segmentation préalable du message : le tableau 7.13 présente les résultats obtenus dans les expériences traitant la totalité du message. Les meilleures fmesure obtenues sont aux alentours de 50%. À titre indicatif, les meilleures fmesure obtenues dans des tâches de détection d opinions fines sur du texte sont d environ 70%. Ces résultats ne sont donc pas exploitables au niveau d une application ; segmentation manuelle du message : dans le tableau 7.14 les résultats obtenus sur les expressions subjectives annotées manuellement sur le corpus TEST.Man sont reportés. Ce processus semi-automatique permet d obtenir des résultats état de l art ; segmentation automatique du message : le tableau 7.15 soumet les résultats obtenus selon les différentes méthodes de segmentation automatique appliquées. Dans un processus entièrement automatique, la fmesure maximale obtenue n excède pas 50%. Les résultats des diverses expériences présentées dans ce chapitre mettent en relief la difficulté de la détection et la caractérisation fine d opinions sur de la parole spontanée, qu elle soit transcrite manuellement ou automatiquement. Le tableau 7.14 affiche une F-mesure d environ 70% dans les expériences qui traitent les segments subjectifs transcrit manuellement. Ce résultat est équivalent à ceux obte- 113

114 Chapitre 7. Représentation structurée de l information et segmentation automatique Type de segmentation Corpus Classif. mots seeds tokens mots+seeds CRF CRF binaire,crf (avec/sans rejet) TEST.Man B /57.5 fine, CRF (avec/sans rejet) B /59.8 CRF CRF binaire,crf (avec/sans rejet) TEST.Reco1 B /39.9 fine, CRF (avec/sans rejet) B /40.6 L Détection de pauses TEST.Reco1seg B T L MLs spécifiques TEST.Reco2 B opinions T TAB F-mesure obtenues dans les expériences utilisant différentes techniques de segmentation automatique. Les classifieurs utilisés sont LIA-SCT (L), BoosTexter (B) et SVMTorch (T). nus dans l état de l art (Wilson et al., 2004; Popescu et Etzioni, 2005; Kim et Hovy, 2006) pour la tâche de classification considérée (détection de la subjectivité, des opinions), il atteste ainsi des relatives bonnes performances que l on peut attendre des classifieurs lorsque l information à classer est ciblée et correcte dans sa transcription. Le tableau 7.13 montre que ces résultats se dégradent lorsque le message est traité sans segmentation. Lorsque l information utile est mélangée avec des ensembles de mots non-pertinents au sens de la tâche, les résultats diminuent de presque 20 points. En effet, les meilleurs résultats obtenus en terme de F-mesure sont de 49.8% avec SVMTorch et 54.2% avec des modèles de langage construits sur les grappe4 (expériences reportées en annexe B. Cette dégradation indique la nécessité de trouver une technique de segmentation permettant de retrouver automatiquement les segments subjectifs identifiés manuellement. En outre, il est attendu que cette segmentation automatique permette d obtenir de meilleurs résultats sur les messages transcrits automatiquement. Dans le tableau 7.15, les résultats obtenus selon les différentes techniques de segmentation automatique sont reportés. On remarque ainsi que lorsque le message est segmenté à l aide des CRF et étiqueté par BoosTexter, les résultats obtenus sur le corpus TEST.Man avoisinent les meilleurs résultats obtenus par les classifieurs sur les segments manuels, environ 67%. Néanmoins, cette technique appliquée sur le texte transcrit automatiquement ne donne pas de résultats équivalents. En effet, les meilleurs résultats obtenus avec ce même protocole n excèdent pas les 40% de F-mesure. Il semble alors que les modèles construits par les CRF ne soient pas assez robustes face au bruit (élevé) engendré par le module RAP. Une première tentative de segmentation spécifique au texte issu du module RAP a consisté en un automate de détection bruit/parole. Cette première segmentation a permis une augmentation de 45.4% sans segmentation à 45.9% avec segmentation. Une seconde tentative a consisté à intégrer la segmentation dans le module RAP. Les modèles de langages spécifiques aux opinions ont alors permis d obtenir lors de la phase de classification une augmentation relative des performances de 10%, soit environ 50% 114

115 7.3. Conclusion en F-mesure. Concernant les différents éléments de structuration, on observe que l utilisation de seeds ou de tokens permet dans la majorité des expériences une amélioration des performances par rapport à l usage des mots. Exceptée dans les expériences avec les CRF, les combinaisons de différents éléments n ont pas été présentées dans ce chapitre, un grand nombre d expériences étant déjà présentées. Elles seront employées dans le chapitre suivant et participeront ainsi à l amélioration des résultats. Également dans le chapitre suivant, une stratégie de rejet à base de seuils appliqués, entre autres, sur les scores issus des classifieurs permettra d améliorer les résultats. Une analyse a permis de constater qu un nombre significatif d erreurs étaient dû à la confusion entre les thèmes efficacité et général. En effet, ces deux thèmes sont ambigus au niveau de l annotation. Il arrive qu ils apparaissent conjointement pour qualifier la même expression. La différenciation de ces étiquettes est très subjective. Ainsi il est très difficile d annoter certains segments par l un ou l autre des concepts. Par exemple, ces différentes expressions subjectives auraient pu indifféremment être associées à l un ou l autre des deux thèmes efficacité et général : "<(GEN,POS)> je n ai rien à dire j ai été très satisfaite </(GEN,POS)>", "<(GEN,POS)> y a pas de problème c est bon je suis contente </(GEN,POS)>", "<(EFF,POS)> tout a été bien réglé et je suis satisfaite </(GEN,POS)>", "<(GEN,POS)> visiblement vous faites ce que vous pouvez </(GEN,POS)>",.... Afin de s affranchir de ce problème, les deux thèmes efficacité et général sont regroupés en un seul thème que l on notera efficacité dans le chapitre suivant. 115

116 Chapitre 7. Représentation structurée de l information et segmentation automatique 116

117 Chapitre 8 Analyse automatique d opinions dans des corpus oraux de sondage Sommaire 8.1 Détection d opinions et problématique des sondages Formulation du problème Analyse de Sondage Détection d Opinions Stratégie de détection des opinions Protocole et mesures d évaluation des erreurs Application à des transcriptions manuelles et automatiques Évaluation de la stratégie Comparaisons des performances des deux systèmes Introduction de connaissances a priori Réglage du système et analyse des erreurs Analyse de l évolution des proportions dans le temps Détection d opinions et problématique des sondages Comme nous avons pu le constater au travers des résultats obtenus dans les expériences du chapitre précédent, la détection d opinions est une tâche difficile. Un des problèmes majeurs réside dans la distinction entre informations factuelles et subjectives. Dans notre cas, les informations subjectives doivent également être distinguées en plusieurs classes. La difficulté est accrue lorsque la détection d opinion s applique à des messages oraux collectés en milieu réel. En effet, un large nombre de locuteurs expriment leurs opinions de manières très différentes, avec des accents différents, dans des environnements qui sont souvent bruyants. Le signal est d autant plus de mauvaise qualité que le canal utilisé pour l enregistrement est le téléphone fixe ou cellulaire. On obtient ainsi des messages bruités, plus ou moins longs, qui contiennent des répétitions, 117

118 Chapitre 8. Analyse automatique d opinions dans des corpus oraux de sondage des corrections ou même des contradictions. Ainsi, les résultats obtenus par le module de Reconnaissance Automatique de la Parole (RAP) sont très variables. Ces erreurs de reconnaissance affectent la détection des opinions. Néanmoins, la stratégie que nous mettons en place est conçue pour détecter un changement global de la satisfaction des utilisateurs. Il s agit de détecter les distributions selon les différentes opinions et que celles-ci reflètent les distributions réelles du corpus soumis au sondage. Je me place ainsi dans le cadre typique de l analyse de sondage : comment sélectionner un sous-ensemble d observations qui contiennent la même distribution des opinions que celle évaluée sur la totalité du corpus des observations? Dans ce cas, le sous-ensemble est formé de l ensemble des messages qui sont considérés fiables par le système (module RAP+module de détection des opinions). La section 8.3 présente le système et indique comment celui-ci estime la fiabilité d un message selon plusieurs mesures de confiance. La solution que je propose s appuie sur les modèles de langages spécifiques aux opinions présentés dans la section Ainsi, une première segmentation entre portions factuelles et portions pertinentes est estimée. L avis des classifieurs sur les concepts exprimés dans ces hypothèses de segments subjectifs est ensuite demandée. Ce système est évalué dans la section 8.4. D une part, on montre que l introduction de connaissances a priori dans le système permet d améliorer ses performances. D autre part, une analyse des erreurs du système est réalisée selon 2 composantes : erreur d échantillonnage et erreur d interprétation. Enfin, je présente dans la section 8.4, une méthode d évaluation des variations des opinions dans le temps. La théorie des sondages "La théorie des sondages est un ensemble d outils statistiques permettant l étude d une population au moyen de l examen d une partie de celle-ci. On appelle, en effet, sondage, toute étude partielle d une population donnée en vue de son extrapolation à la totalité de celle-ci." (Tillé, 2001) L analyse de SCOrange, recueil de sondages d opinions s inscrit dans cette théorie. En effet, toutes les étapes de la mise en œuvre d un sondage ont été respectées : définition des thèmes abordées (accueil, efficacité, attente), définition de la population visée (les personnes ayant récemment appelé le service-client), construction du plan de sondage (empirique, au moyen d un SMS), collecte des informations (via une boîte vocale), codage et création d un fichier de données et enfin estimation des paramètres. Nous souhaitons que cette dernière étape soit automatique. Deux aspects de la théorie des sondages seront alors abordés : Représentativité des données : Tout d abord, nous admettons les erreurs d échantillonnage dues à une sélection aléatoire d une partie de la population. Seules les personnes ayant eu recours récemment au service-client sont contactées mais c est volontairement qu elles choisissent de rappeler pour livrer leurs impressions sur ce service. Nous admettons alors qu il puisse y avoir un biais et que par exemple 118

119 8.2. Formulation du problème il y ait plus de personnes mécontentes du service que de personnes contentes ou sans opinion désireuses de faire part de leur point de vue. C est pourquoi, nous nous attachons moins à l état de satisfaction globale des utilisateurs à l instant t qu à l évolution de celui-ci. En effet, le but est d estimer au travers du sondage s il y a un changement dans les opinions des utilisateurs qui soit en faveur ou non du service-client. Ensuite, nous admettons introduire un biais dans le souséchantillonnage automatique que nous pratiquons. En effet, un ensemble de messages que notre système estime ne pas être en mesure d estimer correctement est rejeté. Par ce rejet, un biais peut être introduit dans la répartition des opinions du corpus. Nous nous efforcerons d estimer ce biais d échantillonnage automatique. Traitement des erreurs de mesures : La mesure de la satisfaction des utilisateurs est pratiquée automatiquement par un ensemble d outils numériques. Nous admettons que ces outils effectuent des erreurs de mesure qu il est possible d évaluer. Nous estimerons alors le biais introduit dans le calcul de la mesure et ce au moyen d un intervalle de confiance. Ainsi, un changement de la mesure ne sera reconnu que si les deux intervalles de confiance relatifs aux deux mesures faites à l instant t et t + τ sont disjoints. 8.2 Formulation du problème Analyse de Sondage Dans cette sous-section, nous définissons formellement l analyse de sondage d opinions ainsi que les notations utilisées. Soit C un corpus de n messages oraux m 1, m 2,..., m n exprimant une opinion à propos d un service donné. Soit C C un sous-ensemble de n messages de C sélectionnés automatiquement par le système. Nous définissons les opinions selon 2 dimensions : 1. le thème x selon lequel l opinion est exprimée (par exemple : une opinion s exprime selon la gentillesse des opérateurs : x = accueil ) ; 2. la valeur d opinion v de l opinion exprimé selon le thème x, elle est relative au degré de satisfaction de l utilisateur. Un message m sera alors annoté par une suite d étiquettes relatives à ces 2 dimensions à l aide d une fonction ϑ. ϑ(m, x) V représente l opinion exprimée dans le message m à propos du thème x T, avec T = {efficacité, accueil, attente} et V = {entièrement positive, entièrement négative, mitigée, sans opinion} La fonction ϑ(m, x) est définie dans la sous-section suivante Par la suite, l annotation ref (référence) sera utilisée lorsque les annotations manuelles sont considérées et l annotation hyp (hypothèse) sera utilisée lorsque les annotations fournies automatiquement par le système seront considérées. 119

120 Chapitre 8. Analyse automatique d opinions dans des corpus oraux de sondage L objectif principal de l analyse d opinion est le calcul des proportions de messages contenant une opinion O(x, v). Afin de distinguer les opinions obtenues manuellement de celles obtenues automatiquement par le système, soit O re f (x, v) l étiquette d opinion d un message obtenue à partir des annotations manuelles et soit O hyp (x, v) l étiquette d opinion d un message obtenue à partir des annotations automatiques du système. Afin de rendre les écritures mathématiques plus lisibles, nous utiliserons O, O re f et O hyp à la place respectivement de O(x, v), O re f (x, v) et O hyp (x, v) lorsque les variables x, v seront bornées à des valeurs spécifiques. La proportion p(o re f ) de l opinion O considérant les annotations manuelles est définie par : p(o re f ) = #(O re f ) n (8.1) où #(O re f ) correspond au nombre de messages m C manuellement annotés avec une valeur spécifique pour x et v. Considérant l interprétation proposée par le système, la proportion p(o hyp ) est définie par : p(o hyp ) = #(O hyp) n (8.2) où #(O hyp ) est le nombre de messages m C automatiquement annotés. Soit RP la distribution de probabilité des proportions de référence p(o re f ) selon toutes les paires de valeurs possibles pour (x, v). De même, soit HP la distribution de probabilité des proportions générées automatiquement par le système. Afin d évaluer les performances du système selon l analyse de sondage, on calcule alors la divergence entre les distributions HP(x) générées par le système pour un thème x et les distributions de référence RP(x). Cette divergence est évaluée par la divergence de Kullback- Leibler (D KL ) : D KL (RP(x) HP(x)) = p(o re f ) log p(o re f ) p(o v V hyp ) (8.3) Le D KL moyen est alors obtenu en faisant la moyenne des D KL (x) pondérée par l entropie du thème sur le corpus de référence : D KL (RP HP) = γ x D KL (RP(x) HP(x)) (8.4) x T γ x = H x H y y T H x = p(o re f ) log p(o re f ) v V 120

121 8.2. Formulation du problème Détection d Opinions La fonction ϑ(m, x), introduite dans la sous-section précédente, estime la valeur d opinion pour le thème x dans le message m. Cette estimation est basée sur les expressions subjectives W contenues dans m. Ces expressions subjectives sont des séquences de mots relatives à un ou plusieurs thèmes x T exprimés selon une polarité s (avec s {positive, negative}). W est appelé support du concept (x, s). Le prédicat sup(w, x, s) est alors vrai. Par exemple, l expression subjective : "personne très accueillante" est le support du concept (accueil, positive), alors sup("personne très accueillante", accueil, positive) est vrai. Une même expression subjective peut être le support de plusieurs concepts. Par exemple : l expression subjective "personne très aimable et efficace" implique que les prédicats sup("personne très aimable et efficace", accueil, positive) et sup("personne très aimable et efficace", e f f icacité, positive) sont vrais mais que par exemple sup("personne très aimable et efficace", attente, positive) ou sup("personne très aimable et efficace", e f f icacité, négative) sont faux. La fonction ϑ(m, x) pour le message m et le critère x se définit alors ainsi, en utilisant la notation de logique du premier ordre (Nilsson, 1986) : W in(w, m) (sup(w, x, s)) ϑ(m, x) =sans opinion W in(w, m) sup(w, x, s) (s = +) ϑ(m, x) =entièrement positive W in(w, m) sup(w, x, s) (s = ) ϑ(m, x) =entièrement négative ( W 1 in(w 1, m) sup(w 1, x, s) (s = )) ( W 2 in(w 2, m) sup(w 2, x, s) (s = +)) ϑ(m, x) =mitigée Le prédicat in(w, m) est vrai si et seulement si l expression subjective W apparaît dans le message m. Par la suite, nous allons considérer plusieurs stratégies générant des hypothèses d opinions. Elles seront comparées par les mesures classiques de précision, rappel et fmesure selon les concepts (x, s) qu elles fourniront à partir des expressions subjectives W. La précision est définie par le ratio des concepts (x, s) correctement proposés par le système sur le ratio de la totalité des concepts (x, s) proposés par le système : prec = hyp_et_correct(x, s) x T,s {+, } hyp(x, s) x T,s {+, } (8.5) Le rappel est défini par le ratio des concepts (x, s) correctement proposés par le système sur le ratio de la totalité des concepts (x, s) manuellement annotés. 121

122 Chapitre 8. Analyse automatique d opinions dans des corpus oraux de sondage rapp = hyp_et_correct(x, s) x T,s {+, } ref(x, s) x T,s {+, } (8.6) Nous rappelons que la fmesure est définie par : f mes = 2 prec rapp prec + rapp (8.7) Si le même concept (x, s) est supporté par plusieurs expressions subjectives, une seule occurrence du concept sera considérée dans l évaluation. 8.3 Stratégie de détection des opinions Le but du système est de déterminer la distribution des proportions des opinions de l application sur la totalité du corpus. Ainsi que cela a été exposé dans l introduction, 2 étapes successives sont nécessaires à la résolution de la tâche : 1 - détection des segments subjectifs ; 2 - détermination des opinions exprimées Protocole et mesures d évaluation des erreurs L intérêt principal de la première étape est de filtrer les segments supposés subjectifs selon plusieurs mesures de confiance et évaluer s ils sont susceptibles d être correctement traités lors de la phase suivante. Soit α un vecteur de seuils sur les différentes mesures de confiance fournies lors de la première étape. Si la valeur de chaque indice est supérieure au seuil α associé, alors le segment est accepté. Par conséquent, un message dont aucun des segments n est accepté sera rejeté. Cela correspond à un échantillonnage du corpus de sondage. Ce rejet est spécial dans le sens où il tend à éliminer les messages qui n expriment aucune opinion ou ceux qui en expriment une ou plusieurs mais susceptibles d être mal reconnues automatiquement. Soit O re f le label d opinion d un message obtenu à partir des annotations manuelles sur le sous-corpus accepté par le système C. Soit p(o re f ) = #(O re f ) la proportion des messages contenant l opinion O annotée n manuellement sur le sous-corpus C. Cette proportion est différente de p(o re f ) qui est obtenue avec l annotation manuelle sur l ensemble du corpus de sondage. L erreur d échantillonnage de l opinion O est alors défini par : e echant. (O) = p(o re f ) p(o re f ) (8.8) 122

123 8.3. Stratégie de détection des opinions Soit RP la distribution de probabilité des proportions de référence p(o re f ) estimée selon toutes les paires de valeurs possibles pour (x, v) sur C. La divergence de Kullback-Leibler D KL (RP RP ) estimant l échantillonnage est calculée selon l équation 8.4. Les opinions des messages ainsi sélectionnés sont extraites par BoosTexter. Des trois classifieurs étudiés dans le chapitre précédent, BoosTexter est celui qui, à la fois, est le plus riche au niveau de la représentation d un message 1 et obtient les résultats les plus stables. Un modèle de classification est entrainé sur le corpus d apprentissage afin de classer chaque segment selon les concepts (x, s) comme présenté dans la section 8.2. Chaque segment est représenté selon trois niveaux : les POS, les lemmes et les seeds. Il a été observé dans le chapitre précédent que la combinaison des représentations mot+seeds permettait d obtenir les meilleurs résultats. Ici, les mots sont généralisés en POS et en lemmes afin de contourner au mieux les erreurs issues du module RAP. La valeur réelle calculée par BoosTexter et associée à chaque concept pour un segment donné est convertie en probabilité selon une fonction de régression logistique (Schapire et al., 2005). Soit β le seuil appliqué sur cette probabilité. Chaque segment dont le concept (x, s) est associé avec une probabilité supérieure à β est défini comme le support de ce concept. Lorsque tous les segments d un même message ont été traités, la fonction ϑ(x, m) définie dans la sous-section est appliquée afin d obtenir l opinion exprimée dans le message. Des erreurs de classification peuvent intervenir dans ce processus d extraction d opinions. La proportion p(o hyp ) est observée et comparée à la proportion attendue p(o re f ). L erreur d interprétation est alors définie comme suit : e interp. (O) = p(o re f ) p(o hyp) (8.9) La divergence de Kullback-Leibler DKL(RP HP) estimant l interprétation est calculée selon l équation L erreur globale observée sur l estimation d une opinion O dans le corpus de sondage est : e(o) = e echant. (O) + e interp. (O) = p(o re f ) p(o re f ) + p(o re f ) p(o hyp) = O re f n O hyp n (8.10) 1 BoosTexter accepte en entrée des n-grammes, des valeurs continues, des n-grammes pondérés,

124 Chapitre 8. Analyse automatique d opinions dans des corpus oraux de sondage Application à des transcriptions manuelles et automatiques Afin d évaluer l impact des erreurs dues à une mauvaise transcription en mots de celles dues directement à la détection des opinions, deux systèmes ont été développés pour extraire et classer les expressions subjectives des messages vocaux : l un (noté ref ) s appuie sur les transcriptions manuelles des messages ; l autre (noté rap) est intégré dans le processus de décodage de la parole. Il a été nécessaire de différencier les traitements sur les transcriptions manuelles des traitements sur les transcriptions automatiques à cause de la mauvaise qualité de ces dernières : les méthodes développées sur le texte propre ne sont pas assez robustes pour s appliquer aux transcriptions automatiques bruitées, comme nous avons pu le constater dans le chapitre précédent. Les deux systèmes sont décrits brièvement et représentés par la figure 8.1. Transcription manuelle Fichier audio Processus de Segmentation Étiqueteur CRF #mots, texte α (transcription manuelle) Hypothèses d expressions subjectives Rejet MLs spécifiques aux opinions #mots, texte, mesures de confiance RAP α (fichier audio) Rejet Processus de Classification Classifieur x, s : Probabilités (x,s) β (transcription manuelle) Fonction u(x,m) Classifieur β (fichier audio) FIG. 8.1 Stratégie de détection des opinions appliquée aux transcriptions manuelles et automatiques du message oral. Application aux transcriptions automatiques, système rap La première étape consistant à extraire les expressions subjectives du message s inscrit directement dans le processus de transcription automatique de la parole et a été présenté dans la section sous le nom de Reco2. 124

125 8.3. Stratégie de détection des opinions Nous avons montré que ces modèles de langage spécifiques à la détection des opinions permettent d obtenir de meilleures performances lors de la phase de classification qu un modèle RAP standard de type bi-gramme. Néanmoins, en raison d un fort taux de mots incorrects, il est important d estimer un score de confiance pour chaque mot ou séquence de mots produits. Deux indicateurs de confiance sont proposés par Reco2 : AC et LC présentés dans la section La probabilité pour une expression subjective d être correcte est alors donnée par régression logistique sur ces indicateurs de confiance selon la formule : P(W AC, LC) = e (a 0+a 1 AC+a 2 LC) (8.11) Les poids ont été évalués sur le corpus d apprentissage et prennent pour valeurs : a 0 = 0.62, a 1 = 0.05 et a 2 = Nombre d expressions subjectives obtenues ne sont pas fiables, il est donc nécessaire de les filtrer. Si la probabilité d être correcte du segment ainsi que le nombre de mots qu il contient dépassent les seuils fixés par le vecteur α(fichier audio) alors le segment est jugé fiable et est envoyé au module de classification d opinion. Un modèle de classification des opinions a été entraîné par BoosTexter afin d attribuer un score à chaque concept (x, s). Ce modèle a été appris sur l ensemble des expressions subjectives du corpus d entraînement transcrites automatiquement par Reco1. Celles-ci sont représentées sur 2 niveaux : les lemmes et les seeds, à cela s ajoute un troisième paramètre qui est le nombre de mots de l expression subjective. Lors de la phase de test, chaque segment, hypothèse d expression subjective, jugé fiable par le module précédent, est classé par le modèle. Chaque concept obtient un score qui est converti en probabilité. Si ce score est supérieur au seuil β(fichier audio), le concept (x, s) associé est ajouté à l ensemble des concept (x, s) obtenus par le message. Ainsi, lorsque la totalité des expressions subjectives du message est classée, la fonction ϑ présentée dans la section permet d obtenir la liste des opinions associées au message. Application aux transcriptions exactes, système ref Pour le traitement des transcriptions manuelles, l outil CRF++ a été utilisé en combinaison avec BoosTexter. En effet, les résultats obtenus dans la section montrent que cette combinaison est adaptée à la résolution de la tâche. Le corpus d apprentissage est formaté de manière à associer à chaque mot une étiquette indiquant s il fait partie d une expression subjective positive, négative ou non. C est une méthode à la jonction des méthodes de segmentation binaire et fine que nous avons présentées dans la section S il fait effectivement partie d une expression subjective (x, +), il sera associé à l étiquette +, s il fait partie d une expression subjec- 125

126 Chapitre 8. Analyse automatique d opinions dans des corpus oraux de sondage tive (x, ), il sera associé à l étiquette et = sinon. Chaque mot d une intervention est représenté par : son lemme et son seed. Lors de l analyse d un nouveau message, les étiquettes posées par le CRF permettent d extraire uniquement les hypothèses d expressions subjectives. Tous les segments ayant été étiquetés avec la même étiquette sont concaténés dans un nouveau et même segment. C est ce nouveau segment qui est envoyé au module suivant de classification des opinions si et seulement si le nombre de mots qu il contient dépasse le seuil fixé par α(transcription manuelle). Le classifieur implémenté ici est quasi-identique à celui utilisé dans le système rap à ceci près qu il est appris sur les expressions subjectives du corpus d entraînement transcrites manuellement. En sortie du classifieur, un score est attribué à chaque concept pour le segment considéré. Les concepts retenus sont ceux dépassant le seuil β(transcription manuelle). 8.4 Évaluation de la stratégie Comparaisons des performances des deux systèmes J ai mené des expériences avec différentes valeurs attribuées aux seuils α et β. Les mesures suivantes ont été calculées : précision, rappel, fmesure comme définies dans la section et la divergence de Kullback-Liebler D KL (RP HP) présentée dans la section La figure 8.2 présente la courbe de précision/rappel obtenue sur le corpus de test pour différentes valeurs de α et β. Une différence de 65% à 45% en rappel entre les transcriptions manuelles et automatiques pour une précision de 75% est observée. Si l on compare les fmesures obtenue par les deux systèmes pour ce point de précision, on observe une fmesure de 71% pour ref et 66% pour rap. Là encore la différence est conséquente ; néanmoins cela s explique par le fort WER de Reco2 (supérieur à 50% en moyenne). Comme cela a été expliqué dans la présentation du corpus section 6, les messages sont longs et contiennent beaucoup d informations non pertinentes au sens de la tâche de détection des opinions. Ces commentaires sont extrêmement variables et sont donc mal modélisés par le système RAP. Cependant, ces portions ne sont pas la cible du système et les erreurs de reconnaissance de ces segments n ont qu un impact limité sur l évaluation globale de notre système. Le WER n est alors pas un indicateur pertinent dans notre évaluation. Comme cela a été présenté dans la section 8.2.1, le but de l étude est d estimer les distributions des opinions sur le sous-ensemble de messages acceptés par notre système et ceci le plus fidèlement possible aux proportions de référence de la totalité du corpus. Ainsi, l indicateur le plus pertinent est la divergence de D KL (RP HP) entre les distributions de référence (RP) et celles estimées par notre système (HP). Cette diver- 126

127 8.4. Évaluation de la stratégie 90 système asr système ref Rappel Précision FIG. 8.2 Courbe de précision/rappel sur les segments d opinions obtenue sur le corpus de test en faisant varier les seuils de rejet α et β pour les transcriptions manuelles (ref) et les sorties du module de RAP Reco2(asr). gence a été calculée sur le corpus de test pour différentes valeurs de α et β. Elle est présentée en fonction de la précision dans la figure 8.3. Les valeurs minimales de D KL (RP HP) sont obtenues pour les deux systèmes avec une précision supérieure à 70%. Cela correspond à un rappel de 65% sur les transcriptions manuelles et un rappel de 45% sur les transcriptions automatiques. La divergence minimale obtenue est de 0.1 bits pour les deux systèmes. À titre de comparaison, si une distribution equi-proportionnelle était évaluée par notre système, la divergence D KL (RP HP) observée serait de 0.8 bits. Il est intéressant de noter que même si les performances obtenues en terme de précision/rappel sur les transcriptions automatiques sont significativement moins bonnes que celles obtenues sur les transcriptions manuelles, les performances en terme de D KL (RP HP) sont similaires. Cela tend à prouver que la stratégie de rejet proposée n affecte pas la représentativité du sous-corpus. J avance deux hypothèses à cela : la stratégie de rejet conserve les distributions originales des différentes opinions (i.e. toutes les opinions sont proportionnellement affectées par la stratégie de rejet) ou bien le biais introduit par l échantillonnage tend à être compensé par le biais introduit dans les erreurs de classification. 127

128 Chapitre 8. Analyse automatique d opinions dans des corpus oraux de sondage système asr système ref 0.5 divergence de Kullback Liebler Precision FIG. 8.3 Évaluation de D KL en fonction de la précision sur le corpus de test en faisant varier les seuils de rejet α et β pour les transcriptions manuelles (ref) et les sorties du module de RAP (asr) Introduction de connaissances a priori Une étude manuelle des erreurs générées par le système asr sur le corpus d entraînement a permis de mettre en évidence que de nombreux messages rejetés contenaient des expressions subjectives idiomatiques selon un ou plusieurs des thèmes recherchés. Ces expressions subjectives ont été extraites du corpus d entraînement puis manuellement généralisées sous formes d expressions régulières. Ces expressions sont très générales, en petit nombre, non ambiguës, et sont relativement indépendantes de l application visée de service clientèle. La raison pour laquelle elles n ont pas été capturées par le processus de classification automatique est probablement liée à la faible taille du corpus d apprentissage. L apport de connaissances explicites vise ainsi à pallier les faiblesses des modèles d apprentissage automatique appris sur des données de taille réduite. A la suite de ce processus manuel huit expressions régulières ont été associées à la dimension accueil, deux pour attente et treize pour efficacité. Pour pouvoir évaluer l apport de l utilisation de cette connaissance explicite à notre système, j ai implémenté quatre stratégies différentes : La stratégie Ψ 1 est celle utilisée dans le système asr, sans l apport de connaissances explicites. Pour la stratégie Ψ 2, les expressions régulières ont été intégrées dans l algorithme AdaBoost de classification en tant que nouveaux classifieurs simples. La stratégie Ψ 3 correspond à la fusion des hypothèses d opinions obtenues par 128

129 8.4. Évaluation de la stratégie la stratégie Ψ 1 et celles obtenues en appliquant directement les expressions régulières sur les segments. Enfin la stratégie Ψ 4 correspond à une stratégie séquentielle : les expressions régulières ayant été apprises principalement sur l ensemble des messages rejetés par la stratégie Ψ 1, celles-ci sont appliquées uniquement sur l ensemble des messages rejetés par Ψ Ψ fmesure Précision FIG. 8.4 Fmesure obtenue par les 4 stratégies d extraction d opinions sur le corpus de test en faisant varier les seuils α and β. Pour chaque stratégie, la précision, le rappel et la fmesure ont été calculés en faisant varier les seuils α et β. La figure 8.4, présentant la fmesure en fonction de la précision, permet de mettre en évidence l apport significatif de l utilisation de connaissances explicites quelle que soit la stratégie choisie, et ce malgré le faible nombre d expressions régulières rajoutées pour chaque thème. La stratégie de fusion Ψ 3 est celle qui permet d obtenir la plus forte valeur de fmesure. Pour les systèmes de classification, le choix de la meilleure stratégie ou le réglage de paramètres tels que les seuils de rejet est généralement fait sur des courbes de précision/rappel ou de fmesure telles que la courbe 8.4. Dans cette étude, le choix de la stratégie à utiliser est fait selon la problématique des sondages d opinions. En effet, il s agit de trouver la stratégie qui conservera le mieux les distributions du corpus général. Pour cela la divergence de Kullback-Leibler entre les proportions réelles et celles estimées est calculée pour toutes les stratégies avec différentes valeurs pour les seuils α et β. Le point de fonctionnement du système est choisi comme celui qui minimise cette divergence. La figure 8.5 présente cette courbe pour les quatre stratégies développées. Les stratégies Ψ 3 et Ψ 4 montrent une divergence de Kullback-Leibler systématiquement plus faible que la stratégie Ψ 1, la stratégie de fusion Ψ 3 apparaissant comme la 129

130 Chapitre 8. Analyse automatique d opinions dans des corpus oraux de sondage Ψ Divergence de Kullback Liebler Précision FIG. 8.5 Divergence de Kullback-Leibler obtenue par les différentes stratégies appliquées sur le corpus de test transcrit automatiquement. Les courbes sont obtenus pour différentes valeurs de α et β. plus performante Réglage du système et analyse des erreurs Une nouvelle campagne de collecte a été effectuée par FTR&D selon le même plan de sondage. Le protocole de recueil des données a lui été modifié : un ensemble de quatre questions fermées sont tout d abord posées à l utilisateur avec pour but d obtenir explicitement leur avis général sur le service puis leur opinion à propos de l accueil, de l efficacité et de l attente. Une question ouverte, sur le modèle de l ancien message d accueil, invite ensuite les utilisateurs à laisser, s ils le souhaitent, des commentaires. C est ce corpus d interventions sur la question ouverte que nous traitons dans cette partie. Un ensemble de interventions a été collecté avec uniquement réponses à la question ouverte. Ces interventions ont été annotées manuellement. Les annotations au niveau des opinions ne sont pas tout à fait identiques à celles de la première campagne. Néanmoins, une projection de l ensemble des nouvelles annotations a été faite vers l ensemble des opinions que nous étudions. Soit APP2 Nous noterons APP1 le corpus d apprentissage et CP2 le corpus de test de la première campagne de sondage, CP3 et CP4 les deux nouveaux corpus. CP3 est considéré comme un corpus de développement et CP4 comme un corpus de test. Les modèles de langage spécifiques aux opinions ont été appris sur les transcrip- 130

131 8.4. Évaluation de la stratégie tions manuelles de CP1, CP2 et CP3. Afin de renforcer les performances de Reco2, un nouveau niveau de modèles de langage a été rajouté : un modèle de type Reco2 est appris en fonction de la satisfaction globale qu a exprimée l utilisateur lors de la phase des questions fermées. La transcription automatique de CP3 a permis de ré-entraîner les modèles de BoosTexter. Le système doit être à nouveau réglé, c est à dire qu il faut définir les valeurs de α et β qui mènent à une D KL (RP HP) minimale CP3 CP Fmesure Précision FIG. 8.6 Évaluation de CP3 et CP4 selon la courbe de précision/fmesure pour une valeur fixée de α et différentes valeurs de β. La précision, le rappel et la fmesure ainsi que la divergence de Kullback-Liebler ont été évalués pour CP3 et CP4 transcrits automatiquement par le nouveau Reco2. Les figures 8.6 et 8.7 illustrent les résultats obtenus sur ces deux corpus. Comme pour CP2, on observe des valeurs minimales de D KL (RP HP) pour des précisions aux alentours de 70%. Dans ce cas le rappel et la fmesure sont aux alentours de 60% pour CP3 et CP4. Un comportement similaire est donc observé entre les anciens et les nouveaux corpus. Afin de distinguer les erreurs dues à l échantillonnage et celles dues à l interprétation, les divergences D KL(RP RP ) et D KL(RP HP) telles que présentées dans la section 8.3 sont calculées. n Dans la figure 8.8, D KL(RP RP ) est présentée en fonction de la couverture définie par. On note que plus le corpus rejeté augmente moins l échantillon est représentatif n de la totalité du sondage. On observe que pour une couverture supérieure à 65%, les erreurs d échantillonnage ont le même impact sur CP3 et CP4 131

132 Chapitre 8. Analyse automatique d opinions dans des corpus oraux de sondage 1.4 CP3 CP4 1.2 Divergence de Kullback Liebler Précision FIG. 8.7 Évaluation de CP3 et CP4 selon la courbe de précision/d KL(RP HP) pour une valeur fixée de α et différentes valeurs de β. 0.3 CP3 CP D KL(RP RP ) Couverture FIG. 8.8 Évaluation pour CP3 et CP4 de l erreur d échantillonnage en fonction de la couverture du corpus accepté par le système. Dans la figure 8.9, D KL(RP HP) est présentée en fonction de la précision calculée pour différentes valeurs de β. Cette figure présente différentes courbes correspondant 132

133 8.4. Évaluation de la stratégie CP 3, α1 CP 3, α2 CP 3, α3 CP 4, α D KL(RP HP ) Précision FIG. 8.9 Évaluation pour CP3 et CP4 de l erreur d interprétation en fonction de la précision. à différentes valeurs de α. Soit α 1,α 2 et α 3 les valeurs des seuils correspondant respectivement à des valeurs de couverture de 65%, 75% et 85%. La figure 8.9 indique que les plus basses valeurs de D KL(RP HP) sont obtenues par les courbes correspondant à α 1 et α 2, ce qui détermine un intervalle de couverture convenable. En effet, si la couverture est trop grande, les erreurs d interprétation causent une grande valeur pour D KL(RP HP) tandis qu une grande valeur de D KL(RP RP ) correspond à une faible couverture. Le seuil α 3 correspondant à une couverture de 85% amène une valeur de pour la D KL(RP HP) tandis que α 1 correspondant à une couverture de 65% amène une valeur de Cela confirme la conjecture que les transcriptions automatiques bruitées peuvent être utiles pour l Extraction d Information si des messages ou des portions de messages sont rejetés par une évaluation d indices de confiance robustes. Le point de fonctionnement du système conditionné par les valeurs de α et β doit être choisi en fonction du but de l application. D un côté, si la précision est la priorité alors α doit être élevé. D un autre côté, si l évaluation des proportions des opinions est une priorité alors α et β doivent être choisis afin d assurer une divergence minimale. Le but de notre application étant l estimation précise des proportions des opinions, α et β ont été choisis en comparant la couverture et les différentes divergences. 133

134 Chapitre 8. Analyse automatique d opinions dans des corpus oraux de sondage 8.5 Analyse de l évolution des proportions dans le temps Il est intéressant d analyser les erreurs impliquées dans l estimation des proportions du sondage afin de déterminer s il est possible d estimer un biais et l utiliser afin d accroître la précision de cette estimation. Si cela est le cas, le biais peut être particulièrement utile lorsque un sondage est analysé dans le temps afin de surveiller l évaluation des différents degrés de satisfaction des utilisateurs à propos d un service. Dans la stratégie proposée, deux types d erreurs contribuent à déterminer les valeurs de e echant. (O) et e interp. (O). Ce sont les erreurs de délétions (D) apparaissant lorsque une opinion O est présente dans un message mais n a pas été détectée par le système et les erreurs d insertions (I) apparaissant lorsque une opinion O qui n est pas présente dans le message est prédite par le système. Notons que les erreurs de substitutions correspondent à la délétion d une opinion correcte et à l insertion d une autre opinion. Une fois le seuil de rejet α choisi, la valeur de β est sélectionnée de telle manière que les erreurs sur les proportions soient minimales sur le corpus de développement utilisé pour régler le système. Cette proportion est notée p (O re f ). Ainsi, il parait raisonnable de supposer qu il existe un biais ɛ(o) sur le calcul de l erreur e(o), que celui-ci est variable et qu il dépend des valeurs particulières de délétions et d insertions pour chaque proportions p(o re f ). L erreur globale peut être exprimée ainsi : e(o) = e O (p(o re f ) p (O re f )) = p(o re f ) p(o hyp ) (8.12) où e O est une constante proportionnelle à la différence entre le taux de délétions et le taux d insertions. On a alors : ( e(o) = e O p(ohyp ) + e(o) p (O re f ) ) e = O ( p(ohyp ) p (O 1 e re f ) ) (8.13) O Comme la variation de l erreur globale peut dévier de son approximation linéaire, l erreur globale réelle e(o) doit être exprimée ainsi : e(o) = ɛ(o) + e r (O) où ɛ(o) est le biais auquel l erreur résiduelle e r (O) est ajoutée. Afin de vérifier cette conjecture, un nombre aléatoire de corpus a été généré en échantillonnant répétitivement CP3. L étude réalisée porte sur le thème le plus représenté du corpus : l efficacité. L échantillonnage a été réalisé en sélectionnant aléatoirement un pourcentage fixe de messages exprimant une opinion positive ou négative sur le thème de l efficacité plus un pourcentage de messages exprimant une opinion neutre 134

135 8.5. Analyse de l évolution des proportions dans le temps ou aucune opinion sur le thème efficacité. Les pourcentages varient afin d obtenir différents corpus de taille similaire. L erreur e(o) est calculée pour chaque valeur de p(o re f ) et dessinée en fonction de p(o hyp ) dans la figure Une approximation linéaire de l erreur est alors estimée afin de modéliser le biais. La variance de l erreur résiduelle e r (O) a également été estimée. 0.1 erreur globale e(o) régression linéaire 0.05 erreur globale proportions estimées par le système pour l opinion (Efficacité,positive) FIG Évaluation de l erreur e(o) en fonction de p(o hyp ) pour l opinion O(x = efficacité, v = positive). Selon l estimation du biais ɛ(o), on peut déduire une estimation des proportions p(o re f ) plus précise que l estimation faite de p(o hyp ). Sur le corpus CP3, les valeurs suivantes ont été obtenues pour l opinion O(x = efficacité, v = positive). : le biais ɛ(o) = p(o hyp ) ; p (O re f ) = ; la variance des erreurs de proportions après correction du biais (erreur résiduelle) : σ 2 = ; l intervalle de confiance ci(o) = L estimation du biais ainsi que celle de la variance des erreurs sont ici données à titre d exemple. En fait, le faible volume de données disponibles ne permet pas d évaluer ces paramètres de manière robuste. Un test a néanmoins été réalisé en considérant CP3 comme un corpus collecté à l instant t et CP4 comme un corpus collecté au temps t + τ. L estimation des proportions de l opinion O(x = efficacité, v = positive) est réalisée au temps t et t + τ par notre système automatique. Nous considérons également qu au temps t + τ, p(o re f ) n est pas disponible parce que le corpus n est pas annoté. Nous estimons alors p(o re f ) en fonction de p(o hyp ) ainsi : 135

136 Chapitre 8. Analyse automatique d opinions dans des corpus oraux de sondage p(o re f ) = p(o hyp ) + ɛ(o) (8.14) L objectif de l analyse de sondage est de détecter un changement significatif de la satisfaction des utilisateurs, dans le bon ou le mauvais sens. Soit p t (O re f ) l estimation des proportions p(o re f ) au temps t. Les bornes supérieures et inférieures de cette proportion sont obtenues respectivement par : p L (O re f ) = p t (O re f ) ci(o) p U (O re f ) = p t (O re f ) + ci(o) (8.15) La même définition est valable pour les proportions estimées au temps t + τ. Soit t le temps de référence avec p t (O re f ) connu. Une variation temporelle des proportions au temps t + τ est acceptable si et seulement si : p L,t+τ (O re f ) p t (O re f ) > 0 p U,t+τ (O re f ) p t (O re f ) < 0 (8.16) Les résultats suivants ont été obtenus par comparaison entre les deux corpus de sondages CP3 et CP4 : p t+τ (O hyp ) = 0.285, p t+τ (O re f ) = qui est une bonne estimation de la valeur réelle p t+τ (O re f ) = Les bornes inférieures et supérieures de p t (O re f ) sont : p L,t+τ (O re f ) = et p U,t+τ (O re f ) = Ainsi comme la valeur réelle des proportions de O(x = efficacité, v = positive) au temps t est de p t (O re f ) = 0.306, malgré la faible différence, la détection de variation pour cette opinion est acceptable. En pratique, une aussi petite variation devrait être considérée comme une tendance à confirmer sur un historique lorsqu assez de données sont disponibles. L estimation du biais et des autres paramètres peut être réajustée en annotant une partie d un nouveau sondage. 136

137 Conclusion Dans un premier temps, j ai présenté le cadre applicatif de l étude : le corpus SCOrange, un recueil d interventions de vrais utilisateurs enregistrés dans des conditions réelles s exprimant sur leur satisfaction vis à vis du service client Orange. L accent a été mis sur les deux facteurs problématiques du traitement automatique de ce corpus : un corpus bruité de parole spontanée, une tâche de classification d informations subjectives mêlées à de l information factuelle. Dans un second temps, j ai proposé et étudié différentes possibilités de représenter le texte de ces interventions : simplement par une suite de mots ou encore par un sousensemble de mots seeds pertinents pour la résolution de la tâche (mots polarisés + mots discriminants pour la tâche de classification au sens de BoosTexter). J ai également présenté les tokens (amas de mots ayant pour noyau un ou des seeds) et les grappen (amas de mots ayant pour noyau les tokens). Bien qu améliorés, les résultats étaient faibles. L étude suivante porte ainsi sur différentes techniques de segmentation du message avec pour objectif de dissocier expressions subjectives de segments factuels. Deux techniques ont été proposées. La première basée sur les CRF s est avérée efficace pour la segmentation de données transcrites manuellement. Dans ce cas, la classification est effectuée dans un deuxième temps par une autre méthode numérique. Les faibles résultats obtenus par les CRF sur les transcriptions automatiques soulignent la mauvaise qualité de celle-ci et amènent à traiter la segmentation directement au niveau de la reconnaissance en mots. La deuxième technique proposée repose sur l intégration de la segmentation dans le processus de décodage. Des modèles de langages spécifiques aux opinions ont ainsi été implémentés afin de générer un message uniquement par une séquence d hypothèses d expressions subjectives. À nouveau la classification est réalisée dans une deuxième étape par une méthode de classification numérique. Le dernier chapitre traite du problème de l analyse d opinions dans des corpus de sondages téléphoniques. Nombres de messages étant complexes et/ou trop bruités, nous mettons particulièrement l accent sur l aspect sondage du système proposé avec comme but la résolution du problème suivant : comment sélectionner un sous-ensemble d observations qui contiennent la même distribution des opinions que celle évaluée sur la totalité du corpus des observations? Le système présenté est constitué de deux étapes : sélection des portions subjectives du message puis classification de celles-ci selon les thèmes recherchés. Les modèles de langages spécifiques aux opinions sont choisis pour segmenter automatiquement le 137

138 Chapitre 8. Analyse automatique d opinions dans des corpus oraux de sondage message audio. Cette technique est comparée aux CRF choisis pour segmenter du texte transcrit manuellement. Une stratégie est mise en place afin de rejeter les messages jugés complexes par le système. Différentes techniques d intégration de connaissances a priori sont présentées avec comme seul intérêt de montrer qu il est possible de pallier les erreurs de classification dues à une insuffisance de données d apprentissage. L erreur globale du système est analysée selon ces deux composantes : l erreur d échantillonnage et l erreur d interprétation. On note en particulier une corrélation entre la couverture de l échantillon et l erreur d échantillonnage, plus la couverture est petite plus l erreur est grande. On observe également que l erreur d interprétation dépend de l erreur d échantillonnage et donc de la couverture, plus la couverture est petite, plus les messages complexes et/ou bruités sont rejetés plus l erreur d interprétation est faible. Pour finir, j ai établi qu il existe un biais dans l estimation des erreurs de proportions qui varie en fonction des proportions des opinions observées. Une fonction estime ce biais sur un corpus de développement afin de l utiliser pour corriger les proportions obtenues par un système entièrement automatique. Une méthode de validation de variation des proportions dans le temps a été proposée. Elle a été testée sur un corpus de test de volume de données relativement restreint mettant en évidence des résultats intéressants qui restent à confirmer par des expériences à réaliser sur des corpus de plus grande taille. 138

139 Bilan général Le travail présenté dans ma thèse vise à intégrer des méthodes de classification automatique au niveau du module de compréhension. Cette intégration doit permettre d obtenir des informations sémantiques fiables tant dans un contexte de dialogue où le système doit exécuter une suite d actions que dans un contexte de recueil d informations où seule l analyse des données est attendue. Dans les deux cas, il s agit d une part de considérer tout ou partie de la compréhension comme une tâche de classification et d autre part d adapter les classifieurs, habituellement utilisés sur du texte, pour le traitement de données issues du module de reconnaissance, c est à dire incertaines. Principalement trois méthodes de classification ont fait l objet de l étude : les arbres de décision sémantique, l algorithme de boosting et les machines à supports vectoriels. Ces méthodes ont été choisies car elles ont déjà prouvées leur efficacité sur des tâches de classification de texte. Leurs implémentations, en plus d être basées sur des algorithmes différents, utilisent des représentations différentes du message d entrée. C est ainsi différents points de vue sémantiques sur un même message qu il est possible d obtenir en les intégrant dans le module de compréhension. Les expériences présentées dans cette étude ont été basées sur deux applications de FTR&D. Concernant la première application, PlanResto, un module de compréhension avait déjà été proposé par le LIA. L intégration des classifieurs dans ce module doit alors permettre d en améliorer les performances. La deuxième application, SCOrange, est expérimentale. Le traitement automatique des corpus recueillis doit permettre une analyse de données d opinions. Dans ce cadre, le module de compréhension intègre des classifieurs afin de détecter les opinions. Des experts sémantiques fiables. En ce qui concerne la première application, une stratégie séquentielle est proposée afin d évaluer la fiabilité de l interprétation. La première étape de la stratégie consiste à générer une liste structurée des n meilleures hypothèses au niveau sémantique. Une fois celle-ci générée, l étape suivante consiste à estimer la confiance de la meilleure hypothèse sémantique 2. Le processus d estimation de la fiabilité d une interprétation s appuie sur une stratégie séquentielle représentée 2 Si celle-ci n est pas estimée fiable, il est alors possible de rechercher une hypothèse plus fiable dans la liste des meilleures hypothèses (Raymond et al., 2007). 139

140 Bilan général par un arbre de diagnostique. Les nœuds de cet arbre correspondent à des unités de décision faisant intervenir un ensemble de classifieurs en tant qu experts sémantiques. L arbre de diagnostique permet d isoler des situations de confiance dans lesquelles la qualité de l interprétation est prédite. Cette information est essentielle pour le choix du gestionnaire de dialogue sur la poursuite de l échange car il peut décider de demander ou non une confirmation ou une clarification au locuteur, selon que la fiabilité proposée par l état soit forte ou non. Dans ce type d application, les informations de positions et de valeurs des concepts sont nécessaires à la résolution de la tâche, notamment pour l accès à une base de données. Les classifieurs sont alors utilisés conjointement à des grammaires qui génèrent l interprétation. Chaque classifieur représente un point de vue différent sur l interprétation. Son rôle dans le module de compréhension est celui d un expert sémantique. Les classifieurs s adaptent au traitement de données incertaines en intégrant des caractéristiques spécifiques aux hypothèses issues du module de reconnaissance, comme par exemple les caractéristiques acoustiques ou dialogiques. Ils sont également entraînés à la fois sur du texte transcrit manuellement et automatiquement. Il a été montré que ces modèles étaient plus performants que ceux appris uniquement sur du texte propre. L apprentissage sur des données bruitées force ainsi le modèle à considérer un contexte plus large que la séquence de mots propre à l expression du concept et permet d être moins sensible aux erreurs de reconnaissance. Il a été montré dans (Raymond et al., 2007), que la stratégie reposant sur la combinaison de classifieurs surpasse une stratégie basée seulement sur des mesures de confiance acoustiques. Extraction d opinions et estimation des proportions La dernière partie de ma thèse traite du problème de l analyse automatique d opinions dans des corpus de sondages téléphoniques. Les messages sont spontanés, multi-locuteurs et recueillis en milieu réel. Ces conditions rendent bon nombres de messages difficilement traitables automatiquement. Une stratégie est mise en place afin de rejeter les messages jugés intraitables correctement par le processus de détection des opinions. Le système implémenté tente d apporter des solutions au problème suivant selon la théorie des sondages : comment sélectionner un sous-ensemble d observations qui contiennent la même distribution des opinions que celle évaluée sur la totalité du corpus des observations? Un système constitué de deux étapes est proposé. La première étape consiste à retrouver les portions subjectives du message et ainsi éliminer toute l information hors-sujet. La deuxième étape est la détection d opinions à proprement dit dans les portions subjectives. Les méthodes de classification s intègrent dans la seconde étape de ce système 3. Elles avaient déjà fait leurs preuves dans le domaine de la détection d opinions (e.g. : les CRF dans (Choi et al., 2005) ou encore les SVM dans (Stoyanov et Cardie, 2006)) sur 3 Une seule méthode, le boosting, est évaluée mais l une ou l autre des deux autres méthodes aurait également pu être adaptée. 140

141 Bilan général du texte écrit. L originalité de mon travail a consisté à appliquer ces méthodes sur de la parole spontanée, exprimée par de vrais utilisateurs et recueillie dans des conditions réelles. Nous avons vu dans le chapitre 7 que la détection d opinions dans les messages de ce type est une tâche complexe, que ce soit sur la transcription exacte du message ou a fortiori sur la transcription automatique. D une part, je propose deux techniques facilitant le processus de détection des opinions. La première consiste à extraire l information pertinente du message, au sens de l application, afin que la représentation du message soit structurée à l entrée des classifieurs. La seconde est la technique de segmentation effectuée lors de la première étape. La segmentation est intégrée dans le module de reconnaissance qui a pour particularité de ne décoder que les portions du message jugées subjectives et donc supposées porteuses des opinions à détecter. D autre part, je montre que l insuffisance de corpus disponibles pour l entraînement des modèles de classification peut être facilement pallier par l apport de connaissances a priori sous forme d expressions régulières très générales, en petit nombre, non ambiguës et relativement indépendantes de l application visée de service clientèle. Un seuil de rejet est associé à chaque étape. Le premier seuil permet de rejeter des hypothèses de segments de mots peu probables tandis que le second seuil permet de rejeter des hypothèses de concepts non fiables. Le réglage de ces seuils permet d obtenir des variations de performances selon le critère d évaluation. Il est notamment possible en choisissant des seuils élevés à chaque étape d obtenir une forte précision dans la prédiction des opinions. Il est également possible de choisir des seuils où les erreurs d échantillonnage et d interprétation se compensent afin d obtenir une distribution fiable des proportions des opinions. Ainsi, le système n est pas rigide et s adapte aux besoins de l analyse. Pour finir, une méthode qui permet de détecter les variations d opinions dans le temps a été étudiée. Elle permet d évaluer les changements significatifs de satisfaction des utilisateurs. Dans les centrales d appels téléphoniques, la surveillance du bon fonctionnement du système s effectue par l écoute aléatoire de messages par des opérateurs humains. La méthode présentée permettrait de fournir un outil automatique de surveillance du système. Perspectives Les perspectives de l étude de l application des classifieurs pour la compréhension orale se situent à deux niveaux. D une part, sur l utilisation de nouvelles caractéristiques dans le processus de classification relatives au contexte et au mode d élocution du message exprimé : Le contexte d élocution correspond à l état du dialogue (type de relance, historique,... ) précédent la réalisation du message ; 141

142 Bilan général le mode d élocution regroupe l ensemble des informations segmentales (détection du type de signal, suivi de locuteur,... ) et prosodiques (durée, intonation, énergie) permettant de caractériser le message. Par exemple, utiliser des informations par rapport au type d appel (conditions dans lesquelles l appel est passé, nombre de participants) ou au type d émotion (neutre, colère, joie,... ). D autre part, l utilisation de graphes de mots au lieu de la meilleure hypothèse est aussi envisagée afin d augmenter la robustesse du processus de classification face aux inévitables erreurs de reconnaissance. Dans l étude présentée dans la thèse, la méthode de classification a été étudiée au niveau théorique mais les outils implémentant ces méthodes ont été utilisés comme des boites noires. Leurs comportements ont été étudiés, les entrées ont été modifiées, les différentes sorties ont été exploitées. Il s agit maintenant d adapter les outils à l utilisation de graphe de mots en entrée. Concernant plus précisément la détection d opinion, l étude va s axer sur la détection de messages qui nécessitent une intervention de la part d un opérateur humain. Il est question de se concentrer sur les messages exprimant une opinion négative pour le thème efficacité ainsi que les messages dans lesquels les utilisateurs expriment clairement le souhait d être rappelé. Nous proposerons alors une liste ordonnée de ces messages en fonction de l importance d un rappel par l opérateur humain. Pour cela, nous émettons l hypothèse que plus le score donné par un classifieur est élevé plus l intensité de l opinion exprimée est forte et le message non-ambigu. 142

143 Liste des illustrations 1.1 Théorie de la communication de Shannon. Une source d information produit le message qu elle souhaite communiquer. Un émetteur code le message en signal qu il peut émettre sur le canal de transmission. Le récepteur décode le message perçu en provenance du canal afin que le destinataire obtienne le message. Tout ceci s effectuant dans un contexte bruité Schéma d un HMM pour un phonème. Seuls les états de couleur rouge génèrent des observations Exemple d arbres d analyse linguistique Effet de biais des étiquettes : Un exemple. Les paires observation-label o : l sont placés sur les transitions. Le symbole _ représente une étiquette de sortie vide Schéma simplifié d un arbre de classification sémantique.chaque nœud de l arbre est une question oui/non obtenue dynamiquement pendant le processus de construction de l arbre, les w i sont des mots du vocabulaire. Les questions sont construites à partir d expressions régulières qui sont appliquées sur les échantillons à classer. Dans ce cas, l ordre des mots rentre en ligne de compte Algorithme général d AdaBoost.MH et AdaBoost.MR Schéma simplifié de l algorithme de boosting. À chaque tour de l algorithme, une hypothèse faible permettant de séparer les données est faite. Les exemples mal classés voient leur poids augmenter à la distribution suivante. L hypothèse finale est une combinaison des hypothèses faibles Projection des données d entrées dans un espace où elles sont linéairement séparables Hyperplan optimal et marge maximale Représentation des HMM (1), MEMM (2) et CRF (3) sous forme de modèles graphiques. Un cercle non-rempli indique le fait que la variable n est pas générée par le modèle Représentation du système de dialogue PlanResto Différents formats de sortie possibles du module RAP Implémentation de la stratégie de décision par un arbre de diagnostique Procédé de validation de l unité de décision DU

144 Liste des illustrations 5.3 Procédé de validation de l unité de décision DU Résultats de la stratégie d interprétation pour les unités de décision DU 1 et DU 2 sur le corpus de test Exemple d une phrase dont les seeds sont écrits en rouge, les tokens sont surlignés en jaune et les grappe4 sont encapsulées dans des boites mauves Nombre de mots en moyenne par intervention en fonction du taux d erreur mot Erreurs de classification (représentées par la fmesure) en fonction du taux d erreur mot Exemple de message annoté avec les 3 types de modèles de langage (ML) utilisés Stratégie de détection des opinions appliquée aux transcriptions manuelles et automatiques du message oral Courbe de précision/rappel sur les segments d opinions obtenue sur le corpus de test en faisant varier les seuils de rejet α et β pour les transcriptions manuelles (ref ) et les sorties du module de RAP Reco2(asr) Évaluation de D KL en fonction de la précision sur le corpus de test en faisant varier les seuils de rejet α et β pour les transcriptions manuelles (ref ) et les sorties du module de RAP (asr) Fmesure obtenue par les 4 stratégies d extraction d opinions sur le corpus de test en faisant varier les seuils α and β Divergence de Kullback-Leibler obtenue par les différentes stratégies appliquées sur le corpus de test transcrit automatiquement. Les courbes sont obtenus pour différentes valeurs de α et β Évaluation de CP3 et CP4 selon la courbe de précision/fmesure pour une valeur fixée de α et différentes valeurs de β Évaluation de CP3 et CP4 selon la courbe de précision/d KL(RP HP) pour une valeur fixée de α et différentes valeurs de β Évaluation pour CP3 et CP4 de l erreur d échantillonnage en fonction de la couverture du corpus accepté par le système Évaluation pour CP3 et CP4 de l erreur d interprétation en fonction de la précision Évaluation de l erreur e(o) en fonction de p(o hyp ) pour l opinion O(x = efficacité, v = positive) A.1 Estimation de la précision en fonction à la fois du nombre de mots du messages et du nombre de thèmes exprimés. Légende : l annotation ref correspond à la transcription manuelle, l annotation asr correspond à la transcription automatique et l annotation crit correspond à un thème B.1 Résultats du premier protocole appliqué à TEST.Man B.2 Résultats du premier protocole appliqué à TEST.Reco C.1 Apprentissage des grappes3 avec BoosTexter sur le corpus d apprentissage transcrit manuellement

145 Liste des illustrations C.2 Classification par BoosTexter du corpus de développement transcrit manuellement C.3 Classification par Boostexter du corpus de développement transcrit manuellement

146 Liste des illustrations 146

147 Liste des tableaux 3.1 Exemples d interventions utilisateurs Comparaison des trois corpus PlanResto en fonction du nombre d interventions, nombre de mots, nombre de mots différents Liste des étiquettes de niveau 3 spécifiques de PlanResto associés aux mots Exemple d une intervention représentée selon 3 niveaux Liste des concepts de l application PlanResto Liste des classes de concepts de l application PlanResto CER obtenu par les différents classifieurs selon les corpus utilisés à l apprentissage et au test CER obtenu par les différents classifieurs sur le corpus TEST.1Best en fonction de différents corpus d apprentissage CER calculé selon le score Oracle obtenu sur le corpus TEST.nBest Résultats obtenus sur TEST.nBest selon différentes combinaisons des résultats. À titre d information et pour comparaison, les résultats obtenus sur TEST.Man et TEST.1Best sont reportés Comparaison du CER de chaque classifieur et de leur consensus Exemple d une liste structurée des n meilleures hypothèses d interprétation Performance de classification des 3 classifieurs utilisés dans DU 2 évalué selon le CER Performances des unités de décision DU 1 et DU 2 en fonction du nombre de classifieurs impliqués Exemple d une intervention transcrite et annotée manuellement. Légende des annotations : La balise <... > ouvre une annotation tandis que </... > la clôt. La signification des annotations est la suivante : marqdis correspond à un marqueur discursif, (EFF,POS) correspond à une opinion positive sur le thème de l efficacité, fauxdep correspond à un faux départ, repet correspond à une répétition, (ACC,POS) correspond à une opinion positive sur le thème de l accueil Corrélation entre le WER et la longueur des messages (en mots) Exemple de message contenant plusieurs expressions subjectives

148 Liste des tableaux 6.4 Répartition des messages dans le corpus en fonction du nombre de concepts exprimés Exemples d interventions annotées mettant en évidence que le nombre de concepts exprimés n est pas fonction de la longueur d une intervention Évaluation de la classification d une intervention Résultats des classifieurs pour les tâches de classification de thème, polarité et concept Exemples de tokens obtenus autour du seed gentil et autour des seeds aller, bien et parfait Performance de classification des opinions selon les 8 concepts avec différentes représentations de l intervention Évaluation de la classification d une intervention avec segmentation du message d entrée Expériences réalisées avec segmentation du message d entrée Segmenter et étiqueter avec CRF Format des données d entrées de CRF++ dans le cas d une segmentation binaire et d une segmentation plus fine Performance du modèle de classification BoosTexter entrainé et testé uniquement sur les expressions subjectives Résultats de classification obtenus avec BoosTexter dans les expériences de segmentation fine et binaire avec CRF Résultats de la classification de BoosTexter des segments porteurs de sens selon CRF Pourcentage des indicateurs de disfluences dans le corpus global et dans le corpus extrait Résultats de classification des concepts sur les segments issus du modèle Reco2 en fonction de la précision (P), du rappel (R) et de la fmesure (F) F-mesure obtenues dans les expériences sans segmentation avec LIA- SCT (L), BoosTexter (B) et SVMTorch (T) F-mesure obtenues dans les expériences utilisant la segmentation manuelle du message F-mesure obtenues dans les expériences utilisant différentes techniques de segmentation automatique. Les classifieurs utilisés sont LIA-SCT (L), BoosTexter (B) et SVMTorch (T) A.1 Répartition des différentes polarités de la SATGLOB dans les corpus d apprentissage (APP) et de test (TEST) A.2 Évaluation des performances des classifieurs sur la classification de la satisfaction globale selon la précision A.3 Listes des substitutions commises par les classifieurs sur les polarités de la SATGLOB A.4 Évaluation de la mesure K A.5 Performance des classifieurs sur le sous-corpus n exprimant que des polarités positives ou négatives

149 Liste des tableaux B.1 Étape 1 du protocole de construction du modèle de langage sur les grappen B.2 Étape 2 du protocole de construction du modèle de langage sur les grappen B.3 Étape 4 du protocole de construction du modèle de langage sur les grappen B.4 Résultat obtenus par le modèle de langage créé sur les grappen B.5 Recherche du thème par le modèle de langage créé sur les grappen B.6 Recherche de la polarité par le modèle de langage créé sur les grappen. 177 B.7 Combinaisons linéaires des différents modèles de langage crée sur les grappen C.1 Caractérisation des messages SCOrange par TooLsemi-CRF C.2 Fréquence d apparition des étiquettes dans le corpus d apprentissage et correspondance étiquette/numéro/lettre C.3 Comparaison entre le nombre réel de segments "porteurs de sens" (REF) et le nombre trouvé par TooLsemi-CRF (CRF) C.4 Résultats sur le corpus TEST.TXT de la stratégie : Segmentation par TooLsemi- CRF et étiquetage par BoosTexter (modèle appris sur la totalité du message -SANS SEGMENT- ou seulement sur les segments porteurs de sens -AVEC SEGMENT

150 Liste des tableaux 150

151 Bibliographie (Abdou et Scordilis, 2001) S. Abdou et M. Scordilis, Integrating multiple knowledge sources for improved speech understanding. Dans les actes de European Conference on Speech Communication and Technology (EuroSpeech 01), Aalborg, Denmark, (Baum, 1972) L. E. Baum, An inequality and associated maximization technique in statistical estimation for probabilistic functions of markov processes. Inequalities 3(1), 1 8. (Bethard et al., 2004) S. Bethard, H. Yu, A. Thornton, V. Hatzivassiloglou, et D. Jurafsky, Automatic extraction of opinion propositions and their holders. Dans les actes de AAAI Spring Symposium on Exploring Attitude and Affect in Text : Theories and Applications. (Brun et al., 2005) A. Brun, C. Cerisara, D. Fohr, I. Illina, D. Langlois, O. Mella, et K. Smaïli, Ants : le système de transcription automatique du loria. Dans les actes de Workshop Évaluation des Systèmes de Transcription Enrichie d Émissions Radiophoniques (ESTER 05), Avignon, France. (Burton, 1977) R. R. Burton, Semantic grammar : an engineering technique for constructing natural language understanding systems. SIGART Bull. (61), (Carletta, 1996) J. Carletta, Assessing agreement on classification tasks : The kappa statistic. Computational Linguistics 22(2), (Carpenter et al., 2001) P. Carpenter, C. Jin, D. Wilson, R. Zhang, D. Bohus, et A. Rudnicky, Is this conversation on track? Dans les actes de European Conference on Speech Communication and Technology (EuroSpeech 01), Aalborg, Denmark, (Charlet et al., 2001) D. Charlet, G. Mercier, et D. Jouvet, On combining confidence measures for improved rejection of incorrect data. Dans les actes de European Conference on Speech Communication and Technology (EuroSpeech 01), Aalborg, Denmark. (Chen et al., 2001) D. Chen, H. Bourlard, et J.-P. Thiran, Text identification in complex background using svm. Dans les actes de International Conference on Computer Vision and Pattern Recognition,

152 Bibliographie (Choi et al., 2005) Y. Choi, C. Cardie, E. Riloff, et S. Patwardhann, Identifying sources of opinions with conditional random fields and extraction patterns. Dans les actes de Human Language Technology/Empirical Methods in Natural Language Processing (HLT/EMNLP 05), Vancouver, Canada, (Chomsky, 1957) N. Chomsky, Syntactic structures. The Hague : Mouton. (Collobert et al., 2002) R. Collobert, S. Bengio, et J. Mariéthoz, Torch : a modular machine learning software library. (Della Pietra et al., 1997) S. Della Pietra, V. Della Pietra, et J. Lafferty, Inducing features of random fields. IEEE Transactions on Pattern Analysis and Machine Intelligence 19(4), (Do et Artières, 2005) T. M. T. Do et T. Artières, Champs de markov conditionnels pour le traitement de séquences. (Estève et al., 2001) Y. Estève, F. Béchet, A. Nasr, et R. De Mori, Stochastic finite state automata language model triggered by dialogue states. Dans les actes de European Conference on Speech Communication and Technology (EuroSpeech 01), Aalborg, Denmark, (Estève et al., 2003) Y. Estève, C. Raymond, R. De Mori, et D. Janiszek, On the use of linguistic consistency in systems for human-computer dialogs. IEEE Transactions on Speech and Audio Processing 11, (Federico et De Mori, 1998) M. Federico et R. De Mori, Language modelling. Dans R. De Mori (Ed.), Spoken Dialogues with Computers, Chapter 7, Academic Press. (Fillmore, 1968) C. J. Fillmore, The case for case. Dans. R. T. H. E. Bach (Ed.), Texas symposium on Language Universals, New York. [Holt, Rinehart, and Winston]. (Forney, 1973) G. D. J. Forney, The viterbi algorithm. IEEE Transactions on Speech and Audio Processing 61(3), (Freund et Schapire, 1996) Y. Freund et R. E. Schapire, Experiments with a new boosting algorithm. Dans les actes de Thirteenth International Conference on Machine Learning, (Fu, 1974) K.-S. Fu, Syntactic methods in pattern recognition. Academic Press New York. (Garcia et al., 2003) F. Garcia, L. Hurtado, E. Sanchis, et E. Segarra, The incorporation of confidence measures to language understanding. Dans les actes de International Conference on Text Speech and Dialogue (TSD 2003), České Budějovice, Czech Republic, (Gauvain et al., 1994) J. Gauvain, L. Lamel, G. Adda, et M. Adda-Decker, The limsi continuous speech dictation system : evaluation on the arpa wall street journal 152

153 Bibliographie task. Dans les actes de IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 94), Volume 1, (Gorin et al., 1997) A. Gorin, G. Riccardi, et J. Wright, How may i help you. Speech Communication 23(1-2), (Hacioglu, 2004) K. Hacioglu, A lightweight semantic chunker based on tagging. Dans les actes de Human Language Technology/North American Chapter of the Association for Computational Linguistics (HLT/NAACL 04), Boston, Mass, USA, (Haffner et al., 2003) P. Haffner, G. Tur, et J. Wright, Optimizing SVMs for complex call classification. Dans les actes de IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 03), Hong-Kong. (Hakkani-Tür et al., 2005) D. Hakkani-Tür, G. Tur, G. Riccardi, et H. K. Kim, Error prediction in spoken dialog : From signal-to-noise ratio to semantic confidence scores. Dans les actes de IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 05), Philadelphia, PA, USA, (Hammersley et Clifford, 1971) finite graphs and lattices. J. Hammersley et P. Clifford, Markov fields on (Haton et al., 2006) J.-P. Haton, C. Cerisara, D. Fohr, Y. Laprie, et K. Smaïli, La modélisation statistiques du langage : application à la reconnaissance de la parole. Dans les actes de Reconnaissance automatique de la parole : Du signal à son interprétation, Chapter 6, Dunod. (Hatzivassiloglou et McKeown, 1997) V. Hatzivassiloglou et K. R. McKeown, Predicting the semantic orientation of adjectives. Dans les actes de European chapter of the Association for Computational Linguistics, Morristown, NJ, USA, Association for Computational Linguistics. (Hatzivassiloglou et Wiebe, 2000) V. Hatzivassiloglou et J. Wiebe, Effects of adjective orientation and gradability on sentence subjectivity. Dans les actes de International Conference on Computational Linguistics (COLING 00), Saarbrücken, Germany. (Haust et al., 1995) H. Haust, M. Oerder, F. Siede, et V. Steinbiss, The phillips automatic train timetable information system. Speech Communication 17, (Hazen et al., 2002) T. J. Hazen, S. Seneff, et J. Polifroni, Recognition confidence scoring and its use in speech understanding systems. Computer, Speech and Language 16(1), (Ho et Moreno, 2004) P. Ho et P. Moreno, Svm kernel adaptation in speaker classification and verification. Dans les actes de International Conference on Spoken Language Processing (ICSLP 04). ISCA. (Huang et al., 1995) X. Huang, A. Acero, F. Alleva, M. Hwang, L. Jiang, et M. Mahajan, Microsoft windows highly intelligent speech recognizer : Whisper. Dans les actes de IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 95), Volume

154 Bibliographie (Jamoussi et al., 2004) S. Jamoussi, K. Smaïli, D. Fohr, et J.-P. Haton, A complete understanding speech system based on semantic concepts. Dans les actes de International Conference on Language Resources and Evaluation (LREC 04), Lisbonne, Portugal. (Jelinek, 1976) F. Jelinek, Continuous speech recognition by statistical methods. IEEE Transactions on Speech and Audio Processing 64(4), (Joachims, 1998) T. Joachims, Text categorization with support vector machines : Learning with many relevant features. Dans les actes de European Conference on Machine Learning,, (Kim et Hovy, 2004) S.-M. Kim et E. Hovy, Determining the sentiment of opinions. Dans les actes de International Conference on Computational Linguistics (CO- LING 04), Association for Computational Linguistics. (Kim et Hovy, 2006) S.-M. Kim et E. Hovy, Extracting opinions, opinion holders, and topics expressed in online news media text. Dans les actes de Workshop on Sentiment and Subjectivity in Text, Sydney, Australia, 1 8. Association for Computational Linguistics. (Komatani et Kawahara, 2000) K. Komatani et T. Kawahara, Flexible mixedinitiative dialogue management using concept-level confidence measures of speech recognizer output. Dans les actes de Conference on Computational Linguistics, Volume 1, (Kuhn et De Mori, 1995) R. Kuhn et R. De Mori, The application of semantic classification trees to natural language understanding. IEEE Transactions on Pattern Analysis and Machine Intelligence 17(5), (Lafferty et al., 2001) J. Lafferty, A. Mccallum, et F. Pereira, Conditional random fields : Probabilistic models for segmenting and labeling sequence data. Dans les actes de International Conference on Machine Learning, (Lee et al., 1990) C. Lee, E. Giachin, L. Rabiner, R. Pieraccini, et A. Rosenberg, Improved acoustic modeling for continuous speech recognition. Dans les actes de Workshop on Speech and Natural Language, (Lefèvre et Bonneau-Maynard, 2002) F. Lefèvre et H. Bonneau-Maynard, Issues in the development of a stochastic speech understanding system. Dans les actes de International Conference on Spoken Language Processing (ICSLP 02), Denver. (Levin et Pieraccini, 1995) E. Levin et R. Pieraccini, Concept-based spontaneous speech understanding system. Dans les actes de European Conference on Speech Communication and Technology (EuroSpeech 95), Madrid, Spain, (Malouf, 2002) R. Malouf, A comparison of algorithms for maximum entropy parameter estimation. Dans les actes de International Conference On Computational Linguistics, 1 7. Association for Computational Linguistics Morristown, NJ, USA. 154

155 Bibliographie (Mariani, 1990) J. Mariani, Reconnaissance de la parole : progrès et tendances. Traitement du signal 7(4), (McCallum et al., 2000) A. McCallum, D. Freitag, et F. Pereira, Maximum entropy markov models for information extraction and segmentation. Dans les actes de International Conférence on Machine Learning, Standford, California, (Minker et al., 1996) W. Minker, S. Bennacef, et J.-L. Gauvain, A stochastic case frame approach for natural language understanding. Dans les actes de International Conference on Spoken Language Processing (ICSLP 96), Volume 2. (Mohri et al., 2002) M. Mohri, F. Pereira, et M. Riley, Weighted finite-state transducers in speech recognition. Computer, Speech and Language 16(1), (Murphy et al., 1999) K. P. Murphy, Y. Weiss, et M. I. Jordan, Loopy belief propagation for approximate inference : An empirical study. Dans les actes de Uncertainty in AI, (Nilsson, 1986) N. J. Nilsson, Probabilistic logic. Artificial Intelligence 28(1), (Nocera et al., 2002) P. Nocera, G. Linares, et D. Massonié, Principe et performances du décodeur parole continue speeral. Dans les actes de Journées d Étude de la Parole (JEP 02). (Pang et al., 2002) B. Pang, L. Lee, et S. Vaithyanathan, Thumbs up? : sentiment classification using machine learning techniques. Dans les actes de Empirical Methods in Natural Language Processing(EMNLP 02), Morristown, NJ, USA, Association for Computational Linguistics. (Pearl, 1988) J. Pearl, Probabilistic Reasoning in Intelligent Systems : Networks of Plausible Inference. Morgan Kaufmann. (Pieraccini et Levin, 1995) R. Pieraccini et E. Levin, A spontaneous speech understanding system for database query applications. Dans les actes de ESCA Workshop on Spoken Dialogue Systems, Vigso, Danemark, (Pieraccini et al., 1993) R. Pieraccini, E. Levin, et E. Vidal, Learning how to understand language. Dans les actes de European Conference on Speech Communication and Technology (EuroSpeech 93, (Popescu et Etzioni, 2005) A.-M. Popescu et O. Etzioni, Extracting product features and opinions from reviews. Dans les actes de Human Language Technology/Empirical Methods in Natural Language Processing (HLT/EMNLP 05), (Pradhan et Ward, 2002) S. S. Pradhan et W. H. Ward, Estimating semantic confidence for spoken dialogue systems. Dans les actes de IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 02), Volume 1,

156 Bibliographie (Price, 1990) P. Price, Evaluation of spoken language systems : the atis domain. Dans les actes de Workshop on Speech and Natural Language, Association for Computational Linguistics Morristown, NJ, USA. (Pullum et Gazdar, 1982) G. Pullum et G. Gazdar, Natural languages and contextfree grammars. Linguistics and Philosophy 4, (Quillian, 1966) M. Quillian, Semantic Memory. Air Force Cambridge Research Laboratories, Office of Aerospace Research, United States Air Force. (Raymond et al., 2007) C. Raymond, F. Béchet, N. Camelin, R. De Mori, et G. Damnati, Sequential decision strategies for machine interpretation of speech. IEEE Transactions on Speech and Audio Processing 15(1), (Raymond et al., 2004a) C. Raymond, F. Béchet, R. De Mori, et G. Damnati, 2004a. On the use of confidence for statistical decision in dialogue strategies. Dans M. Strube et C. Sidner (Eds.), SIGdial Workshop on Discourse and Dialogue, Cambridge, Massachusetts, USA, Association for Computational Linguistics. (Raymond et al., 2004b) C. Raymond, F. Béchet, R. De Mori, et G. Damnati, 2004b. Stratégie de décodage conceptuel pour les applications de dialogue oral. Dans les actes de Journées d Étude de la Parole (JEP 04), Fès, Maroc. (Raymond et al., 2006) C. Raymond, F. Béchet, R. De Mori, et G. Damnati, On the use of finite state transducers for semantic interpretation. Speech Communication 48(3-4), (Raymond et al., 2004) C. Raymond, F. Béchet, R. De Mori, G. Damnati, et Y. Estève, Automatic learning of interpretation strategies for spoken dialogue systems. Dans les actes de IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 04), Volume 1, Montréal, Canada, (Raymond et al., 2003) C. Raymond, Y. Estève, F. Béchet, R. De Mori, et G. Damnati, Belief confirmation in spoken dialogue systems using confidence measures. Dans les actes de IEEE Workshop onautomatic Speech Recognition and Understanding (ASRU 03), St. Thomas, US-Virgin Islands. (Riccardi et Gorin, 1998) G. Riccardi et A. L. Gorin, Stochastic language models for speech recognition and understanding. Dans les actes de International Conference on Spoken Language, Sydney, Australie, 2,087 2,090. (Riloff et Wiebe, 2003) E. Riloff et J. Wiebe, Learning extraction patterns for subjective expressions. Dans les actes de Empirical Methods in Natural Language Processing (EMNLP 03), (Rochery et al., 2001) M. Rochery, R. E. Schapire, M. Rahim, et N. Gupta, Boostexter for text categorization in spoken language dialogue. Dans les actes de IEEE Workshop onautomatic Speech Recognition and Understanding (ASRU 01). 156

157 Bibliographie (Sadek et al., 1996) D. Sadek, A. Ferrieux, A. Cozannet, P. Bretier, F. Panaget, et J. Simonin, Effective human-computer cooperative spoken dialogue : the AGS demonstrator. Dans les actes de International Conference on Spoken Language Processing (ICSLP 96), Philadelphia, Pennsylvanie, USA, (Sarawagi et Cohen, 2005) S. Sarawagi et W. W. Cohen, Semi-markov conditional random fields for information extraction. Advances in Neural Information Processing Systems 17, (Sarikaya et al., 2005) R. Sarikaya, Y. Gao, M. Picheny, et H. Erdogan, Semantic confidence measurement for spoken dialog systems. IEEE Transactions on Speech and Audio Processing 13(4), (Schapire, 1999) R. E. Schapire, A brief introduction to boosting. International Joint Conference on Artificial Intelligence 2, (Schapire et al., 2005) R. E. Schapire, M. Rochery, M. Rahim, et N. Gupta, Boosting with prior knowledge for call classification. IEEE Transactions on Speech and Audio Processing 13(1), (Schapire et Singer, 2000) R. E. Schapire et Y. Singer, BoosTexter : A boostingbased system for text categorization. Machine Learning 39, (Segarra et al., 2002) E. Segarra, E. Sanchis, M. GALIANO, F. GARCIA, et L. HUR- TADO, Extracting semantic information through automatic learning techniques. International Journal of Pattern Recognition and Artificial Intelligence 16(3), (Seneff, 1989) S. Seneff, Tina (1989) : A probabilistic syntactic parser for speech understanding systems. Dans les actes de IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 89), (Seneff, 1992) S. Seneff, TINA : A natural language system for spoken language applications. Computational Linguistics 18(1), (Shannon, 1948) C. Shannon, A mathematical theory of communication. The Bell System Technical Journal 27(3), (Siegel et Castellan, 1988) S. Siegel et J. N. J. Castellan, Nonparametric Statistics for the Behavioural Sciences (Second ed.). New York : McGraw-Hill. (Smith et Niranjan, 2000) N. Smith et M. Niranjan, Data dependent kernels in svm classification of speech patterns. Dans les actes de International Conference on Spoken Language Processing (ICSLP 00), Beijing, China, University of Cambridge, Department of Engineering. (Stoyanov et Cardie, 2006) V. Stoyanov et C. Cardie, Toward opinion summarization : Linking the sources. Dans les actes de Workshop on Sentiment and Subjectivity in Text, Sydney, Australia, Association for Computational Linguistics. 157

158 Bibliographie (Tillé, 2001) Y. Tillé, Théorie des sondages : : échantillonnage et estimation en population finie : cours et exercices avec solutions. Dunod. (Tur et al., 2003) G. Tur, R. E. Schapire, et D. Hakkani-Tür, Active learning for spoken language understanding. Dans les actes de IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 03), Volume 1, (Turney, 2002) P. D. Turney, Thumbs up or thumbs down? : semantic orientation applied to unsupervised classification of reviews. Dans les actes de Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics. (Vapnik, 1982) V. N. Vapnik, Estimation of Dependences Based on Empirical Data. Springer-Verlag New York, Inc. (Vapnik, 1995) V. N. Vapnik, The nature of statistical learning theory. Springer- Verlag New York, Inc. (Vidal et al., 1993) E. Vidal, R. Pieraccini, et E. Levin, Learning associations between grammars : A new approach to natural language understanding. Dans les actes de European Conference on Speech Communication and Technology (EuroSpeech 93), ISCA. (Wan et Campbell, 2000) V. Wan et W. Campbell, Support vector machines for speaker verification and identification. Dans les actes de IEEE Workshop on Neural Networks for Signal Processing, Volume 2, (Wang, 2003) K. Wang, Semantics synchronous understanding for robust spoken language applications. Dans les actes de IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU 03), (Weiss et Freeman, 2001) Y. Weiss et W. Freeman, Correctness of belief propagation in gaussian graphical models of arbitrary topology. Neural Computation 13(10), (Wiebe, 2000) J. Wiebe, Learning subjective adjectives from corpora. Dans les actes de National Conference on Artificial Intelligence and Conference on Innovative Applications of Artificial Intelligence, (Wiebe et al., 2001) J. Wiebe, T. Wilson, et M. Bell, Identifying collocations for recognizing opinions. Dans les actes de ACL/EACL 2001 Workshop on Collocation. (Wiebe et al., 2005) J. Wiebe, T. Wilson, et C. Cardie, Annotationg expressions of opinions and emotions in language. Dans les actes de Language Resources and Evaluation (formely Computers and the Humanities), Volume 39, (Wilson et al., 2005) T. Wilson, J. Wiebe, et P. Hoffmann, Recognizing contextual polarity in phrase-level sentiment analysis. Dans les actes de Human Language Technology/Empirical Methods in Natural Language Processing (HLT/EMNLP 05), Vancouver, Canada,

159 Bibliographie (Wilson et al., 2004) T. Wilson, J. Wiebe, et R. Hwa, Just how mad are you? finding strong and weak opinion clauses. Dans les actes de National Conference on Artificial Intelligence. (Woodland et al., 1998) P. Woodland, T. Hain, S. Johnson, T. Niesler, A. Tuerk, E. Whittaker, et S. Young, The 1997 htk broadcast news transcription system. Dans les actes de Workshop DARPA Broadcast News Transcription and Understanding, (Yu et Hatzivassiloglou, 2003) H. Yu et V. Hatzivassiloglou, Towards answering opinion questions : separating facts from opinions and identifying the polarity of opinion sentences. Dans les actes de Empirical Methods in Natural Language Processing (EMNLP 03), Morristown, NJ, USA, Association for Computational Linguistics. 159

160 Bibliographie 160

161 Publications personnelles Revues internationales CHRISTIAN RAYMOND, FRÉDÉRIC BÉCHET, NATHALIE CAMELIN, RENATO DE MORI, GÉRALDINE DAMNATI (2007). «Sequential decision strategies for machine interpretation of speech». IEEE Transactions on Speech and Audio Processing,vol. 15, no. 1, pp Conférences internationales NATHALIE CAMELIN, FRÉDÉRIC BÉCHET, GÉRALDINE DAMNATI ET RENATO DE MORI (2007). «Speech Mining in Noisy Audio Message Corpus». In Proceedings of the Interspeech conference,august, Antwerp, Belgium FRÉDÉRIC BÉCHET, GÉRALDINE DAMNATI, NATHALIE CAMELIN ET RENATO DE MORI (2006). «Spoken opinion extraction for detecting variations in user satisfaction». IEEE/ACL Workshop on Spoken Language Technology (SLT 06),Décembre, Aruba. NATHALIE CAMELIN GÉRALDINE DAMNATI, FRÉDÉRIC BÉCHET, ET RENATO DE MORI (2006). «Opinion mining in a telephone survey corpus». In Proceedings of the International Conference on Spoken Language Processing (ICSLP 06),September, Pittsburg, USA. CHRISTIAN RAYMOND, FRÉDÉRIC BÉCHET, NATHALIE CAMELIN, RENATO DE MORI ET GÉRALDINE DAMNATI (2005). «Semantic Interpretation With Error Correction». In Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 05), March, Philadelphia, USA. 161

162 Publications personnelles Conférences nationales JUAN MANUEL TORRES-MORENO, MARC EL-BÈZE, FRÉDÉRIC BÉCHET ET NATHA- LIE CAMELIN (2007). «Comment faire pour que l opinion forgée à la sortie des urnes soit la bonne? Application au défi DEFT 2007». Dans les actes de DEFT07, pp , Plate-forme AFIA 2007, Juillet, Grenoble. NATHALIE CAMELIN, FRÉDÉRIC BÉCHET, GÉRALDINE DAMNATI ET RENATO DE MORI (2007). «Analyse automatique de sondages téléphoniques d opinion». Dans les actes de la conférence sur le Traitement Automatique de la Langue Naturelle (TALN 07), Juin, Toulouse. NATHALIE CAMELIN, GÉRALDINE DAMNATI, FRÉDÉRIC BÉCHET ET RENATO DE MORI (2006). «Détection automatique d opinions dans des corpus de messages oraux». Dans les actes des Journées d Etude sur la Parole (JEP 06), Juin, Dinard. Autres publications NATHALIE CAMELIN (2005). «Intégration des méthodes de classification automatique dans les systèmes de dialogue oral téléphonique». Rencontres Jeunes Chercheurs en Parole (RJC 05), Septembre, Toulouse. NATHALIE CAMELIN (2004). «Décodage conceptuel et classification automatique dans les applications de Dialogue Oral téléphoniques». Mémoire de DEA, Luminy, Marseille. 162

163 Annexes 163

164

165 Annexe A Application SCOrange - Étude de la satisfaction globale A.1 Présentation Chaque intervention a été annotée manuellement avec une étiquette sémantique, notée SATGLOB, qui exprime (selon l annotateur) la satisfaction globale du locuteur vis à vis du service-client. La SATGLOB se décompose en trois polarités différentes : plus : Le client est globalement satisfait de la prestation qu il a reçu du serviceclient ; moins : Le client est globalement insatisfait de la prestation qu il a reçu du serviceclient ; neutre : Le client n exprime pas clairement son opinion sur le sujet, notamment, il peut exprimer à la fois un contentement et un mécontentement ou ne pas exprimer du tout son opinion sur le service-client ; Le tableau A.1 met en évidence la répartition des différentes polarités selon le corpus considéré. en % APP TEST plus moins neutre TAB. A.1 Répartition des différentes polarités de la SATGLOB dans les corpus d apprentissage (APP) et de test (TEST). Globalement, les différentes polarités sont réparties de la même manière sur les 2 sous-corpus. On remarque que peu de messages ont été étiquetés neutre. Les 3 classifieurs LIA-SCT, BoosTexter et SVMTorch ont été entraînés sur le corpus d apprentissage, représenté en mots, annoté uniquement selon les polarités de la SAT- 165

166 Annexe A. Application SCOrange - Étude de la satisfaction globale GLOB. Le tableau A.2 rapporte la précision obtenue dans ces expériences. TEST.Man LIA-SCT BoosTexter SVMTorch 64,02 75,60 75,23 Consensus sur 63,08% du corpus : précision = 85,12% TEST.Reco LIA-SCT BoosTexter SVMTorch 61,45 69,16 69,16 Consensus sur 59,35% du corpus : précision = 77,95% TAB. A.2 Évaluation des performances des classifieurs sur la classification de la satisfaction globale selon la précision. La précision avec laquelle on retrouve la SATGLOB n est pas très haute : 75% pour les meilleurs classifieurs avec quand même 85% sur 63% du corpus grâce au consensus des 3 classifieurs. Le passage des interventions transcrites manuellement à celles transcrites automatiquement fait perdre 6% de précision au meilleur classifieur et ne permet plus que d obtenir une précision de 78% sur 60% du corpus avec le consensus. A.2 Détails des erreurs Le tableau A.3 permet d identifier les substitutions. re f classi f TEST.Man TEST.Reco (en %) LIA-SCT BoosTexter SVMTorch LIA-SCT BoosTexter SVMTorch plus moins 47,4 32,7 28,3 43,6 25,8 26,5 plus neutre 2,6 5,3 4,7 1,2 6,8 6,8 moins plus 15,6 24,8 23,6 26,1 29,5 29,5 moins neutre 2,6 2,7 7,5 0 5,3 5,3 neutre plus 11 12,4 13,2 13,9 12,9 12,9 neutre moins 20,8 22,1 22,6 15,2 18,9 18,9 TAB. A.3 Listes des substitutions commises par les classifieurs sur les polarités de la SATGLOB. Les erreurs les plus souvent commises sont la confusion entre une opinion positive et une opinion négative. De 26% à 45% des opinions positives sont reconnues comme des opinions négatives et de 15% à 29% des opinions négatives sont reconnues comme des opinions positives. Ces erreurs peuvent être dues soit à des erreurs d étiquetage par l annotateur référant, soit à une difficulté prononcée de distinguer les opinions entre elles. 166

167 A.3. Accord inter-annotateurs - La mesure Kappa A.3 Accord inter-annotateurs - La mesure Kappa Il est, en effet, très difficile de tester la fiabilité d annotation d un corpus de discours ou de dialogue. Même si les résultats des expériences faites sur de tels corpus sont montrés comme fiables par les chercheurs, il est très difficile de les interpréter ou de les comparer (Carletta, 1996). Des arguments solides ont montrés que la mesure Kappa (K) (Siegel et Castellan, 1988) pouvait être utilisée comme une mesure de fiabilité. Sa formule est la suivante : K = P(A) P(E) 1 P(E) où P(A) représente la probabilité d accord entre les annotateurs et P(E) la probabilité attendue (ou espérée) d accord entre les annotateurs. Pour tester la difficulté d annoter le corpus sur la SATGLOB, nous avons demandé à trois doctorants du laboratoire d annoter environ 68 phrases extraites du corpus d apprentissage. Les résultats sont consignés dans le tableau A.4. Les probabilités ont été calculées de la façon suivante : P(A) = nombre d interventions où les n annotateurs sont d accord nombre d interventions P(E) = nombre d annotations possibles nombre d annotations possibles nombre n d annotateurs mesure Kappa plus,moins,neutre plus,moins Nb phrases annotateurs + annotateur référant 0,59 0,9 3 annotateurs 0,77 1 TAB. A.4 Évaluation de la mesure K. La mesure Kappa donne un résultat entre 0 et 1. Plus on est proche de 1, plus il semble facile d annoter le corpus (c est à dire moins la subjectivité perturbe l annotation). On remarque que si, apparemment, l annotateur référant n a pas le même point de vue que les doctorants du laboratoire (peut-être a t-il eu des indications d annotations spécifiques?), sur les 68 phrases ré-annotées par les doctorants, il est possible d obtenir un K satisfaisant de 0,77. En revanche, tout le monde s accorde sur la polarité d une phrase lorsqu il s agit de savoir si celle-ci exprime une opinion positive ou négative. 167

168 Annexe A. Application SCOrange - Étude de la satisfaction globale A.4 Test de la SATGLOB sur le sous-corpus TEST contenant seulement les polarités plus et moins On choisit alors de ne considérer que les phrases exprimant une opinion positive ou négative (c est à dire le cas où nous avons trouvé un K = 1). La couverture du corpus TEST est alors de 88,55%. La précision (en %) est consignée dans le tableau A.5 : TEST.Man LIA-SCT BoosTexter SVMTorch 72,30 80,48 82,06 Consensus sur 65,96% du corpus : précision = 92,00% TEST.Reco LIA-SCT BoosTexter SVMTorch 69,13 76,25 76,25 Consensus sur 60,69% du corpus : précision = 86,09% TAB. A.5 Performance des classifieurs sur le sous-corpus n exprimant que des polarités positives ou négatives. Les résultats sur ce sous-corpus sont nettement meilleurs que celui contenant toutes les polarités différentes pour la SATGLOB. En effet, sur les 3 polarités possibles (plus, moins, neutre), on n en considère plus que 2 (plus et moins). Sur les 6 types d erreurs possibles (voir tableau des types d erreurs), on n en considère alors plus que 2 (plus moins et moins plus). Sur les transcriptions manuelles, on obtient alors une précision de 82% pour le meilleur classifieur et une précision de 92% sur 66% du corpus en considérant le consensus. En comparant ces résultats avec ceux obtenus sur la totalité du corpus, on observe un gain absolue de 8% pour le meilleur classifieur (soit une baisse relative de 26% du taux d erreur) et un gain absolue d également 8% pour le consensus (soit une baisse relative de 46,6% du taux d erreur). Ces résultats ont été obtenus en ne considérant que les phrases étiquetées SAT- GLOB_plus et SATGLOB_moins mais sur un modèle appris sur l ensemble des phrases. Les résultats seraient sûrement encore meilleurs avec un modèle également appris sur ce sous-ensemble de phrase. A.5 Précision de la SATGLOB en fonction du nombre de thèmes exprimés Il semble donc qu il soit plus difficile de déterminer la satisfaction globale lorsque l on considère plus de 2 polarités possibles. Quand est-il si d autres thèmes que la satisfaction globale sont exprimés dans la phrase? 168

169 A.5. Précision de la SATGLOB en fonction du nombre de thèmes exprimés On considère dans la figure A.1 les 3 thèmes (Accueil, Attente, Efficacité) en plus de la SATGLOB et on estime la précision des classifieurs à l évaluer correct % SatGlob+0 crit,ref SatGlob+0 crit,asr SatGlob+1 crit,ref SatGlob+1 crit,asr SatGlob+2 crit,ref SatGlob+2 crit,asr # words FIG. A.1 Estimation de la précision en fonction à la fois du nombre de mots du messages et du nombre de thèmes exprimés. Légende : l annotation ref correspond à la transcription manuelle, l annotation asr correspond à la transcription automatique et l annotation crit correspond à un thème. On remarque que lorsque aucun thème n est exprimé dans la phrase, la précision sur la SATGLOB est très mauvaise. Il peut s agir d interventions totalement hors-sujet qui sont mal cernées par les modèles des classifieurs. Pour un seul thème exprimé en plus de la SATGLOB, on obtient les meilleurs résultats. En revanche, plus il y a de thèmes présents dans la phrase, plus la précision de la SATGLOB décroit. 169

170 Annexe A. Application SCOrange - Étude de la satisfaction globale 170

171 Annexe B Application SCOrange - Expériences sur les grappen B.1 Avant-propos : Convertir les scores de BoosTexter en probabilités Les expériences précédentes ont montré qu aucun des classifieurs ne se démarquait réellement des autres par ses performances. Afin de ne pas alourdir les calculs, nous n utiliserons plus que BoosTexter ((Schapire et Singer, 2000)) dans les expériences suivantes. Le choix de l utilisation de BoosTexter par rapport aux deux autres classifieurs s expliquent par 4 raisons majeures : 1. Adaptation à notre tâche : Les décisions de classification sont prises sur des mots ; 2. Facilité d utilisation : BoosTexter est très facile d utilisation, tant dans le format des fichiers d entrée que dans l exécution ou la récupération des résultats ; 3. Format d entrée : Plusieurs formats d entrée sont pris en charge : texte, texte pondéré, nombres entiers ou continus,... ; 4. Format de sortie : BoosTexter donne un score à chaque étiquette recherchée. Ces scores à valeurs réelles peuvent par une fonction logistique être convertis en probabilité, plus faciles à comparer dans un processus de décision. Ainsi la quantité : e f (x) peut être vue comme la probabilité pour x d appartenir à la classe +1 ((Rochery et al., 2001)) ou dans notre cas : 1 P(h x) = 1 + e f (x) 171

172 Annexe B. Application SCOrange - Expériences sur les grappen est la probabilité pour x d appartenir à l hypothèse h. Il s agit maintenant de déterminer la fonction f (x). En considérant le score de Boos- Texter x comme une mesure de confiance, selon (Charlet et al., 2001), cette fonction est linéaire f (x) = a + bx. On souhaite alors estimer l impact de cette mesure de confiance sur notre système. Pour cela, nous utilisons le critère de la campagne NIST qui est la Normalized Cross Entropy. Soit un corpus C étiqueté par BoosTexter : Soit n le nombre d hypothèses correcte sur ce corpus, Soit N le nombre d hypothèses totales données par BoosTexter, Soit P c la probabilité a posteriori qu une hypothèse n soit correcte telle que P c = n/n Soit H max l entropie maximale telle que : Hmax = n log 2 (P c ) (N n) log 2 (1 P c ) Il s agit alors de choisir a et b de manière à maximiser NCE, tel que : ( ) ) 1 1 Hmax + c(i) log e NCE = (a+b score i ) w(i) log 2 (1 1+e (a+b score j ) Hmax où c(i)=ensemble des réponses correctes et w(i)=ensemble des réponses incorrectes. Nous avons déterminé les valeurs des deux variables de façon empirique en testant plusieurs valeurs : et pour obtenir a = et b = a {min = 0.15, max = 0.2, pas = 0.001} b {min = 72, max = 75, pas = 0.015} Lors de la classification d une grappen par BoosTexter, on obtient un score par hypothèse. La probabilité d une hypothèse h sachant une grappen k est alors donnée par : P(h k) = e ( scoreh k ) (B.1) B.2 Premières expériences B.2.1 Protocole 1. Dans chaque message, les grappen sont recherchées. L ensemble des grappen du corpus d apprentissage est passé à BoosTexter afin de créer un modèle permettant de donner un score pour chaque étiquette recherchée à une grappen. 2. Chaque message du corpus de développement est segmenté en grappen. 3. Chaque grappen est classée par BoosTexter qui donne un score pour chaque étiquette. 172

173 B.3. GrappeN et modèle de langage 4. Les scores de BoosTexter sont convertis en probabilité selon l équation B.1 5. Le score d une hypothèse selon un message est alors calculé ainsi : Soit le message m composé de K grappen : m = Grappe 1 Grappe 2... Grappe K, Soit H l ensemble des hypothèses recherchées avec H = {Acc+, E f f +,..., Autr }, La probabilité de l hypothèse h sachant le message m est : P(h m) = 1 K k=1 (1 P(h GrappeN k )) Le choix des hypothèses pour un message peut alors se faire en fonction d un seuil sur la probabilité. Plusieurs expériences ont été menées avec des N allant de 0 à 5. En effet, au delà de 5, il n y avait plus de réelle segmentation puisque généralement toute la phrase était contenue dans une seule grappe(> 5). Pour une question de lisibilité des résultats seuls les résultats avec N = 4 sont présentés, globalement ce sont les meilleurs. B.2.2 Évaluation Les résultats obtenus pour ces expériences sont illustrés par la figure B.1 pour le corpus TEST.Man et par la figure B.2 pour le corpus TEST.Reco. Les résultats obtenus sur ces expériences montrent bien qu un seuil sur la probabilité de BoosTexter nous permet de "choisir" la forme des résultats. En effet, par exemple un seuil inférieur à 0.4 nous permet d obtenir un fort rappel tandis qu un seuil supérieur à 0.6 nous permet d obtenir une meilleure précision. On remarque que la meilleure fmesure est obtenue pour un seuil avoisinant les donc un peu en dessous du seuil de 0.5 que l on fixe par défaut dans nos expériences. Les résultats obtenus dans ces expériences ne nous permettent pas d obtenir de meilleures performances que ceux des expériences précédentes. Le modèle permettant de classer les grappen n est-il pas assez performant ou le choix de calcul de la probabilité pour un message sachant les probabilités des grappen le composant n est-il pas adapté à notre problème? B.3 GrappeN et modèle de langage L idée est maintenant de modéliser l enchaînement des étiquettes selon les grappen. B.3.1 Protocole On notera segmenti N, une séquence de mots correspondant à une expression subjective annotée manuellement. 173

174 Annexe B. Application SCOrange - Expériences sur les grappen prec, grappe4 rap, grappe4 fmes, grappe correct % seuil boost FIG. B.1 Résultats du premier protocole appliqué à TEST.Man. Étape 1 : Chaque message du corpus d apprentissage est segmenté selon l ensemble des grappen qu il contient. Une étiquette est associée à chaque grappen de la façon suivante : lorsqu il y a chevauchement avec un segmentin, l étiquette du segmentin est donnée à la grappen. En cas de chevauchement avec plusieurs segmentin ou avec un segmentin contenant plusieurs étiquettes, c est l étiquette majoritaire dans le corpus qui est choisie. Lorsque la grappen ne chevauche aucun segmenti N, son étiquette est NULL. Cette étape est représentée par la figure B.1 NULL NULL satseracc TAB. B.1 Étape 1 du protocole de construction du modèle de langage sur les grappen. 174

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Cette Leçon va remplir ces attentes spécifiques du curriculum :

Cette Leçon va remplir ces attentes spécifiques du curriculum : Dev4Plan1 Le Plan De Leçon 1. Information : Course : Français Cadre Niveau : Septième Année Unité : Mes Relations Interpersonnelles Thème du Leçon : Les Adjectifs Descriptifs Date : Temps : 55 minutes

Plus en détail

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations U Université dumaine Faculté des Lettres, Langues et Sciences humaines Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations Carole Lailler 1 L interrogation : une modalité

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches Niveau C1 Descripteur global Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches La personne peut : comprendre en détail de longs discours et des échanges complexes

Plus en détail

N 334 - SIMON Anne-Catherine

N 334 - SIMON Anne-Catherine N 334 - SIMON Anne-Catherine RÉALISATION D UN CDROM/DVD CONTENANT DES DONNÉES DU LANGAGE ORAL ORGANISÉES EN PARCOURS DIDACTIQUES D INITIATION LINGUISTIQUE A PARTIR DES BASES DE DONNÉES VALIBEL Introduction

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP Frédéric Aman, Michel Vacher, Solange Rossato, Remus Dugheanu, François Portet,

Plus en détail

Le modèle standard, SPE (1/8)

Le modèle standard, SPE (1/8) Le modèle standard, SPE (1/8) Rappel : notion de grammaire mentale modulaire Les composants de la grammaire : module phonologique, sémantique syntaxique Syntaxe première : elle orchestre la relation mentale

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008 Master IAD Module PS Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique Gaël RICHARD Février 2008 1 Reconnaissance de la parole Introduction Approches pour la reconnaissance

Plus en détail

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole ÉCOLE DOCTORALE SCIENCES ET TECHNOLOGIES (ORLEANS) FACULTÉ de TECHNOLOGIE (Sétif) Laboratoire PRISME THÈSE EN COTUTELLE INTERNATIONALE présentée par : Abdenour Hacine-Gharbi soutenue le : 09 décembre 2012

Plus en détail

Forthcoming Database

Forthcoming Database DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of

Plus en détail

Évaluation et implémentation des langages

Évaluation et implémentation des langages Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation

Plus en détail

FAQ Foire aux questions. Sur cette page, vous trouverez les réponses à toutes vos questions relatives aux études de la musique en Europe.

FAQ Foire aux questions. Sur cette page, vous trouverez les réponses à toutes vos questions relatives aux études de la musique en Europe. FAQ Foire aux questions Sur cette page, vous trouverez les réponses à toutes vos questions relatives aux études de la musique en Europe. FAQ Foire aux questions POURQUOI MOI? 1. Pourquoi entreprendre des

Plus en détail

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES référence pour les langues ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES Activités de production et stratégies PRODUCTION ORALE GÉNÉRALE MONOLOGUE SUIVI : décrire l'expérience MONOLOGUE SUIVI : argumenter

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES Activités de production et stratégies PRODUCTION ORALE MONOLOGUE SUIVI

Plus en détail

L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s

L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s Stéphane Safin Psychologue - Ergonome Lucid Group -

Plus en détail

ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT

ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT SPÉCIALITÉ : Informatique École Doctorale 503 «Sciences et Technologies de l Information

Plus en détail

Projet de Master en Informatique: Web WriteIt!

Projet de Master en Informatique: Web WriteIt! Projet de Master en Informatique: Web WriteIt! Web WriteIt! Baris Ulucinar Supervisé par le Prof. Rolf Ingold, Dr. Jean Hennebert, Andreas Humm et Robert Van Kommer Avril 2007 Table des matières 2 1. Introduction

Plus en détail

I. LE CAS CHOISI PROBLEMATIQUE

I. LE CAS CHOISI PROBLEMATIQUE I. LE CAS CHOISI Gloria est une élève en EB4. C est une fille brune, mince avec un visage triste. Elle est timide, peureuse et peu autonome mais elle est en même temps, sensible, serviable et attentive

Plus en détail

MCMC et approximations en champ moyen pour les modèles de Markov

MCMC et approximations en champ moyen pour les modèles de Markov MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

4. SERVICES WEB REST 46

4. SERVICES WEB REST 46 4. SERVICES WEB REST 46 REST REST acronyme de REpresentational State Transfert Concept introduit en 2000 dans la thèse de Roy FIELDING Est un style d architecture inspiré de l architecture WEB En 2010,

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Détection et reconnaissance des sons pour la surveillance médicale Dan Istrate le 16 décembre 2003 Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Thèse mené dans le cadre d une collaboration

Plus en détail

Reconnaissance automatique de la parole à l aide de colonies de fourmis

Reconnaissance automatique de la parole à l aide de colonies de fourmis Reconnaissance automatique de la parole à l aide de colonies de fourmis Benjamin Lecouteux Didier Schwab Groupe d Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole Laboratoire

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

E-Gen : traitement automatique des offres d emploi

E-Gen : traitement automatique des offres d emploi 591 E-Gen : traitement automatique des offres d emploi Rémy Kessler 1, 2, Marc El-Bèze 1 1 Laboratoire Informatique d Avignon, BP 1228 F-84911 Avignon Cedex 9 FRANCE 2 AKTOR Interactive Parc Technologique

Plus en détail

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree French Programme of Studies (for courses commencing October 2009 and later) YEAR ONE (2009/10) Year (These units start in and continue in.) FRE1001 Linguistique théorique 1 4 credits Non Compensatable

Plus en détail

Prototype de canal caché dans le DNS

Prototype de canal caché dans le DNS Manuscrit auteur, publié dans "Colloque Francophone sur l Ingénierie des Protocoles (CFIP), Les Arcs : France (2008)" Prototype de canal caché dans le DNS Lucas Nussbaum et Olivier Richard Laboratoire

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Mon Odyssée Lean Startup

Mon Odyssée Lean Startup Mon Odyssée Lean Startup Qui n a jamais rêvé de lancer sa petite entreprise sans risques? Voici mon expérience grâce au Lean Startup. Nicolas Deverge This book is for sale at http://leanpub.com/myleanstartupjourney-fr

Plus en détail

MASTER LPL : LANGUE ET INFORMATIQUE (P)

MASTER LPL : LANGUE ET INFORMATIQUE (P) MASTER LPL : LANGUE ET INFORMATIQUE (P) RÉSUMÉ DE LA FORMATION Type de diplôme := Master Domaine : Arts, Lettres, Langues Mention : LITTERATURE, PHILOLOGIE, LINGUISTIQUE Spécialité : LANGUE ET INFORMATIQUE

Plus en détail

Theme Sensorial marketing, from stores to Internet : retailers and sensorial marketing integration in multichannel distribution management.

Theme Sensorial marketing, from stores to Internet : retailers and sensorial marketing integration in multichannel distribution management. Les enseignes spécialisées et l intégration du marketing sensoriel dans l approche multicanale de leur distribution. Fanny NOYELLE Année Universitaire 2007 / 2008 ESUPCOM Lille Directeurs de mémoire :

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Modélisation du comportement habituel de la personne en smarthome

Modélisation du comportement habituel de la personne en smarthome Modélisation du comportement habituel de la personne en smarthome Arnaud Paris, Selma Arbaoui, Nathalie Cislo, Adnen El-Amraoui, Nacim Ramdani Université d Orléans, INSA-CVL, Laboratoire PRISME 26 mai

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre 2001. Student Assessment and Program Evaluation Branch

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre 2001. Student Assessment and Program Evaluation Branch Principes de mathématiques 12 SÉRIE DE PROBLÈMES Septembre 2001 Student Assessment and Program Evaluation Branch REMERCIEMENTS Le Ministère de l Éducation tient à remercier chaleureusement les professionnels

Plus en détail

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait La syllabe (1/5) Unité intuitive (différent du phonème) Variation des structures syllabiques d une langue à une autre et dans une même langue (cf strict vs à : une seule syllabe mais des structures bien

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par. École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Format de l avis d efficience

Format de l avis d efficience AVIS D EFFICIENCE Format de l avis d efficience Juillet 2013 Commission évaluation économique et de santé publique Ce document est téléchargeable sur www.has-sante.fr Haute Autorité de santé Service documentation

Plus en détail

ÉVALUATION DE L UTILISABILITÉ D UN SITE WEB : TESTS D UTILISABILITÉ VERSUS ÉVALUATION HEURISTIQUE

ÉVALUATION DE L UTILISABILITÉ D UN SITE WEB : TESTS D UTILISABILITÉ VERSUS ÉVALUATION HEURISTIQUE ÉVALUATION DE L UTILISABILITÉ D UN SITE WEB : TESTS D UTILISABILITÉ VERSUS ÉVALUATION HEURISTIQUE BOUTIN MARIO Centre de recherche informatique de Montréal (CRIM), 550, rue Sherbrooke Ouest, Bureau 100,

Plus en détail

CHAPITRE 5. Stratégies Mixtes

CHAPITRE 5. Stratégies Mixtes CHAPITRE 5 Stratégies Mixtes Un des problèmes inhérents au concept d équilibre de Nash en stratégies pures est que pour certains jeux, de tels équilibres n existent pas. P.ex.le jeu de Pierre, Papier,

Plus en détail

Document d aide au suivi scolaire

Document d aide au suivi scolaire Document d aide au suivi scolaire Ecoles Famille Le lien Enfant D une école à l autre «Enfants du voyage et de familles non sédentaires» Nom :... Prénom(s) :... Date de naissance :... Ce document garde

Plus en détail

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN) COMMENTAIRE Séminaire national Réforme de la série Gestion-administration Lyon 10 et 11 mai 2012 Vendredi matin Martine DECONINCK (IEN EG), Michèle SENDRE (IEN L), Isabelle VALLOT (IEN EG) Diapo 1. Objet

Plus en détail

Apprentissage statistique dans les graphes et les réseaux sociaux

Apprentissage statistique dans les graphes et les réseaux sociaux Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique

Plus en détail

Et avant, c était comment?

Et avant, c était comment? 3 Et avant, c était comment? Objectifs de l unité Tâche La première partie de l évaluation comprend une tâche, QUELS CHANGEMENTS!, divisée en quatre phases. Dans la première phase, il s agit d écouter

Plus en détail

plate-forme PaaS (Audit)

plate-forme PaaS (Audit) Contrôle d accès dans une plate-forme PaaS (Audit) Ahmed BOUCHAMI, Olivier PERRIN, LORIA Introduction La sécurité d une plate-forme collaborative nécessite un module d authentification et un module de

Plus en détail

Annexe 6. Notions d ordonnancement.

Annexe 6. Notions d ordonnancement. Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. Sophie.Demassey@mines-nantes.fr Résumé Ce document

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

Qu est-ce que la communication?

Qu est-ce que la communication? Ressources Qu est-ce que la communication? Fiche 24 Du latin «comunicare», qui veut dire «être en commun» ou «être en relation», la communication a fait l objet de recherches et d études pour devenir une

Plus en détail

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION THÈSE N O 2388 (2001) PRÉSENTÉE AU DÉPARTEMENT D'INFORMATIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE

Plus en détail

Introduction à la théorie des files d'attente. Claude Chaudet Claude.Chaudet@enst.fr

Introduction à la théorie des files d'attente. Claude Chaudet Claude.Chaudet@enst.fr Introduction à la théorie des files d'attente Claude Chaudet Claude.Chaudet@enst.fr La théorie des files d'attente... Principe: modélisation mathématique de l accès à une ressource partagée Exemples réseaux

Plus en détail

Les cinq premiers pas pour devenir vraiment agile à XP Day Suisse 2009 par Pascal Van Cauwenberghe et Portia Tung: La Rétrospective

Les cinq premiers pas pour devenir vraiment agile à XP Day Suisse 2009 par Pascal Van Cauwenberghe et Portia Tung: La Rétrospective Ce qui était bien Ce qui n était pas bien Questions J ai appris Bon résumé des valeurs Simplicité du format Présentateurs sympathiques et joie communicative Bonbons Utilisation réelle du feedback Présentation

Plus en détail

SQL Parser XML Xquery : Approche de détection des injections SQL

SQL Parser XML Xquery : Approche de détection des injections SQL SQL Parser XML Xquery : Approche de détection des injections SQL Ramahefy T.R. 1, Rakotomiraho S. 2, Rabeherimanana L. 3 Laboratoire de Recherche Systèmes Embarqués, Instrumentation et Modélisation des

Plus en détail

M1 : Ingénierie du Logiciel

M1 : Ingénierie du Logiciel M1 : Ingénierie du Logiciel UNIVERSITE PIERRE & MARIE CURIE (PARIS VI) Examen Réparti 2eme partie 16 Mai 2013 (2 heures avec documents : tous SAUF ANNALES CORRIGEES). Barème indicatif sur 20,5 points (max

Plus en détail

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières FONDEMENTS MATHÉMATIQUES 12 E ANNÉE Mathématiques financières A1. Résoudre des problèmes comportant des intérêts composés dans la prise de décisions financières. [C, L, RP, T, V] Résultat d apprentissage

Plus en détail

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Gwenole Fortin To cite this version: Gwenole Fortin. Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence. 2006.

Plus en détail

Le Crédit-bail mobilier dans les procédures collectives

Le Crédit-bail mobilier dans les procédures collectives Aimé Diaka Le Crédit-bail mobilier dans les procédures collectives Publibook Retrouvez notre catalogue sur le site des Éditions Publibook : http://www.publibook.com Ce texte publié par les Éditions Publibook

Plus en détail

Etudier l informatique

Etudier l informatique Etudier l informatique à l Université de Genève 2015-2016 Les bonnes raisons d étudier l informatique à l UNIGE La participation à des dizaines de projets de recherche européens Dans la présente brochure,

Plus en détail

Intervenir sur les interactions parents-enfants dans un contexte muséal scientifique

Intervenir sur les interactions parents-enfants dans un contexte muséal scientifique Intervenir sur les interactions parents-enfants dans un contexte muséal scientifique Rodica AILINCAI, doctorante, Laboratoire «Éducation et Apprentissages», Université Paris 5 René Descartes Annick WEIL-BARAIS,

Plus en détail

Emploi du temps prévisionnel

Emploi du temps prévisionnel 1 Emploi du temps prévisionnel 1. Séances de cours et d exercices Nous aurons cours ensemble : tous les mercredis matins du 28 septembre au 7 décembre inclus, à l exception du mercredi 2 novembre, libéré

Plus en détail

Application Form/ Formulaire de demande

Application Form/ Formulaire de demande Application Form/ Formulaire de demande Ecosystem Approaches to Health: Summer Workshop and Field school Approches écosystémiques de la santé: Atelier intensif et stage d été Please submit your application

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

REVISION DE LA DIRECTIVE ABUS DE MARCHE

REVISION DE LA DIRECTIVE ABUS DE MARCHE REVISION DE LA DIRECTIVE ABUS DE MARCHE Principaux changements attendus 1 Le contexte La directive Abus de marché a huit ans (2003) Régimes de sanctions disparates dans l Union Harmonisation nécessaire

Plus en détail

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions Exemple accessible via une interface Web Une base de données consultable en ligne : Bases de données et systèmes de gestion de bases de données The Trans-atlantic slave trade database: http://www.slavevoyages.org/tast/index.faces

Plus en détail

ANALYSE DU RISQUE DE CRÉDIT

ANALYSE DU RISQUE DE CRÉDIT ANALYSE DU RISQUE DE CRÉDIT Banque & Marchés Cécile Kharoubi Professeur de Finance ESCP Europe Philippe Thomas Professeur de Finance ESCP Europe TABLE DES MATIÈRES Introduction... 15 Chapitre 1 Le risque

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Roger pour la maison et la vie sociale. Combler le manque de compréhension

Roger pour la maison et la vie sociale. Combler le manque de compréhension Roger pour la maison et la vie sociale Combler le manque de compréhension Profiter pleinement des moments qui comptent le plus La technologie moderne des aides auditives permet aux utilisateurs d entendre

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

RAPID 3.34 - Prenez le contrôle sur vos données

RAPID 3.34 - Prenez le contrôle sur vos données RAPID 3.34 - Prenez le contrôle sur vos données Parmi les fonctions les plus demandées par nos utilisateurs, la navigation au clavier et la possibilité de disposer de champs supplémentaires arrivent aux

Plus en détail

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178 Thèse no. 7178 PROBLEMES D'OPTIMISATION DANS LES SYSTEMES DE CHAUFFAGE A DISTANCE présentée à l'ecole POLYTECHNIQUE FEDERALE DE ZURICH pour l'obtention du titre de Docteur es sciences naturelles par Alain

Plus en détail

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Modèles à Événements Discrets. Réseaux de Petri Stochastiques Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés

Plus en détail

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Calculer avec Sage. Revision : 417 du 1 er juillet 2010 Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1

Plus en détail

COMMENT REDIGER UN RAPPORT TECHNIQUE?

COMMENT REDIGER UN RAPPORT TECHNIQUE? COMMENT REDIGER UN RAPPORT TECHNIQUE? Christiaens Sébastien Université de Liège Département PROMETHEE Institut de Mécanique et de Génie Civil, Bât. B52 Chemin des Chevreuils, 1 B-4000 Liège, Belgique Janvier

Plus en détail

Modernisation et gestion de portefeuilles d applications bancaires

Modernisation et gestion de portefeuilles d applications bancaires Modernisation et gestion de portefeuilles d applications bancaires Principaux défis et facteurs de réussite Dans le cadre de leurs plans stratégiques à long terme, les banques cherchent à tirer profit

Plus en détail

Cours de Master Recherche

Cours de Master Recherche Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

Face Recognition Performance: Man vs. Machine

Face Recognition Performance: Man vs. Machine 1 Face Recognition Performance: Man vs. Machine Andy Adler Systems and Computer Engineering Carleton University, Ottawa, Canada Are these the same person? 2 3 Same person? Yes I have just demonstrated

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Portail Vocal d Entreprise

Portail Vocal d Entreprise Portail Vocal d Entreprise Responsable et intégration IBM Communication Langagière et Interaction Personne-Système CNRS - INPG - UJF BP 53-38041 Grenoble Cedex 9 - France Conception, maquette Évaluation

Plus en détail

FEN FICHE EMPLOIS NUISANCES

FEN FICHE EMPLOIS NUISANCES Version 4.8.2 Date mise à jour : 19 Février 2013 Auteur : LAFUMA Gilles Email : glfm02@orange.fr Web : www.procarla.fr/soft Présentation : FEN FICHE EMPLOIS NUISANCES Le Logiciel FEN Fiche emploi nuisance

Plus en détail

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1 Introduction Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1 L auteur remercie Mme Sylvie Gervais, Ph.D., maître

Plus en détail

Parcours en deuxième année

Parcours en deuxième année Parcours en deuxième année Unités d Enseignement (UE) ECTS Ingénierie des réseaux haut 4 débit Sécurité des réseaux et 4 télécoms Réseaux mobiles et sans fil 4 Réseaux télécoms et 4 convergence IP Infrastructure

Plus en détail

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs! CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE Information importante : Ces conseils ne sont pas exhaustifs! Conseils généraux : Entre 25 et 60 pages (hormis références, annexes, résumé) Format d un

Plus en détail