Contributions à la reconnaissance robuste de la parole

Dimension: px
Commencer à balayer dès la page:

Download "Contributions à la reconnaissance robuste de la parole"

Transcription

1 École doctorale IAE + M Département de formation doctorale en informatique Contributions à la reconnaissance robuste de la parole Mémoire présenté et soutenu publiquement le 8 décembre 2005 pour l obtention de l habilitation à diriger les recherches de l Université Nancy 2 (spécialité informatique) par Irina Illina Composition du jury Rapporteurs : Régine André-Obrecht, Professeur, Université Toulouse 1 Jean-Pierre Martens, Professeur, Université de Gent, Belgique Jean-François Bonastre, HDR, Maître de conférences, Université d Avignon Examinateurs : Jean-François Mari, Professeur, Université Nancy 2 Jeanine Souquières, Professeur, Université Nancy 2 Directeur d habilitation : Jean-Paul Haton, Professeur, Université Henri Poincaré, Nancy 1 Laboratoire Lorrain de Recherche en Informatique et ses Applications UMR 7503

2

3 Table des matières Avant-propos 1 1 Introduction Des systèmes à base de connaissances vers l approche stochastique A propos de ce document I Dossier de présentation 7 2 Curriculum Vitæ Études et diplômes Fonctions Recherche Enseignement Liste des publications Résumé des recherches Introduction Travaux de thèse Robustesse au bruit et au locuteur Exploration de documents radiophoniques Collaborations extérieures et implication dans des projets Projet STIC-SHS RAIVES Campagne d évaluation ESTER Collaboration avec PRESSE Projet Européen HIWIRE Conclusion i

4 ii Table des matières II Synthèse de recherches 25 4 Modélisation acoustique de la parole Le problème de la reconnaissance Développement d un modèle acoustique Conclusion Vers la reconnaissance robuste au bruit Introduction à la reconnaissance robuste Bruit additif et convolutif, stationnaire et non stationnaire Prise en compte des différences entre les conditions de test et celles d apprentissage Modélisation de la parole bruitée dans le cadre de la compensation Génération des vecteurs acoustiques Modélisation de la parole bruitée Les méthodes de compensation Notre contribution à la compensation du bruit stationnaire Introduction Compensation en temps réel basée sur le Stochastic Matching Égalisation par histogrammes Notre contribution à la compensation du bruit non stationnaire Introduction Compensation temps réel fondée sur le Stochastic Matching Détection de changement d environnement Méthodes de surveillance Comparaison des approches de surveillance Masquage du bruit Conclusion et perspectives Vers la reconnaissance robuste au locuteur Introduction La reconnaissance robuste au locuteur Modèles dépendant du locuteur Modèles indépendant du locuteur Adaptation au locuteur Adaptation basée sur la classification des locuteurs d apprentissage Notre contribution à la reconnaissance robuste au locuteur Reconnaissance de la parole des locuteurs non natifs

5 iii 6.5 Notre contribution à la reconnaissance de la parole des locuteurs non natifs Conclusion et perspectives Cas réel : un système de transcription d émissions radiophoniques Introduction La transcription d émissions radiophoniques ESTER Une campagne d évaluation La campagne d évaluation ESTER Le corpus ESTER Le système ANTS du LORIA Le module de segmentation en événements sonores Le module de reconnaissance Mise en œuvre du système Apprentissage des modèles acoustiques Apprentissage des modèles de langage Validation du système Résultats expérimentaux Conclusion et perspectives Conclusion et perspectives Conclusion Perspectives Perspectives en reconnaissance de la parole Perspectives en reconnaissance robuste de la parole Annexe Corpus VODIS Corpus Aurora Corpus HIWIRE Le modèle acoustique utilisé dans notre travail F-mesure Bibliographie 101

6

7 Table des figures 4.1 Processus de génération des observations Exemple des modèles Histogrammes des durées des observations réelles du phonème anglais /ae/ et de celles générées par son modèle HMM à un état. Le corpus d apprentissage est TIMIT Histogrammes des durées des observations réelles du phonème anglais /ae/ et de celles générées par son modèle HMM à trois état. Le corpus d apprentissage est TIMIT Histogramme des durées des observations réelles (en nombre de trames de 10 ms) du phonème anglais /B/ et son approximation par une distribution normale et la distribution Gamma. Le corpus d apprentissage est Wall Street Journal Histogramme du 2-ème coefficient de cepstre d un ensemble de vecteurs d observations associés au deuxième état du HMM et son approximation à l aide d une gaussienne Histogramme du 2-ème coefficient de cepstre d un ensemble de vecteurs d observations associés au deuxième état du HMM et son approximation à l aide du mélange de deux gaussiennes Schéma d apprentissage des paramètres d un HMM en utilisant la méthode de Baum-Welch Exemple de partage des paramètres au niveau d un état entre différents triphones du phonème anglais /ih/ Spectrogrammes du morceau de phrase «Six cent cinquante-huit», prononcé par un homme dans l habitacle d une voiture en mouvement (parole bruitée) (a) - Spectrogramme du morceau de phrase «Il ne fallait pas que le vote sur la Turquie...», prononcée par une femme dans un environnement calme (parole propre). (b) - Spectrogramme du morceau de phrase «C est occasionnel, les vacances...», prononcé par une femme au téléphone Spectrogramme de la partie de phrase «France Info à Amiens», prononcée par une femme sur fond musical Distribution de δ pour la deuxième dimension cepstrale pour la parole propre (close-talk) et bruitée (far-talk) Exemples de spectrogrammes de phrases de test VODIS artificiellement corrompues par les bruits de façon échelon et aléatoire Réduction du taux d erreur en mots pour l épreuve échelon en fonction de l approche de surveillance utilisée : sans approche de surveillance (biais, Shewart, BIC et SVF. Le corpus VODIS v

8 vi Table des figures 5.7 Réduction du taux d erreur en mot pour l épreuve aléatoire en fonction de l approche de surveillance utilisée : sans approche de surveillance (biais, Shewart, BIC et SVF. Le corpus VODIS Modèle de phonèmes et modèle de masques Schéma général de l adaptation des modèles acoustiques Schéma général d un algorithme génétique Schéma d extraction de règles de confusion de phonèmes Structure de HMM modifié pour la diphtongue anglaise /t / Architecture du système ANTS du LORIA Exemple de segmentation parole/musique. Le corpus ESTER, système ANTS Topologie utilisée du HMM

9 Avant-propos Ce document est constitué de deux parties indépendantes : le dossier de présentation et la synthèse de travaux de recherche. La première partie contient une présentation de mes activités : un bref curriculum vitæ, le résumé de mes travaux de recherche et de mes encadrements suivi par la liste de publications. La deuxième partie est consacrée à la description plus détaillée des domaines dans lesquels se situent mes travaux de recherche ainsi qu à la présentation de contributions dans ce domaine. 1

10

11 Chapitre 1 Introduction La reconnaissance automatique de la parole est le processus par lequel un ordinateur transforme un signal acoustique de parole en texte ou en action. Plusieurs problèmes font de la reconnaissance automatique de la parole un domaine difficile et résolu de façon seulement partielle à l heure actuelle : Le signal de parole présente différents types de variabilité : variabilité intra-locuteur due au mode d élocution, variabilité inter-locuteur due aux différences entre locuteurs, variabilité due au moyen d acquisition du signal (type de microphone), de transmission du signal ou aux différences entre environnements acoustiques (présence de bruits, etc.). Chaque son élémentaire ou phonème peut être modifié par son contexte : le phonème qui le précède et celui qui lui succède. Il est difficile de déterminer combien de mots sont présents dans la phrase et où se trouvent les frontières entre eux. Il est nécessaire de traiter une grande quantité de données ce qui entraîne une grande complexité des calculs ou bien l utilisation d algorithmes de traitements sélectifs. Ces problèmes font de la reconnaissance automatique de la parole un domaine particulier, utilisant des méthodes informatiques spécifiques et un formalisme mathématique adapté. Ce domaine est étroitement lié à ceux du traitement du signal, de l intelligence artificielle (IA) et de la reconnaissance de formes. Selon [Zavaliagkos, 1995], les spécificités de la reconnaissance de la parole par rapport au problème de reconnaissance des formes en général sont les suivantes : La forme à reconnaître est un signal temporel. Plutôt que de reconnaître un événement isolé, il faut reconnaître une séquence d événements dont chacun est de durée inconnue. Il faut intégrer différentes sources de connaissances, à des niveaux différents (lexical, syntaxique, etc.) 1.1 Des systèmes à base de connaissances vers l approche stochastique La naissance de la reconnaissance automatique de la parole comme domaine scientifique remonte aux années cinquante. A cette époque, les premiers systèmes de reconnaissance étaient très rudimentaires et reconnaissaient juste quelques sons prononcés de façon isolée. Ils utilisaient les moyens de l électronique analogique de l époque et se fondaient sur le traitement du signal exclusivement. 3

12 4 Chapitre 1. Introduction L apparition des premiers ordinateurs dans les années soixante a permis de numériser le signal, d automatiser le processus de reconnaissance et de traiter des problèmes plus complexes : plus grand nombre de sons ou des mots à reconnaître, plus grand nombre de locuteurs pris en compte, etc. A cette époque l approche expert et à base de connaissances de l IA sont largement utilisées. Dans les années quatre-vingts, après un passage par la programmation dynamique, l utilisation de l approche stochastique devient de plus en plus prépondérante dans la reconnaissance. Cela est motivé en grande partie par la possibilité d automatiser complètement le processus de reconnaissance. De plus l approche probabiliste est bien formalisée et justifiée mathématiquement (différentes méthodes d apprentissage de modèles, preuves de convergence, etc.). Cette approche a été utilisée tant au niveau acoustique qu au niveau de la modélisation du langage. Malgré une charge de calcul importante, elle a permis de passer à la reconnaissance de la parole continue, c est-à-dire à la parole prononcée sans pauses entre des mots. Cette approche actuellement est le plus utilisée. Le passage de l approche à base de connaissances vers l approche stochastique a été effectuée de façon assez radicale : les systèmes experts ont été remplacés par des modèles stochastiques à tous les niveaux du processus de reconnaissance. Bien évidemment, l expérience et certaines connaissances de l approche expert ont servi à mettre au point les systèmes probabilistes. Mais l idée de connaissances a été remplacée par les modèles probabilistes. A l heure actuelle, l approche probabiliste est considérée comme mûre et ces dernières années n ont pas vu d avancées significatives dans ce domaine. Les principaux progrès de ces dernières années peuvent être classés en trois catégories : La modélisation est devenue très détaillée au niveau acoustique et au niveau du modèle de langage. Une quantité importante de logiciels «libres» sont disponibles pour mettre facilement en place les mélanges de gaussiennes pour les modèles acoustiques et les n- grammes pour les modèles de langage. De plus des bases de données de plus en plus volumineuses sont disponibles pour apprendre ces modèles. La modélisation est devenue adaptative. Différentes méthodes d adaptation au bruit et au locuteur ont été proposées récemment. Ces méthodes sont efficaces même pour l adaptation incrémentale et avec une petite quantité de données d adaptation. La modélisation discriminante est souvent utilisée. Pour apprendre les modèles, différentes méthodes d apprentissage de paramètres sont disponibles. Elles permettent d améliorer la séparabilité entre les modèles et donc d augmenter la performance de la reconnaissance. Actuellement, les meilleurs systèmes de reconnaissance sont capables de reconnaître la parole radiophonique et télévisée avec un taux d erreur de l ordre de 10% [Nguyen et al., 2004], [Galliano et al., 2005]. Ce type d application est difficile puisqu il s agit d un très grand vocabulaire (plusieurs centaines de milliers de mots), de phrases qui ne sont pas toujours grammaticalement correctes et de paroles prononcées parfois sur fond musical, avec des bruits ou par téléphone. Comme dit précédemment, l approche probabiliste est suffisamment universelle dans le sens où avec un mélange de lois gaussiennes il est possible de modéliser beaucoup de phénomènes. En revanche, en modélisant la parole comme une boîte noire probabiliste avec des paramètres qui sont appris complètement automatiquement, il est difficile de voir ce qui est appris en réalité et de vérifier si les paramètres appris sont vraiment représentatifs du signal modélisé. On arrive au moment où le potentiel des modèles stochastiques commence à atteindre ses limites et il est temps d introduire des connaissances dans les systèmes de reconnaissance. Ces connaissances

13 1.2. A propos de ce document 5 peuvent concerner tous les niveaux de la modélisation : l analyse du signal, sa modélisation, la représentation du modèle de langage, etc. La conférence ICSLP de 2004 en témoigne : Chin-Hui Lee, du Georgia Institut of Technology, chercheur invité de la conférence, propose de «revenir» vers l approche à base de connaissances en introduisant différents types de connaissances dans les systèmes de reconnaissance actuels [Lee, 2004]. L équipe Parole du LORIA travaille en reconnaissance de la parole depuis plusieurs dizaines d années (en constituant la partie de l équipe RFIA jusqu à 1998). En commençant par l approche expert, l équipe est passée à l approche stochastique vers 1986 grâce à Jean-François Mari, chercheur de l équipe à l époque. Le travail des chercheurs et plusieurs thèses ont permis de mettre en place différents outils de reconnaissance. L idée de l utilisation de connaissances pourrait être intéressante pour nous mais pour l instant elle n est pas encore suffisamment aboutie. Nous en reparlerons à la fin de ce document en décrivant nos perspectives, le but de cette «introduction» étant juste de décrire l évolution de la reconnaissance automatique de la parole. 1.2 A propos de ce document L objectif de ce document est de présenter mes travaux de recherches effectués au cours des sept dernières années, c est-à-dire depuis ma nomination à un poste de maître de conférences en informatique. Ceux-ci portent sur la modélisation acoustique en utilisant l approche stochastique dans le cadre de la reconnaissance automatique de la parole. Mes travaux peuvent se résumer essentiellement à l étude de trois domaines de recherches complémentaires : Reconnaissance robuste en présence de bruits de fond ; Reconnaissance robuste quand le système de reconnaissance est utilisé par différents locuteurs ; Utilisation du système de reconnaissance dans les cas réels, par exemple, la transcription de documents sonores et plus particulièrement d émissions radiophoniques de bulletins d information. Le document est organisé de la façon suivante : Partie 1 : Ce chapitre 1 est une brève description de l évolution des travaux en reconnaissance de la parole. Chapitres 2 et 3 sont consacrés à la présentation de mon parcours personnel et au bref résumé de mes travaux de recherches. Mon implication dans les projets sera également décrite. Partie 2 donne une description de manière plus détaillée de mes recherches : Chapitre 4 : Nous introduisons quelques notions et notations concernant la modélisation acoustique de la parole. Ces notions sont utiles pour la compréhension de la suite de ce document. Chapitre 5 : Nous présentons la problématique de la reconnaissance robuste au bruit. Puis nous développons nos contributions dans les deux domaines principaux de la reconnaissance robuste : la robustesse au bruit stationnaire et la robustesse au bruit non stationnaire. Chapitre 6 : Nous étudions le problème de la robustesse au locuteur. Les cas des locuteurs natifs et des locuteurs non natifs sont étudiés de façons distinctes, car ils demandent une utilisation de méthodes différentes. Nous nous sommes focalisés sur le niveau acoustique de la modélisation.

14 6 Chapitre 1. Introduction Chapitre 7 : Nous décrivons un cas réel d utilisation d un système de reconnaissance : la transcription d émissions radiophoniques de bulletins d information en français. Le développement de différents modules comme le module de segmentation parole/musique, la segmentation parole téléphonique et non téléphonique, le moteur de reconnaissance, etc. sont décrits du point de vue des problèmes rencontrés et des choix effectués. À la fin de ce document, je pose le bilan et discute les perspectives.

15 Première partie Dossier de présentation 7

16

17 Chapitre 2 Curriculum Vitæ Situation actuelle Depuis septembre 2004 : En détachement INRIA, équipe Parole LORIA et INRIA - Lorraine Campus Scientifique - BP Vandœuvre-lès-Nancy cedex tél : http :// [email protected] 2.1 Études et diplômes 1983 : Baccalauréat à Kazan, Russie, mention excellent : Diplôme d ingénieur de l Université de Kazan, Russie. Spécialité Informatique Appliquée à la Gestion de la Production, mention excellent : DEA d informatique de l Université Henri Poincaré Nancy 1, mention assez bien. Titre : «Ordonnancement stochastique : processus de décision markovien et indices de Gittins» Responsables : René Schott, professeur à l Université Henri Poincaré Nancy 1 ; Marie-Claude Portmann, professeur à l École des Mines de Nancy : Doctorat de l Université Henri Poincaré Nancy 1, mention très honorable avec félicitations Titre : «Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue». Laboratoire : Centre de recherche en informatique de Nancy et INRIA-Lorraine (actuellement unité mixte LORIA). Boursière de l équipe RFIA. Thèse soutenue le 23 octobre 1997 devant le jury suivant : Président et rapporteur interne : René Schott, professeur à l Université Henri Poincaré Nancy 1 ; Rapporteurs : Régine André-Obrecht, chargée de recherche CNRS, IRIT, Toulouse ; 9

18 10 Chapitre 2. Curriculum Vitæ Jean-Pierre Martens, professeur à l Université de Gent, Belgique ; Examinateur : Mohamed Afify, chercheur invité, LORIA, Nancy ; Directeurs de recherches : Jean-Paul Haton, professeur à l Université Henri Poincaré Nancy 1 ; Yifan Gong, chargé de recherche CNRS : Recherche post-doctorale (bourse INRIA) à Carnegie Mellon University Robust Recognition, Computer Science Department, Pittsburgh, USA. 2.2 Fonctions : Enseignante à plein temps en Informatique Appliquée à la Gestion de la Production et Mathématiques Appliquées à l Université de Kazan, Russie. Novembre 1995 : Séjour à l Université de Gent, Belgique, collaboration dans le cadre du projet européen COST 249 (1 mois). depuis 1998 : Maître de conférences, Département Informatique, IUT Charlemagne, Université Nancy : En détachement INRIA, équipe Parole. 2.3 Recherche Mots-clés reconnaissance de la parole continue, modélisation acoustique, approche stochastique, reconnaissance robuste aux bruits, reconnaissance robuste au locuteur, reconnaissance avec des données manquantes, segmentation, indexation de documents sonores, transcription d émissions radiophoniques. Axes de recherche La reconnaissance robuste au bruit et la reconnaissance robuste au locuteur Les systèmes de reconnaissance automatique de la parole commercialisés actuellement ne donnent pas des performances satisfaisantes lorsque les conditions d utilisation sont «difficiles» : présence d un fort bruit ambiant, musique, locuteur étranger, etc. Ce manque de performance est principalement dû à la différence entre les conditions d apprentissage du système et les conditions réelles d utilisation. Le problème est donc le suivant : étant donné un système de reconnaissance entraîné à partir de signaux de parole propre, quelles méthodes et techniques utiliser pour que le système reconnaisse correctement la parole prononcée en environnement réel, a priori inconnu. Mes travaux portent sur la recherche et le développement de différentes méthodes de transformations au niveau acoustique pour rapprocher l espace d apprentissage et l espace de test. Ces transformations peuvent être effectuées dans l espace d apprentissage ainsi que dans l espace de test. Ces travaux nous ouvrent des perspectives de recherche dans le

19 2.3. Recherche 11 domaine de la reconnaissance d émissions radiophoniques, dans le domaine de la recherche d information dans des documents radiophoniques, dans le domaine de transcription des réunions de travail, etc. Cas réel : la transcription de documents sonores Pour pouvoir accéder aux différentes informations disponibles sur l Internet, la radio, la télévision, il est nécessaire d avoir des logiciels de transcription, de recherche et d indexation de documents audio. La difficulté de ce domaine est que la parole n est pas supposée être grammaticalement correcte, peut contenir un vocabulaire étendu, provenir de différents locuteurs, appartenir à plusieurs dialectes, être prononcée par des locuteurs non natifs, être enregistrée avec différents microphones, avec différents fonds sonores (musique, bruits, etc.). Ce domaine ouvre différentes directions de recherche comme la segmentation du signal en parole et en musique, la détection de la parole téléphonique, l identification du locuteur, la robustesse aux bruits et aux locuteurs, etc. Mes recherches portent sur le développement d un système complet de transcription. Encadrements Encadrement de plusieurs stages de maîtrise d Informatique et d IUT d Informatique (au total entre 5 et 7) Encadrement du stage de DEA de Djamel Mostefa sur le sujet «Adaptation aux conditions de test pour le modèle stochastique des mélanges de trajectoires» Encadrement d un stage de DESS «Ingénierie du Logiciel» sur le sujet «Optimisation de l apprentissage des modèles de Markov» Co-encadrement 1 avec Jean-Paul Haton, professeur à l Université Henri Poincaré Nancy 1 et Dominique Fohr, chargé de recherche CNRS, de la thèse de Fabrice Lauri sur le sujet «Adaptation au locuteur des modèles acoustiques markoviens pour la reconnaissance automatique de la parole», soutenue le 11 octobre Co-encadrement avec Jean-Paul Haton, professeur à l Université Henri Poincaré Nancy 1, de la thèse de Vincent Barreaud sur le sujet «Reconnaissance automatique de la parole continue : compensation des bruits par transformation de la parole», soutenue le 9 novembre depuis 2003 Co-encadrement avec Jean-Paul Haton, professeur à l Université Henri Poincaré Nancy 1, de la thèse d Emmanuel Didiot sur le sujet «Détection des mots clés dans les émissions radiophoniques». depuis 2004 Co-encadrement avec Jean-Paul Haton, professeur à l Université Henri Poincaré Nancy 1 et Dominique Fohr, chargé de recherche CNRS de la thèse de Ghazi Bouselmi sur le sujet «Reconnaissance de la parole des locuteurs non natifs». Gestion de la recherche et projets : Participation au contrat avec l entreprise SEXTANT sur le sujet «Reconnaissance des commandes dans un cockpit d avion» : Participation au projet STIC-SHS du CNRS «RAIVES» (Recherche Automatique d Informations Verbales Et Sonores). 1 Cet encadrement bien que non officiel s effectue de très près à travers les réunions et les discussions que nous faisons toujours à quatre avec le thésard. Les publications en témoignent.

20 12 Chapitre 2. Curriculum Vitæ depuis 2003 : Participation à la campagne d évaluation ESTER (évaluation des performances des systèmes de transcription d émissions radiophoniques) dans le cadre du projet EVALDA-Technolangue. depuis 2003 : Prise en charge d une partie importante de la rédaction de la proposition STREP (Special Targeted Research Project) HIWIRE (Human Inputs That Work In Real Environment) dans le cadre du 6-ème PCRD/IST. Responsable de ce projet au LORIA. Pour plus de détails voir la section 3.5. Rayonnement scientifique Relecture occasionnelle de plusieurs articles pour les journaux «Speech Communication» et «IEEE Transaction on Speech and Audio Processing» Membre de jury de thèse de Vincent Barreaud (LORIA, Nancy). depuis 2005 Membre élue du bureau de l Association Francophone de la Communication Parlée (AFCP), secrétaire de l association. depuis 2005 Membre élue de la Commission d Evaluation de l INRIA. 2.4 Enseignement Université de Kazan, Russie : 4 ans d enseignement de l informatique (TD et TP) à plein temps département d Informatique Appliquée à la Gestion de la Production et département de Mathématiques Appliquées. Matières enseignées : algorithmique, programmation en C, bases de données, programmation linéaire et non linéaire, théorie des jeux, modélisation de problèmes économiques, suivi des stages, projets en groupe Bibliothèque Universitaire de Nancy 1 : 12 heures de cours de programmation en C. 1995, 1996 École des Mines de Nancy (INPL) : 30 heures de TD et TP de Pascal (1 ère année), 30 heures de TD de recherche opérationnelle (2 ème année) ; département d Informatique, IUT Charlemagne, Université Nancy 2. En moyenne 250 heures d enseignement par an (TD et TP, IUT) : algorithmique et programmation, structures de données, programmation en C, programmation en Java, systèmes d exploitation, compilation, architecture d ordinateurs, suivi des stages et de projets tutorés département d Informatique, IUT Charlemagne, Université Nancy heures de TD et TP de programmation en C.

21 2.5. Liste des publications 13 Responsabilités pédagogiques Responsable de différents cours au département d Informatique Appliquée à la Gestion de la Production et au département de Mathématiques Appliquées, Université de Kazan, Russie Responsable du module algorithmique et programmation Président d un jury de baccalauréat Responsable du module de programmation en C. Responsabilités administratives Participation à la sélection des dossiers pour l admission à l IUT Charlemagne Participation à l organisation de Journées d Etude sur la Parole, JEP Production des actes de la conférence. 2.5 Liste des publications Thèse et DEA 1. Illina I. Ordonnancement stochastique : processus de décision markovien et indices de Gittins. Memoire de DEA d informatique, Université Henri Poincaré Nancy I, Illina I. Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue. Thèse de doctorat, Université Henri Poincaré, Nancy I, Journaux internationaux avec comité de sélection 3. Verhasselt J., Illina I., Martens J.-P. Y. Gong et Haton J.-P. Assessing the Importance of the Segmentation Probability in Segment-Based Speech Recognition. Journal Speech Communication, 24(1), p , Illina I., Afify M. et Gong Y. Environment Normalisation Training and Environment Adaptation using Mixture Stochastic Trajectory Model. Journal Speech Communication, 26(4), p , Chassaing P., Illina I., Portmann M.-C. et Schott R. On a Stochastic Maintenance Problem with Multiple Constraints. Journal Applied Stochastic Models and Data Analysis, Colloques internationaux avec actes et comité de sélection 6. Illina I. et Gong Y. Stochastic Trajectory Model with State-Mixture for Continuous Speech Recognition. Dans Proceedings of International Conference on Spoken Language Processing, ICSLP 96, vol. 1, pp , octobre Illina I. et Gong Y. Improvement in N-best Search for Continuous Speech Recognition. Dans Proceedings of International Conference on Spoken Language Processing, ICSLP 96, vol. 4, pp , octobre Gong Y. et Illina I. Modeling Long Term Variability Information in Mixture Stochastic Trajectory Framework. Dans Proceedings of International Conference on Spoken Language Processing, ICSLP 96, vol. 1, pp , octobre 1996.

22 14 Chapitre 2. Curriculum Vitæ 9. Illina I. et Gong Y. Speaker Normalization Training for Mixture Stochastic Trajectory Model. Dans Proceedings of European Conference on Speech Communication and Technology, EuroSpeech 97, vol. 4, pp , septembre Verhasselt J., Illina I., Martens J.-P., Gong Y. et Haton J.-P.. The Importance of Segmentation Probability in Segment Based Speech Recognizers. Dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 97, vol. 2, pp , avril Illina I. et Gong Y. Elimination of Trajectory Folding Phenomenon : HMM, Trajectory Mixture HMM and Mixture Stochastic Trajectory Model. Dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 97, vol. 2, pp , avril Cerisara C., Fohr D., Illina I., Lauri F. et Mella. O. Comparison of Different Methods for Noise Adaptation in a HMM-Based Speech Recognition System. Dans Proceedings of International Conference on Acoustics, ICA 2001, pp , septembre Illina I. et Mostefa D. Structural Maximum a Posteriori Adaptation for Mixture Stochastic Trajectory Framework. Dans Proceedings of Isca ITR - International Workshop on Adaptation Methods for Speech Recognition, pp , aout Illina I. Tree-Structured Maximum a Posteriori Adaptation for a Segment-Based Speech Recognition System. Dans Proceedings of International Conference on Spoken Language Processing, ICSLP 02, pp , septembre Barreaud V., Illina I., Fohr D. Compensation for Non-Stationary Noise Dans Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop, IEEE ASRU 2003, pp , Lauri F., Illina I., Fohr D. et Korkmazski F. Using Genetic Algorithm for Rapid Speaker Adaptation Dans Proceedings of European Conference on Speech Communication and Technology, EuroSpeech 03, pp , Barreaud V., Illina I., Fohr D. et Korkmazski F. Structural State-Based Frame Synchronous Compensation Dans Proceedings of European Conference on Speech Communication and Technology, EuroSpeech 03, pp , Cerisara C. et Illina I. Robust Speech Recognition to Non-Stationary Noise Based on Model-Driven Approaches Dans Proceedings of European Conference on Speech Communication and Technology, EuroSpeech 03, pp , Farinas G., Fohr D., Illina I., Magrin-Chagnolleau I., Mella O., Parlangeau-Valles N., Pellegrino F., Pinquier J., Sénac C., Smaili K. Audio Indexing On The Web : A Preliminary Study of Some Audio Descriptors. Dans Proceedings of 7th World Multiconference on Systemics, Cybernetics and Informatics, SCI 2003, Barreaud V., Illina I. et Fohr D. On-Line Frame-Synchronous Noise Compensation. Dans Proceedings of International Congress of Phonetic Sciences, ICPhS 2003, Barreaud V., Illina I. et Fohr D. On-Line Frame-Synchronous Compensation of Non- Stationary Noise. Dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2003, vol. 1, pp , Lauri F., Illina, I. et Fohr, D. Combining Eigenvoices and Structural MLLR for Speaker Adaptation Dans Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2003, vol. 1, , Fohr D., Mella O., Illina I., Cerisara C. Experiments on the Accuracy of Phone Models and Liaison Processing in a French Broadcast News Transcription System Dans Proceedings of International Conference on Spoken Language Processing, ICSLP 04, octobre Cerisara C., Fohr D., Mella O., Illina I. Exploiting Models Intrinsic Robustness for Noisy

23 2.5. Liste des publications 15 Speech Recognition Dans Proceedings of International Conference on Spoken Language Processing, ICSLP 04, octobre Korkmazsky F., Fohr D., Illina I. Using Linear Interpolation to Improve Histogram Equalization for Speech Recognition Dans Proceedings of International Conference on Spoken Language Processing, ICSLP 04, octobre Korkmazsky F., Deviren M., Fohr D., Illina I. Hidden Factor Dynamic Bayesian Networks for Speech Recognition Dans Proceedings of International Conference on Spoken Language Processing, ICSLP 04, octobre Illina I., Fohr D., Mella O., Cerisara C. The Automatic News Transcription System : ANTS, Some Real Time Experiments Dans Proceedings of International Conference on Spoken Language Processing, ICSLP 04, octobre Bouselmi G., Fohr D., Illina I. Fully Automated Non-Native Speech Recognition Approach Using Confusion Based Acoustic Model Integration Dans Proceedings of Interspeech, European Conference on Speech Communication and Technology, Colloques internationaux sans comité de sélection 29. Verhasselt J., Illina I., Martens J.-P., Gong Y. et Haton J.-P. The Importance of the Segmentation Probability in Segment Based Speech Recognition. Dans Proceedings of COST 249, Colloques nationaux avec comité de sélection 30. Illina I. Modeling the Diagnostic Information for Medecin. Conférence nationale de recherche opérationnelle, avril 1988, pp En russe. 31. Illina I. et Gong Y. Modélisation de la variabilité de long terme dans le modèle stochastique de trajectoires. Dans Proceedings de Premières Journées de Jeunes Chercheurs en Parole, pp , novembre Lauri, F., Illina, I. et Fohr D. Adaptation MLLR pour des HMMs. Dans Proceedings de Quatrièmes Journées de Jeunes Chercheurs en Parole, Fohr D., Mella O., Illina I., Lauri F., Cerisara C., Antoine C. Reconnaissance de la parole pour les locuteurs non natifs en présence de bruit. Dans Proceedings de XXIV Journées d Etude sur la Parole, JEP 2002, Lauri F., Illina I., Fohr D. Comparaison de SMLLR et de SMAP pour une adaptation au locuteur en utilisant des modèles acoustiques markoviens. Dans Proceedings de XXIV Journées d Etude sur la Parole, JEP 2002, Barreaud V., Illina I., Fohr D. Un algorithme de compensation de bruit en ligne synchrone à la trame. Dans Proceedings de Journées de Jeunes Chercheurs en Parole, Brun A., Cerisara C., Fohr D., Illina I., Langlois D., Mella O., Smaili K. ANTS : le système de transcription automatique du LORIA. Dans Proceedings de XXV Journées d Etude sur la Parole, JEP 2004, Barreaud V., Illina I., Fohr D., Colotte V. Compensation en milieu variant abruptement. Dans Proceedings de XXV Journées d Etude sur la Parole, JEP 2004, Brun A., Cerisara C., Fohr D., Illina I., Langlois D., Mella O. ANTS le système de transcription automatique du LORIA. Dans Proceedings de WorkShop ESTER, 2005.

24 16 Chapitre 2. Curriculum Vitæ Rapports techniques 39. Illina I. Résolution du problème d identification en utilisant des techniques d optimisations. Résultats expérimentaux. Rapport technique du groupe de recherche, Neftechimpromavtomatica, pp , En russe. 40. Afify M., Gong Y., Haton J.-P. et Illina I. Issues in Acoustic Modelling for Robust Speech Recognition. Rapport interne, Illina I. et Fohr D. Adaptation au locuteur et à l environnement. Journée sur l adaptation, INRA Champenoux, juin Parlangeau-Vallès N., Magrin-Chagnolleau I., Fohr D., Illina I., Mella O., Smaili K., Sénac C., Farinas J., Pinquier J., Rouas J-L., André-Obrecht R., Pellegrino F., Janiszek D. Projet RAIVES (Recherche Automatique d Informations Verbales Et Sonores) vers l extraction et la structuration de données radiophoniques sur Internet. Rapport technique, Parlangeau-Vallès N., Magrin-Chagnolleau I., Fohr D., Illina I., Mella O., Smaili K., Sénac C., Farinas J., Pinquier J., Rouas J-L., André-Obrecht R., Pellegrino F. Projet RAIVES (Recherche Automatique d Informations Verbales Et Sonores) vers l extraction et la structuration de données radiophoniques sur Internet. Rapport technique, 2003.

25 Chapitre 3 Résumé des recherches 3.1 Introduction Le développement d un système de reconnaissance automatique de la parole commence par la création d un système simple et qui fonctionne sous des hypothèses simplificatrices. Un exemple de tel système peut être un système reconnaissant la parole prononcée par un seul locuteur avec un vocabulaire limité. Pour attaquer les problèmes plus difficiles, comme la reconnaissance de la parole spontanée, en mode multi-locuteurs ou indépendant du locuteur avec un grand vocabulaire (plusieurs dizaines de milliers de mots), une étude approfondie des différents problèmes et les nombreuses façons de les résoudre est nécessaire. Cette étude est un point essentiel pour permettre le développement d applications en conditions réelles et à un coût non prohibitif. Mes travaux de recherche s inscrivent dans ce cadre de recherche. Plus précisément, je me focalise sur la modélisation acoustique utilisant une approche stochastique et je m intéresse aux problèmes de robustesse et au problème de reconnaissance dans des conditions réelles d utilisation de systèmes de reconnaissance. Le domaine de reconnaissance de la parole est un domaine pluridisciplinaire. Pour construire un système de reconnaissance, différentes compétences sont sollicités ainsi que les efforts de nombreuses personnes. J effectue mes travaux de recherche dans l équipe «Parole» du LORIA en collaboration avec les autres membres de l équipe. Dans ce document j utiliserai souvent le mot «nous» pour montrer l effort de recherche qui implique souvent plusieurs personnes : moi en tant que thésarde et mon encadrant, moi en tant que maître de conférences et mes collègues, thésards, stagiaires. Tout au long de ce document, le lecteur rencontrera les noms de mes collègues et de mes étudiants : Vincent Barreaud, a soutenu sa thèse en 2004, actuellement ATER à l ESIAL ; Christophe Cerisara, chargé de recherche CNRS ; Emmanuel Didiot et Ghazi Bouselmi, doctorants, actuellement en thèse ; Dominique Fohr, chargé de recherche CNRS ; Jean-Paul Haton, professeur à l Université Henri Poincaré Nancy 1 ; Odile Mella, maître de conférences à l Université Henri Poincaré Nancy 1 ; Filipp Korkmazsky, chercheur invité dans notre équipe entre 2002 et 2004 ; Fabrice Lauri, a soutenu sa thèse en 2004, actuellement ATER à l Université Henri Poincaré Nancy 1. Notre équipe possède différents systèmes de reconnaissance. Cette diversité vient du fait que nous avons voulu étudier différentes modelisations et réaliser différentes applications. Voici la liste de 17

26 18 Chapitre 3. Résumé des recherches ces systèmes. Elle facilitera la lecture de ce document : ESPERE, système de reconnaissance moyen vocabulaire (quelques milliers de mots), fondé sur les modèles de Markov cachés [Fohr et al., 2000] ; VINICS, système de reconnaissance moyen vocabulaire, fondé sur les modèles stochastiques de trajectoires [Gong, 1997; Illina et Gong, 1996b] ; un système de reconnaissance, utilisant le formalisme multi-bandes et fondé sur les modèles de Markov cachés [Cerisara et Fohr, 2001] ; un système de reconnaissance de mots connectés utilisant les réseaux bayésiens [Daoudi et al., 2002] ; ANTS, système de transcription automatique d émissions radiophoniques de bulletins d information [Brun et al., 2005]. 3.2 Travaux de thèse J ai effectué ma thèse sous la direction de Jean-Paul Haton et de Yifan Gong, chargé de recherche CNRS (depuis 1995 chercheur aux USA, chez Microsoft). Pendant ma thèse, je me suis intéressée tout d abord à la modélisation acoustique de la parole continue à l aide du modèle stochastique des mélanges de trajectoires (Mixture Stochastic Trajectory Model, MSTM). C est un modèle fondé sur les segments (Segment-Based Model, SBM ), qui se différencie des traditionnels modèles de Markov cachés (Hidden Markov Model, HMM) fondés sur les trames (Frame-Based Model, FBM ). Nous avons proposé différentes extensions du modèle MSTM dans le cadre de la résolution des problèmes liés aux propriétés segmentales des phonèmes et à la représentation des probabilités d observations acoustiques de la parole : Nous avons mené une étude expérimentale d un phénomène propre aux modèles FBM : le phénomène de recouvrement des trajectoires. Ce phénomène introduit une perte de la continuité des trajectoires et diminue la discriminabilité des modèles. Nous avons montré qu il peut être atténué dans les modèles SBM [Illina et Gong, 1997a]. Dans la suite de cette thèse, nous avons souligné l importance du modèle de segmentation pour les modèles SBM. Nous avons montré que l incorporation du modèle de segmentation dans les modèles SBM améliore sensiblement le taux de reconnaissance [Verhasselt et al., 1997a], [Verhasselt et al., 1997b]. Dans le MSTM, chaque état est modélisé par une distribution gaussienne. Or une distribution n est pas suffisante pour bien représenter un état, parce que la distribution au niveau d un état ne correspond pas bien à une gaussienne. Pour prendre en compte la distribution complexe de chaque état et augmenter le pouvoir discriminant du modèle, nous avons proposé de représenter la distribution de chaque état par un mélange de distributions gaussiennes. Les expériences montrent que le nouveau modèle permet d augmenter l efficacité du MSTM [Illina et Gong, 1996b]. Dans le cadre de l adaptation aux conditions de test, j ai développé une approche de la normalisation des environnements pendant l apprentissage et une approche de l adaptation du modèle acoustique issu de l apprentissage, à l environnement de test. Les approches normalisent ou adaptent le modèle acoustique à l aide de transformations linéaires. Le but est de diminuer la variabilité de la parole due aux différents environnements non seulement pendant l adaptation, mais également pendant l apprentissage [Illina et Gong, 1997b], [Illina et al., 1998]. La fin de cette thèse a été consacrée à une étude de techniques heuristiques destinées à diminuer la partie explorée de l espace de recherche pendant la reconnaissance [Illina et

27 3.3. Robustesse au bruit et au locuteur 19 Gong, 1996a]. Depuis le début de ma nomination au poste de maître de conférences j utilise comme approche de modélisation acoustique les modèles de Markov cachés (Hidden Markov Models). La décision de passer du système fondé sur les segments au système fondé sur les trames est motivée par les faits suivants. Plusieurs années de travail sur le MSTM nous ont montré que ce modèle possède un bon potentiel au prix d une complexité un peu plus importante. Malheureusement ce potentiel est resté comparable à celui de HMM ou légèrement supérieur pour certaines applications. Il est possible qu en y consacrant plus de temps et plus d effectif humain (j étais toute seule après le départ d Yifan Gong aux USA) nous aurions pu obtenir des performances significativement supérieures aux ceux de HMM. Mais j ai préféré passer aux HMM, car ils constituent l état de l art du domaine et me permettent de travailler en équipe et ainsi d avancer plus vite. De plus, les modèles HMM sont utilisés par mes collègues comme une plate-forme de départ à partir de laquelle nous développons nos algorithmes de robustesse et notre système complet de transcription. Et au final, en utilisant les HMM nous pouvons bénéficier d échanges fructueux et établir une collaboration intéressante avec les autres équipes de recherche, qui utilisent le même type de modélisation. 3.3 Robustesse au bruit et au locuteur Depuis ma thèse, je m intéresse beaucoup à la robustesse de systèmes de reconnaissance, c est-à-dire aux situations dans lesquelles la différence entre les conditions de test et les conditions d apprentissage devient un facteur majeur de dégradation des performances du système de reconnaissance dans une situation réelle. Pendant ma thèse j ai proposé quelques méthodes d adaptation à un nouvel environnement qui agissaient dans le domaine des modèles acoustiques. Depuis, j ai élargi mon activité de recherche en m orientant également vers le domaine de la transformation de paramètres acoustiques d un système de reconnaissance. Mon objectif dans ce contexte reste le développement de nouvelles méthodes pour améliorer la robustesse au bruit. Robustesse au bruit En collaboration avec Jean-Paul Haton j ai encadré la thèse de Vincent Barreaud dans le domaine de la robustesse au bruit. Cette thèse a débuté en 2001 et a été soutenue en novembre 2004 sur le sujet «Reconnaissance automatique de la parole continue : compensation des bruits par transformation de la parole» [Barreaud, 2004]. Dominique Fohr a également travaillé avec nous sur ce sujet. La thèse de Vincent etait consacrée à l étude et au développement d algorithmes de compensation, c est-à-dire aux techniques transformant les paramètres acoustiques en vue d attenuer l influence du bruit. Nous étudions le cas des bruits stationnaires et non stationnaires. En effet, les bruits stationnaires et non stationnaires sont ceux que l on rencontre le plus souvent en pratique (voiture en mouvement, musique en bruit de fond, etc.). Nous avons étudié l algorithme de compensation de Delphin-Poulat [Delphin-Poulat et al., 1998] et proposé une amélioration en lui intégrant des statistiques calculées pendant la reconnaissance [Barreaud et al., 2003c; Barreaud et al., 2003b]. Nous avons validé l approche proposée sur un corpus de parole enregistrée en voiture dans des conditions réelles de circulation. Nous avons travaillé également sur la structuration des paramètres de compensation [Barreaud et al., 2003d]. Cette structure utilise un arbre des paramètres et compense les bruits en

28 20 Chapitre 3. Résumé des recherches fonction de la quantité de données disponibles dans chaque nœud de l arbre : si cette quantité de données est faible, nous utilisons le nœud-père et tout ce qui est lié avec ce nœud pour la compensation. Nous avons travaillé aussi sur le problème de reconnaissance de la parole dans des conditions de bruits abrupts, comme, par exemple, le claquement d une porte ou la musique de fond. La difficulté de ce problème provient du fait qu aucune information n est disponible sur le moment d apparition, le niveau ou la nature du bruit. Dans ce cadre, nous avons proposé plusieurs méthodes pour détecter automatiquement les instants où se produisent les changements des caractéristiques du bruit [Barreaud et al., 2004; Barreaud et al., 2003a]. Dans le cadre du bruit non stationnaire, je m intéresse également aux méthodes de reconnaissance avec des données manquantes (Missing Data Recognition, MDR). Ces méthodes permettent d utiliser seulement quelques dimensions de l espace temps-fréquence pendant la reconnaissance en considérant que les autres dimensions sont manquantes à cause du bruit dominant [Barker et al., 2000; Cooke et al., 2001]. Christophe Cerisara et moi-même, avons proposé un algorithme MDR utilisant la probabilité a posteriori pour la normalisation et masquant les différentes bandes de spectre [Cerisara et Illina, 2003]. Ce travail se poursuit actuellement dans le cadre du projet européen HIWIRE. Nous en reparlerons dans la section suivante. Robustesse au locuteur En collaboration avec Dominique Fohr et Jean-Paul Haton j ai encadré la thèse de Fabrice Lauri dans le domaine de la robustesse au locuteur. Cette thèse a débuté en 2000 et a été soutenue en octobre 2004 sur le sujet «Adaptation au locuteur des modèles acoustiques markoviens pour la reconnaissance automatique de la parole» [Lauri, 2004]. Avec Fabrice nous avons étudié les algorithmes MLLR (Maximum Likelihood Linear Regression) et MAP (Maximum A Posteriori) [Lauri et al., 2001] dans le cadre de l adaptation non supervisée et de l adaptation incrémentale des modèles acoustiques. L adaptation non supervisée signifie qu on ne dispose pas de la transcription exacte des données d adaptation et l adaptation incrémentale signifie que les modèles sont adaptés à chaque phrase prononcée par le locuteur. Nous avons proposé une version structurée de MLLR et MAP : SMLLR (Structural MLLR, SMLLR) et SMAP (Structural MAP) : un arbre de modèles est construit à partir des modèles acoustiques. Le nombre de transformations de l adaptation est défini en fonction de la quantité de données disponibles : plus il y a de données, plus on descend profondément dans l arbre [Lauri et al., 2002]. L inconvénient de l adaptation MLLR est que cette méthode dégrade les performances du système lorsque très peu de données d adaptation sont disponibles. Nous avons développé une nouvelle méthode d adaptation qui nécessite peu de paramètres à estimer et donc permet une adaptation efficace même si le corpus d adaptation est de très petite taille. Cette approche est fondée sur l utilisation de vecteurs propres (Eigenvoice-Based Adaptation approach [Botterweck, 2000; Lauri et al., 2003a]) : l apprentissage revient à entraîner un modèle spécifique par locuteur ; les vecteurs propres des modèles issus de l apprentissage sont calculés ; l adaptation se fait dans l espace des vecteur propres. Nous avons étudié également la combinaison de l adaptation SMLLR avec l adaptation fondée sur les vecteurs propres dans le contexte de l adaptation incrémentale [Lauri et al., 2003a]. Nous avons collaboré avec Filipp Korkmazsky sur ce sujet. Pour enrichir et diversifier les modèles de

29 3.4. Exploration de documents radiophoniques 21 départ utilisés pour l adaptation nous avons proposé d utiliser des algorithmes génétiques [Lauri et al., 2003b; Lauri et al., 2005]. Le problème de robustesse au locuteur non natif est en cours d étude actuellement. Nous en parlerons un peu plus en détail dans le cadre du projet européen HIWIRE (voir 3.5.4). 3.4 Exploration de documents radiophoniques Je m intéresse également à un contexte applicatif réel : la transcription et l indexation des documents sonores et plus particulièrement des émissions radiophoniques. L exploration de documents sonores, domaine abordé par notre équipe depuis début 2002, est un sujet ambitieux et novateur pour notre équipe. En 2002, notre équipe a débuté le projet RAIVES pour créer un système d indexation des documents radiophoniques disponibles sur le Web. Par indexation sonore, nous entendons l extraction des descripteurs sonores dans le but d indexer et de structurer des documents sonores et de permettre la navigation dans ces documents [Gauvain et Lamel, 2000]. Depuis 2003, notre équipe participe à une campagne d Evaluation de Systèmes de Transcription Automatique d Emissions Radiophoniques (ESTER, projet Technolangue). Mes collègues et moi-même avons développé notre propre système de transcription et dépuis le début de l année 2004 je m investis beaucoup dans ce sujet. Je présenterai le résumé de mes recherches effectuées dans le domaine de l exploration de documents sonores dans la section suivante. 3.5 Collaborations extérieures et implication dans des projets Projet STIC-SHS RAIVES Le projet Recherche Automatique d Informations Verbales Et Sonores, RAIVES concerne l indexation automatique de documents radiophoniques sur le Web. Ce projet est financé dans le cadre du programme STIC-SHS «Société de l information» du CNRS. Le but est d enrichir les moteurs de recherche, disponibles sur le Web, en leur ajoutant une nouvelle fonctionnalité : l indexation des documents sonores. Ce projet a débuté en janvier 2002 et s est terminé en juillet Il a été effectué en collaboration avec l Institut de Recherche en Informatique de Toulouse (IRIT) et le laboratoire Dynamique Du Langage (DDL) de Lyon. Ce projet a été dirigé par Nathalie Parlangeau-Vallès, maître de conférences à l Université Toulouse 1 et Ivan Magrin-Chagnolleau, chargé de recherche CNRS au DDL de Lyon. Pour indexer et structurer les documents sonores il faut détecter si l information clé a été prononcée et quand. Un point de vue intéressant est de rechercher non seulement l information verbale mais également les informations non verbales : segments de musique, jingles, identité d un locuteur, thèmes d une émission, etc. Ce projet s est articulé autour de trois axes : Segmentation des documents sonores en musique, parole et parole sur fond musical. Le laboratoire IRIT s est occupé de cette tâche. Recherche dans les segments contenant de la parole, d informations sur les locuteurs [Chen et Gopalakrishnan, 1998; Seck et al., 2001]. Pour cette tâche, le DDL a mis en place le premier prototype d un système de suivi de locuteurs. Détection des mots clés. Nous avons effectués cette tâche avec Dominique Fohr, Odile Mella et Nathalie Parlangeau-Vallès au LORIA.

30 22 Chapitre 3. Résumé des recherches Pour la tâche de détection des mots clés nous avons envisagé deux approches [Farinas et al., 2003] : La première approche nécessite la reconnaissance complète de la parole. Les mots clés sont extraits du texte généré par le système de reconnaissance. Pour cela, il est nécessaire d avoir un système de reconnaissance de très grand vocabulaire, entraîné sur un corpus important de parole. Nous avons développé un tel système en nous limitant à un vocabulaire de mots. La deuxième approche consiste à détecter les mots clés directement dans la parole : étant donnés les modèles des mots clés et le ou les modèles des autres mots, nous les «déplaçons» le long de la phrase et calculons les probabilités correspondantes. Nous avons mis en place le moteur de détection qui s appuie sur le système de reconnaissance de notre équipe, le système ESPERE. Nous avons comparé ces deux approches et nous avons observé que la reconnaissance en utilisant un grand vocabulaire donne des résultats bien meilleurs. Nous expliquons cela par le fait qu en utilisant la deuxième approche, le mot clé que l on «déplace» le long de la phrase conduit souvent à de nombreuses confusions, car le modèle de langage n est pas utilisé dans cette approche. Par exemple, si notre mot clé à trouver est «action», il sera détecté dans les morceaux suivants de parole «réaction», «effraction», «contraction», etc. Dans le cadre de ce projet un corpus d émissions radiophoniques a été collecté Campagne d évaluation ESTER Un autre projet en cours et qui rejoint sur certains points le projet RAIVES est la campagne d évaluation ESTER (Evaluation de Systèmes de Transcription Automatique d Emissions Radiophoniques). La campagne ESTER est organisée dans le cadre du projet EVALDA, financé par le Ministère de la Recherche dans l appel d offres Technolangue. Cette campagne ( ) vise l évaluation des performances des systèmes de transcription d émissions radiophoniques. L objectif principal de cette transcription est de fournir automatiquement le texte d une émission radio à partir de son enregistrement. Les transcriptions sont enrichies par un ensemble d informations annexes, comme le découpage automatique en tours de parole, l identification des locuteurs, la détection des thèmes, etc. La transcription enrichie vise donc à obtenir d une part une transcription lisible et d autre part une représentation structurée du document à des fins d extraction d informations. La transcription automatique d émissions radiophoniques est un problème difficile et qui ouvre différentes directions de recherche intéressantes : segmentation de la parole (parole téléphonique/non téléphonique, parole/musique/bruits), détection des changements de locuteurs, détection de la superposition parole et musique, de la parole simultanée, de la parole bruitée, etc. [McTait et Adda-Decker, 2003], [Gauvain et al., 2002]. Certaines de ces directions sont complètement nouvelles pour nous, comme, par exemple, la détection de la superposition parole et musique ou de la parole simultanée. Pour les autres, comme la robustesse, nous avons une bonne expérience de recherche. Par rapport au projet RAIVES, où nous sommes chargés de trouver les mots clés étant donné la parole déjà segmentée en blocs homogènes (les segmentations en parole/musique et en locuteur sont fournies par les laboratoires IRIT et DDL), pour la campagne ESTER nous avons développé un système complet. La première version du système de transcription est mise en place et évaluée sur le corpus de parole distribué dans le cadre de cette campagne. Sur ces données, notre système a donné des

31 3.5. Collaborations extérieures et implication dans des projets 23 résultats très satisfaisants [Brun et al., 2004], [Fohr et al., 2004], [Brun et al., 2005]. Nous avons développé également la version «temps réel» du système [Illina et al., 2004] : pour une heure d émission et au prix de perte de quelques pour cents de taux de reconnaissance, notre système fournit les résultats au bout d une heure de calcul. La collaboration et l échange avec les équipes participant à cette campagne nous permet d enrichir notre savoir-faire. Depuis le début de 2004, j ai consacré une grande partie de mon temps de recherche à ce projet Collaboration avec PRESSE+ En automne 2003, nous avons commencé une étude avec une entreprise parisienne sur la détection en temps réel des mots clés dans les émissions radiophoniques. Dans ce cadre, une thèse CIFRE a débuté en novembre 2003 sous la direction de Jean-Paul Haton et de moi-même. C est la thèse d Emmanuel Didiot sur le sujet «Détection des mots clés dans les émissions radiophoniques». Cette thèse est la suite logique de notre travail sur l indexation. Elle se fait en collaboration avec Dominique Fohr et Odile Mella. Pour septembre 2004, nous avons mis en place le premier prototype du système d indexation, utilisant la reconnaissance de grand vocabulaire. Nous avons effectué une évaluation de ce système sur les données réelles fournies par PRESSE+ (corpus de test et liste de mots clés). Les résultats de cette évaluation, présentés à PRESSE+, sont très encourageants Projet Européen HIWIRE En automne 2003, notre équipe «Parole» a participé à l appel d offre STREP (Special Targeted Research Project) dans le cadre du 6-ème PCRD/IST. Avec plusieurs partenaires européens (Thales-Avionics (France), Loquendo (Italie), Institut des Systèmes de Télécommunication (TSI, Grèce), Université de Grenade (Espagne), Institut de Communication et de Systèmes Informatiques (ICCS, Grèce), ITC-IRST (Italie)) j ai rédigé la proposition HIWIRE (Human Inputs That Work In Real Environment) qui a été acceptée. Ce projet a commencé au mois de juin 2004 et durera 3 ans. Je suis responsable de ce projet au niveau du LORIA et j y participe activement au niveau de mes recherches. Dans ce projet un ingénieur et un thésard sont recrutés et je les encadre en collaboration avec Christophe Cerisara et Dominique Fohr. Ce projet, à la fois théorique et applicatif, vise l amélioration significative de la robustesse, de l ergonomie et de la flexibilité des systèmes d interaction homme-machine. Ce projet correspond parfaitement à mon axe de recherche sur la robustesse. Dans le cadre de ce projet, je m investis dans l étude des points suivants : Développement de nouveaux algorithmes pour la reconnaissance robuste avec des conditions de bruits non stationnaires. Dans ce cadre nous sommes en train de mettre en place un système de reconnaissance avec données manquantes. Ce système détecte les bandes de fréquence bruités en utilisant le rapport signal/bruit. Pour ces bandes, les masques sont calculés en modifiant les probabilités d émissions (voir la section plus loin). Je travaille en collaboration avec Christophe Cerisara et Christophe Antoine, ingénieur-expert recruté dans le cadre de ce projet pour un an. Développement de nouvelles techniques pour améliorer la tolérance d un système de reconnaissance à certaines spécificités des locuteurs, comme les accents et la parole non native.

32 24 Chapitre 3. Résumé des recherches En effet, le taux de reconnaissance chute de façon spectaculaire quand les systèmes créés pour des locuteurs natifs sont utilisés pour la reconnaissance de la parole de locuteurs non natifs. Plusieurs directions de recherche sont envisageables ici et elles seront étudiées dans la section 6.4 de notre document. Actuellement, j encadre en collaboration avec Jean-Paul Haton, Dominique Fohr et Odile Mella la thèse de Ghazi Bouselmi, débutée en octobre 2004 dans le cadre de ce projet sur le sujet «Reconnaissance de la parole des locuteurs non natifs». Avec Ghazi, nous avons enregistré un corpus de locuteurs non natifs et nous avons développé la première approche de reconnaissance avec des locuteurs non natifs [Bouselmi et al., 2005] : nous extrayons les règles de confusion à partir du corpus des locuteurs non natifs et les modèles acoustiques natifs. Puis nous utilisons ces règles pour modifier les modèles acoustiques natifs en y ajoutant des modèles acoustiques non natifs. Évaluation des techniques proposées dans les conditions réelles d un cockpit d avion. 3.6 Conclusion Ce chapitre a décrit mes principales activités de recherche depuis le début de ma thèse et jusqu à maintenant. Mes recherches consistent à étudier des problèmes liés à la création de systèmes de reconnaissance robustes aux bruits et aux locuteurs. J effectue cette étude au niveau de la modélisation acoustique du signal et j utilise l approche stochastique. Mon but est de développer des nouvelles approches pour améliorer les performances d un système de reconnaissance. Par ailleurs, je m intéresse à la création de systèmes complets, permettant une exploration des documents sonores.

33 Deuxième partie Synthèse de recherches 25

34

35 Chapitre 4 Modélisation acoustique de la parole Le but de ce chapitre est d introduire quelques notions et quelques notations utiles pour la compréhension de la suite de ce document. Plus précisément, nous donnons une description brève de la modélisation acoustique pour la reconnaissance automatique de la parole. Nous présentons le problème de reconnaissance du point de vue formel et nous décrivons les choix qu il est nécessaire d effectuer en développant un modèle acoustique pour la reconnaissance. Nous présentons ces notions en nous concentrant sur les modèles de Markov cachés (Hidden Markov Models, HMM ), car toutes les recherches décrites dans ce document ont été fait dans ce cadre. 4.1 Le problème de la reconnaissance Dans l approche stochastique, le problème général de la reconnaissance est le suivant. Soit O = (o 1,..., o T ) 2 une séquence de vecteurs acoustiques de T trames issues de l analyse acoustique et représentant la parole à reconnaître. Il s agit de trouver la suite W = (w 1,..., w K ) de mots la plus probable, associée à la suite d observations O : Le terme P r(w O) peut être calculé de la façon suivante : Ŵ = argmax P r(w O) (4.1) W P r(w O) = p(o W ) P r(w ) p(o) (4.2) où P r(w ) est un modèle de langage et p(o W ) est un modèle acoustique. Dans ce document nous nous intéressons exclusivement à la modélisation acoustique. 4.2 Développement d un modèle acoustique Pour développer un modèle acoustique il faut répondre aux questions suivantes : Quelle unité de parole modéliser : un phonème, un mot, etc? Quoi modéliser : une trame ou un groupe de trames? Quel modèle choisir? Quelle distribution est la plus appropriée? 2 Nous utilisons la notation X pour une séquence et x i pour un élément de la séquence X. 27

36 28 Chapitre 4. Modélisation acoustique de la parole O i O i O i O i + L état (a) état (b) Fig. 4.1 Processus de génération des observations : (a) un état du modèle fondé sur les trames engendre une trame ; (b) un état du modèle fondé sur les segments engendre une séquence de trames de longueur L (d après [Ostendorf et al., 1996]). Comment prendre en compte la corrélation entre les trames de la parole? Comment apprendre les paramètres du modèle? Comment réduire le nombre de paramètres du modèle? Dans la suite de ce chapitre nous présenterons brièvement les différentes voies proposées dans la littérature pour répondre aux questions ci-dessus. Choix des unités de parole La recherche dans le domaine de la reconnaissance automatique de la parole concerne actuellement la reconnaissance utilisant un grand vocabulaire. Pour une telle tâche, le choix des phonèmes comme unité à modéliser est le plus approprié. En effet, alors que le nombre de phonèmes reste constant, le nombre de mots augmente avec la taille du vocabulaire. Type de modèles À partir du processus de génération des observations, nous distinguons deux types de modèles : les modèles fondés sur les trames : un état du modèle engendre une trame ; les modèles fondés sur les segments : un état du modèle engendre une séquence de trames de longueur variable ou segment. La figure 4.1 illustre ces processus. La modélisation fondée sur les trames est le plus souvent effectuée à l aide du modèle de Markov caché [Baum et Petrie, 1966], [Baum et al., 1970]. Un HMM est un automate d états dont les états sont reliés entre eux par des transitions. Un HMM est défini par : Un ensemble de distributions associées à chaque état j : {b j j J}. Chaque distribution d un état donne la probabilité d observation d un événement aléatoire conditionné par cet état. Un ensemble de probabilités reflétant les transitions entre états : {a i,j i, j J}. Un ensemble {π j j J} où π j est la probabilité de commencer par l état j.

37 4.2. Développement d un modèle acoustique 29 (a) (b) État générant des observations État ne générant pas d observations Transition Fig. 4.2 Exemple des modèles : (a) un HMM à 3 états, gauche-droite ; (b) un modèle fondé sur les segments à 5 états. Dans le domaine de la reconnaissance automatique de la parole, un HMM, en général, modélise une unité de parole. Une observation correspond à une trame de parole. La structure la plus utilisée de HMM est représentée sur la figure 4.2 (a). Sur cette figure, les états sont représentés par des ronds et les transitions par des flèches. Dans un HMM utilisé pour modéliser la parole, les probabilités de commencer par un état ne sont pas utilisées, car la topologie des modèles utilisée suppose qu on commence par le premier état. Par ailleurs, la durée est modélisée implicitement dans un HMM par les transitions-boucles 3 dans chaque état et les transitions d un état à un autre. Deux défauts principaux du HMM peuvent être mentionnés. D une part, la probabilité de la durée de séjour dans un état est une fonction à décroissance exponentielle, ce qui est loin de la réalité (voir figure 4.3). D autre part, il est supposé que les observations sont conditionnellement indépendantes entre elles, étant donné l état du modèle. Autrement dit, le HMM ne prend pas en compte la corrélation entre les différentes observations associées au même état. Cela est inexact pour la parole car les observations acoustiques sont fortement corrélées. Les modèles fondés sur les segments sont une alternative aux modèles fondés sur les trames [Roucos et al., 1988], [Digalakis, 1992], [Russell, 1993], [Goldenthal et Glass, 1993], [Gong et Haton, 1994]. Le processus de génération des observations est différent dans ce type de modèles : une observation est associée à un segment de parole, plutôt qu à une trame, d où la possibilité de prendre en compte la structure temporelle de la suite d observations. Un modèle fondé sur les segments est défini par l ensemble de distributions associées à chaque état, une fonction de mise en correspondance qui permet d associer une observation de durée variable avec un segment, et par la probabilité de la durée. Dans les modèles fondés sur les segments, la transition-boucle est absente (voir figure 4.2 (b)) et donc la durée doit être modélisée explicitement. 3 Une transition-boucle est une transition d un état vers lui-même.

38 30 Chapitre 4. Modélisation acoustique de la parole histog. de données HMM à 1 état nbr. d obs durée du phonème /ae/ (msec) Fig. 4.3 Histogrammes des durées des observations réelles du phonème anglais /ae/ et de celles générées par son modèle HMM à un état. Le corpus d apprentissage est TIMIT. L étude des modèles fondés sur les segments n est pas l objet de ce document. Le lecteur intéressé trouvera quelques informations dans [Illina, 1997]. La suite de ce document sera consacrée aux modèles fondés sur les trames, plus précisément les HMM. Représentation d un état de HMM Pour modéliser la parole, chaque état d un HMM correspond à une région stationnaire de la parole. Le modèle à un état est estimé insuffisant pour exprimer la grande variabilité de la parole et est utilisé en général uniquement pour représenter les sons stationnaires avec peu de variabilité, comme un silence (le silence est considéré comme stationnaire). En revanche, la représentation par plusieurs états est utilisée pour modéliser les autres sons. Les transitions entre états permettent de passer d une zone de stationnarité à une autre zone et de modéliser de cette façon l évolution temporelle. Un HMM utilisé pour modéliser la parole autorise en général la transition d un état à lui-même, ce qui permet de modéliser des observations de différentes durées en utilisant le même modèle. En revanche, une telle modélisation ne prend pas en compte suffisamment bien la distribution de la durée d un phonème (voir figure 4.4). Pour améliorer les performances du HMM, la modélisation explicite de la durée d une unité de parole peut être effectuée en utilisant, par exemple, une loi Gamma [Richardson et al., 1999], [Pylkkonen et Kurimo, 2004]. La figure 4.5, repris de [Richardson et al., 1999], représente un histogramme de la durée (en nombre de trames de 10ms) du phonème anglais /B/ et son approximation par une distribution normale et la distribution Gamma. La figure montre que la distribution Gamma modélise assez fidèlement la distribution de la durée d un phonème.

39 4.2. Développement d un modèle acoustique histog. de données HMM à 3 états nbr. d obs durée du phonème /ae/ (msec) Fig. 4.4 Histogrammes des durées des observations réelles du phonème anglais /ae/ et de celles générées par son modèle HMM à trois état. Le corpus d apprentissage est TIMIT. Fig. 4.5 Histogramme des durées des observations réelles (en nombre de trames de 10 ms) du phonème anglais /B/ et son approximation par une distribution normale et la distribution Gamma (repris de [Richardson et al., 1999]). Le corpus d apprentissage est Wall Street Journal.

40 32 Chapitre 4. Modélisation acoustique de la parole Choix des distributions associées à un état de HMM À chaque état du modèle fondé sur un HMM sont associées une ou plusieurs distributions selon la complexité de la courbe de l évolution représentée par l état. Les distributions peuvent être non paramétriques (discrètes) ou paramétriques (continues). L utilisation du HMM dans le domaine de la reconnaissance automatique de la parole a débuté par un HMM avec des distributions discrètes [Jelinek, 1976], [Murveit et Weintraub, 1988], [Lee, 1988]. Plus tard, les distributions discrètes ont été remplacées par des distributions continues (laplaciennes [Ney et al., 1994], [Afify, 1995], gaussiennes [Liporace, 1982], mélanges de distributions). Les figures 4.6 et 4.7 montrent un histogramme d observations, associées à un état de HMM, et son approximation à l aide d une gaussienne et à l aide du mélange de deux gaussiennes. Nous observons qu un mélange de gaussiennes modélise plus fidèlement les données qu une seule gaussienne. Pour la loi normale, une matrice de covariance pleine peut être utilisée pour augmenter la performance du modèle. Pour apprendre cette matrice une grande quantité de données d apprentissage est nécessaire [Goldenthal et Glass, 1993]. Dans le cas d une quantité de données d apprentissage insuffisante, la matrice de covariance peut être mal estimée et peut dégrader le taux de reconnaissance, par rapport aux systèmes utilisant une matrice de covariance diagonale. Dans les systèmes de reconnaissance actuels, les distributions associés à chaque état d un HMM sont représentées par un mélange de lois gaussiennes avec des matrices de covariance diagonales : b j (o t ) = M c j,m N (o t ; µ j,m, Σ j,m ) (4.3) m=1 où c j,m est un poids spécifique à la gaussienne m et associée à l état j, N (o t ; µ j,m, Σ j,m ) est une distribution gaussienne avec une moyenne µ j,m et une matrice de covariance Σ j,m. Prise en compte de la corrélation Les trames du signal de parole sont corrélées. La corrélation existe dans le domaine temporel (entre plusieurs trames) et dans le domaine spatial (entre différents coefficients de la même trame). Pour avoir un modèle acoustique précis et performant, il est nécessaire de prendre en compte implicitement ou explicitement la corrélation dans le modèle. L hypothèse de base du HMM est que les pdf (Probability Density Function) sont supposées dépendantes de l état auquel elles appartiennent et indépendantes des autres états. Cela entraîne la perte d une information pertinente sur la corrélation entre les différentes trames ou les différents groupes de trames d une même unité de parole. Moyen simple pour prendre en compte la corrélation est d utiliser des pdf qui soient capables de rendre compte de la corrélation. Par exemple, pour les gaussiennes, une matrice de covariance pleine pourrait être utillisée. En pratique, dans la majorité des systèmes de reconnaissance, une matrice de covariance diagonale est utilisée. Cela fait n paramètres à apprendre au lieu de n (n+1)/2 pour une matrice de covariance complète (n étant la dimension de l espace acoustique) et nécessite donc beaucoup moins de données d apprentissage. De plus, la plupart des systèmes de reconnaissance utilise des paramètres MFCC, qui sont faiblement corrélés. Il est également possible de réduire la taille de matrice de covariance en utilisant des méthodes de réduction de la dimension n de l espace [Haeb-Umbach et Ney, 1992]. Les méthodes de prise en compte de la corrélation temporelle se ramènent à une introduction de coefficients dynamiques de régression [Furui, 1986], à un conditionnement de la probabilité d observation d un vecteur associé à un état de HMM par le vecteur d observation précédent [Paliwal, 1993], [Wellekens, 1987] à une prédiction linéaire [Kenny et al., 1990] et au développement

41 4.2. Développement d un modèle acoustique histog. de données une gaussienne nbr. d obs deuxième coef. cepstral, phonème /ae/ Fig. 4.6 Histogramme du 2-ème coefficient de cepstre d un ensemble de vecteurs d observations associés au deuxième état du HMM et son approximation à l aide d une gaussienne. Les observations correspondent au symbole phonétique /ae/ de l anglais. Le corpus utilisé est le corpus TIMIT. des modèles autorégressifs [Juang et Rabiner, 1985]. Dans les systèmes actuels de reconnaissance, la méthode la plus utilisée pour la prise en compte de la corrélation est l ajout des coefficients de régression du premier et du deuxième ordre [Junqua et al., 1995]. Il est important de noter que l utilisation des coefficients dynamiques de régression contredit une des hypothèses fondamentales du HMM disant que les observations sont conditionnellement indépendantes entre elles, étant donné l état du modèle. Les évaluations expérimentales montrent que cette contradiction ne détériore pas les résultats de reconnaissance. Apprentissage des modèles acoustiques L apprentissage des modèles acoustiques fondés sur les HMM consiste en l estimation des paramètres des HMM étant donné un ensemble de données d apprentissage. L ensemble de paramètres à estimer contient les paramètres de distributions {b j } associées à chaque état j d un HMM et les probabilités des transitions entre les états {a i,j }. Le but de l estimation est de trouver les paramètres qui représente au mieux les données. Cette estimation est effectuée dans un espace multi-dimensionnel en optimisant un certain critère. Parmi les nombreux critères utilisés, celui de maximisation de la vraisemblance des données d apprentissage (Maximum Likelihood Estimation, MLE) est le plus utilisé [Dempster et al., 1977] : ˆλ = argmax p(o M λ ) (4.4) λ

42 34 Chapitre 4. Modélisation acoustique de la parole histog. de données mélange de 2 gauss. nbr. d obs deuxième coef. cepstral, phonème /ae/ Fig. 4.7 Histogramme du 2-ème coefficient de cepstre d un ensemble de vecteurs d observations associés au deuxième état du HMM et son approximation à l aide du mélange de deux gaussiennes. Les observations correspondent au symbole phonétique /ae/ de l anglais. Le corpus utilisé est le corpus TIMIT. où ˆλ est l ensemble de paramètres à estimer et M λ est l ensemble de modèles. Le terme p(o M λ ) est la densité de la probabilité des données d apprentissage O, étant donné les modèles M λ. Cette distribution est considérée comme proportionnelle à la fonction de vraisemblance des données et donc utilisée à la place de cette dernière. Pour trouver l estimation par la maximisation de la vraisemblance, il faut résoudre deux problèmes : spécifier la fonction p(o M λ ) et résoudre le problème de la maximisation, définie par l équation (4.4). La popularité de l estimation MLE s explique par l existence d algorithmes d apprentissage mathématiquement bien fondés. Ces algorithmes sont optimaux à condition que les observations appartiennent à la famille choisie de distributions et que leur nombre soit très grand pour garantir la convergence asymptotique vers les valeurs optimales 4. Pour cette classe d algorithmes, l algorithme de Baum-Welch [Baum et al., 1970] est largement utilisé grâce au fait qu il permet un apprentissage rapide d un grand nombre de paramètres dans un espace de dimension importante. C est un algorithme itératif, dont le schéma est représenté sur la figure 4.8. L inconvénient de l apprentissage fondé sur le critère MLE est que seules les exemples positifs sont utilisés pendant l apprentissage et que chaque modèle est appris indépendamment des autres modèles. Cet inconvénient est atténué dans la classe de méthodes utilisant l estimation bayésienne, 4 En réalité, ces suppositions ne sont pas bien respectées, car il n est pas possible avoir un corpus d apprentissage de taille infinie. De plus, la parole n est pas exactement modélisée par un HMM.

43 4.2. Développement d un modèle acoustique 35 HMM initial Algorithme Baum Welch Re estimer les paramètres des HMM Convergence? non oui Les paramètres estimés des HMM Fig. 4.8 Schéma d apprentissage des paramètres d un HMM en utilisant la méthode de Baum- Welch. car tous les modèles sont utilisés en même temps pendant l apprentissage : p(o M λ )p(m λ ) ˆλ = argmax p(m λ O) = argmax λ λ p(o) = argmax λ p(o M λ )p(m λ ) M λ p(o M λ )p(m λ ) (4.5) Pour trouver l estimation bayésienne il faut résoudre trois problèmes principaux : choisir la probabilité a priori p(m λ ), estimer ses paramètres et résoudre le problème de la maximisation définie par l équation (4.5). Dans ce type d estimation, appelé également apprentissage discriminant, les exemples positifs ainsi que les exemples négatifs sont utilisés pendant l apprentissage. Par exemple, la méthode de maximisation d information mutuelle (Maximum Mutual Information Estimation, MMIE) [Woodland et Povey, 2002] permet de minimiser l erreur de reconnaissance des phrases d apprentissage. Un autre exemple est la méthode de minimisation de l erreur des phonèmes (Minimum Phone Error Training, MPET ) [Woodland et Povey, 2002] où le but est de minimiser l erreur de reconnaissance des mots en minimisant l erreur de reconnaissance des phonèmes sur les données d apprentissage. Au prix d une quantité de calcul plus importante par rapport à l apprentissage MLE, les résultats de l apprentissage discriminant sont plus performants. Réduction du nombre de paramètres et partage des paramètres Pour créer un modèle acoustique précis, une solution simple consiste à augmenter le nombre de paramètres du modèle. Le problème qui peut survenir dans ce cas est l insuffisance de la

44 36 Chapitre 4. Modélisation acoustique de la parole quantité de données d apprentissage. Cela peut à son tour dégrader les performances du modèle. Il est donc nécessaire de trouver un bon compromis entre le nombre de paramètres du modèle et la quantité de données d apprentissage. Il a été observé que certains paramètres du modèle estimé ont des valeurs égales ou très proches. Cela a donné l idée de remplacer ces paramètres par un seul paramètre et de l apprendre efficacement en utilisant les données réunies d apprentissage. Cette solution permet de prendre en compte le problème de l insuffisance des données d apprentissage mentionné ci-dessus et de bien apprendre le modèle. Un autre avantage de cette procédure est la réduction de la complexité des calculs. Cette procédure est appelée partage de paramètres. Dans les reconnaisseurs utilisant comme unité de parole les phonèmes dépendant du contexte phonétique, le problème de la réduction du nombre de paramètres et celui de l utilisation efficace des données d apprentissage sont très importants. En effet, certain phonèmes dans certains contextes phonétiques sont rares et donc il est presque impossible de bien les apprendre à cause du manque de données. Dans ce cas, le partage de paramètres est un bon moyen pour résoudre ce problème. En utilisant des techniques de classification automatique des distributions, des classes d équivalence entre les différents contextes du même phonème peuvent être créées. La distance utilisée pendant la classification peut se fonder sur les distances entre deux distributions ou bien sur l information linguistique. Les classes de contexte créées partagent un même ensemble de paramètres [Young et Woodland, 1993], [Young et al., 1994], [Woodland et Young, 1993], [Sankar et Gadde, 1999]. En fonction de la quantité de données d apprentissage et de la quantité de calculs souhaitée, il est possible de choisir différents niveaux de partage de paramètres [Duchateau et al., 1998]. Par exemple, le partage des paramètres au niveau des états signifie que plusieurs états de différents modèles ont les mêmes paramètres. La figure 4.9, repris de [Young et al., 1993], illustre ce principe : le même état est partagé par différents triphones du phonème anglais /ih/. Un autre exemple est le partage au niveau du mélange de gaussiennes. Cela revient à utiliser le même ensemble de distributions gaussiennes pour plusieurs mélanges de distributions des modèles. Pour finir, pendant la reconnaissance, l algorithme de Viterbi est communément utilisé [Forney, 1976], [Viterbi, 1982]. Le but de cet algorithme est de trouver la séquence d états la plus probable, étant donnés les modèles acoustiques, les modèles de langage et la parole à reconnaître. 4.3 Conclusion Dans ce chapitre introductif, nous avons décrit les différentes étapes de développement d un modèle acoustique : le choix du type de modèle, le choix de la topologie du modèle, la modélisation de la durée d une unité de parole, la prise en compte de la corrélation de la parole, l apprentissage des modèles et le partage des paramètres entre différents modèles. Le lecteur intéressé trouvera en annexe la description de la modélisation acoustique utilisée dans notre travail. Les méthodes proposées dans ce chapitre constituent l état de l art du domaine depuis quelques années. Il y a relativement peu de travaux importants récents concernant ces sujets : Dans le domaine des modèles fondés sur les segments, un effort considérable est effectué dans la mise en œuvre et l estimation des paramètres pour donner des résultats comparables à ceux des modèles fondés sur les trames [Li et Siu, 2004]. Dans le domaine de la réduction et du partage de paramètres, la tendance est de mieux effectuer le partage des paramètres [Han et al., 2005], [Jonas et Schmolze, 2005] ou de mieux sélectionner les modèles acoustiques qui seront utilisés pendant la reconnaissance [Chan et al., 2004], [Mosur et Rudnicky, 2005].

45 4.3. Conclusion 37 Fig. 4.9 Exemple de partage des paramètres au niveau d un état entre différents triphones du phonème anglais /ih/ (d après [Young et al., 1993]). L exception peut être faite pour le domaine de l apprentissage, dans lequel de nombreux travaux récents sont consacrés à la mise en œuvre des algorithmes d apprentissage discriminant (voir, par exemple, [Macherey et al., 2004], [Macherey et al., 2005], [Povey, 2005]). Notons également que le domaine du développement des algorithmes efficaces de reconnaissance est également actif actuellement. Le but ici est d effectuer la reconnaissance en temps réel en utilisant un vocabulaire de taille importante et des modèles acoustiques détaillés (par exemple, voir la session Issues in Large Vocabulary Decoding de la conférence Interspeech 2005 ).

46

47 Chapitre 5 Vers la reconnaissance robuste au bruit Dans ce chapitre nous présentons différentes méthodes de robustesse au bruit. Dans l introduction, nous posons le problème de la reconnaissance robuste au bruit et au locuteur. Puis nous nous focalisons sur la robustesse au bruit et donnons un aperçu des méthodes de compensation constituant l état de l art du domaine. Dans la suite de ce chapitre, les travaux concernant la robustesse au bruit et effectués en collaboration avec Christophe Cerisara, Dominique Fohr, Filipp Korkmazski et Vincent Barreaud sont présentés. Les méthodes que nous avons développées traitent les bruits stationnaires et non stationnaires. 5.1 Introduction à la reconnaissance robuste Les différences entre conditions de test et conditions d apprentissage représentent un facteur majeur de la dégradation des performances des systèmes de reconnaissance en situation réelle d utilisation. Ces différences sont souvent dues aux différents types de bruits, aux différences entre microphones, aux différences entre locuteurs, aux facteurs de stress des locuteurs, à l effet Lombard 5, etc. Plus formellement, soit X la parole d apprentissage, M λ,x le modèle issu de l apprentissage, Y l ensemble de données de test. Comme nous l avons dit dans le chapitre 4, pendant la reconnaissance, étant donné M λ,x et Y, il est nécessaire de trouver une suite de mots Ŵ qui maximise la vraisemblance des données de test : P (W )P (Y W, M λ,x ) Ŵ = argmax P (W Y, M λ,x ) = argmax W W P (Y ) (5.1) Plus X et Y sont différents ce qui correspond à la différence entre les conditions de test et celles d apprentissage plus les valeurs de la famille {P (Y W, M λ,x )} W deviennent petites et proches l une de l autre. Cela diminue la discriminabilité du modèle acoustique, augmente la confusion entre les différents mots pendant la reconnaissance et peut entraîner la dégradation des performances du système de reconnaissance. Donc, plus les données d apprentissage sont différentes des données de test, plus le taux de reconnaissance va décroître. De nombreuses méthodes ont été proposées pour diminuer la différence entre conditions de test et conditions d apprentissage. Ces méthodes peuvent être réparties dans les catégories suivantes : 5 L effet Lombard est une modification du mode d élocution en présence de bruit fort : le locuteur modifie son élocution pour surmonter le bruit et être entendu. 39

48 40 Chapitre 5. Vers la reconnaissance robuste au bruit La modification du signal de test Y pour le rapprocher de l espace d apprentissage. Cela se ramène à un problème d analyse du signal. Cette approche n étant pas notre centre d interêt, ces méthodes de robustesse ne seront pas étudiées dans ce document. La modification des vecteurs acoustiques, issus du signal de test Y, pour les rapprocher de l espace d apprentissage. C est la compensation. La modification des modèles M λ,x pour les approcher de la parole de test Y. Il s agit de l adaptation des modèles acoustiques. La frontière entre la variabilité inter-locuteurs et la variabilité due aux bruits est difficile à définir avec exactitude. Ces deux types de variabilité peuvent affecter le signal de façon proche. Pour cette raison, certaines méthodes de robustesse au bruit sont aussi utilisées dans le cadre de la robustesse au locuteur. Dans ce chapitre nous nous intéresserons au changement d environnement dû aux bruits. Le changement d environnement dû aux différences entre locuteurs sera traité dans le chapitre suivant Bruit additif et convolutif, stationnaire et non stationnaire Avant de présenter les différentes méthodes de robustesse au bruit, étudions l influence du bruit sur le signal propre. Le bruit contaminant la parole propre intervient dans deux domaines : temporel et fréquentiel. Ses caractéristiques sont a priori inconnues dans chacun de ces domaines. En fonction de sa nature, le bruit peut être classé dans deux catégories : Le bruit additif est considéré comme additif au signal propre dans le domaine spectral. C est un point de vue assez simplifié car il n est pas facile de séparer le bruit de la parole propre de façon exacte et sûre. Voici quelques exemples de bruits considérés comme additifs : le bruit d une voiture en mouvement, le bruit d un hélicoptère, le bruit de la foule dans une gare, etc. Un bruit additif peut être coloré et donc présent uniquement dans certaines bandes de fréquences. Dans ce cas, le bruit va contaminer les sons qui sont présents dans ces bandes de fréquences et ne va presque pas influencer les sons présents dans les autres zones de fréquence. Par exemple, les bruits additifs tels que le bruit de voiture affectent principalement les basses fréquences. La figure 5.1 présente un exemple de spectrogramme 6, repris de [Barreaud, 2004], de ce type de bruit. Un bruit affectant les zones de hautes fréquences du signal est, par exemple, un coup de sifflet. Le bruit convolutif est corrélé à la parole dans le domaine temporel, multiplicatif dans le domaine spectral et additif dans le domaine cepstral. Les exemples de ce type de bruit sont : la fonction de transfert de chaque type de microphone, le changement de position d un microphone, la parole téléphonique, la réverbération, etc. Le bruit convolutif agit souvent comme un filtre : il amplifie certaines fréquences et affaiblit les autres. Par exemple, dans la parole téléphonique les hautes fréquences sont éliminées (voir figure 5.2). Il est important de noter que la parole propre peut être affectée par des bruits additifs et convolutifs en même temps (exemple : la parole téléphonique prononcée dans une voiture en mouvement). Dans ce cas, l influence du bruit sur le signal de parole est hautement non linéaire. 6 Un spectrogramme est une représentation de l énergie du signal (nuances de gris) en fonction du temps et de la fréquence.

49 5.1. Introduction à la reconnaissance robuste 41 (a) Microphone proche de la bouche (signal propre). (b) Microphone loin de la bouche (signal bruité). Fig. 5.1 Spectrogrammes du morceau de phrase «Six cent cinquante-huit», prononcé par un homme dans l habitacle d une voiture en mouvement (parole bruitée), repris de [Barreaud, 2004]. Le bruit (additif et/ou convolutif) qui affecte le signal propre peut être également de deux types : Stationnaire ou quasi-stationnaire : cela signifie que le bruit est stable (ou quasi-stable) ou varie lentement au cours du temps. Non stationnaire, qui varie avec le temps. Ce type de bruit complique beaucoup le problème de robustesse, car dans ce cas le moment de changement de bruit, le type de bruit et sa durée ne sont pas connus à l avance. Voici quelques exemples de ce type de bruit : le bruit de passage d une voiture, le claquement d une porte ou comme le montre la figure 5.3 un fond musical qui vient corrompre quelques secondes de parole Prise en compte des différences entre les conditions de test et celles d apprentissage Pour modéliser l influence du bruit sur la parole, les méthodes de robustesse au bruit utilisent souvent une fonction de transformation paramétrique. Cette fonction représente la différence entre conditions de test et conditions d apprentissage. Les paramètres de cette fonction sont essentiellement estimés sur un ensemble de parole bruitée représentatif des conditions de test. Le choix de la fonction de transformation se fait en fonction de plusieurs facteurs. Il est nécessaire de prendre en compte la nature du corpus d apprentissage et du corpus de test et la nature de la différence entre conditions de test et conditions d apprentissage. Corpus d apprentissage

50 42 Chapitre 5. Vers la reconnaissance robuste au bruit (a) - Spectrogramme de la parole propre. (b) - Spectrogramme de la parole au téléphone. Fig. 5.2 (a) - Spectrogramme du morceau de phrase «Il ne fallait pas que le vote sur la Turquie...», prononcée par une femme dans un environnement calme (parole propre). (b) - Spectrogramme du morceau de phrase «C est occasionnel, les vacances...», prononcé par une femme au téléphone. En ce qui concerne la nature du corpus d apprentissage, deux cas sont envisageables : Le système de reconnaissance est entraîné avec de la parole non bruitée. Ce cas est le plus fréquent du fait de la disponibilité de grands corpus de parole propre. Le système de reconnaissance est entraîné sur de la parole bruitée. Dans ce cas plusieurs approches sont utilisées. La première approche consiste à se ramener au cas précédent en «enlevant» le bruit du corpus d apprentissage [Matrouf et Gauvain, 1997]. La deuxième approche suppose que le corpus d apprentissage peut être partitionné selon les différents types de bruits. Pour chaque partie un ensemble de modèles acoustiques est appris. La parole de test est reconnue en utilisant l ensemble de modèles les plus «proches» selon un certain critère. Corpus de test En ce qui concerne le corpus de test, il est important de savoir si le bruit est stationnaire ou

51 5.2. Modélisation de la parole bruitée dans le cadre de la compensation 43 Fig. 5.3 Spectrogramme de la partie de phrase «France Info à Amiens», prononcée par une femme sur fond musical. non. Si le bruit est stationnaire, l estimation des paramètres de transformation utilisant quelques phrases de test est une bonne solution pour une estimation fiable. Cela se fait en général avant la reconnaissance (off-line). La présence de bruit non stationnaire amènera à estimer les paramètres de transformation chaque fois que le bruit changera. Cela complique beaucoup la tâche de reconnaissance. En effet, il faudra estimer les paramètres de transformation en même temps que la reconnaissance (on-line) chaque fois que le bruit changera. Cela est techniquement difficile à cause du manque de données disponibles. Les méthodes de robustesse transformant le signal ou les vecteurs acoustiques sont ici les plus appropriées car elles demandent moins de données pour estimer les paramètres que les méthodes de transformation de modèles acoustiques. 5.2 Modélisation de la parole bruitée dans le cadre de la compensation Dans la suite de ce chapitre, les méthodes de transformation de vecteurs acoustiques, c est-àdire, les méthodes de compensation, seront au centre de notre attention. Ce choix s explique par le fait que nous nous plaçons dans le cadre de bruits pouvant changer d une phrase à l autre et dans le cadre du bruit non stationnaire. Pour ce type de bruit, le calcul des paramètres de la fonction de transformation doit se faire chaque fois que le bruit change. Dans ce cas, les méthodes de compensation sont bien appropriées. La tâche étudiée est la suivante : nous supposons que les modèles acoustiques du système de reconnaissance sont appris sur de la parole non bruitée et que la parole de test correspond à la parole bruitée (bruits additifs et/ou convolutifs, stationnaires et/ou non stationnaires). Pour faciliter la compréhension de cette section, la présentation du processus de génération des vecteurs acoustiques est donnée. Puis, la modélisation de la parole bruitée et les méthodes de compensation seront étudiées.

52 44 Chapitre 5. Vers la reconnaissance robuste au bruit Génération des vecteurs acoustiques Tout système de reconnaissance de la parole possède un module qui transforme le signal enregistré en une suite de vecteurs acoustiques. Les coefficients MFCC (Mel Frequency Cepstral Coefficients, MFCC ) sont le plus souvent utilisés comme représentation acoustique du signal. Voici comment ils sont générés. Tout d abord le signal est enregistré et numérisé. Puis les échantillons obtenus sont préaccentués pour amplifier les hautes fréquences et sont analysés en utilisant une fenêtre temporelle glissante de Hamming. Une FFT (Fast Fourier Transform) est calculée pour chaque fenêtre. En sortie, on obtient un spectre de puissance qui représente l énergie avec une échelle linéaire en fréquence. Ensuite, un filtrage utilisant l échelle mel 7 est appliqué aux vecteurs de spectre. Après une transformation discrète en cosinus nous obtenons les coefficients cepstraux, MFCC. Par rapport aux coefficients spectraux, les coefficients cepstraux ont l avantage d être décorrélés, compacts et de donner de meilleurs taux de reconnaissance en parole par rapport aux autres types de coefficients. En revanche, l information provenant de différentes bandes de fréquences est diluée dans différents coefficients MFCC. Les trois premières étapes du processus de génération des vecteurs acoustiques sont effectuées dans l espace temporel, les trois étapes suivantes sont effectuées dans l espace temps-fréquence. La dernière étape nous ramène dans le domaine temporel. La taille des fenêtres, la longueur de recouvrement des fenêtres, le nombre de filtres utilisés sont souvent spécifiques à l application développée. Leur choix peut également résulter de «l histoire» d un groupe de recherche Modélisation de la parole bruitée Comme cela a été dit au paragraphe 5.1.1, les bruits affectant la parole peuvent être classés en deux grandes catégories : les bruits additifs et les bruits convolutifs. Pour représenter la parole bruitée dans le domaine temporel, le modèle suivant est le plus souvent utilisé [Gales, 1996], [Gales, 1998d] : y(t) = h(t) x(t) + n(t) (5.2) où x(t) est le signal temporel correspondant à la parole propre à l instant t, y(t) est le signal bruité, n(t) est le bruit additif et h(t) est le bruit convolutif et désigne la convolution. Le bruit additif n(t) est supposé non corrélé avec le signal propre. L aspect corrélé du bruit est «absorbé» par la composante h(t) représentant le bruit convolutif. Soulignons que dans ce modèle le bruit est dépendant du temps. Le but de la compensation est d estimer les bruits n(t) et h(t), étant donné la parole bruitée y(t). Après leur estimation, les bruits n(t) et h(t) seront «soustraits» du signal bruité y(t) pour déduire la parole propre x(t). Cette parole propre sera utilisée pendant la reconnaissance avec des modèles acoustiques qui sont aussi représentés dans l espace de la parole propre. Grâce à la compensation, la différence entre la parole de test et celle d apprentissage sera réduite ou éliminée complètement. 7 L échelle mel est une échelle qui imite la perception humaine : elle donne une résolution précise du signal en basses fréquences et une résolution moins détaillée en hautes fréquences, car l oreille humaine est moins sensible dans les aigus.

53 5.2. Modélisation de la parole bruitée dans le cadre de la compensation 45 Comme les modèles acoustiques sont le plus souvent appris sur les coefficients cepstraux, il est intéressant de voir comment se réécrit le modèle précédent dans le domaine du cepstre. Reprenons l équation (5.2) et passons dans le domaine cepstral. Dans ce domaine, le bruit additif n est plus additif aux cepstres de parole propre et le bruit convolutif n est plus convolutif par rapport aux cepstres. Dans ce cas, le modèle précédent peut être reformulé dans le domaine cepstral de la façon suivante : y c = x c + g(x c, n c, h c ) (5.3) où le symbole x c représente le signal de parole propre dans le domaine cepstral et g est une fonction d environnement non linéaire, qui dépend de la parole propre à estimer et des bruits. La même expression est valable dans le domaine log-spectral. Le problème de représentation de la fonction d environnement g(x c, n c, h c ) est le problème clé de la compensation, car la forme de cette fonction est inconnue. De nombreuses techniques de compensation permettent d approcher cette fonction en se fondant sur l information disponible et en s appuyant sur différentes hypothèses. Nous présentons ci-dessous quelques méthodes de compensation parmi les plus connues et les plus utilisées Les méthodes de compensation Comme nous l avons dit précédemment, étant donné un système entraîné à partir d un corpus de parole non bruitée, l objectif de la compensation est de prétraiter les vecteurs acoustiques correspondant au signal bruité de test, afin de pouvoir les utiliser comme entrée du système. Les méthodes de compensation se divisent en quatre classes distinctes en fonction de l information utilisée et du modèle de bruit pris en compte : Les méthodes utilisant un minimum d information (ou aucune) sur la parole propre (x(t)) et sur les bruits (n(t) et h(t)). Les méthodes utilisant les bases de données stéréo ou la parole enregistrés avec plusieurs microphones pour estimer le bruit. Les méthodes utilisant certaines informations sur la parole propre x (par exemple, les modèles acoustiques ou les données d apprentissage correspondant à la parole propre) et sur les bruits (n et h). Les méthodes utilisant explicitement le modèle d environnement du type : y(t) = h(t) x(t) + n(t) (5.4) 1. Les méthodes utilisant peu ou pas d information sur la parole propre et sur les bruits. Cette approche se caractérise par une absence de modèle explicite de la fonction d environnement. Souvent toute l information disponible est puisée dans la parole de test. Ni les modèles acoustiques, ni le corpus d apprentissage des modèles ne sont utilisés. Voici les exemples les plus typiques de ces méthodes : La soustraction spectrale consiste à soustraire du spectre de parole bruitée y(t) une estimation du spectre de bruit [Lim, 1978]. L estimation du spectre de bruit est faite en utilisant un segmentateur de «parole / non parole». La partie fournie par ce détecteur et correspondant à la «non parole» est considérée comme une estimation du bruit. Selon notre modèle (5.2), le terme soustrait correspond au bruit additif n(t) dans le domaine spectral : x s (t) = y s (t) n s (t) (5.5)

54 46 Chapitre 5. Vers la reconnaissance robuste au bruit où y(t) est la parole bruitée disponible, n(t) est l estimation du bruit additif sur la partie «non parole» du signal et x(t), le signal propre recherché. Souvent, pour simplifier l estimation, il est supposé que le bruit additif n(t) est stationnaire et donc indépendant du temps : n(t) = n. Le défaut de cette méthode est que la différence entre l estimation du spectre du signal bruité et celle du bruit peut devenir négative. Cela se traduit par la présence de bruit «musical». Différents types de lissages ou de filtrage permettent d éliminer cet événement désagréable [Whipple, 1994]. La soustraction spectrale est efficace et souvent utilisée dans les systèmes de reconnaissance. La soustraction spectrale non linéaire a été proposée dans [Lockwood et Boudy, 1992], [Zhu et Alwan, 2002]. Les auteurs ajoutent un coefficient coef, dépendant du niveau de rapport signal sur bruit : y(t) = x(t) + coef n. La normalisation de la moyenne cepstrale consiste à soustraire du signal une estimation du bruit. Cela est effectué dans le domaine cepstral et correspond donc au bruit convolutif. Souvent, c est la moyenne du cepstre, représentant les variations lentes du signal, qui est considérée comme l estimation de ce type de bruit : x c (t) = y c (t) h c (5.6) où y c (t) est la parole bruitée de test, h c est le bruit convolutif, approché par la moyenne du cepstre et x c (t), le signal propre qui est recherché. Ce type de compensation réduit non seulement le bruit convolutif mais fait également partie de la normalisation du locuteur. Le masquage de bruit permet de ne pas prendre en compte les parties bruitées du signal (ou de les reconstituer d une certaine façon). Par exemple, [Klatt, 1976] détecte les zones du spectre dont l énergie est inférieure à un certain seuil (caractérisant le niveau maximal du bruit de fond). Ces zones, considérées comme bruitées, sont «masquées» en les remplaçant par la valeur de ce seuil. On supprime ainsi l influence des régions du spectre portant peu d information. Ces méthodes ont beaucoup évolué ces dernières années [Raj et al., 2000a], [Renevey, 2001]. Nous en reparlerons plus en détail dans la suite de ce chapitre, dans la section Les méthodes utilisant les bases de données stéréo 8 et la parole enregistrée avec plusieurs microphones. Les méthodes utilisant les bases de données stéréo sont très contraignantes car la partie bruitée de la base de données doit être représentative du corpus de test. De ce fait, posséder une telle base de données n est pas toujours possible. Le principe de ces méthodes consiste à estimer le bruit à partir d exemples de parole propre et de parole bruitée. Voici quelques exemples représentatifs de ces méthodes : Le filtrage optimum probabiliste (Probabilistic Optimum Filtering, POF ) modélise la fonction de compensation par une fonction non linéaire, construite sur la base de transformations linéaires [Neumeyer et Weintraub, 1994], [Salonidis et Digalakis, 1998]. Chaque portion linéaire est obtenue en découpant l espace de parole propre en régions en utilisant la quantification vectorielle. A chacune de ces régions est associée un filtre. Les paramètres de ce filtre sont estimés à partir de la parole propre et de la parole bruitée 8 Une base de données stéréo signifie que la parole propre et la parole bruitée sont enregistrées simultanément avec deux microphones.

55 5.2. Modélisation de la parole bruitée dans le cadre de la compensation 47 de la base de données stéréo (en minimisant l erreur quadratique entre les observations de parole propre et les observations de parole bruitée). Les filtres sont utilisés pour compenser la parole bruitée de test. Fixed Codeword Dependent Cepstral Normalisation, FCDCN [Acero, 1990] est similaire par sa structure aux méthodes POF. La méthode utilise la représentation de la distribution du cepstre de parole propre obtenue par la quantification vectorielle. Le vecteur de correction est également estimé en utilisant les données stéréo. Les méthodes de filtrage adaptatif (Adaptive Noise Cancellation) se basent sur une utilisation de plusieurs microphones [Widrow et al., 1975]. Par exemple, un microphone capte la parole bruitée, l autre le bruit de fond. Le principe consiste à calculer à partir de ces deux éléments le filtre adaptatif permettant d estimer le bruit corrupteur et de le supprimer du signal de parole bruitée. L utilisation de ces méthodes est contrainte par la disposition des microphones et par leur nombre. En revanche, ces méthodes n utilisent aucune hypothèse a priori sur le bruit et peuvent donc être utilisées pour la compensation de bruit non stationnaire [Bourgeois et al., 2005]. 3. Les méthodes utilisant certaines informations sur la parole propre et sur les bruits. Le but ici est d imaginer une fonction de transformation qui associe à chaque point de l espace de test, correspondant à la parole bruitée, un point de l espace d apprentissage, correspondant à la parole propre. Voici quelques exemples de ces méthodes : L égalisation par histogrammes est une technique de normalisation non linéaire. Elle modifie les paramètres acoustiques de test pour que leur densité de probabilité cumulée (Cumulative Density Function, CDF ) corresponde à la CDF des données d apprentissage. La modification est faite en utilisant un histogramme de données d apprentissage et un histogramme des données de test. [Hilger et Ney, 2001], [Molau et al., 2003b] effectuent cette transformation dans le domaine spectral, tandis que [Obushi et Stern, 2003] et [Segura et al., 2002a] travaillent dans le domaine cepstral. L utilisation de plusieurs CDF peut aussi être intéressante [Korkmazsky et al., 2004]. L estimation d un biais additif. L hypothèse de base est que la parole bruitée est corrompue par un biais additif. Pour compenser ce bruit, le biais est estimé selon un certain critère d estimation (par exemple, la maximisation de la vraisemblance Maximum Likelihood ou la minimisation de l erreur quadratique moyenne Mean Square Error), étant donné le biais et les modèles représentant la parole propre. Ces derniers modèles sont souvent des modèles simplifiés de la parole propre [Sankar et Lee, 1996], [Wu et al., 2003], [Myrvoll et Nakamura, 2003], [Barreaud, 2004]. 4. Les méthodes utilisant le modèle d environnement : y(t) = h(t) x(t) + n(t) (5.7) La normalisation cepstrale utilisant un dictionnaire (Codebook Dependent Cepstral Normalisation, CDCN ) est similaire à la méthode POF mais ici les données stéréo ne sont pas nécessaires [Acero et Stern, 1990]. Il s agit de construire une fonction qui transforme la parole bruitée en parole propre : y c = h c + x c + g(x c, n c, h c ) (5.8)

56 48 Chapitre 5. Vers la reconnaissance robuste au bruit Le problème revient à estimer le cepstre de bruit h c et le cepstre de la fonction de transfert du filtre g(x c, n c, h c ). L estimation s effectue selon le critère de maximum de vraisemblance, qui minimise la distorsion entre les vecteurs de cepstres filtres et un ensemble de modèles de parole propre (GMM, Gaussian Mixture Model). Comme dans les méthodes POF, l espace d apprentissage est divisé en plusieurs régions pour construire les GMM représentant la parole propre de façon fiable [Droppo et Acero, 2004]. La méthode VTS (Vector Taylor Series, VTS) va encore plus loin que CDCN dans la modélisation de la fonction d environnement [Moreno, 1996]. Il s agit d approcher la fonction d environnement par des séries de Taylor. Dans le domaine log-spectral : y(k) = x(k) + g(x(k), n(k), h(k)) (5.9) où y(k) représente le coefficient log-spectral et la fonction g(x(k), n(k), h(k)) est développée en série de Taylor. L ordre utilisé de la série est en général petit : premier ou deuxième. Pour un ordre plus grand, le nombre de paramètres à estimer sera trop important pour être estimé de façon fiable. Une amélioration du VTS a été proposée dans [Raj et al., 1996] : la fonction d environnement est approchée par une décomposition polynomiale. La classification des méthodes de compensation présentée ne prétend pas être exhaustive. Toutes ces méthodes se différencient par l information qu elles utilisent, leur domaine d utilisation (le domaine cepstral, log-spectral ou spectral), le type de bruit pour lequel elles sont les plus appropriées (bruit additif et/ou convolutif, bruit stationnaire ou non stationnaire), un coût de calcul et bien sûr leur efficacité. Les méthodes cherchant à modéliser la différence entre conditions de test et conditions d apprentissage dans le domaine spectral, permettent de réduire plutôt les bruits additifs. Les méthodes modélisant cette différence dans le domaine cepstral traitent le plus souvent les bruits convolutifs. L efficacité de ces méthodes dépend fortement de la complexité du modèle de transformation utilisé et des moyens mis à disposition pour apprendre ce modèle. Le bruit non stationnaire est plus difficile à compenser, car, comme nous l avons dit plus haut, son moment d apparition, son niveau et sa nature ne sont pas connus. Pour compenser les bruits non stationnaires il est nécessaire d avoir un algorithme de compensation réagissant rapidement au changement de bruit, c est-à-dire changeant sa stratégie de compensation. Nous reparlerons plus en détails de méthodes compensant le bruit non stationnaire dans la section 5.4. En complément du résumé des méthodes que nous donnons ici, le lecteur pourra se reporter aux articles de synthèse [Gong, 1995], [Stern et al., 1997], [Lee, 1997], [Ris et Dupont, 2001], [Barker et al., 2005]. 5.3 Notre contribution à la compensation du bruit stationnaire Introduction Dans cette section nous présentons les travaux que nous avons menés pour la compensation de bruit stationnaire : l approche à base de Stochastic Matching 9 et l approche de l égalisation 9 L equivalent français du terme de Stochastic Matching, appariement stochastique, nous paraît artificiel et n est pas utilisé par nos collègues français. En conséquence, dans la suite de ce document nous garderons la terminologie anglaise.

57 5.3. Notre contribution à la compensation du bruit stationnaire 49 par histogrammes. Les recherches concernant l approche à base de Stochastic Matching ont été faites avec Vincent Barreaud, dans le cadre de sa thèse que j ai co-encadrée avec Jean-Paul Haton et Dominique Fohr [Barreaud, 2004]. Une amélioration de l algorithme classique d égalisation par histogrammes est un des fruits de la collaboration avec Filipp Korkmazsky, chercheur invité de notre équipe [Korkmazsky et al., 2004]. Nous décrivons les grandes lignes de nos travaux et les principes de bases des algorithmes proposés Compensation en temps réel basée sur le Stochastic Matching Comme cela a été dit dans la section précédente, lors de l élaboration d une méthode de compensation, la première question à laquelle il faut répondre est quelle est la forme de la fonction de transformation et quelles données utiliser pour estimer les paramètres de cette fonction. Dans notre travail, nous avons choisi d utiliser comme données la parole bruitée et les modèles acoustiques issus de l apprentissage. Le choix d utiliser des modèles acoustiques s explique par le fait que ces modèles contiennent l information essentielle sur la parole propre et de plus sont utilisés pendant la reconnaissance. En ce qui concerne la fonction d environnement, nous avons choisi une fonction simple avec un biais additif, représentée dans le domaine cepstral : y c = x c + g(x c, n c, h c ) (5.10) Nous avons pris comme base de travail l approche de Stochastic Matching de [Sankar et Lee, 1995], [Sankar et Lee, 1996]. L aspect temps réel de cette méthode (les paramètres de la fonction d environnement sont ajustés pendant la reconnaissance, phrase par phrase) est très intéressant car il nous a permis d aller plus loin que ce que permettait la compensation de bruits stationnaires. Les bruits non stationnaires ont été également abordés grâce à l estimation de la fonction d environnement au fur et au mesure de la reconnaissance (voir section 5.4). Décrivons tout d abord l algorithme de Stochastic Matching. Le but de la compensation est d estimer la fonction f(y c ) dans le domaine cepstral telle que : f(y c ) x c. Pour simplifier nos notations, nous omettons l indice c dans la suite de ce paragraphe. Supposons que notre transformation dépende du temps t et soit de forme : f(y t+1 ) = y t+1 + b t (5.11) où b t représente un biais additif et donc modélise les bruits convolutifs dans le domaine cepstral. Les bruits additifs peuvent être également «absorbés» par ce terme. Dans [Delphin-Poulat et al., 1998] il a été montré que la suite de biais B t = {b 0,..., b t } peut être estimée récursivement : b t+1 = b t S K s=1 k=1 γ t+1 t+1,bt (s, k) y t+1+b t µ s,k σ 2 s,k t S K τ=1 s=1 k=1 γ τ t+1,bτ (s,k) σ 2 s,k (5.12) où µ s,k, σ s,k sont la moyenne et la variance de la gaussienne k de l état s ; γ τ t+1,bt (s, k) est la probabilité d être dans la gaussienne k de l état s à l instant t, sachant la suite d observations. Cette probabilité est appelée probabilité «avant-arrière» (forwardbackward). Elle est calculée en utilisant l algorithme de Baum-Welch. L algorithme de compensation compense phrase par phrase et peut être décrit de la façon suivante :

58 50 Chapitre 5. Vers la reconnaissance robuste au bruit Reconnaître la phrase de parole bruitée correspondant à la parole de test et en déduire les probabilités γ τ t+1,bt (s, k) ; En utilisant ces probabilités, calculer la suite de biais {b 0,..., b T }, où T est le nombre de trames de la phrase. Compenser la parole de cette phrase en utilisant le biais final b T. Il est important de noter que pour calculer les probabilités γ τ t+1,bt (s, k), il est nécessaire de connaître la séquence complète des états. Donc, avant la compensation, il est nécessaire de reconnaître la phrase de test. En conclusion, la compensation est faite off-line. De plus la reconnaissance est effectuée deux fois : avant et après la compensation. Pour avoir la possibilité de faire la compensation on-line, c est-à-dire en même temps que la reconnaissance, nous avons proposé d approcher la probabilité «avant-arrière» de (5.12) par la probabilité «avant» (forward) α τ Bτ 1 (n,k) ce qui donne alors : b t+1 = b t S K s=1 k=1 α t+1 Bt (n, k) y t+1+b t µ (n,k) σ 2 (s,k) t S K τ=1 s=1 k=1 α τ Bτ (s,k) σ 2 (s,k) (5.13) Nous nous rendons compte que l approximation de la probabilité «avant-arrière» de cette méthode par la probabilité «avant» est assez grossière. En effet, quand nous calculons la probabilité «avant» nous ne connaissons pas la suite de la phrase et la suite d états. Le meilleur chemin à la trame courante peut se dégrader après et ne pas être optimal au sens de Viterbi. Mais après tout, comme le biais de compensation est calculé de façon récursive, notre hypothèse est que l utilisation d un chemin sous-optimal donnera une amélioration de performance pour une compensation on-line. En allant encore plus loin, à la place de la probabilité «avant» nous avons utilisé la contribution du meilleur état et de la meilleure gaussienne à l instant t : b t+1 = b t y t+1 +b t µ (s,k)t+1 σ 2 (s,k) t+1 t 1 σ τ=1 (s,k)τ 2 (5.14) où µ (s,k)t+1 et σ (s,k)τ représentent la moyenne et la variance de la meilleure gaussienne à l instant τ. Dans ce cas l algorithme de compensation se résume comme suit : Pour la trame t de la phrase de test, compensée en utilisant le biais calculé à l instant t 1, trouver l état optimal selon la probabilité «avant». Pour cette trame calculer le biais, en utilisant le modèle acoustique correspondant à cet état. Ce biais sera utilisé pour compenser la trame suivante. Les expériences, menées sur les corpus VODIS et Aurora3 (voir la description des corpus dans l annexe 9.1) montrent que cette approximation est satisfaisante [Barreaud et al., 2003c] : la méthode montre une amélioration significative du taux de reconnaissance par rapport aux méthodes classiques de compensation/adaptation comme la soustraction spectrale, MCR (Mean Cepstral Removal) et PMC (Parallel Model Composition [Gales, 1996]).

59 5.4. Notre contribution à la compensation du bruit non stationnaire 51 Dans [Barreaud et al., 2003d] nous avons proposé une utilisation d une structure hiérarchique de transformations pour cette approche. Malheureusement, le manque de données de test (utilisation d une seule phrase de test) pour estimer ces transformations fait que seuls les premiers niveaux de l arbre sont utilisés réellement. Dans ce cas le bénéfice réel de l utilisation d un arbre, dans le contexte de la compensation rapide, est très limité Égalisation par histogrammes Comme nous l avons dit, la méthode d égalisation par histogrammes est une méthode de normalisation non linéaire du signal bruité. Le principe est de mettre en correspondance la densité de probabilité cumulée (CDF) des données de test et la densité de probabilité cumulée des données d apprentissage. Cette technique peut être appliquée dans le domaine spectral [Molau et al., 2003a] et cepstral [Segura et al., 2002b]. De bons résultats ont été obtenus en combinant cette approche avec d autres méthodes de normalisation [Molau et al., 2003c]. Récemment, pour mieux prendre en compte la variabilité de la parole, l idée d interpolation de plusieurs histogrammes est apparue [Molau et al., 2003a] : pour la parole d apprentissage, deux histogrammes, l un correspondant à la parole et l autre correspondant au silence, sont utilisés. L histogramme final des données d apprentissage est calculé comme une interpolation linéaire de ces deux histogrammes. Les poids d interpolation sont estimés séparément pour chaque locuteur de test. Dans notre équipe, nous avons également travaillé sur les méthodes d égalisation. Nous avons choisi d appliquer l approche d égalisation d histogrammes dans le domaine cepstral. Dans [Korkmazsky et al., 2004] nous avons proposé différents niveaux d interpolation d histogrammes afin d améliorer la compensation. Voici un bref résumé de ce travail : L interpolation au niveau de différents sons de parole. Comme dans [Molau et al., 2003a], pour mieux prendre en compte la variabilité acoustique du signal, nous utilisons un histogramme pour la parole et un histogramme pour le silence. Un autre niveau d interpolation que nous avons exploré est l interpolation d un ensemble d histogrammes dont chacun correspond à une classe de sons (phonèmes dans notre cas). Malheureusement cette voie n a pas apporté de résultats intéressants. Cela est probablement dû au manque de données de test nécessaires pour bien estimer l histogramme pour chaque classe phonétique. L interpolation au niveau de différentes phrases. Nous avons supposé que le bruit ne changeait pas rapidement d une phrase de test à une autre phrase de test. Dans ce cas, pour mieux estimer l environnement de test, nous avons proposé de combiner les statistiques locales correspondant à une phrase de test avec les statistiques globales correspondant aux phrases précédentes. 5.4 Notre contribution à la compensation du bruit non stationnaire Introduction Cette section est consacrée à la présentation de nos travaux sur la compensation des bruits non stationnaires. Deux sujets seront abordés ici : la compensation temps réel basée sur le Stochastic Matching et le masquage de bruit. Le premier sujet se situe dans le cadre de la thèse de Vincent Barreaud. Le deuxième sujet a été étudié en collaboration avec Christophe Cerisara.

60 52 Chapitre 5. Vers la reconnaissance robuste au bruit Comme le problème de compensation de bruits non stationnaires est très important pour notre équipe (plusieurs projets industriels et de collaboration avec des autres universités sont en cours sur ce sujet (HIWIRE, ESTER, Presse+), voir paragraphe 3.5), nous présenterons nos travaux dans ce domaine de façon un peu plus détaillée Compensation temps réel fondée sur le Stochastic Matching Le but de cette section est de présenter nos travaux sur la détection de changement de l environnement (arrivée de bruit soudain) et d expliquer comment nous avons pris en compte ce changement dans le contexte du Stochastic Matching. Ici deux problèmes doivent être abordés : comment détecter le changement d environnement et comment le prendre en compte pendant la reconnaissance. Comme nous l avons dit précédemment, la méthode fondée sur le Stochastic Matching revient à calculer une fonction simple de compensation, un biais additif, en parallèle avec la reconnaissance. Cette méthode de compensation pourrait être intéressante pour la compensation de bruits non stationnaires, car elle fait peu d hypothèses sur la nature, le niveau et la variation de bruits. Mais, en revanche, elle n est pas utilisable telle quelle. Il est nécessaire de détecter les moments de changement du bruit. Quand l instant de changement d environnement est détecté, le biais de la compensation doit être ajusté d une certaine façon en fonction du nouvel environnement acoustique Détection de changement d environnement Le changement d environnement est un changement de type de bruit, d intensité du bruit ou plus simplement une apparition de bruit soudain. Pour détecter le changement d environnement, il sera utile d étudier ce qui se passe à ces moments précis dans notre algorithme de Stochastic Matching. Comme cela a été dit dans la section 5.3.2, la méthode de Stochastic Matching calcule un biais de façon récursive pendant la reconnaissance : avec b t+1 = b t δ t+1 t 1 σ τ=1 (s,k)τ 2 (5.15) δ t+1 = y t+1 + b t µ (s,k)t+1 σ 2 (s,k) t+1 (5.16) La variable δ représente l écart normalisé entre l observation compensée et la moyenne la plus probable pour cette observation. La figure 5.4 présente une distribution de la variable d écart δ pour un coefficient cepstral et cela pour la parole propre et la parole bruitée. Le corpus VODIS a été utilisé : la parole propre correspond à l enregistrement avec le microphone close-talk et la parole bruitée correspond à celui effectué avec le far-talk (voir l annexe 9.1 pour la description du corpus). Il apparaît qu en fonction de l environnement (bruité ou non bruité) la moyenne de la variable d écart δ est nettement différente. Si l environnement change, la variable d écart va donc également changer. De plus, la forme de la courbe de la variable d écart est proche d une gaussienne.

61 5.4. Notre contribution à la compensation du bruit non stationnaire environnement calme environnement bruyant valeur de delta pour la deuxième dimension cepstrale (a) Deuxième dimension cepstrale Fig. 5.4 Distribution de δ pour la deuxième dimension cepstrale pour la parole propre (closetalk) et bruitée (far-talk). Repris de [Barreaud, 2004]. Maintenant le problème à résoudre est comment localiser les moments de changement d environnement, c est-à-dire les moments de changement de bruit. Pour répondre à cette question, nous nous sommes tournés vers les algorithmes de surveillance. Ces algorithmes permettent de détecter les moments de changement dans un processus aléatoire. En se basant sur les observations ci-dessus, nous avons supposé que : La distribution de δ pour chaque type de bruit peut être modélisée par une distribution gaussienne ; Le changement d environnement entraîne un changement de la distribution de δ. Dans la suite de cette section nous présentons différents algorithmes de surveillance et leur intégration dans l algorithme de Stochastic Matching. Le but est de montrer la philosophie de notre approche de compensation de bruit non stationnaire Méthodes de surveillance Algorithme de Shewart L algorithme de Shewart est un algorithme on-line permettant de détecter le changement de distribution d une variable aléatoire [Basseville et Nikiforov, 1993]. Il est supposé que la nature de la distribution est connue. Dans notre cas, il est nécessaire de détecter le moment de changement d environnement, autrement dit le changement de la distribution de variable δ. L algorithme de Shewart représente ce qu on appelle un algorithme de contrôle de qualité : déclencher une alarme au moment où les données ne correspondent plus à un schéma prédéfini. L algorithme s appuie sur le rapport de vraisemblance des hypothèses à tester. Sans entrer dans les détails théoriques de l algorithme, donnons son application pour notre problème de surveillance de comportement de la variable δ.

62 54 Chapitre 5. Vers la reconnaissance robuste au bruit Nous supposons qu avant le changement, δ est distribuée selon une loi gaussienne avec une moyenne m 0 (connue) et qu après le changement, la moyenne devienne m 1 (inconnue, estimée sur une fenêtre suffisamment courte, disons de N trames). Nous supposons également que la variance de la distribution est connue (σ) et ne change pas. L algorithme de Shewart compare la vraisemblance de deux hypothèses : H 0 : l environnement est env 0 jusqu à l instant t ; H 1 : l environnement env 1 a succédé à env 0 dans les N dernières trames précédant t. Quand l instant t de changement d environnement est détecté, le biais de la compensation doit être ajusté d une certaine façon en fonction du nouvel environnement acoustique. Critère BIC Le critère BIC (Bayesian Information Criterion) est bien connu des spécialistes de la classification. Il revient à sélectionner un modèle parmi plusieurs. L approche prend en compte la vraisemblance de données et la complexité du modèle. Nous supposons qu avant le changement d environnement, δ est distribué selon une loi gaussienne avec une moyenne m 0 (connue) et une variance σ 0 (connue). S il y a un changement d environnement à l instant t N, la distribution va changer. Dans ce cas il vaut mieux modéliser les observations, c est-à-dire δ, par deux processus gaussiens : jusqu à l instant t N par une loi gaussienne avec une moyenne m 1 et une variance σ 1 et après l instant t N par une loi gaussienne avec une moyenne m 2 et une variance σ 2. Donc, il s agit de comparer deux hypothèses : H 0 : l environnement est env 0 jusqu à l instant t et la distribution de δ, c est-à-dire la séquence S 0 = {δ 1,..., δ t }, pourrait être modélisée par un seul processus gaussien : N (m 0, σ 0 ). H 1 : l environnement env 1 a succédé à env 0 à l instant t N et la séquence de δ est générée par deux processus gaussiens : la séquence S 1 = {δ 1,..., δ t N } par N (m 1, σ 1 ) avant l instant t N et la séquence S 1 = {δ t N+1,..., δ t } par N (m 2, σ 2 ) après l instant t N. Selon le critère BIC, on calcule le rapport de vraisemblance de H 0 et H 1 en prenant en compte la complexité des modèles : BIC(t) = log R(t) λp (5.17) où R(t) représente le rapport de vraisemblance des deux hypothèses ; R(t) = L(S 0, m 0, σ 0 ) L(S 1, m 1, σ 1 )L(S 2, m 2, σ 2 ) (5.18) P représente la complexité du modèle ; P = m 2 log t (5.19) où m est le nombre de paramètres dans un modèle gaussien (la taille du vecteur de la moyenne et la taille de la matrice de covariance) et t est la taille de la séquence S 0 ; λ est le paramètre à ajuster qui permet de pondérer l influence des nombre de paramètres du modèle gaussien sur le rapport de vraisemblance des deux hypothèses.

63 5.4. Notre contribution à la compensation du bruit non stationnaire 55 Si BIC(t) < 0 (5.20) l hypothèse H 1 est privilégiée, sinon l hypothèse H 0 est considérée comme viable et dans ce cas on considérera il n y avait pas de changement d environnement à l instant t N. Fonction de variation spectrale La fonction de variation spectrale (Spectral Variation Function, SVF ) proposée dans [Brugnara et al., 1992] permet de comparer deux ensembles de vecteurs sans faire d hypothèse de modélisation. La méthode s appuie sur l observation, à chaque instant t, de la région de l espace occupée par les vecteurs à surveiller, c est-à-dire par la séquence de δ. Si cette région «se déplace», il y a un changement d environnement. Ce déplacement peut être mesuré par l angle moyen observé entre les vecteurs successifs. A la différence de l algorithme de Shewart et du critère BIC, aucune hypothèse n est faite sur la distribution des vecteurs Comparaison des approches de surveillance Les approches de détection de changement d environnement ont été validées expérimentalement sur la base de données VODIS. La parole de test (close talk) a été bruitée artificiellement pour simuler le bruit non stationnaire (bruit d avion de la base NOISEX avec différents rapports signal à bruit). Deux tâches ont été étudiées dans ce contexte : La tâche échelon : le bruit est ajouté à partir du milieu de chaque phrase. La tâche aléatoire : le bruit est ajouté aléatoirement à chaque phrase de test. La figure 5.5 présente des exemples de spectrogrammes pour ce type de bruit ajouté. Après chaque détection de changement d environnement le biais du Stochastic Matching a été réinitialisé. Les résultats de cette étude montrent les faits suivants (voir figures 5.6 et 5.7) : Utiliser la compensation Stochastic Matching avec une méthode de surveillance donne de meilleurs résultats qu utiliser la compensation Stochastic Matching sans aucune surveillance. Cela confirme l intérêt de l approche proposée. Les résultats de reconnaissance sont comparables quel que soit l algorithme de surveillance utilisé et quelle que soit la tâche, ce qui est un peu décevant. Les améliorations de taux de reconnaissance sont plus significatifs pour le rapport signal à bruit (RSB) moyen que pour un RSB fort ou faible Masquage du bruit Le masquage du bruit est un phénomène naturel de réduction de la perception du signal en présence de bruit. L oreille et le cerveau détectent et décodent le signal bruité en retenant certaines parties et en éliminant les autres. Cela est fait par sélection de bandes fréquentielles. Par exemple, le bruit des conversations donne un fond bruité plus ou moins stationnaire et la compréhension des paroles prononcées dans ce milieu n est pas aisée. Mais l oreille humaine est capable d effectuer une analyse structurée (ou un certain «regroupement perceptuel») du signal capté. Les sous-parties du signal (sous-bandes) non intéressantes pour la compréhension de la conversation (bruits, musique) sont éliminées ou masquées tandis que l information intéressante

64 56 Chapitre 5. Vers la reconnaissance robuste au bruit (a) VODIS close-talk (b) VODIS échelon (c) VODIS aléatoire Fig. 5.5 Exemples de spectrogrammes de phrases de test VODIS artificiellement corrompues par les bruits de façon échelon et aléatoire (repris de [Barreaud, 2004]).

65 5.4. Notre contribution à la compensation du bruit non stationnaire Biais Shewhart BIC SVF réduction du taux d erreur en mots (%) RSB sur la partie bruitée (db) Fig. 5.6 Réduction du taux d erreur en mots pour l épreuve échelon en fonction de l approche de surveillance utilisée : sans approche de surveillance (biais, Shewart, BIC et SVF. Le corpus VODIS (repris de [Barreaud, 2004]) Biais Shewhart BIC SVF réduction du taux d erreur en mots (%) RSB sur les parties bruitées (db) Fig. 5.7 Réduction du taux d erreur en mot pour l épreuve aléatoire en fonction de l approche de surveillance utilisée : sans approche de surveillance (biais, Shewart, BIC et SVF. Le corpus VODIS (repris de [Barreaud, 2004]).

66 58 Chapitre 5. Vers la reconnaissance robuste au bruit est gardée et parfois même amplifiée. Ce phénomène humain est étroitement lié au fait que le signal de parole est redondant dans le domaine temps-fréquence. Si nous éliminons (dans une certaine mesure) quelques bandes de fréquences, la parole reste intelligible car l information nécessaire est toujours disponible. L idée de ce masquage de certaines sous-parties du signal a été utilisée pour le débruitage du signal et a donné lieu aux méthodes de masquage de bruit ou «la reconnaissance avec des données manquantes» (Missing Data Recognition, MDR) [Renevey, 2001], [Renevey et Drygajlo, 2001]. Deux approches sont envisageables pour la reconnaissance avec des données manquantes. La première consiste à «éliminer» les sous-parties bruitées ou à ne pas les prendre en compte pendant la reconnaissance. C est l approche de la marginalisation ou de l intégration [Cooke et al., 2001]. La deuxième approche consiste à estimer ces sous-parties bruitées pour «reconstituer» le signal bruité. L approche est appelée imputation des données (Data Imputation) [Raj et al., 2000b], [Seltzer et al., 2004]. Les parties bruitées sont estimées à partir des modèles représentant la parole propre. Ces deux approches ont leurs avantages et leurs inconvénients. L approche de marginalisation permet de garder l information statistique sur les valeurs masquées mais en revanche le système de reconnaissance doit être modifié pour calculer et prendre en compte les masques. L approche d imputation ne nécessite pas la modification du moteur de reconnaissance mais l information statistique sur les données masquées est perdue. Dans le cas de la marginalisation, les masques binaires (0 ou 1) ou les masques graduels (soft, entre 0 et 1) sont envisageables [Morris et al., 2001]. Un masque binaire égal à 0 signifie que la partie du signal à laquelle on applique ce masque est complètement éliminée. Un masque égal à 1 signifie que le signal est conservé à cet endroit. Le masque graduel signifie que la partie bruitée du signal n est pas considérée comme masquée ou non masquée. C est une mésure de confiance qui est associée à cette partie du signal. Plusieurs problèmes doivent être résolus dans le cadre du masquage du bruit : Le domaine de décomposition : dans quel domaine vaut-il mieux décomposer le signal en sous-parties? Le domaine le plus souvent utilisé et qui est le plus approprié du point de vue du traitement du signal est le domaine spectro-temporel. Le bruit affecte les bandes de fréquences de façon non homogène. En fonction du type de bruit, le bruit peut être localisé uniquement dans certaines bandes de fréquences. Le domaine spectro-temporel permet de localiser ces bandes en utilisant une certaine connaissance a priori sur le type de bruit ou en estimant un certain modèle du bruit perturbateur. Dans le domaine cepstral, il est difficile de faire de même, car l information sur chaque bande de fréquence est diluée dans plusieurs coefficients cepstraux. Récemment, il a été montré que le domaine cepstral peut être également utilisé comme domaine de décomposition [Hamme, 2003], [Hamme, 2004]. Le grand avantage du domaine cepstral est que les modèles acoustiques donnent un meilleur taux de reconnaissance dans ce domaine. Estimation du bruit : comment détecter les parties à masquer, c est-à-dire les parties bruitées? Le but ici est de détecter les bandes de fréquences affectées par le bruit (si on travaille dans le domaine spectro-temporel) ainsi que l intervalle temporel correspondant à la zone bruitée [Renevey et Drygajlo, 2001], [Vizinho et al., 2000].

67 5.4. Notre contribution à la compensation du bruit non stationnaire 59 Approche de masquage : étant données les parties à masquer, quelle approche de masquage utiliser : marginalisation ou imputation? C est une question très difficile et la réponse dépend parfois de l «histoire» de l équipe de recherche et de l application visée. Intégration dans la reconnaissance : comment intégrer les masques dans le processus de reconnaissance? La résolution de ce problème dépend fortement de l approche de masquage choisie. Si l approche de marginalisation est choisie, il est nécessaire de modifier le calcul de la vraisemblance pendant la reconnaissance. Dans le cas de l imputation, le processus de reconnaissance n est pas modifié. Nous avons développé une approche de reconnaissance avec données manquantes [Cerisara et Illina, 2003]. Notre approche est adaptée à la reconnaissance de la parole en présence de bruits non stationnaires et n utilise pas de modèle de bruit de façon explicite. L approche est simple et basée sur la marginalisation avec des masques binaires. En reprenant les problèmes soulevés précédemment, les solutions suivantes ont été prises dans cette approche : Domaine de décomposition du signal en sous-parties : nous avons choisi d estimer et d appliquer les masques dans le domaine spectral. Cela nous permet de détecter d une certaine façon les bandes bruitées et les masquer. Pendant la reconnaissance les MFCC sont utilisées. Cela est similaire au travail de [Hakkinen et Haverinen, 2001]. Estimation du bruit : la méthode utilisée est celle de Kim [Kim et Ruwisch, 2002]. Elle est basée sur l estimation du rapport entre la parole bruitée et le minimum de bruit. Elle est adaptée pour les bruits non stationnaires. Il est supposé que le bruit et le signal de parole ne sont pas corrélés. Approche de masquage : L approche de marginalisation a été choisie. Intégration dans la reconnaissance : Dans notre approche, nous combinons deux types de modèles : d une part, les modèles de phonèmes représentés par des HMM, et d autre part le modèle de masques représenté par un HMM ergodique à 5 états. La structure de ces modèles est présentée à la figure 5.8. Chaque état du modèle de masques est associé à un Fig. 5.8 Modèle de phonèmes et modèle de masques (repris de [Cerisara et Illina, 2003]). groupe de bandes de fréquences. Nous avons divisé la bande de fréquences en 4 groupes de même taille. Cinq masques possibles sont définis a priori : un masque pour la bande complète de fréquences et quatre masques dont chacun correspond à un sous-groupe de bandes de fréquences. Les transitions entre les différents états du modèle de masque sont équiprobables. Pendant la reconnaissance, le modèle de masque et le modèle de parole sont combinés dans le domaine spectral. Pour chaque observation, le décodage Viterbi permet de choisir parmi

68 60 Chapitre 5. Vers la reconnaissance robuste au bruit les cinq masques celui qui maximise la vraisemblance de cette observation. Le masque choisi est appliqué à l observation et l observation masquée est ensuite passée dans le domaine cepstral pour effectuer la reconnaissance. Notre approche a été testée sur le corpus SpeechDat (parole téléphonique, séquences de chiffres prononcées en français) en y ajoutant un fond musical. Les résultats montrent que pour un niveau de bruit moyen et important (11 db et moins) l approche proposée améliore significativement les taux de reconnaissance par rapport au système de reconnaissance sans aucune compensation/adaptation au bruit. Cela montre que l approche des données manquantes proposée ici est capable de compenser les bruits non stationnaires, malgré sa simplicité. Différentes voies d amélioration de ce modèle simple peuvent être explorées : apprentissage ou adaptation du HMM de masques en utilisant un corpus de bruit, utilisation des masques non binaires, etc. Notre but a été de créer pour notre équipe un premier système de reconnaissance avec des données manquantes pour le traitement des bruits non stationnaires. 5.5 Conclusion et perspectives Ce chapitre a été consacré à la reconnaissance de la parole robuste au bruit. En commençant par une explication du problème et en passant par la description de différents types de bruit et un bref résumé de l état de l art du domaine de la compensation du bruit, quelques contributions dans la reconnaissance robuste effectuée en collaboration avec mes collègues sont présentées. Ces contributions touchent les bruits additifs et convolutifs, ainsi que les bruits stationnaires et non stationnaires. Les perspectives suivantes nous semblent intéressantes : En ce qui concerne les méthodes d atténuation des bruits stationnaires, les tendances actuelles sont d utiliser de moins en moins de données d adaptation pour compenser le bruit et une amélioration des performances des systèmes de reconnaissance en présence de bruits forts. La reconnaissance de la parole, enregistrée dans les conditions des bruits non stationnaires, reste un problème ouvert. La détection du moment de changement d environnement ainsi que le processus de prise en compte de ce changement sont des sujets à étudier plus profondément. Comme il est plus «facile» de modifier les vecteurs acoustiques que les modèles acoustiques, il est vraisemblable que la prise en compte du bruit non stationnaire devrait être faite plutôt au niveau de vecteurs acoustiques. Dans ce contexte, une utilisation des méthodes de masquage de bruit semblent être prometteuse. Une autre possibilité de prise en compte de bruits non stationnaires est une utilisation des méthodes de séparation de sources, dans lesquelles notre équipe a encore très peu d expérience. Le domaine de la reconnaissance robuste au bruit va demeurer un domaine important pour les chercheurs. Dans un avenir proche, les systèmes de reconnaissance seront de plus en plus demandés dans différents secteurs. Pour réaliser cela, il faut qu un système de reconnaissance reste robuste dans différentes conditions d utilisation : au téléphone, dans une voiture, sur fond musical ou sur fond bruité, avec la parole détériorée. Les différentes méthodes de reconnaissance robuste au bruit devront continuer leur développement. Il est probable que le mélange de différents types

69 5.5. Conclusion et perspectives 61 d information à différents niveaux d un système de reconnaissance permettront d aboutir à un système plus performant : ce mélange peut en effet concerner aussi bien différents types de vecteurs acoustiques que différents schémas de compensation/adaptation, différentes modélisations acoustiques ou différents classifieurs.

70

71 Chapitre 6 Vers la reconnaissance robuste au locuteur 6.1 Introduction Ce chapitre est consacré à l étude des problèmes de reconnaissance robuste au locuteur. La diversité des voix, les différents accents, la parole de locuteurs non natifs peuvent sérieusement dégrader les performances d un système de reconnaissance. Il est nécessaire de prendre en compte ces facteurs de façon appropriée. Deux travaux sont présentés dans ce chapitre : le travail sur l adaptation des modèles acoustiques au locuteur et le travail sur la reconnaissance de la parole des locuteurs non natifs. Le premier travail a été effectué avec Fabrice Lauri dans le cadre de sa thèse. Jean-Paul Haton, Dominique Fohr et moi-même avons encadré cette thèse. Le deuxième travail s inscrit dans le cadre de la thèse de Ghazi Bouselmi, dont les encadrants sont Jean-Paul, Dominique et moi-même. Cette thèse a débuté en octobre 2004 et s effectue dans le cadre du projet européen HIWIRE (voir section 3.5). La première partie (paragraphe 6.2) de ce chapitre est consacrée à un état de l art des méthodes de reconnaissance robuste au locuteur. Au paragraphe 6.3 nous présentons notre contribution dans ce domaine : adaptation au locuteur des modèles acoustiques. Puis nous abordons le problème de la reconnaissance de la parole de locuteurs non natifs (paragraphe 6.4) et présentons notre contribution concernant ce sujet : une façon de modifier les modèles acoustiques pour prendre en compte les spécificités de prononciation des locuteurs non natifs. 6.2 La reconnaissance robuste au locuteur Comme il a été dit au chapitre 5, les systèmes actuels de reconnaissance de la parole restent sensibles aux différences entre les conditions d apprentissage et les conditions de test. Les méthodes de reconnaissance robuste regroupent les approches permettant d améliorer le taux de reconnaissance d un système en présence d environnement de test a priori inconnu. Ce chapitre est centré sur les méthodes de reconnaissance robuste vis-à-vis de différents locuteurs et complète ainsi l étude présentée dans le précédent chapitre. Les caractéristiques des voix des locuteurs varient sensiblement en fonction de différents facteurs : âge, sexe, longueur du conduit vocal, conditions émotionnelles, accent (locuteur natif ou non natif, possédant un dialecte ou un accent régional). L utilisation du langage peut être également différente : le vocabulaire plus ou moins étendu, la syntaxe et la grammaire plus ou 63

72 64 Chapitre 6. Vers la reconnaissance robuste au locuteur moins correctes et élaborées (par exemple, utilisation du subjonctif) ou non, la vitesse d élocution plus ou moins rapide. Tous ces facteurs de variabilité peuvent dégrader les performances d un système de reconnaissance. Nous nous intéressons à la prise en compte de ces facteurs au niveau acoustique. Plusieurs façons de prendre en compte ces facteurs sont possibles. Le choix de l approche est souvent fait en fonction de l application visée et des conditions d utilisation du système : plusieurs locuteurs ou un seul, petit ou grand vocabulaire, présence de la parole spécifique au locuteur de test dans le corpus d apprentissage, utilisation en temps réel ou non. Dans ce paragraphe nous présentons quelques unes de ces approches. Nous ne pouvons pas prétendre présenter ici tous les travaux concernant ce sujet. Nous nous limitons volontairement à quelques directions intéressantes de notre point de vue Modèles dépendant du locuteur Un corpus spécifique au locuteur de test peut être utilisé pour l apprentissage des modèles acoustiques. Les modèles issus d un tel apprentissage appelés modèles dépendant du locuteur permettent de bien reconnaître la parole du locuteur de test. Le problème dans ce cas est d avoir un corpus d apprentissage suffisamment grand prononcé par ce locuteur. Mais les modèles créés, spécifiques à ce locuteur, n obtiendront de bonnes performances qu avec la voix de ce locuteur Modèles indépendant du locuteur Un gros corpus d apprentissage contenant les voix de différents locuteurs peut être utilisé pour l apprentissage des modèles acoustiques. Les modèles créés appelés modèles indépendant du locuteur ont la capacité de modéliser la variabilité de ces locuteurs. En revanche, la capacité de reconnaître la parole de locuteurs ayant des voix spécifiques (débit très rapide ou très lent, voix très graves ou très aiguës, etc.) risque d être médiocre Adaptation au locuteur Pour améliorer les modèles indépendant au locuteur, une solution consiste à utiliser l adaptation. L adaptation revient à transformer l espace d apprentissage de façon à le rapprocher de l espace de test, afin de réduire la différence entre les conditions de test et les conditions d apprentissage. Comme nous l avons dit, nous nous limitons ici aux transformations des modèles acoustiques. De façon formelle, considérons la transformation dont l ensemble de paramètres est λ et qui transforme le modèle M λ,x issu de l apprentissage en modèle M λ,y spécifique aux données de test Y (voir figure 6.1). L ensemble λ des paramètres des transformations est estimé habituellement selon l expression : ( λ, Ŵ ) = argmax P r(w Y, λ, M λ,x ) (6.1) (λ,w ) où P r(w Z, λ, M λ,x ) représente la probabilité a posteriori de la suite de mots W à reconnaître, étant donné l ensemble de paramètres λ de transformation, M λ,x et Y. Il existe deux méthodes de recherche de λ et de W. La première consiste à estimer λ en supposant que W est donné. Cette méthode correspond à une adaptation supervisée. Cette méthode suppose que, pour estimer λ,

73 6.2. La reconnaissance robuste au locuteur 65 une petite quantité de données d adaptation correspondant aux conditions de test est fournie. Les données d adaptation sont supposées transcrites. La deuxième méthode consiste à estimer itérativement W et λ en maximisant d abord l un et en gardant l autre fixe, puis l inverse. Cette méthode correspond à une adaptation non supervisée (la transcription de la parole d adaptation Y est inconnue). Données Données d adaptation Y de test Y Modèle M issu λx de l apprentissage Adaptation Modèle adapté M λ Y Reconnaissance Phrases reconnues Fig. 6.1 Schéma général de l adaptation des modèles acoustiques. Les méthodes actuelles d adaptation des modèles acoustiques se divisent en trois grandes familles : les techniques fondées sur le maximum a posteriori (Maximum A Posteriori estimation ou MAP), les méthodes de transformations (la plupart du temps linéaires) et les méthodes de classification de locuteurs. Décrivons brièvement ces différentes méthodes. Maximum a posteriori Dans les méthodes fondées sur le maximum a posteriori, la connaissance a priori sur la distribution de λ est supposée disponible [Gauvain et Lee, 1994], [Zavaliagkos et al., 1995]. Quand une grande quantité de données d adaptation est disponible, l estimation de paramètres converge vers les paramètres du modèle dépendant du locuteur. L adaptation MAP peut être considérée comme une poursuite de l apprentissage mais en utilisant les données d adaptation. Différentes variantes de la méthode sont largement représentées : l adaptation structurelle s appuie sur la structure arborescente des paramètres à adapter [Shinoda et Lee, 1998], [Shinoda et Lee, 2001]. L adaptation utilisant les transformations linéaires représente un mélange de l adaptation MAP et de l adaptation MLLR, dont nous parlerons plus loin [Siohan et Lee, 2001]. Adaptation par transformations linéaires Dans les méthodes d adaptation par transformations linéaires, un groupe de paramètres des modèles acoustiques est transformé par la même fonction de transformation afin de les approcher de l espace de test. L avantage des transformations linéaires par rapport aux transformations plus complexes est la faible quantité de calculs ainsi que le faible nombre de paramètres, ce qui permet de les estimer en utilisant une quantité restreinte de données d adaptation. La plus représentative de ces méthodes est la méthode de régression linéaire Maximum Likelihood Linear Regression ou MLLR) : les moyennes de gaussiennes de modèles acoustiques sont

74 66 Chapitre 6. Vers la reconnaissance robuste au locuteur adaptées tout en maximisant la vraisemblance de données d adaptation [Leggetter et Woodland, 1995b], [Leggetter et Woodland, 1995a] : µ i = A µ i + b, i I, λ = {A, b} (6.2) où µ i sont les moyennes adaptées, A est une matrice de transformation et b est un vecteur de translation. Il est facile de voir que l utilisation d une seule transformation déplacera tous les modèles dans la même direction et donnera des modèles grossiers. L utilisation de transformations spécifiques pour chaque modèle demandera plus de données mais donnera des modèles plus précis. Il est nécessaire de trouver un compromis entre ces deux extrêmes. Dans le cas de l utilisation de plusieurs transformations, l adaptation est effectuée de la façon suivante : les paramètres des modèles sont classés en plusieurs groupes et la forme de la fonction de transformation est choisie. Puis, les paramètres de transformations sont estimés pour chaque groupe en utilisant les données d adaptation associées à ce groupe. Enfin, les paramètres de modèles sont transformés en utilisant les transformations estimées. Différentes variantes de MLLR, dont le but est de diminuer le nombre de transformations ou bien de mieux les estimer tout en utilisant une quantité limitée de données d adaptation, ont été proposées. L adaptation MLLR structurelle utilise une structure arborescente des transformations, construite dynamiquement en fonction de la quantité de données d adaptation [Leggetter et Woodland, 1995c]. L adaptation MLLR contrainte utilise les mêmes transformations λ = {A, b} pour l adaptation des moyennes et des variances de gaussiennes des modèles [Gales, 1998c] : µ i = Aµ i + b, i I (6.3) σ i = Aσ i + b, i I (6.4) où σ i est la variance de la gaussienne i. L adaptation MLLR appelée interclasse [Doh et Stern, 2000] utilise les relations entre les différentes classes de modèles acoustiques pour estimer moins de transformations d adaptation. Une adaptation utilisant un modèle prédictif est également possible [Hazen, 1998]. En ce qui concerne une meilleure estimation des transformations, quelques idées intéressantes sont donnés dans [Uebel et Woodland, 2001] : d une part, dans le cadre de l adaptation non supervisée, les mesures de confiance permettent de mieux transcrire les données d adaptation. D autre part, l apprentissage discriminant des transformations est proposé à la place de l estimation MLE. L adaptation par transformations peut être également appliquée aux données d apprentissage pour les rapprocher des données de test. Par exemple, SAT (Speaker Adaptive Training) réduit la variabilité inter-locuteurs à l intérieur de données d apprentissage en générant des modèles acoustiques dépourvus de cette variabilité [Anastasakos et al., 1996], [Tsakalidis et al., 2003]. Notons que grâce à ses bonnes performances et à sa flexibilité (variété des transformations et des paramètres d adaptation), le principe de l adaptation par transformations linéaires a été également utilisé pour l adaptation des vecteurs acoustiques [Stolcke et al., 2005] Adaptation basée sur la classification des locuteurs d apprentissage Dans ce type de méthodes, il est supposé que plusieurs modèles acoustiques chacun correspondant à une classe de locuteurs (ou à un seul locuteur) sont disponibles à l issue de l apprentissage. Ces modèles sont appelés modèles de référence. Pendant la phase de test, il est nécessaire de localiser le locuteur de test dans l espace des modèles issus de l apprentissage, c est-à-dire de choisir un sous-espace approprié. Le choix de ce sous-espace dépend de la quantité

75 6.3. Notre contribution à la reconnaissance robuste au locuteur 67 de données d adaptation disponibles et de la qualité et de la taille de l espace des modèles. En fonction de ce choix, différentes méthodes sont envisageables. Les méthodes CAT (Cluster Adaptative Training) choisissent K modèles parmi les T modèles de référence (K<T ). Le locuteur de test est représenté comme une combinaison linéaire de ces K systèmes, dont les poids sont à estimer [Gales, 1998a], [Gales, 1998b], [Gales, 2000] : M = K w k M k (6.5) k où M k est le k-ème modèle de référence, M est le modèle adapté et wk est le poids à estimer du modèle numéro k. Les méthodes basées sur les voix propres (Eigen Voice) sont similaires aux méthodes CAT. La différence est que, pour diminuer la taille de l espace de référence et pour rendre cet espace plus discriminant, une réduction de dimension de l espace des modèles est effectuée. Cela est fait à l aide de l analyse en composantes principales [Kuhn et al., 1998]. La combinaison de l adaptation avec les voix propres avec l adaptation MLLR est proposée dans [Chen et al., 2000], [Doumpiotis et Deng, 2004], [Aubert, 2004], [Bakker et al., 2005] : pendant l apprentissage, les transformations MLLR, spécifiques à chaque classe de locuteurs, sont estimées. Pendant l adaptation, les moyennes de gaussiennes de modèles acoustiques sont adaptées en utilisant une combinaison linéaire des transformations, issues de l apprentissage. Soulignons encore une fois que la contrainte forte de ces méthodes est la présence de plusieurs modèles de références issus de l apprentissage. En vue d améliorer les performances de reconnaissance tout en diminuant la quantité de données d adaptation, différents mélanges de méthodes d adaptation ont été étudiées [Siohan et al., 2001], [Siohan et Lee, 2001], [Doumpiotis et Deng, 2004]. Parmi toutes les méthodes présentées ci-dessus, quelques tendances importantes peuvent être notées : diminution du nombre de paramètres d adaptation à estimer, différents critères d estimation (MAP ou ML), partage des transformations entre différents paramètres, diminution de la taille de l espace des modèles issus de l apprentissage. En se basant sur ces faits, quelques questions doivent être posées pendant le développement d un système d adaptation : quels critères d estimation choisir?, quelles transformations utiliser?, quels paramètres adapter? et, enfin, comment diminuer le nombre de paramètres d adaptation?. 6.3 Notre contribution à la reconnaissance robuste au locuteur Dans ce paragraphe, nous présentons quelques travaux originaux. Ces travaux ont été effectués avec Fabrice Lauri, Dominique Fohr et Jean-Paul Haton dans le cadre de la thèse de Fabrice [Lauri, 2004]. Fabrice effectuait une thèse CIFRE et l entreprise impliquée était intéressée par l adaptation des modèles acoustiques avec peu de données d adaptation. Nous avons choisi de travailler sur l adaptation par voix propres, car ce type d adaptation est plus performant que l adaptation MLLR ou MAP quand très peu de données d adaptation sont disponibles. Notre but a été d enrichir l espace de modèles de références. Deux méthodes sont présentées : la structuration des paramètres de modèles de référence et la recherche des meilleurs modèles de référence en utilisant un algorithme génétique. Structuration des paramètres pour l adaptation avec les voix propres Comme nous l avons dit précédemment, l adaptation par voix propres utilise un ensemble de modèles issus de l apprentissage {M 1, M 2,..., M T } parmi lesquels sont extraits K modèles. Ces

76 68 Chapitre 6. Vers la reconnaissance robuste au locuteur modèles seront utilisés pendant l adaptation (voir équation (6.5)). Habituellement, M k représente un super-vecteur contenant la concaténation des modèles de phonèmes spécifiques à un locuteur ou à un groupe de locuteurs. Le plus souvent, seules les moyennes des gaussiennes sont adaptées. Dans l adaptation par voix propres le nombre de paramètres à estimer est très petit (K paramètres). Pour améliorer cette adaptation, il est intéressant d augmenter la valeur de K. Par exemple, chaque modèle de référence peut être remplacé par plusieurs modèles de référence, dont chacun correspond à une classe phonétique. Dans [Lauri et al., 2003a], [Lauri et al., 2005] nous avons proposé d utiliser une structure arborescente des modèles de référence : les gaussiennes de modèles de références sont classées en arbre. Pendant l adaptation nous descendons plus ou moins en profondeur dans l arbre en fonction de la quantité de données d adaptation disponibles. Cela signifie que la valeur de K varie en fonction de la quantité de données d adaptation. La méthode proposée est appelée adaptation structurée par voix propres (Structural Eigen Voice Adaptation, SEV). Les expériences, effectuées sur le corpus Resource Management, montrent que cette méthode est plus performante que l adaptation EV ou SMLLR (Structural MLLR) [Lauri et al., 2003a], surtout quand la quantité de données d adaptation augmente. Nous avons également exploré les différentes combinaisons de SMLLR et SEV (la combinaison consistant à faire suivre une adaptation après l autre) : une légère amélioration des performances de reconnaissance a été obtenue [Lauri et al., 2003a]. Utilisation d un algorithme génétique pour l adaptation par voix propres Un algorithme génétique est utilisé pour la résolution des problèmes d optimisation et d apprentissage automatique [Holland, 1975], [Goldberg, 1989]. Le but de cette approche est de trouver une solution «optimale» selon un certain critère dans l espace des solutions possibles. L approche génétique s inspire de l évolution naturelle des systèmes biologiques. Le principe est le suivant : une population d individus évolue génération après génération. Chaque génération passe par des phases de croisement entre deux individus, de mutation de gènes pour générer des enfants et de sélection des meilleurs individus parmi les enfants engendrés (voir figure 6.2). A l issue d un certain nombre de générations, l individu le mieux adapté est considéré comme la solution trouvée. Dans le cadre de l adaptation par voix propres, nous avons utilisé l algorithme génétique pour élargir l espace des modèles de référence et pour mieux choisir les modèles dans cet espace [Lauri et al., 2003b] [Lauri et al., 2005]. Notre approche est nouvelle, nous n avons trouvé aucune publication traitant de ce sujet. Voici comment l algorithme génétique est utilisé : Le modèle acoustique d un locuteur ou d un groupe de locuteurs est associé à un individu et une gaussienne est associée à un gène. La phase de croisement de deux individus consiste en un croisement entre deux modèles. La phase de mutation d un gène d un individu est représentée par une légère perturbation aléatoire d une gaussienne d un modèle acoustique. La phase de sélection des individus «survivants» représente la sélection des modèles qui maximisent la vraisemblance des données d adaptation. Les modèles, obtenus à la fin du processus de génération, sont utilisés comme nouveaux modèles de référence pour l adaptation avec des voix propres. Comme à chaque génération seules les modèles qui maximisent la vraisemblance des données d adaptation «survivent», nous espérons que les modèles obtenus à la fin du processus de génération seront plus proches du locuteur de test que les modèles initiaux et donc permettront de mieux faire l adaptation. Les résultats des expériences effectuées sur le corpus Resource Management montrent que

77 6.3. Notre contribution à la reconnaissance robuste au locuteur 69 p1 Population initiale p3 p2 p4 Phase de reproduction p1 c1 Population incluant les enfants p3 p2 c3 c2 p4 c4 Phase de mutation p1 c1 Population après mutation p3 p2 c3 c2 p4 c4 Phase de sélection p1 Population finale pour la génération actuelle p3 p c2 Fig. 6.2 Schéma général d un algorithme génétique.

78 70 Chapitre 6. Vers la reconnaissance robuste au locuteur l algorithme génétique proposé améliore légèrement les performances de l adaptation par voix propres. 6.4 Reconnaissance de la parole des locuteurs non natifs En général, n importe quelle personne devrait pouvoir utiliser un système de reconnaissance de la parole tout en obtenant de bonnes performances de reconnaissance. Si la personne est non native avec un fort accent, le système de reconnaissance doit quand même donner une réponse correcte. Dans la pratique, malheureusement, ce n est pas toujours le cas. Si le corpus d apprentissage comprend uniquement des locuteurs natifs, le système de reconnaissance risque d avoir des performances faibles pour des locuteurs non natifs qui utiliseraient ce système. Les problèmes que posent les voix des personnes non natives sont nombreux : phrases grammaticalement incorrectes, présence de mots incompréhensibles, rythme «étranger» d élocution, mélodie «étrangère» de la phrase, mauvaise accentuation au niveau des mots, prononciation incorrecte de certains phonèmes, omission ou ajout de phonèmes dans un mot. Différentes solutions ont été proposées dans la littérature pour prendre en compte les problèmes de la parole non native dans un système de reconnaissance. Les méthodes classiques de robustesse au locuteur représentent une de ces possibilités. Le problème est qu elles permettent de tenir compte de peu des spécificités de la parole non native décrites ci-dessus. Par exemple, elles ne prennent pas en compte l omission ou l ajout de phonèmes dans un mot et la prononciation incorrecte de certains phonèmes. Par conséquence, des méthodes spécifiques à la parole non native ont été développées. La majorité de ces techniques nécessite un corpus représentatif de la parole non native. A partir de ces exemples, le système de reconnaissance sera modifié afin d améliorer ses performances. Notons que, comme les systèmes de reconnaissance utilisent en grande majorité l approche statistique, un corpus important d exemples de parole non native est souhaitable. Cela est parfois difficile à réaliser car il est nécessaire de réunir un grand nombre de locuteurs non natifs et de les faire parler dans une langue qu ils ne maîtrisent parfois pas bien. De plus, la diversité des nationalités est indispensable. Pour diminuer cette contrainte forte, les méthodes de robustesse aux locuteurs non natifs sont développées dans le but de mieux prendre en compte la spécificité de la parole non native tout en diminuant la taille du corpus de la parole non native nécessaire. Notons que chaque type de méthodes traite un certain type d erreurs. Nous verrons cela au fur et à mesure de la présentation de ces méthodes. Voici un bref résumé des directions de recherche en reconnaissance de la parole non native. Ré-entrainement des modèles acoustiques La parole non native est prise en compte en ré-entrainant les modèles acoustiques et/ou les modèles de langage, en utilisant la parole de locuteurs non natifs [Uebler et Boros, 1999], [Tomokiyo et Waibel, 2001]. En pratique, cela est rarement possible car, comme nous l avons dit précédemment, un corpus important de parole non native est nécessaire. Pour le moment, les corpus utilisés se limitent aux corpus enregistrés localement par les laboratoires et ne sont pas commercialisés. Le seul exemple est le corpus Wall Street Journal, SPOKE-3 avec 10 locuteurs non natifs (20 phrases par locuteur). Les projets européens représentent un contexte favorable pour l enregistrement de tels corpus, car les partenaires de ces projets proviennent de différents pays européens et ont donc des origines différentes. Systèmes multi-langues

79 6.4. Reconnaissance de la parole des locuteurs non natifs 71 L utilisation d un système de reconnaissance multi-langues pourrait être utile [Tomokiyo, 2001]. Cela suppose l utilisation de plusieurs systèmes de reconnaissance : chaque système est appris avec les locuteurs qui ont tous la même langue maternelle. L inconvénient de ce type d approche est la lourdeur du développement et de la mise en œuvre. Prise en compte au niveau du modèle de langage La prise en compte de la parole non native pourrait être effectuée au niveau du modèle de langage. Il s agit d adapter le modèle de langage à certaines spécificités des suites de mots des locuteurs non natifs. Par exemple, cette solution permettrait de corriger certaines erreurs de construction de phrases. La difficulté réside dans le fait que la façon de construire une phrase dépend de la langue maternelle du locuteur et qu il est donc préférable d adapter le modèle de langage en fonction de la langue maternelle du locuteur, ce qui est difficilement réalisable. De plus, comme les modèles de langage sont des modèles statistiques avec des milliers de paramètres, un corpus important d apprentissage de ces spécificités est nécessaire. Nous n avons trouvé aucune publication traitant de ce sujet. Prise en compte au niveau du vocabulaire La prise en compte est faite au niveau du vocabulaire 10. Le vocabulaire est modifié afin d intégrer les variantes non natives des prononciations d un mot [Goronzy et al., 2004], c est-à-dire les nouvelles séquences de phonèmes. La modification peut être faite par un expert [Schaden, 2003] : la personne écoute la parole non native et intègre dans le vocabulaire les prononciations supplémentaires. Cela donne un vocabulaire précis. En revanche, cela représente un travail fastidieux et difficilement réutilisable. La modification du vocabulaire peut également être faite automatiquement par un système de reconnaissance [Livescu et Glass, 2000] : la prononciation canonique d une phrase 11 est alignée avec une prononciation non native de la même phrase. Si les prononciations diffèrent, alors la prononciation non native est ajoutée au vocabulaire. Le problème est que plus on ajoute de prononciations pour un mot plus la taille du vocabulaire augmente. Cela entraîne l augmentation de la taille de l espace de recherche pendant la reconnaissance. Prise en compte au niveau des modèles acoustiques La modification est effectuée au niveau des modèles acoustiques : Aux modèles acoustiques de la langue parlée sont intégrés les modèles acoustiques de la langue maternelle du locuteur en suivant des règles de confusion générées automatiquement. L intégration peut être effectuée au niveau des HMMs ou des mélanges des gaussiennes [Fohr et al., 2002], [Morgan, 2004]. Les règles de confusion sont déduites phonème par phonème. L avantage de ces méthodes est que la modélisation obtenue est fine. En revanche, il est nécessaire d avoir des modèles acoustiques de la langue d origine du locuteur ce qui n est pas toujours possible. Cela est encore plus difficile si les locuteurs non natifs ont des origines différentes. La modification est effectuée au niveau des modèles acoustiques en utilisant les méthodes standard d adaptation au locuteur : en utilisant quelques phrases du locuteur de test, les modèles sont modifiés afin de les rendre plus spécifiques à l accent de ce locuteur [Nguyen et al., 1999], [Wang et al., 2003], [Tomokiyo et Waibel, 2001], [Morgan, 2004]. 10 Ici la notion de vocabulaire inclut pour chaque mot son écriture et sa prononciation (sous la forme d une suite de phonèmes). 11 La prononciation canonique est la prononciation de la phrase par un locuteur dont c est la langue maternelle.

80 72 Chapitre 6. Vers la reconnaissance robuste au locuteur La combinaison des méthodes, données ci-dessus, dans un même système de reconnaissance, peut être intéressante [Wang et al., 2003]. En effet, la modification seule du vocabulaire entraîne la modification des séquences de phonèmes correspondant aux prononciations non natives. En revanche, la mauvaise prononciation au niveau d un phonème et non d une séquence de phonèmes n est pas prise en compte. Pour prendre cela en compte, la modification des modèles acoustiques est souhaitable [Woodland, 1999]. Notons que le choix de la classe de méthodes dépend des ressources disponibles et de l application visée. Par exemple, pour une reconnaissance d un grand vocabulaire, la modification manuelle du vocabulaire est inappropriée. 6.5 Notre contribution à la reconnaissance de la parole des locuteurs non natifs Notre travail sur la reconnaissance de la parole de locuteurs non natifs s effectue dans le cadre du projet HIWIRE et de la thèse de Ghazi Bouselmi [Bouselmi et al., 2005]. Le projet HIWIRE (voir paragraphe 3.5.4) prévoit la construction d un système de reconnaissance, qui sera utilisé par les pilotes d avion afin d effectuer par la voix certaines commandes de pilotage (non vitales). Par exemple, demander des informations sur les conditions météorologiques, afficher une carte, changer de fréquence radio, etc. Les pilotes parleront anglais, tout en étant d origine non anglaise dans beaucoup de cas. Pour développer un tel système, la prise en compte des prononciations de locuteurs non natifs est indispensable. Même si le projet HIWIRE se limite à des petits et moyens vocabulaires pour le moment, nous prévoyons également le cas de grands vocabulaires dans nos travaux. Nous avons choisi de travailler au niveau des modèles acoustiques. Nous proposons de modifier les modèles de la langue parlée afin de leur intégrer les modèles de la langue maternelle du locuteur 12. Pour cela, les règles de confusion entre les phonèmes des deux langues seront utilisées. Nos motivations pour le choix de cette approche sont les suivantes. D une part, les locuteurs non natifs ont tendance à prononcer certains phonèmes de la langue parlée de la même façon que de phonèmes de leur langue maternelle. Nous pensons donc que l intégration de modèles acoustiques de la langue maternelle du locuteur permettra de mieux reconnaître la parole de ce locuteur. D autre part, la modification des modèles acoustiques permettra de modéliser les phonèmes de la langue parlée qui n existent pas dans la langue maternelle du locuteur. Par exemple, le phonème /ð/ qui est présent dans le mot anglais «the» n est pas présent dans le français. Beaucoup de locuteurs français parlant anglais vont prononcer ce phonème à la française en le prononçant comme un /z/ français. Autre exemple : la diphtongue /t /, présente dans le mot anglais «church» n existe pas en français. Il y a beaucoup de chance pour que les locuteurs français la rapprochent par la suite des deux phonèmes français /t/ et / / ou par un seul phonème français / /. La contrainte forte dans ce travail est la présence de modèles acoustiques de deux langues : de la langue parlée par le locuteur non natif et de la langue maternelle de ce locuteur. En conséquence, l extraction de règles de confusion et la modification de modèles acoustiques dépendent de la langue maternelle du locuteur. Par exemple, pour les italiens et les français parlant anglais il 12 Exemple : pour les locuteurs d origine française et parlant en anglais, le langue maternelle est le français et la langue parlée est l anglais

81 6.5. Notre contribution à la reconnaissance de la parole des locuteurs non natifs 73 faudra extraire deux ensembles de règles de confusion et modifier les modèles acoustiques anglais en y intégrant les modèles français et italiens selon les règles extraites. Comme les locuteurs non natifs ont des difficultés pour prononcer certains phonèmes et donc à bien articuler les suites de phonèmes, la modélisation non contextuelle de phonèmes sera utilisée : les modèles utilisés pour la modification sont les modèles des phonèmes hors contexte et non les modèles de triphones. Notre travail se divise en deux parties : l extraction de règles de confusion de phonèmes et la modification de structure des modèles acoustiques. Extraction de règles de confusion de phonèmes Dans notre travail, les règles de confusion représentent la confusion d un phonème de la langue parlée avec un ou plusieurs phonèmes de la langue maternelle du locuteur non natif. Nous avons proposé d induire ces règles automatiquement, en utilisant un corpus transcrit de parole de la langue parlée prononcé par les locuteurs non natifs. D une part, le signal de chaque phrase de ce corpus est aligné en utilisant la transcription canonique de cette phrase et les modèles acoustiques de la langue parlée du locuteur. D autre part, pour la même phrase, la reconnaissance phonétique est effectuée en utilisant les modèles acoustiques de la langue maternelle du locuteur (voir figure 6.3). A partir des deux suites phonèmes correspondant à la transcription canonique et phonèmes correspondant à la prononciation réelle du locuteur non natif les règles de confusion sont déduites. Un léger décalage de quelques trames entre les frontières de phonèmes des deux langues est autorisé. Parmi les règles générées, seules celles qui ont la plus grande fréquence sont gardées. Par exemple, pour la prononciation de la diphtongue /t / du mot anglais «church» par un locuteur d origine française (voir exemple ci-dessus) les règles suivantes sont induites par notre système : /t / /t/ / / ; /t / /k/ / / ; /t / / /. Modification des modèles acoustiques Le but de cette étape est la modification de la structure des modèles acoustiques en fonction des règles de confusion générées. La modification des modèles acoustiques HMM de la langue parlée consiste à coupler ces modèles avec les modèles acoustiques de la langue maternelle du locuteur selon les règles de confusion. Par exemple, comme nous l avons dit précédemment, la diphtongue anglaise /t / n existe pas en français. Le locuteur français approchera ce phonème par /t/ et / / ou / /. A partir les règles de confusion générées par notre système et présentées ci-dessus, le HMM à 3 états représentant le modèle acoustique de /t / anglais sera modifié pour y ajouter les HMM correspondant aux phonèmes français comme cela est montré sur la figure 6.4 [Bouselmi et al., 2005]. Cette modification sera effectuée phonème par phonème pour tous les phonèmes de la langue parlée. Les modèles acoustiques modifiés serviront lors de la reconnaissance. Quelques résultats expérimentaux Les expériences ont été effectuées sur le corpus HIWIRE (locuteurs non natifs parlant anglais, voir la description du corpus à l annexe 9.3). La tâche est la reconnaissance de mots. Deux grammaires sont utilisées : une grammaire construite à partir d un langage de commande et très contrainte.

82 74 Chapitre 6. Vers la reconnaissance robuste au locuteur Phrase non native Alignement phonétique (modèles acoustiques de la langue parlée) Reconnaissance phonétique (modèles acoustiques de la langue maternelle) Mise en correspondance Règles de confusion Fig. 6.3 Schéma d extraction de règles de confusion de phonèmes. Fig. 6.4 Structure de HMM modifié pour la diphtongue anglaise /t /.

83 6.6. Conclusion et perspectives 75 une autre grammaire qui autorise toute suite de mots du vocabulaire. Pour cette étude, seule la parole des locuteurs français a été utilisée. Les modèles acoustiques de l anglais ont été appris sur le corpus TIMIT (parole en anglais, locuteurs natifs). Les modèles acoustiques du français ont été appris sur le corpus ESTER (voir la description du corpus dans le paragraphe 7.3.3). Différents systèmes ont été testés : Le «système de départ» correspond au système de reconnaissance standard sans prise en compte particulière de la parole de locuteurs non natifs. Le système «confusion d expert» correspond au système développé avec les règles de confusion données par un expert. Le système «approche proposée» correspond à la méthode que nous avons proposée et décrite précédemment. Les règles de confusion sont construites pour tous les locuteurs en utilisant 50 phrases d adaptation par locuteur. L adaptation au locuteur MLLR supervisée a également été testée (avec 50 phrases d adaptation par locuteur). Gram. contrainte Gram. non contrainte Approche % en mots % en phrases % en mots % en phrases Sys. de départ 93,5 87,2 71,1 61,1 Sys. de départ + MLLR 95,0 90,4 78,6 69,0 Confusion d expert 93,2 85,5 74,1 59,5 Approche proposée 96,1 91,1 80,2 66,0 Appr. proposée + MLLR 97,3 93,5 84,5 73,0 Tab. 6.1 Résultats expérimentaux en terme de taux de reconnaissance de mots et de taux de reconnaissance des phrases. Parole anglaises de locuteurs français, corpus HIWIRE. La table 6.1 présente quelques résultats expérimentaux en terme de taux de reconnaissance de mots et de taux de reconnaissance de phrases en utilisant deux grammaires. La table montre que l approche développée améliore significativement les performances du système de reconnaissance en comparaison avec les autres méthodes testées. 6.6 Conclusion et perspectives Dans ce chapitre, une étude des différents problèmes et des différentes voies d amélioration de la robustesse au locuteur des systèmes de reconnaissance a été présentée. Ce sujet a été abordé du point de vue de la modélisation acoustique : les modèles issus de l apprentissage sont modifiés afin de les rapprocher du locuteur de test. Nos contributions ont été présentées. Parmi elles, la structuration des paramètres de modèles de référence et l enrichissement de ces modèles à l aide d un algorithme génétique ont été proposés pour l adaptation au locuteur par voix propres. En ce qui concerne l adaptation au locuteur non natif, l approche de modification de la structure de HMM des modèles acoustiques afin de prendre en compte les prononciations différentes a été proposée.

84 76 Chapitre 6. Vers la reconnaissance robuste au locuteur Plusieurs perspectives à long terme d amélioration de la robustesse au locuteur des systèmes de reconnaissance nous intéressent : La normalisation des locuteurs est intéressante car elle permet de normaliser l espace de locuteurs d apprentissage et de diminuer sa variabilité [Claes et al., 1998], [Pitz et Ney, 2003]. L adaptation incrémentale nous intéresse également. Ce type d adaptation suppose que l adaptation du système de reconnaissance au locuteur se passe en temps réel, au fur et à mesure que le locuteur parle. Ce type d adaptation est plus difficile que l adaptation non supervisée. Un exemple d utilisation d une telle adaptation peut être un serveur vocal qui s adapte progressivement au locuteur qui est en train de parler au téléphone. En ce qui concerne la reconnaissance de la parole prononcée par les locuteurs non natifs, plusieurs directions de recherche sont envisageables : La prise en compte du contexte phonétique et graphémique peut être intéressante. En effet, la prononciation d un phonème dépend de la prononciation du phonème précédent et du phonème suivant. Donc la prise en compte du contexte de prononciation d un phonème par un locuteur non natif peut améliorer le taux de reconnaissance. De plus, le graphème qui correspond à un phonème peut influencer le locuteur dans sa prononciation. Par exemple, en lisant le mot anglais «minus» le locuteur français pourrait avoir tendance à prononcer ce mot comme /m i n y s/ alors que la prononciation anglaise demandée est /m ay n ah s/. Pour le moment, le système proposé est supervisé car nous faisons hypothèse que l origine du locuteur non natif est connue. Il serait intéressant de détecter son origine automatiquement.

85 Chapitre 7 Cas réel : un système de transcription d émissions radiophoniques 7.1 Introduction Les travaux présentés dans ce chapitre correspondent au système de transcription d émissions radiophoniques ANTS (Automatic News Transcription System) développé dans notre équipe dans le cadre de la campagne d évaluation ESTER (Campagne d Évaluation des Systèmes de Transcription Enrichie des Émissions Radiophoniques). J ai participé à la conception, au développement et à l évaluation de ce système. Dans ce chapitre nous expliquons tout d abord la problématique du domaine de transcription et les applications envisageables. Puis à travers la campagne d évaluation ESTER, nous décrivons le système de transcription ANTS : module de segmentation, moteur de recherche, mise en œuvre du système et résultats expérimentaux. A chaque étape, nous nous focalisons sur les problèmes rencontrés pendant la création du système et les choix effectués. Le lecteur intéressé trouvera les détails techniques du système dans [Illina et al., 2004], [Brun et al., 2005]. Les composants de notre système sont toujours en évolution. Notons également que notre système ne prétend pas avoir la facilité d utilisation d un logiciel commercial. Notre but est de créer un prototype du système en passant par une étude des problèmes de recherche rencontrés et une étude des différentes voies de résolution de ces problèmes. 7.2 La transcription d émissions radiophoniques L évolution du domaine de la reconnaissance de la parole a abouti au début des années 90 aux systèmes indépendant du locuteur. Les performances de ces systèmes ont été suffisamment bonnes pour viser des applications réelles plus complexes que la simple dictée vocale. De plus, plusieurs sous-domaines du traitement de la parole qui ne sont pas liés directement à la reconnaissance (par exemple, la segmentation parole/musique 13, l identification du locuteur 14 etc.) ont montré un bon niveau de maturité. Ainsi, de nombreuses applications sont devenues de plus en plus envisageables, par exemple : 13 La segmentation parole / musique permet de segmenter le signal en parties correspondant à la parole et en parties correspondant à la musique. 14 L identification du locuteur détecte dans le flux de parole qui a parlé et quand. 77

86 78 Chapitre 7. Cas réel : un système de transcription d émissions radiophoniques La transcription d émissions radiophoniques [McTait et Adda-Decker, 2003], [Chen et al., 2002], [Nguyen et al., 2004], [Galliano et al., 2005]. Cette application consiste à fournir la transcription textuelle complète d une émission radiophonique. La transcription fournie peut être enrichie par les informations structurelles suivantes : l identification des morceaux de parole et des morceaux de non parole (musique, bruits, silences, jingles), l identification des locuteurs, la liste de mots clés, les titres d émissions, les sections (nouvelles, sport, météo, etc.). De nombreuses utilisations d une telle application sont possibles, telles que l archivage d émissions radiophoniques ou la recherche d information via Internet. Une autre application envisageable est la veille technologique pour un client industriel : dans une émission, le système de transcription détecte les mots qui intéressent le client, transcrit les extraits correspondants et les communique au client. La transcription d émissions télévisées [Gauvain et al., 1999], [Gauvain et al., 2002], [Brousseau et al., 2003], [Allauzen et Gauvain, 2005b], [Allauzen et Gauvain, 2005c]. Ce type d application est similaire au précédent. La particularité ici est que le son diffusé par la télévision est de médiocre qualité par rapport à la radio. Cela peut dégrader les performances du système de transcription. Il est donc nécessaire de traiter le son de façon particulière. De plus, dans ce type d applications la quantité de parole spontanée est plus importante que pour les émissions radiophoniques. Une autre particularité est que, dans certains cas, il peut être nécessaire de synchroniser l image et la transcription textuelle. Pour l instant, la reconnaissance d images n est pas utilisée dans ce type d applications. A long terme, l ajout du système de reconnaissance d images au système de transcription de la parole pourrait augmenter les performances finales de la transcription. La transcription d émissions télévisées pourrait être utilisée pour les mêmes applications que la transcription d émissions radiophoniques : l archivage, la recherche d information ou la veille technologique. Les résultats de la transcription pourraient également être utilisés sous forme de sous-titrage pour aider les spectateurs d origine étrangère ou des malentendants. La transcription ou l animation d une tête parlante pour les malentendants. La transcription pour les malentendants consiste à fournir une transcription textuelle d une émission ou d une autre présentation orale (cours, dialogue). Une application consiste à représenter sur l écran d ordinateur une tête qui répète ce qui est dit [Santen et al., 1997], [Massaro et Hidalgo-Barnes, 2005]. L animation d une tête parlante est destinée plutôt aux gens qui ne savent pas lire (les enfants en bas âge) ou pour agrémenter l écoute. Les avantages de la tête parlante sont les suivantes : Premièrement, les phonèmes prononcés par la tête parlante sont bien articulés et peuvent être complétés avec le langage des signes LPC (Langage Parlé Complété) pour faciliter la compréhension. LPC est un langage utilisé pour enlever des ambiguïtés de certains phonèmes dont la lecture labiale est difficile. La main du locuteur, placée près du visage complète le mouvement des lèvres. Cela permet de lever l ambiguité existant entre plusieurs phonèmes correspondant au même mouvement des lèvres. Par exemple, les lectures labiales par un malentendant des sons /b/ et /p/ sont très similaires. Pour les distinguer, le locuteur ajoutera les signes de main correspondant au /b/ ou au /p/. Deuxièmement, si la personne qui parle tourne le dos au malentendant, la lecture labiale devient impossible. Dans ce cas, la tête parlante peut être d une grande aide. Pour l animation d une tête parlante, la transcription textuelle peut être faite en terme de

87 7.2. La transcription d émissions radiophoniques 79 phonèmes parce que, d une part, ce sont des unités bien comprises par les malentendants. D autre part, faire la reconnaissance de phonèmes est plus facile et plus rapide que la reconnaissance en terme de mots. De plus la complétion avec le langage LPC permet d enlever les ambiguïtés restantes. L inconvénient de la transcription en terme de phonèmes est que ni le modèle de langage ni le lexique ne sont utilisés. En conséquence, une telle transcription pourrait donner des erreurs au niveau des séquences de phonèmes. Une autre application qui devient de plus en plus demandée est la transcription des réunions [Hain et al., 2005]. Les problèmes à affronter ici sont : les différentes conditions d enregistrement (fond bruité), les différentes configuration d enregistrement (distance par rapport au microphone), la parole spontanée et souvent simultanée, l écho. Ajoutons également la transcription pour la traduction en une autre langue, la transcription de spectacles, l apprentissage des langues, les systèmes de dialogue. Développer ces types d applications n est pas une tâche facile. Les problèmes rencontrés sont multiples et touchent non seulement l ingénierie mais en grande partie la recherche. Selon leur nature, ces problèmes peuvent être classés dans deux grandes catégories : les problèmes acoustiques et les problèmes linguistiques. Voici quelques-uns de ces problèmes : Parmi les problèmes de nature acoustique, citons les différentes qualités de transmission du signal (signal de qualité studio ou transmis par téléphone ou par un autre canal bruité de transmission), les différents niveaux de bruits pendant l enregistrement, la présence de fond musical, la parole simultanée, le changement abrupte d environnement, etc. La parole peut provenir de différents locuteurs avec des styles d élocution variés : les journalistes parlant vite, les interviews avec plusieurs personnes, les talk-shows, etc. De plus, les interviews transmises peuvent relever du dialogue avec les locuteurs non natifs ou avec un accent marqué. Voici quelques problèmes de nature linguistique. La parole peut être spontanée et grammaticalement incorrecte ce qui demande une prise en compte appropriée. Une autre question importante est le choix du vocabulaire à utiliser et le choix de sa taille. Par ailleurs, comment traiter les publicités qui apportent peu d intérêt pour la compréhension d une émission mais constituent un attribut incontournable de beaucoup de chaînes de radio ou de télévision? Loin d être exhaustive cette liste a pour but de montrer que le développement d un système de transcription est une étude de différents problèmes de recherches et une intégration des différents modules en vue d obtenir un meilleur système de transcription. Actuellement la transcription est un domaine en plein effervescence en France. Il faut noter que les Etats-Unis d Amérique sont en avance de quelques années par rapport à nous sur ce sujet. Cela pourrait être expliqué par le fait que les américains se sont intéressés à ces applications plus tôt que les français. Ils ont réussi à trouver les moyens humains et financiers nécessaires à leurs réalisations. De plus, le NIST (National Institute of Standards and Technology) et le DARPA (Defense Advanced Research Projects Agency) ont lancé plusieurs campagnes d évaluation, ce qui a permis d avoir une avancée importante dans ce domaine (voir section 7.3). Depuis le milieu des années 90 plusieurs sessions d ICSLP (International Conference on Spoken Language Processing) ou d Eurospeech (European Conference on Speech Communication and Technology) traitent le sujet de la transcription. De plus, quelques Workshops ont été organisés sur ce sujet : le NIST Speech Transcription Workshop, le DARPA Workshop on Automatic Transcription of Broadcast News, etc.

88 80 Chapitre 7. Cas réel : un système de transcription d émissions radiophoniques Dans la suite de ce chapitre nous nous focalisons sur la transcription d émissions radiophoniques, car c est ici que se situait le centre d intérêt de notre équipe pendant les deux ans de préparation à l évaluation ESTER. 7.3 ESTER Une campagne d évaluation Le lancement d une campagne d évaluation est une pratique courante aux États-Unis d Amérique dans le domaine du traitement de la langue. Par exemple, la campagne de transcription de DARPA [Kim et al., 2005], la campagne de reconnaissance du locuteur de NIST [Moraru et al., 2004] ou la campagne SPIN (Speech in Noise Environments) de reconnaissance robuste au bruit lancée par les NRL (Naval Research Laboratories) [Singh et al., 2001]. Ces campagnes ont montré leur grand intérêt pour la communauté «parole» et ont permis aux participants de faire des avancées significatives dans leurs recherches. Pour les organisateurs, le lancement d une campagne d évaluation passe par plusieurs étapes. Premièrement il est nécessaire de fournir aux participants de la campagne un corpus d apprentissage, un corpus de développement et un corpus de test. Pour cela il est nécessaire de trouver les moyens financiers pour enregistrer et, dans le cas du corpus d apprentissage, étiqueter manuellement une quantité importante d émissions radiophoniques. La préparation de tels corpus est un travail fastidieux et très coûteux en terme d efforts humains 15. Deuxièmement, il faut trouver les participants qui ont les moyens financiers et humains nécessaires pour mettre au point leurs propres systèmes. Ensuite, il est nécessaire de proposer un ensemble de tâches sur lesquelles les systèmes seront évalués et pour chaque tâche développer les métriques et les outils d évaluation appropriés. Au final, le regroupement des résultats tâche par tâche et l analyse d erreurs permet d établir le classement final La campagne d évaluation ESTER La Campagne d Évaluation des Systèmes de Transcription Enrichie des Émissions Radiophoniques (ESTER) a été lancée en 2003 dans le cadre du projet EVALDA 16 sous l égide scientifique de l AFCP (Association Francophone de la Communication Parlée) avec le concours de la DGA (Délégation Générale de l Armement) et de l ELDA (Evaluation and Language Resources Distribution Agency). La campagne s intéresse à l évaluation de systèmes de transcription d émissions radiophoniques de bulletins d information en français. Elle est similaire à la campagne NIST Broadcast News Evaluation effectuée aux USA [DARPA, 1998], [Pallett et al., 1999], [Ravishankar et al., 2000], [Stolcke et al., 2000], [Chen et al., 2002], [Kim et al., 2005], [Nguyen et al., 2004], [Matsoukas et al., 2005]. La campagne ESTER définit un ensemble de tâches sur lesquelles les laboratoires participants sont évalués : Transcription : cette tâche demande de fournir le texte d une émission radiophonique. Deux variantes sont envisagées : la transcription non temps réel et la transcription temps réel. 15 Pour diminuer ce coût, il est possible de transcrire le corpus automatiquement en utilisant un système rudimentaire de transcription, puis de vérifier et corriger, si nécessaire, les transcriptions à la main. 16 Le projet EVALDA a pour objectif la mise en œuvre d une infrastructure dédiée à l évaluation des technologies de la langue en France. Il est financé par le Ministère de la Recherche et s inscrit dans le cadre du programme Technolangue.

89 7.3. ESTER 81 Segmentation en événements sonores : il s agit de détecter les segments sonores correspondant à la parole et les segments correspondant à la musique. Segmentation et regroupement par locuteur : cela demande de définir les tours de parole de chaque locuteur. Suivi d un locuteur : il est nécessaire de retrouver les segments sonores correspondant à un locuteur donné. Détection d entités nommées : cela consiste à détecter à quel moment apparaît telle ou telle entité nommée (lieux, noms propres, etc.). Plusieurs équipes françaises de recherche en parole ont répondu à l appel de lancement de la campagne ESTER : Le CLIPS de Grenoble (Communication Langagière et Interaction Personne Système) ; L ENST de Paris (École Nationale Supérieure des Télécommunications) ; L IRISA de Rennes ( Institut de Recherche en Informatique et Systèmes Aléatoires) ; L IRIT de Toulouse (Institut de Recherche en Informatique de Toulouse) ; Le LIA d Avignon (Laboratoire Informatique d Avignon) ; Le LIMSI de Paris (Laboratoire d Informatique pour la Mécanique et les Sciences de l Ingénieur) ; Le LISIF de Paris (Laboratoire des Instruments et Systèmes Île de France) ; Le LIUM du Maine (Laboratoire d Informatique de l Université du Maine) ; Notre équipe «Parole» du LORIA ; Le SIS de Toulon (Signal Information Systèmes). Les industriels France-Télécom R&D, Thalès Colombes et Vecsys Research ont également pris part à cette campagne. L intérêt de cette campagne pour les laboratoires français est multiple. Cette campagne a permis à la plupart des participants de créer leur propre système de transcription en français. Ensuite, la campagne a permis de constituer des ressources sonores importantes et de qualité ; il n existait rien de similaire en français auparavant. Par ailleurs, au cours de cette campagne les participants ont eu la possibilité de collaborer et de travailler ensemble à travers plusieurs workshops. En évoquant les points difficiles, les équipes de recherche ont pu discuter et élaborer des solutions intéressantes. De plus, l échange de ressources (données, logiciels, scripts) a permis d avancer aux équipes de taille réduite mais qui avaient envie de participer à la campagne. Voici quelques références bibliographiques sur les systèmes développés par les participants dans le cadre de la campagne ESTER : [Deléglise et al., 2005], [Istrate et al., 2005], [Moraru et al., 2005], [Massonié et al., 2005], [Zhu et al., 2005], [Ben et al., 2005], [Brun et al., 2005] Le corpus ESTER Pour développer un système de reconnaissance il est nécessaire d avoir un corpus d apprentissage, un corpus de développement et un corpus de test. Ces corpus doivent être spécifiques à l application visée. De tels corpus ont été distribués dans le cadre de la campagne ESTER. Ces corpus sont suffisamment riches et représentatifs pour constituer une très bonne base pour le développement d un système de transcription. Un corpus d apprentissage de 82 heures de bulletins radiophoniques d information enregistrés en 2000 et en 2003 et a été fourni aux participants. Il est transcrit manuellement en mots, en locuteurs et en événements sonores. Le corpus de développement fourni contient 8 heures d émissions transcrites.

90 82 Chapitre 7. Cas réel : un système de transcription d émissions radiophoniques Le corpus d apprentissage et de développement contient des émissions de France-Inter, de France-Info, de RFI (Radio France International) et de RTM (Radio Télévision Marocaine). De plus, 1600 heures non transcrites ont été distribuées aux participants pour être utilisées pour l apprentissage non supervisé. Le corpus de test a été enregistré en octobre 2004 et consiste en 10 heures d émissions (voir tableau 7.1 repris de [Galliano et al., 2005]). Nombre de mots Nombre de locuteurs 343 Parole simultanée 0,43 % Signal sans parole (jingles, musique, etc.) 4,95 % Tab. 7.1 ESTER : statistique du corpus de test (10 heures) [Galliano et al., 2005]. Pour l apprentissage des modèles de langage, le corpus textuel «Le Monde» de la période a également été distribué. Le corpus ESTER a évolué pendant la campagne, car une quantité importante d erreurs de transcriptions manuelles (ce qui est difficilement évitable) a été corrigée par les participants. 7.4 Le système ANTS du LORIA Comme nous l avons évoqué précédemment, la transcription d émissions radiophoniques pose plusieurs problèmes difficiles de recherche et d ingénierie : le découpage de fichiers sonores de grande taille, la segmentation, la présence de bruits, les locuteurs non natifs, le choix de la taille du vocabulaire, etc. Pour les résoudre, une très large compétence et l implication de plusieurs personnes sont indispensables. Presque tous les membres permanents de la partie «reconnaissance» de notre équipe ont participé à l élaboration de notre système de transcription : Armelle Brun, David Langlois et Kamel Smaili ont participé à la création et à l évaluation du modèle de langage. Dominique Fohr, Odile Mella, Christophe Cerisara et moi-même avons travaillé sur les autres aspects du système. Parmi les tâches proposées dans le cadre de la campagne ESTER et listées précédemment (voir section 7.3) notre équipe s est principalement intéressée aux taches de segmentation en événements sonores et de transcription. Ce choix restreint est explicable par le temps limité que les membres de notre équipe pouvaient accorder au développement de ce système. Une autre raison est que ces deux tâches, la segmentation et la transcription, sont quasiment incluses l une dans l autre : sans segmentation il n est pas possible de faire une bonne transcription. En conséquence, le même système est utilisé pour les deux tâches. Nous décrivons ci-dessous l état actuel du système ANTS (Automatic News Transcription System), système de transcription développé dans notre équipe [Brun et al., 2004], [Fohr et al., 2004], [Illina et al., 2004], [Brun et al., 2005]. La description de chaque module du système sera faite dans les grandes lignes, car notre système n est pas figé et est toujours en évolution. Nous nous focalisons plutôt sur l utilité de chaque module que sur les détails techniques. Nous décrivons également quelques problèmes intéressants de recherche rencontrés. L enchaînement de différents modules n est pas encore optimal et une étude plus approfondie de différentes possibilités d assemblage est en cours. Les modules essentiels du système ANTS sont les suivants (voir figure 7.1) :

91 7.4. Le système ANTS du LORIA 83 Le module de segmentation ou de partitionnement inclut les segmentations en parole téléphonique et en parole non téléphonique, en parole et en musique, la détection des pauses et des respirations, la détection hommes/femmes et le regroupement par locuteur. Le module de reconnaissance inclut le moteur de recherche Julius et l adaptation. Dans la suite nous présentons chacun de ces deux modules. Signal Tél. Segmentation tél / non tél (GMM) Non tél. Détection pauses et respirations (HMM) Segmentation parole/musique (GMM) Segments musique chansons Filtrage passe bas 3800 Hz Détection pauses et respirations (HMM) Segments pauses respirations Regroupement par locuteur (BIC) Segmentation homme / femme (GMM) Hommes Femmes Adaptation au locuteur (MLLR+MAP) Regroupement par locuteur (BIC) Regroupement par locuteur (BIC) Reconnaissance Julius HMM tél Adaptation au locuteur (MLLR+MAP) Adaptation au locuteur (MLLR+MAP) Reconnaissance Julius HMM non tél hommes Reconnaissance Julius HMM non tél femmes Transcription Fig. 7.1 Architecture du système ANTS du LORIA Le module de segmentation en événements sonores Le module de segmentation permet de découper le flux sonore en différents segments homogènes correspondant à la parole, à la musique, etc. Avoir une bonne segmentation est important pour une bonne performance du système de transcription. Une mauvaise segmentation pourrait

92 84 Chapitre 7. Cas réel : un système de transcription d émissions radiophoniques fausser beaucoup la reconnaissance dans certains cas. Par exemple, les morceaux du signal classés comme musique, mais contenant en réalité de la parole, ne seront pas fournis au moteur de reconnaissance et donc introduiront des erreurs de transcription. Pour développer un module de segmentation il est nécessaire de répondre aux questions suivantes : Quel type de modèles choisir et quel classifieur utiliser? Quels types de segments veut-on avoir? Quel paramétrage choisir pour chaque type de segmentation? Types de modèles et de classifieurs Les modèles acoustiques simplifiés, de type GMM, sont souvent utilisés pour la segmentation [Gauvain et al., 1999], [Zibert et al., 2005]. Cela s explique par le fait que la modélisation d un segment est très différente de la modélisation d un phonème. Pour bien modéliser un phonème, il est nécessaire de représenter les parties stables et les parties transitoires du signal. Cela est effectué en utilisant un HMM à plusieurs états. En revanche, dans un segment il n est pas possible de détecter les parties stables et les parties transitoires et donc le modèle à un état est bien approprié. Mais il faut aussi qu un certain niveau de précision de segmentation soit assuré pour ne pas perdre le premier ou le dernier mot d un segment de parole. Une autre approche envisageable est l utilisation d un réseau de neurones (Neural Network, NN) [Ajmera et al., 2003], [Zibert et al., 2005] dont l avantage est l apprentissage discriminant. Pour finir, citons encore [Petrucci et al., 2002] utilisant la méthode des k plus proches voisins, BIC (Bayesian Information Criterion) de [Carey et al., 1999] et les HMM de [Williams et Ellis, 1999]. Types de segments Notre module de segmentation contient différents niveaux de segmentation (voir figure 7.1). Notre expérience montre qu un tel type de segmentation en plusieurs niveaux est indispensable dans un système de transcription car : La détection de la parole téléphonique et de la parole non téléphonique donne la possibilité d utiliser par la suite les modèles acoustiques spécifiques à chaque type de segments. La détection des segments de musique permet d optimiser le temps de calcul et de simplifier le décodage car la reconnaissance n est pas effectuée sur ces morceaux. La détection des pauses et des respirations permet de découper le signal en segments de taille faible et de réduire la partie de l espace de recherche explorée par le moteur de reconnaissance. De plus ce découpage correspond souvent à des entités syntaxiques ou sémantiques de la langue. La segmentation homme/femme et le regroupement par locuteur permettent également d utiliser par la suite des modèles acoustiques spécifiques. Regardons maintenant plus précisément comment est effectuée la segmentation. La segmentation du signal sonore peut être considérée comme la classification des trames du signal en terme d appartenance à une certaine classe [Rabiner et Juang, 1993], [Pinquier, 2004]. En général, cela se fait de la façon suivante : pour découper le signal en morceaux correspondant à l événement A et en morceaux correspondant à l événement B, les modèles acoustiques de A et de B sont utilisés. Pour chaque trame du signal on calcule la distance par rapport aux modèles de A et aux modèles de B. Cela est effectué à l aide de l algorithme de Viterbi. Une distance minimale par rapport à une classe signifie que cette trame sera classée comme appartenant à cette classe.

93 7.4. Le système ANTS du LORIA 85 Pour éviter les segments de petite taille, une certaine contrainte de durée minimale pour un segment est habituellement imposée. Cette approche peut être appelée approche avec des modèles compétitifs [Razik et al., 2004]. Un problème intéressant est l étude de la segmentation des morceaux de signal appartenant à deux classes à la fois. Par exemple, l erreur de classification pourrait être importante si on classe la parole avec fond musical comme étant de la musique pure. La création de modèles acoustiques spécifiques à cet événement (les segments correspondant à deux classes à la fois) est indispensable. En pratique, cela n est pas toujours aisé car pour apprendre de tels modèles il est nécessaire d avoir suffisamment de données d apprentissage. S il y a peu de segments correspondant à ce type d événement dans les données d apprentissage, une solution consiste à utiliser un autre corpus, qui soit plus approprié. Une autre solution est d utiliser les méthodes de classification spécifiques à ce problème. Voici une méthode envisageable et qui est souvent utilisée dans le domaine de la segmentation parole/musique [Pinquier, 2004]. Tout d abord, il est possible de segmenter le signal en terme des événements A et non A, puis en terme des événements B et non B, en utilisant un ensemble de quatre modèles : modèle de A, modèle de non A, modèle de B et modèle de non B. Ensuite, les résultats de ces deux classifications sont fusionnés. De cette façon, les morceaux correspondant à l événement A et B seront classés comme appartenant à A par la première classification et comme appartenant à B par la deuxième. Cette approche est appelée l approche par «anti-modèles». Dans notre travail nous avons utilisé l approche avec des modèles compétitifs. Le paramétrage Il est important de noter que chaque type de segmentation (en parole, en musique, etc.) peut demander un paramétrage spécifique du signal, car le paramétrage le plus discriminant pour un type de segmentation peut ne pas l être pour un autre type de segmentation. Prenons comme exemple la segmentation téléphone/non téléphone. Ici, le paramétrage en MFCC ne nécessite pas l utilisation du MCR (voir section 5.3.2) car celle-ci réduit l influence des canaux et donc uniformise la parole téléphonique et la parole non téléphonique. En revanche, l utilisation de MFCC avec le traitement MCR pour la segmentation hommes/femmes donne des bons résultats. Pour la segmentation parole/musique, de nombreux paramètres ont été testés dans la littérature. Parmi les paramètres temporels, les plus fréquemment utilisés sont l énergie et le ZCR (Zero Crossing Rate) [Scheirer et Slaney, 1997], [Jiang et Zhang, 2001]. Les variations importantes du ZCR sont spécifiques aux sons voisés/non voisés ce qui signifie la présence de segments de parole. L énergie, quant à elle, a tendance à varier beaucoup pour la parole et rester stable pour la musique. Parmi les paramètres fréquentiels, le centroïde spectral et le flux spectral ont montré de bons résultats [Saunders, 1996]. Les paramètres mixtes peuvent également être utilisés comme, par exemple, la modulation d énergie [Scheirer et Slaney, 1997]. Les plus utilisés actuellement sont les coefficients MFCC [Hain et Woodland, 1998], [Razik et al., 2004]. En donnant les mêmes résultats que les autres types de paramétrage, ils ont l avantage d être calculés dans chaque système de reconnaissance pour effectuer la reconnaissance et donc ne demandent pas de calculs supplémentaires. L inconvénient est leur lisibilité réduite. Avec Odile Mella et Dominique Fohr nous avons développé différents sous-modules de segmentation un sous-module par niveau de segmentation et nous avons évalué chaque sousmodule avec les données de développement d ESTER. Les caractéristiques de notre système de segmentation sont les suivantes : Nous avons choisi d utiliser l approche de classification avec des modèles compétitifs. La segmentation en parole téléphonique et en parole non téléphonique est effectuée en

94 86 Chapitre 7. Cas réel : un système de transcription d émissions radiophoniques utilisant deux modèles GMM : un pour la parole téléphonique et un pour la parole non téléphonique. Segmentation en parole/musique est faite en utilisant les modèles GMM suivants : un modèle pour la parole, un pour la musique instrumentale, un pour les chansons et un pour la parole sur fond musical. En faisant l hypothèse qu il n y a pas de chansons ou de musique au téléphone, nous n effectuons la segmentation en parole/musique que sur les segments non téléphoniques. Les segments correspondant à la musique pure sont rejetés et ne sont pas utilisés par la suite. La figure 7.2 montre un exemple de résultats de segmentation parole/musique, obtenue en utilisant notre système. Pour avoir des segments de taille raisonnable, la détection des pauses et des respirations est effectuée. Pour les segments non téléphoniques restant et les segments téléphoniques, la segmentation homme/femme est effectuée. C est une étape non indispensable dans un module de segmentation, mais, comme nous l avons dit précédemment, il a été montré qu une telle segmentation améliore le taux de reconnaissance [Gauvain et al., 2002]. Pour tous les niveaux de segmentation, une contrainte de durée minimale d un segment est utilisée (500 msec). L apprentissage de tous ces modèles est décrit à la section Les segments issus de ces différents niveaux de segmentation sont envoyés au moteur de reconnaissance, dont la description suit. Fig. 7.2 Exemple de segmentation parole/musique. Le corpus ESTER, système ANTS Le module de reconnaissance Pour la phase de reconnaissance, nous avons préféré choisir un logiciel de reconnaissance tout prêt plutôt que nous lancer dans le développement d un logiciel de reconnaissance à partir de rien. Parmi les logiciels existants, beaucoup ne nous convenaient pas. Certains logiciels existant n avaient pas une vitesse de calcul suffisante pour la reconnaissance grand vocabulaire (par exemple, HTK [Young et Woodland, 1993] 17 et ESPERE [Fohr et al., 2000]). Notre choix s est porté sur Julius. C est un système de reconnaissance open source, utilisant un grand vocabulaire 17 HTK est une boîte à outils pour l apprentissage et la reconnaissance des HMM.

95 7.5. Mise en œuvre du système 87 et développé au Japon en 2001 [Lee et al., 1997]. Nous avons choisi Julius car ce logiciel est bien suivi par ses développeurs. De plus, une version «temps réel» est également disponible 18. Soulignons que Julius est un logiciel de reconnaissance. Le module d apprentissage n est pas fourni. Julius accepte les modèles appris à l aide de HTK. Julius effectue la reconnaissance en deux passes : la première passe est synchrone à la trame et utilise les modèles de langage fondés sur les bigrammes. A l issue de cette étape, un treillis de mots est construit. La deuxième passe utilise ce treillis et les modèles de langage fondés sur les trigrammes. Cette passe est fondée sur l algorithme A* [Pearl, 1984] et fournit la phrase reconnue. 7.5 Mise en œuvre du système Apprentissage des modèles acoustiques Les modèles acoustiques sont utilisés dans les modules de segmentation et de reconnaissance de notre système. Pour créer les modèles acoustiques il est nécessaire de répondre à trois questions : Que voulons-nous modéliser dans chaque module du système de transcription? Quelle structure de modèles faudra-t-il choisir pour chaque module (nombre de modèles, nombre d états d un modèle, nombre de gaussiennes par état d un modèle)? Sur quel corpus apprendre ces modèles? Comme nous l avons dit précédemment, les modèles acoustiques doivent être choisis en fonction de la tâche effectuée. Pour la segmentation, des modèles assez généraux comme les GMM sont suffisants. En revanche, pour la tâche de reconnaissance, des modèles plus précis comme les modèles HMM contextuels (triphones dans notre cas) à plusieurs états donneront un meilleur taux de reconnaissance. Les modèles HMM et GMM sont constitués en grande partie de moyennes et d écart-type de variables aléatoires. Pour apprendre ces modèles il faut avoir un corpus de suffisamment grande taille pour que l estimation soit statistiquement valable. De plus, pour apprendre différents types de modèles acoustiques des corpus d apprentissage spécifiques à chaque module sont nécessaires. Trouver un corpus qui répond à ces deux conditions être spécifique à la tâche traitée et être de taille suffisante n est pas facile. Le corpus d apprentissage d ESTER, comme montré précédemment, contient 90 heures d enregistrement (voir section 7.3.3). C est un corpus très varié : il contient de la parole téléphonique et non téléphonique, de la musique, des respirations, des silences, de la parole sur fond musical, etc. Malgré sa richesse, certains types de segment sont peu représentés. Cela est surtout vrai pour les segments nécessaires à la segmentation parole/musique. Pour bien détecter les segments musicaux, il est préférable d apprendre les modèles acoustiques, correspondant à la musique, sur différents genres de musique (musique classique, jazz, rock, etc.) De plus, pour reconnaître la parole sur fond musical il faudra avoir les modèles acoustiques appris sur la parole avec un fond musical faible et avec un fond musical fort. Ces types de segments sont difficiles à trouver dans le corpus d apprentissage d ESTER en quantité nécessaire. Pour résoudre ce problème, en plus du corpus ESTER, nous avons utilisé deux autres corpus : différents CD de musique (jazz, rock, musique classique, etc.) pour apprendre les modèles acoustiques de musique et le corpus RAIVES (voir section 3.5.1) pour avoir les segments correspondant à la parole sur fond musical et donc apprendre les modèles GMM correspondant à la parole sur fond musical. 18 «Temps réel» signifie ici que, pour reconnaître une heure de parole, il faudra une heure de calcul.

96 88 Chapitre 7. Cas réel : un système de transcription d émissions radiophoniques Pour l apprentissage des modèles acoustiques HMM utilisés pendant la reconnaissance, seul le corpus ESTER est utilisé. Nous obtenons donc plusieurs ensembles de modèles acoustiques, chacun correspondant à un module et étant construit de la façon la plus appropriée de notre point de vue : Un GMM, appris sur la parole téléphonique, et un GMM, appris sur la parole non téléphonique, sont destinés à la segmentation téléphone/non téléphone. Quatre GMM correspondant à la parole, à la musique instrumentale, aux chansons et à la parole sur fond musical sont utilisés pour la segmentation parole/musique. Les modèles HMM de phonèmes indépendant du contexte plus un modèle de silence et un modèle de respiration sont utilisés pour la détection des pauses et des respirations. Un GMM appris avec des voix féminines et un GMM appris avec des voix masculines permettent d effectuer la segmentation homme/femme. Les modèles HMM de triphones suivants sont appris sur les segments de parole à l aide de HTK : les modèles téléphoniques et les modèles non téléphoniques. Par la suite, les modèles non téléphoniques sont adaptés aux voix féminines et aux voix masculines. Les modèles finaux sont utilisés pendant la reconnaissance. Le lecteur intéressé trouvera les détails techniques concernant l apprentissage des nos modèles dans [Brun et al., 2005] Apprentissage des modèles de langage Nous avons utilisé un vocabulaire de mots parmi les plus courants, extraits du journal «Le Monde» et du corpus ESTER. Les noms communs ont été phonétisés grâce à BDLEX [De Calmès et Pérennou, 1998]. Les phonétisations de noms propres ont été réalisées par un phonétiseur automatique, développé dans notre équipe, puis corrigées manuellement. Différentes prononciations d un même mot sont autorisées. Au final, le lexique contient prononciations. Nous utilisons les modèles de langage bigrammes et trigrammes pendant la reconnaissance. Ces modèles ont été appris sur le corpus «Le Monde» et le corpus textuel d apprentissage d ESTER à l aide du Toolkit de CMU (CMU Statistical Language Modeling Toolkit) [Clarkson et Rosenfeld, 1997]. Nous ne donnons pas ici la description détaillée de la construction de ces modèles puisque le travail sur les modèles de langage ne rentre pas dans le cadre de ce document, consacré plutôt aux aspects acoustiques. Notons pour terminer que le modèle de langage, utilisé dans notre système, contient 7, 4 millions de bigrammes et 25, 4 millions de trigrammes Validation du système Une étape importante et très consommatrice en temps de développement d un système de transcription est l expérimentation. Il s agit de tester les différents modules du système pour ajuster leurs paramètres. De bonnes valeurs de paramètres peuvent apporter beaucoup au niveau du taux de reconnaissance. Chaque module a ses propres paramètres et il est nécessaire de les ajuster de façon plus ou moins optimale. Ajuster les paramètres de tous les modules en même temps est une tâche irréalisable puisque le nombre de combinaisons de paramètres à tester serait très grand et donc le temps d expérimentation serait énorme. En général, l expérimentation est effectuée module par module pour économiser du temps. Puis le système complet est testé également.

97 7.6. Conclusion et perspectives 89 Dominique Fohr, Odile Mella et moi-même avons passé plusieurs semaines à ajuster les nombreux paramètres de notre système. Nous présentons les résultats expérimentaux dans la section suivante Résultats expérimentaux Comme nous l avons dit précédemment, notre équipe a participé à deux tâches de la campagne ESTER : la segmentation en événements sonores et la transcription (en temps non réel et en temps réel). Les tables suivantes présentent les résultats de ces tâches pour tous les participants de la campagne : la table 7.2 montre les résultats pour la tâche de transcription en terme d erreurs de reconnaissance de mots, la table 7.3 donne les résultats pour la tâche de transcription en temps réel et la table 7.4 présentent les résultats de la tâche de segmentation. Dans la table 7.2 nous observons que les ressources utilisées par les participants ne sont pas toujours comparables, ce qui explique parfois les différences de performances des systèmes. En effet, en utilisant un grand corpus d apprentissage, des modèles détaillés et un grand vocabulaire, il y a plus de chances d obtenir de meilleures performances. Par ailleurs, nous expliquons les très bons résultats du LIMSI et de Vecsys par leur expérience plus importante dans ce domaine et par les ressources importantes utilisées. En effet, le LIMSI a commencé l élaboration de son système de transcription au début des années 90. Dans l évaluation NIST Broadcast News en , le LIMSI a obtenu déjà de très bons résultats de transcription [Gauvain et al., 2000]. Notons également que les résultats de reconnaissance «temps réel» (voir table 7.3) sont moins bons car pour accélérer la reconnaissance, un système simplifié avec des modèles moins précis et un espace de recherche restreint est utilisé. Les performances des systèmes de segmentation parole/non parole sont bonnes (voir table 7.4). Soulignons qu il n y a pas de corrélation directe entre les résultats de segmentation et les résultats de transcription car le module de segmentation n est qu un module du système de transcription. 7.6 Conclusion et perspectives Dans ce chapitre nous avons présenté les différentes étapes du développement d un système de transcription d émissions radiophoniques et les problèmes de recherches rencontrés. Grâce à la campagne ESTER, nous avons pu développer notre propre système de transcription. Le développement de ce système de transcription a été intéressant et très instructif pour moi et mes collègues car cela nous a permis d acquérir une large expérience, pas encore suffisamment validée à travers les publications, mais indispensable pour l équipe. Il reste encore beaucoup de questions ouvertes et de directions à explorer [Gauvain et al., 2005]. Parmi ces perspectives, citons en particulier : En ce qui concerne la segmentation, les segments correspondant à deux événements sonores simultanés la parole de deux locuteurs parlant en même temps, la traduction simultanée, la parole sur fond musical, etc. restent toujours difficiles à détecter et à transcrire. Une des possibilités est d utiliser des méthodes de séparation de sources pour ce type de segments. Une autre piste de recherche concernant la segmentation consiste à utiliser un module de détection des publicités et des jingles. D une part, les segments correspondant à la publicité n ont pas à être transcrits. D autre part, l information sur le type de jingles pourrait être utilisée pour l adaptation du vocabulaire et/ou du modèle de langage : par exemple, après le jingle de la bourse, le vocabulaire spécifique à la bourse donnera des meilleurs résultats

98 90 Chapitre 7. Cas réel : un système de transcription d émissions radiophoniques Laboratoire CLIPS ENST IRISA IRIT LIA LIMSI LIUM LORIA Erreur (%) 40,7 45,4 35,4 61,9 26,7 11,9 23, Modèles acoustiques Corpus audio (h) h 90 Nbr d états Nbr de gaussiennes 24k 14k 200k 3,7k 230k 370k 154k 90k Nbr de mots 21k 65k 65k 61k 65k 200k 65k 60k Nbr de prononciations 38k 118k 118k 119k 130k 276k 107k 112k Modèles de langage ESTER 1M 1M 1M 1M 1M 92M 1M 1M «Le Monde» 400M 400M 400M 400M 400M 500M 400M 400M Web 75M 14M 2-gram 7M 4M 4M 16M 16,9 23M 18M 7M 3-gram 9M 4M 4M 87M 19,9 40M 26M 25M 4-gram 37M 20M Moteur de reco. Nbr de passes Temps réel x , Tab. 7.2 Performances en terme d erreur de reconnaissance de mots pour la tâche de transcription par laboratoire participant. Comparaison de différents systèmes en fonction de quelques paramètres [Galliano et al., 2005]. Laboratoire IRIT LIA LORIA Vecsys Research Erreur de rec. de mots 70,4 36,3 37,4 16,8 Facteur de temps réel 0,63 1,23 0,93 1,09 Tab. 7.3 Performances moyennes en terme d erreur de reconnaissance de mots pour la tâche de transcription en «temps réel» par laboratoire participant [Galliano et al., 2005]. de reconnaissance. Avec notre stagiaire de l IUT Charlemagne Pierre-Henry Houchard, nous mettons en place un tel module de détection des publicités. Cette détection est basée sur l idée de Finger Printing [Haitsma et T., 2002]. En ce qui concerne la modélisation acoustique et la reconnaissance, l intégration dans notre système des approches de robustesse au bruit et au locuteur permettra améliorer les performances. Au niveau du vocabulaire, la prise en compte des mots hors vocabulaire est indispensable, car, d une part, ces mots ne sont jamais reconnus, et, d autre part, les mots voisins des mots hors vocabulaire sont également mal reconnus [Bisani et Ney, 2005]. La plupart du temps ce sont des noms propres, appartenant aux mondes sportif, politique, etc. Afin d intégrer ces noms propres, un vocabulaire dynamique pourrait être mis en place : les textes, disponibles sur Internet et correspondant aux bulletins d information, pourraient être extraits automatiquement chaque jour. Ils serviront à compléter le vocabulaire [Allauzen et Gauvain, 2005a]. Au niveau du modèle de langage, plusieurs modèles de langage, spécifiques à certains thèmes (politique, sports, météo, finances, etc.) pourraient être utilisés lors de la reconnaissance.

99 7.6. Conclusion et perspectives 91 Laboratoires F fa fr France-Telecom R&D 99,1 25,5 1,1 IRISA 98,9 9,7 1,9 IRIT 98,8 30,1 1,5 LIA 99,2 36,6 0,7 LIUM 97,4 8,0 4,9 LORIA 97,5 34,2 4,0 Tab. 7.4 Performances en terme de F-mesure (voir l annexe pour la description de F-mesure), calculée au niveau de la trame, de fausses alarmes (fa) et de faux rejets (fr) pour la tâche de segmentation parole/non parole par laboratoire participant [Galliano et al., 2005]. Pour cela il est nécessaire de développer un module de détection automatique de thèmes. Il sera intéressant de développer la version du vrai «temps réel» du système actuel 19 [Matsoukas et al., 2005]. Une telle version se met en place grâce au travail de Laurent Pierron, ingénieur INRIA, chargé de développer une plate-forme de démonstration de transcriptions d émissions radiophoniques de bulletins d information pour notre équipe. Le système de transcription du futur peut être imaginé comme un système «temps réel», transcrivant n importe quel genre d émissions radiophoniques et en n importe quelle langue, un système auto-adaptatif (au niveau du vocabulaire, des modèles, etc.). Et pourquoi ne pas pas donner à l utilisateur la possibilité d avoir un résumé audio de ses émissions préférées ou des nouvelles de la journée? 19 La notion de vrai «temps réel» signifie que le système donnera la transcription au fur et au mesure d une émission radiophonique.

100

101 Chapitre 8 Conclusion et perspectives 8.1 Conclusion Le domaine de la reconnaissance automatique de la parole est actuellement très actif. De nombreux laboratoires de recherche et des industriels effectuent des recherches dans ce domaine, avec un souci théorique et applicatif très marqué. Même si quelques problèmes de reconnaissance comme la reconnaissance de mots isolés avec un vocabulaire limité et prononcés dans des conditions calmes d utilisation ou la reconnaissance dépendant du locuteur peuvent être considérés comme ayant atteint un niveau de performance satisfaisant, la reconnaissance automatique mérite encore de nombreux travaux de recherche pour étendre son champ d application. Un axe important de de recherche concerne l amélioration de la robustesse d un système de reconnaissance lorsque l environnement de test est sensiblement différent de l environnement d apprentissage. Ce sujet a été le centre d attention de ce document. Deux aspects du problème de robustesse ont été présentés : la robustesse au bruit et la robustesse au locuteur. Dans le domaine de la robustesse au bruit, les différentes méthodes de transformation du signal, des vecteurs acoustiques et des modèles ont beaucoup progressé ces dix dernières années. L enregistrement de nombreux corpus dans les situations de la vie réelle (voiture, avion, réunions, etc.) ont permis de développer des méthodes spécifiques à certains types de bruit. Dans notre travail nous nous sommes focalisés sur les problèmes de robustesse aux bruits stationnaire et non stationnaire en utilisant des méthodes de compensation. En ce qui concerne la robustesse au locuteur, la «découverte» de l adaptation (méthodes MAP, MLLR, etc.) dans les années 1990 a également fait progresser ce domaine. De nouvelles améliorations de ces méthodes apparaissent encore de nos jours. Nous avons également contribué à cet axe de recherche en se concentrant sur les méthodes d adaptation des modèles acoustiques. Nous avons réalisé une étude spécifique aux locuteurs non natifs. Nous nous sommes intéressés également à un contexte applicatif réel : la transcription des documents sonores et plus particulièrement des émissions radiophoniques de bulletins d information. Dans ce cadre un système de transcription a été réalisé par notre équipe. 8.2 Perspectives Les travaux de recherche présentés dans ce document peuvent être poursuivis de nombreuses façons. Les perspectives à moyen terme et à long terme ont déjà été présentées dans les chapitres précédents. Ci-dessous, nous présentons quelques perspectives de plus en nous concentrant sur deux niveaux d analyse : 93

102 94 Chapitre 8. Conclusion et perspectives Comment progressera le domaine de la reconnaissance automatique de la parole durant les dix-vingt années à venir? Quels sont les problèmes ouverts de la reconnaissance robuste de la parole? Perspectives en reconnaissance de la parole Le développement du domaine de la reconnaissance vocale est étroitement lié à l évolution des autres domaines scientifiques et aux changements dans notre façon de vivre et de travailler. Parmi les conditions qui favorisent le développement des applications de reconnaissance notons les suivantes. D une part, les avancées significatives dans les technologies liées aux ordinateurs permettent d avoir une plus grande capacité de calculs et de stockage. D autre part, grâce aux progrès dans le domaine des télécommunications, des nouveaux produits et des nouveaux moyens de communication sont disponibles : téléphone portable, PC portable, Internet, ADSL, SDSL, VoIP. La demande en applications vocales augmente également grâce aux faits suivants. La mobilité accrue des gens demande d effectuer de plus en plus de choses à distance : les réunions, le travail à domicile, les missions, la mondialisation, les délocalisations, etc. De plus, l augmentation de la quantité d informations textuelles et audiovisuelles, que nous pouvons recevoir chaque jour, nécessite leur stockage et leur indexation «intelligente». Grâce à ces évolutions, la mise en place d applications utilisant les technologies vocales devient de plus en plus demandée et en même temps réalisable. Le but des applications vocales sera de plus en plus la sécurité (entrée sécurisée dans les bâtiments à l aide de la voix, etc.), le confort et l augmentation de la productivité (industrie). La transcription de documents audio (réunions, radio, télévision, etc.), l indexation et l archivage de cette information, les systèmes de dialogue pour avoir des renseignements, acheter, apprendre, assister, gérer à la voix de nombreux tâches dans l industrie, etc. seront les applications clés dans un avenir proche. Et pourquoi ne pas imaginer un système qui ait la capacité de vous donner un résumé des nouvelles de la journée, de vous signaler les courriels ou les appels téléphoniques importants et de répondre à certains d entre eux, faire des courses par Internet à votre place, et même de consoler votre enfant en cas de besoin? Dans toutes ces applications imaginables, le système de reconnaissance va avoir tendance à devenir un module d un grand système, incluant le dialogue, la synthèse, la compréhension, etc. Pour rendre ces applications possibles, la reconnaissance vocale doit prendre en compte de nombreux points, qui ne sont pas encore suffisamment développés jusqu au maintenant. Citons quelques exemples : La prise en compte de la parole spontanée est vitale pour un système de reconnaissance grand public. Nous n en sommes qu au début [Nakamura et al., 2005]. Les pauses, les répétitions, les hésitations, les phrases en suspens posent des problèmes par la suite aux autres modules de l application visée. Les gens utiliseront les systèmes de reconnaissance à condition que le taux d erreur de reconnaissance soit suffisamment faible. La reconnaissance robuste est donc nécessaire. L utilisation d un système de reconnaissance dans un milieu bruité et par différentes personnes devrait être habituel. Étant donné la mobilité accrue de gens, la reconnaissance de la parole des locuteurs non natifs va devenir de plus en plus importante. Les systèmes de reconnaissance vont devenir accessibles à un large public. Ils seront inclus dans les jeux, les logiciels d apprentissage (apprentissage de la lecture, apprentissage de l écriture, apprentissage d une langue étrangère, etc.) les logiciels de bureautique, etc. Cela

103 8.2. Perspectives 95 amène la nécessité de prendre en compte dans ces systèmes non seulement les voix des adultes mais également les voix des enfants (voix aiguës, vocabulaire spécifique, parole très spontanée, grande variabilité spectrale inter et intra locuteur [Lee et al., 1999], [Gerosa et al., 2005]) et des personnes très âgés (débit lent, voix essoufflée, moins énergique, pauses, etc.). Pour les tâches comme la transcription ou la traduction automatique, un système qui permet d obtenir une ponctuation correcte est indispensable [Shriberg, 2005]. Pour l instant, les systèmes de transcription fournissent un flux de texte avec peu ou pas de signes de ponctuation. Citons également quelques questions importantes à réflechir : Il arrive un moment où le potentiel des modèles stochastiques commence à atteindre ses limites. A notre avis, il est temps d introduire des connaissances dans les systèmes de reconnaissance, les connaissances concernant tous les niveaux de la modélisation : l analyse du signal, sa modélisation acoustique, la représentation du modèle de langage, etc. De plus, il semble utile de ne pas considérer un système de reconnaissance comme figé et de remettre en question de temps en temps les choix faits auparavant. Les questions «classiques» comme «Quel modélisation choisir (HMM, GMM, autre)», «Quel paramétrage choisir?», «Comment mieux estimer/apprendre les paramètres?», «Quel corpus de parole utiliser?», «Comment utiliser les corpus non transcris?» «Comment diminuer le nombre de paramètres à estimer?» resteront valables encore longtemps. Il semble nécessaire de diminuer l effort empirique de mise en œuvre d un système de reconnaissance. Cet effort est toujours très présent dans les systèmes actuels. En effet, pendant le développement d un système de reconnaissance, un temps non négligeable est pris par l ajustement expérimental de nombreux paramètres. Il semble nécessaire de prêter plus d attention à l apprentissage. En particulier, l apprentissage discriminant, l apprentissage non supervisé, l apprentissage incremental et en «temps réel» sont des points à approfondir. Enfin, un autre point important est le suivant : les nombreuses campagnes d évaluation aux États-Unis d Amérique et en France ont permis et permettront dans l avenir de faire des avancées significatives et rapides. Par exemple, les campagnes de transcription d émissions radiophoniques de bulletins d informations ont permis de faire passer le taux d erreur de 40% à 10% en cinq-six ans Perspectives en reconnaissance robuste de la parole En ce qui concerne la reconnaissance robuste, deux grandes directions de recherche sont à mentionner : La prise en compte des bruits non stationnaires, dont l importance a été soulevée à travers ce document, nécessite de continuer l effort engagé. Nous n en sommes qu au début. L étude des problèmes de détections de changement des bruits et la prise en compte de ces moments pendant la reconnaissance doit se poursuivre. La reconnaissance de la parole de locuteurs non natifs semble également devenir de plus en plus important. La prise en compte de la parole non native au niveau de la modélisation acoustique, au niveau de vocabulaire et au niveau du modèle de langage doit être envisagé. Notons que dans le cas de la parole non native, pour le moment, il n existe qu un seul

104 96 Chapitre 8. Conclusion et perspectives corpus commercialisé. Vue l attention portée pendant la dernière conférence InterSpeech aux problèmes de reconnaissance de la parole des locuteurs non natifs, nous pensons que ce dernier problème de corpus sera résolu rapidement et que de nombreux corpus de parole non native seront disponibles bientôt. Nous envisageons de mettre à disposition de chercheurs le corpus HIWIRE (parole de locuteurs non natifs) enregistré dans le cadre du projet européen portant le m ˆme nom. Compte tenu de notre expérience dans le domaine de la reconnaissance, parmi les directions de recherche indiquées ci-dessus, nous aimerions particulièrement nous investir dans les sujets de recherche suivants : la robustesse aux bruits non stationnaires, la reconnaissance de la parole de locuteurs non natifs et des locuteurs particuliers (enfants, personnes agées) et l apprentissage efficace des systèmes de reconnaissance. Également, il semble important de réfléchir sur la question de réduction de l effort empirique de mise en place d un système de reconnaissance.

105 Chapitre 9 Annexe 9.1 Corpus VODIS Le corpus VODIS (Voice-Operated Driver Information Systems Database) est un corpus de parole en français prononcée dans différentes conditions de conduite d une voiture : conduite de différents types de voiture, conduite en ville ou sur une autoroute, conduite avec une fenêtre ouverte ou fermée, avec la radio allumée ou éteinte, etc. 200 locuteurs ont participé à l enregistrement du corpus. Deux microphones ont été utilisés simultanément pour l enregistrement : Un microphone a été accroché près de la bouche du locuteur. La parole enregistrée correspond à un rapport moyen signal sur bruit de 20 db. Un autre microphone a été fixé au pare-soleil du conducteur. La parole enregistrée correspond à un rapport signal sur bruit de 10dB. Parmi les nombreuses tâches, deux tâches ont été utilisées dans notre travail : La prononciation des nombres (de 100 jusqu à 1500). Cette tâche est appelée tâche des nombres. La prononciation de numéros de téléphone. Cette tâche est appelée tâche de numéros. Le signal est échantillonné avec une fréquence de 11, 025 khz. 9.2 Corpus Aurora3 Le corpus Aurora3 est un corpus de parole prononcée en différentes langues. Dans notre travail, nous avons utilisé seulement la partie finlandaise du corpus (200 locuteurs prononçant des séquences de chiffres). Comme le corpus VODIS, le corpus Aurora3 est enregistré dans des conditions variées de conduite d une voiture et avec deux microphones en même temps : l un proche de la bouche et l autre éloigné de la bouche. Selon les conditions d enregistrement bruitées ou non le corpus est divisé en trois parties : La sous-partie du corpus correspondant aux conditions calmes d enregistrement (voiture à l arrêt, moteur en marche). La sous-partie du corpus correspondant à la parole avec des bruits de niveau moyen (vitesse de déplacement entre 40 et 60 km/h, fenêtre ouverte ou non). La sous-partie du corpus correspondant aux conditions bruitées d enregistrement (vitesse de déplacement entre 100 et 120 km/h, musique en marche ou non). En fonction de ces sous-parties, différentes tâches sont définies par les distributeurs du corpus : Pour la tâche appelée Highly Mismatched, l apprentissage des modèles acoustiques est effectué sur 70% des phrases prononcées dans chacune des conditions et enregistrées avec 97

106 98 Chapitre 9. Annexe le microphone proche de la bouche. Le corpus de test est constitué des 30% de phrases restantes mais prononcées avec des bruits moyen et fort avec le microphone éloigné de la bouche. Pour la tâche appelée Medium Mismatched, l apprentissage s effectue sur les 70% de phrases de la base, en ne prenant que des phrases enregistrées avec le microphone éloigné de la bouche avec un bruit moyen ou dans des conditions calmes. Le test s effectue sur des phrases enregistrées avec le microphone éloigné de la bouche, dans un milieu fortement bruité. La tâche appelée Well Mismatched correspondant à un apprentissage utilisant les 70% de phrases de la base, toutes conditions confondues, en utilisant les deux microphones à parts égales. Le test porte sur les 30% de la base restante, toutes conditions confondues, en utilisant aussi les deux microphones à part égales. Le signal est échantillonné avec une fréquence de 8 khz. 9.3 Corpus HIWIRE Le corpus HIWIRE est un corpus de parole de petit vocabulaire (134 mots) prononcée par des locuteurs non natifs (parole lue). Le corpus est enregistré dans le cadre du projet européen HIWIRE (Human Inputs That Work In Real Environment), 6-ème PCRD/IST, dont un des buts est d introduire la reconnaissance vocale dans les cockpits d avions. La parole enregistrée correspond aux commandes des pilotes d avion, prononcées en anglais par des locuteurs non natifs : Français (enregistré par le LORIA et la societé Thales-TRT) : 31 locuteurs ; Italiens (enregistré par la societé Loquendo et le laboratoire ITC-IRST) : 20 locuteurs ; Espagnols (enregistré par l Université de Grenade (UGR)) : 10 locuteurs ; Grecs (enregistré par l Institut des Systèmes de Télécommunication (TSI) et l Institut de Communication et de Systèmes Informatiques (ICCS)) : 20 locuteurs ; Autres nationalités (enregistré par le LORIA) : 10 locuteurs. Chaque locuteur a prononcé 100 phrases. La parole est enregistrée dans des conditions calmes avec le microphone Plantronics avec une fréquence d échantillonage de 16kHz, 16 bits par échantillon. 9.4 Le modèle acoustique utilisé dans notre travail Dans notre travail nous avons utilisé la modélisation acoustique fondée sur les HMM. Chaque HMM est un modèle à 3 états (voir figure 9.1. Dans la plupart des cas nous utilisons la configuration suivante 20 : Le signal audio est paramétrisé en utilisant des fenêtres de 32 ms décalées de 10 ms. 24 filtres sont répartis sur une échelle Mel. Les 13 coefficients MFCC avec les dérivées du premier et du deuxième ordre sont calculés. Chaque HMM modélise un phonème ou un triphone. Les HMM sont appris en utilisant l algorithme de Baum-Welch à l aide du logiciel HTK [Young et Woodland, 1993] ou d ESPERE [Fohr et al., 2000]. La reconnaissance est effectuée en utilisant l algorithme de Viterbi. 20 Si une autre configuration est utilisée, elle est spécifiée dans le paragraphe correspondant.

107 9.5. F-mesure 99 État générant des observations État ne générant pas d observations Transition Fig. 9.1 Topologie utilisée du HMM. 9.5 F-mesure Une F-mesure est une combinaison de deux mesures d évaluation d un système de décision, la précision et le rappel : rappel = c T (c c) c T (c) (9.1) c précision = T (c c) c (T (c) + T (c nc)) (9.2) F mesure = 2 rappel précision (rappel + précision) (9.3) où T (c nc) est le nombre de trames où l événement c a été détecté à tort, T (nc c) le nombre de trames où c n a pas été détecté alors qu il fallait le détecter, T (c) le nombre de trames où c est présent et T (c c) = T (c) T (nc c).

108

109 Bibliographie [Acero et Stern, 1990] A. Acero et R.M. Stern. Environmental Robustness in Automatic Speech Recognition. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Acero, 1990] A. Acero. Acoustical and Environmental Robustness in Automatic Speech Recognition. PhD Thesis, Carnegie Mellon University. [Afify, 1995] M. Afify. Large Vocabulary Arabic Speech Recognition. PhD Thesis, Cairo University, Faculty of Engineering. [Ajmera et al., 2003] J. Ajmera, I. McCowan et H. Bourlard. Speech Music Segmentation using Entropy and Dynamic Features in a HMM Classification Framework. Speech Communication, [Allauzen et Gauvain, 2005a] A. Allauzen et J.-L. Gauvain. Diachronic Vocabulary Adaptation for Broadcast News Transcription. Proc. European Conf. on Speech Communication and Technology, [Allauzen et Gauvain, 2005b] A. Allauzen et J.-L. Gauvain. Open vocabulary ASR for audiovisual document indexation. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Allauzen et Gauvain, 2005c] A. Allauzen et J.-L. Gauvain. Open Vocabulary AST for Audiovisual Document Indexation. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Anastasakos et al., 1996] T. Anastasakos, J. McDonough, R. Schwartz et J. Makhoul. A Compact Model for Speaker-Adaptive Training. Proc. Int. Conf. on Spoken Language Processing, ICSLP, 2 : , [Aubert, 2004] X. Aubert. Eigen-MLLR Applied to Unsupervised Speaker Enrolment for Large Vocabulary Continuous Speech Recognition. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Bakker et al., 2005] B. Bakker, C. Meyer et X. Aubert. Fast Unsupervised Speaker Adaptation Through a Discriminative Eigen-MLLR Algorithm. Proc. European Conf. on Speech Communication and Technology, [Barker et al., 2000] J. Barker, M. Cooke et D. Ellis. Decoding Speech in the Presence of other Sound Sources. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Barker et al., 2005] J. Barker, M. Cooke et D. Ellis. Sources. Speech Communication, 45(1) :5 25, Decoding Speech in Presence of Other [Barreaud et al., 2003a] V. Barreaud, I. Illina et D. Fohr. Compensation for Non-Stationary Noise. Proceedings of IEEE Automatic Speech Recognition and Understanding Workshop, IEEE ASRU 2003,

110 102 Bibliographie [Barreaud et al., 2003b] V. Barreaud, I. Illina et D. Fohr. On-Line Frame-Synchronous Compensation of Non-Stationary Noise. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Barreaud et al., 2003c] V. Barreaud, I. Illina et D. Fohr. On-Line Frame-Synchronous Noise Compensation. Proc. Int. Congress of Phonetic Sciences, ICPhS, [Barreaud et al., 2003d] V. Barreaud, I. Illina, D. Fohr et F. Korkmazski. Structural State- Based Frame Synchronous Compensation. Proc. European Conf. on Speech Communication and Technology, [Barreaud et al., 2004] V. Barreaud, I. Illina, D. Fohr et V. Colotte. Compensation en milieu variant abruptement. Proceedings de XXV-ème Journées d Etude sur la Parole, [Barreaud, 2004] V. Barreaud. Reconnaissance automatique de la parole continue : compensation des bruits par transformation de la parole. These de doctorat, Université Nancy 1. [Basseville et Nikiforov, 1993] M. Basseville et I. Nikiforov. Detection of Abrupt Changes : Theory and Application. Prentice-Hall, [Baum et al., 1970] L. E. Baum, T. Petrie, G. Soules et N. Weiss. A Maximization Technique Occuring in the Statistical Analysis of Probabilistic Functions of Markov Chains. Ann. Math. Stat., 41(1) : , [Baum et Petrie, 1966] L. E. Baum et T. Petrie. Statistical Inference for Probabilistic Functions of Finite State Markov Chains. Ann. Math. Stat., 37 : , [Ben et al., 2005] M. Ben, G. Gravier et F. Bimbot. A Model Space Framework for Efficient Speaker Detection. Proc. European Conf. on Speech Communication and Technology, [Bisani et Ney, 2005] M. Bisani et H. Ney. Open Vocabulary Speech Recognition with Flat Hybrid Models. Proc. European Conf. on Speech Communication and Technology, [Botterweck, 2000] H. Botterweck. Very Fast Adaptation for Large Vocabulary Continuous Speech Recognition using Eigenvoices. Proc. Int. Conf. on Spoken Language Processing, ICSLP, à paraitre. [Bourgeois et al., 2005] J. Bourgeois, J. Freudenberger et G. Lathoud. Implicit Control of Noise Canceller for Speech Enhancement. Proc. European Conf. on Speech Communication and Technology, [Bouselmi et al., 2005] G. Bouselmi, D. Fohr, I. Illina et J.-P. Haton. Fully Automated Non- Native Speech Recognition Approach Using Confusion Based Acoustic Model Integration. Proc. European Conf. on Speech Communication and Technology, [Brousseau et al., 2003] J. Brousseau, J.-F. Beamont, G. Boulianne, P. Cardinal, C. Chapdelaine, M. Comeau, F. Osterrath et P. Ouellet. Automated Closed-Captioning of Live TV Broadcast News in French. Proc. European Conf. on Speech Communication and Technology, [Brugnara et al., 1992] F. Brugnara, R. De Mori, D. Giuliani et M. Omologo. Improved Connected Digit Recognition Using Spectral Variation Functions. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Brun et al., 2004] A. Brun, C. Cerisara, D. Fohr, I. Illina, D. Langlois, O. Mella et K. Smaili. ANTS : le système de transcription automatique du LORIA. Proceedings de XXV-ème Journées d Etude sur la Parole, [Brun et al., 2005] A. Brun, C. Cerisara, D. Fohr, I. Illina, D. Langlois et O. Mella. ANTS le système de transcription automatique du LORIA. Dans Proceedings de WorkShop ESTER, 2005.

111 103 [Carey et al., 1999] M. Carey, E. Parris et H. Lloyd-Thomas. A Comparison Of Features For Speech, Music Discrimination. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Cerisara et Fohr, 2001] C. Cerisara et D. Fohr. Multi-Band Automatic Speech Recognition. Computer Speech and Language, 15(2) : , [Cerisara et Illina, 2003] C. Cerisara et I. Illina. Robust Speech Recognition to Non-Stationary Noise Based on Model-Driven Approaches. Proc. European Conf. on Speech Communication and Technology, [Chan et al., 2004] A. Chan, J. Sherwani, R. Mosur et A. Rudnicky. Four-Layer Categorization of Fast GMM Computation Techniques in Large Vocabulary Continuous Speech Recognition Systems. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Chen et al., 2000] K. Chen, W. Liau, H. Wang et L. Lee. Fast Speaker Adaptation Using Eigenspace-Based Maximum Likelihood Linear Regression. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Chen et al., 2002] S.S. Chen, M.J.F. Gales, R.A. Gopinath, D. Kanvesky et P. Olsen. Automatic Transcription of Broadcast News. Speech Communication, [Chen et Gopalakrishnan, 1998] S. Chen et P. Gopalakrishnan. Speaker, Environment and Channel Detection and Clustering via the Bayesian Information Criterion. Proc. of the Broadcast News Transcription and Understanding Workshop, 1 : , [Claes et al., 1998] T. Claes, I. Dologlou, L. Bosch et D. Compernolle. A Novel Feature Transformation for Vocal Tract Length Normalisation in Automatic Speech Recognition. IEEE Transactions on Speech and Audio Processing, [Clarkson et Rosenfeld, 1997] P. Clarkson et R. Rosenfeld. Statistical Language Modeling Using the CMU-Cambridge Toolkit. Proc. European Conf. on Speech Communication and Technology, [Cooke et al., 2001] M. Cooke, P. Green et A. Vizinho. Robust Automatic Speech Recognition with Missing and Unreliable Acoustic Data. Speech Communication, 34(3), [Daoudi et al., 2002] K. Daoudi, D. Fohr et C. Antoine. Dynamic Bayesian Network for Multi- Band Automatic Speech Recognition. Computer Speech and Language, à paraitre. [DARPA, 1998] DARPA Hub-4 Broadcast News Evaluation. http :// [De Calmès et Pérennou, 1998] M. De Calmès et G. Pérennou. BDLEX : a Lexicon for Spoken and Written French. Language Resources and Evaluation Conference, [Delphin-Poulat et al., 1998] L. Delphin-Poulat, C. Mokbel et J. Idier. Frame Synchronous Stochastic Matching Based on the Kullback-Leibler Information. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, 1 :89 92, [Deléglise et al., 2005] P. Deléglise, Y. Estève, S. Meignier et T. Merlin. The LIUM Speech Transcription System : a CMU Sphinx III-Based System for French Boradcast News. Proc. European Conf. on Speech Communication and Technology, [Dempster et al., 1977] A. P. Dempster, N. M. Laird et D. B. Rubin. Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society, 39(1) :1 38, [Digalakis, 1992] V. Digalakis. Segment-Based Stochastic Models of Spectral Dynamics for Continuous Speech Recognition. PhD Thesis, Boston University.

112 104 Bibliographie [Doh et Stern, 2000] S.-J. Doh et R. Stern. Inter-class MLLR for Speaker Adaptation. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Doumpiotis et Deng, 2004] V. Doumpiotis et Y. Deng. Eigenspace-Based MLLR With Speaker Adaptative Training in Large Vocabulary Conversational Speech Recognition. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Droppo et Acero, 2004] J. Droppo et A. Acero. Noise Robust Speech Recognition with a Switching Linear Dynamic Model. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Duchateau et al., 1998] J. Duchateau, K. Demuynck, D. Van Compernolle et P. Wambacq. Improved Parameter Tying for Efficient Acoustic Model Evaluation in Large Vocabulary Continuous Speech Recognition. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Farinas et al., 2003] G. Farinas, D. Fohr, I. Illina, I. Magrin-Chagnolleau, O. Mella, N. Parlangeau-Valles, F. Pellegrino, J. Pinquier, C. Sénac et K. Smaili. Audio Indexing On The Web : A Preliminary Study Of Some Audio Descriptors. Dans Proceedings of 7th World Multiconference on Systemics, Cybernetics and Informatics, SCI, [Fohr et al., 2000] D. Fohr, O. Mella et C. Antoine. The Automatic Speech Recognition Engine ESPERE : Experiments on Telephon Speech. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Fohr et al., 2002] D. Fohr, O. Mella, I. Illina, F. Lauri, C. Cerisara et C. Antoine. Reconnaissance de la parole pour les locuteurs non natifs en présence de bruit. Proc. de XXIV-ème Journées d Etude sur la Parole, [Fohr et al., 2004] D. Fohr, O. Mella, I. Illina et C. Cerisara. Experiments on the Accuracy of Phone Models and Liaison Processing in a French Broadcast News Transcription System. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Forney, 1976] G. D. Forney. The Viterbi Algorithm. IEEE Transactions, 61 : , [Furui, 1986] S. Furui. Speaker-Independent Isolated Word Recognition using Dynamic Features of Speech Spectrum. IEEE Transactions on Acoustics, Speech and Signal Processing, 34(1) :52 59, [Gales, 1996] M. J. F. Gales. Model-Based Techniques for Noise Robust Speech Recognition. PhD Thesis, Cambridge University. [Gales, 1998a] M. Gales. Cluster Adaptative Training for Speech Recognition. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Gales, 1998b] M. Gales. Cluster Adaptative Training for Speech Recognition. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Gales, 1998c] M. Gales. Maximum Likelihood Linear Transformations for HMM-Based Speech Recognition. Computer Speech and Language, [Gales, 1998d] M.J.F. Gales. Predictive Model-Based Compensation Schemes for Robust Speech Recognition. Speech Communication, 25, [Gales, 2000] M. Gales. Cluster Adaptative Training for HMMs. IEEE Transactions on Speech and Audio Processing, [Galliano et al., 2005] S. Galliano, E. Geoffrois, D. Mostefa, K. Choukri, J.-F. Bonastre et G. Gravier. The ESTER Phase II Evaluation Campaign for Rich Transcription of French Broadcast News. Proc. European Conf. on Speech Communication and Technology, 2005.

113 105 [Gauvain et al., 1999] J.-L. Gauvain, L. Lamel, G. Adda et M. Jardino. Recent Advances in Transcribing Television and Radio Broadcasts. Proc. European Conf. on Speech Communication and Technology, [Gauvain et al., 2000] J.-L. Gauvain, L. Lamel et G. Adda. The LIMSI 1999 Hub-4E Transcription System Speech Transcription Workshop, [Gauvain et al., 2002] J.L. Gauvain, L. Lamel et G. Adda. The LIMSI Broadcast News Transcription System. Speech Communication, 37(1-2) :89 108, [Gauvain et al., 2005] J.-L. Gauvain, M. Adda-Decker, A. Allauzen, V. Gendner, L. Lamel et H. Schwenk. Where Are We In Transcribing French Broadcast News? Proc. European Conf. on Speech Communication and Technology, [Gauvain et Lamel, 2000] J.-L. Gauvain et L. Lamel. Fast Decoding for Indexation of Broadcast Data. Proc. Int. Conf. on Spoken Language Processing, ICSLP, pages IV , [Gauvain et Lee, 1994] J.-L. Gauvain et C.-H. Lee. Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains. IEEE Transactions on Speech and Audio Processing, 2(2) : , [Gerosa et al., 2005] M. Gerosa, D. Giuliani et F. Brugnara. Speaker Adaptive Acoustic Modeling with Mixture of Adult and Children s Speech. Proc. European Conf. on Speech Communication and Technology, [Goldberg, 1989] D.E. Goldberg. Gnetic Algorithm in Search, Optimisation and Machine Learning. Addison-Wesley, [Goldenthal et Glass, 1993] W. D. Goldenthal et J. Glass. Modelling Spectral Dynamics for Vowel Classification. Proc. European Conf. on Speech Communication and Technology, 1 : , [Gong et Haton, 1994] Y. Gong et J.-P. Haton. Stochastic Trajectory Modeling for Speech Recognition. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, 1 :57 60, Adelaide, Australia. [Gong, 1995] Y. Gong. Speech Recognition in Noisy Environments : a Survey. Speech Communication, 16(3) : , [Gong, 1997] Y. Gong. Stochastic Trajectory Modeling and Sentence Searching for Continuous Speech Recognition. IEEE Transactions on Speech and Audio Processing, 5(1) :33 44, [Goronzy et al., 2004] S. Goronzy, R. Kompe et S. Rapp. Generating Non-Native Pronunciation Variants for Lexicon Adaptation. Speech Communication, [Haeb-Umbach et Ney, 1992] R. Haeb-Umbach et H. Ney. Linear Discriminant Analysis for Improved Large Vocabulary Continuous Speech Recognition. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Hain et al., 2005] T. Hain, J. Dines, G. Garau, M. Karafiat, D. Moore, Wan V., R. Ordelman et S. Renals. Transcription of Conference Room Meetings : An Investigation. Proc. European Conf. on Speech Communication and Technology, [Hain et Woodland, 1998] T. Hain et P. Woodland. Segmentation and Classification of Broadcast News Audio. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Haitsma et T., 2002] J. Haitsma et Kalker T. A Highly Robust Audio Fingerprinting System. International Conference on Music Information Retrieval, [Hakkinen et Haverinen, 2001] J. Hakkinen et H. Haverinen. One the Use of Missing Feature Theory with Cepstral Features. In CRAC Workshop, 2001.

114 106 Bibliographie [Hamme, 2003] Van Hamme. Robust Speech Recognition Using Missing Features Theory in the Cepstral or LDA Domain. Proc. European Conf. on Speech Communication and Technology, [Hamme, 2004] Van Hamme. Robust Speech Recognition Using Cepstral Domain Missing Data Techniques and Noisy Masks. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Han et al., 2005] Y. Han, J. de Veth et L. Boves. Speech Trajectory Clustering for Improved Speech Recognition. Proc. European Conf. on Speech Communication and Technology, [Hazen, 1998] T.J. Hazen. The Use of Speaker Correlation Information for Automatic Speech Recognition. PhD Thesis, MIT. [Hilger et Ney, 2001] F. Hilger et H. Ney. Quantize Based Histogram Equalisation for Noise Robust Speech Recognition. Proc. European Conf. on Speech Communication and Technology, [Holland, 1975] J. Holland. Adaptation in Natural and Artificial Systems. University of Michigan Press, [Illina et al., 1998] I. Illina, Afify M. et Y. Gong. Environment Normalisation Training and Environment Adaptation using Mixture Stochastic Trajectory Model. Speech Communication, [Illina et al., 2004] I. Illina, D. Fohr, O. Mella et C. Cerisara. The Automatic News Transcription System : ANTS, Some Real Time Experiments. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Illina et Gong, 1996a] I. Illina et Y. Gong. Improvement in N-Best Search for Continuous Speech Recognition. Proc. Int. Conf. on Spoken Language Processing, ICSLP, 4 : , [Illina et Gong, 1996b] I. Illina et Y. Gong. Stochastic Trajectory Model with State-Mixture for Continuous Speech Recognition. Proc. Int. Conf. on Spoken Language Processing, ICSLP, 1 : , [Illina et Gong, 1997a] I. Illina et Y. Gong. Elimination of Trajectory Folding Phenomenon : HMM, Trajectory Mixture HMM and Mixture Stochastic Trajectory Model. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, 2 : , [Illina et Gong, 1997b] I. Illina et Y. Gong. Speaker Normalization Training for Mixture Stochastic Trajectory Model. Proc. European Conf. on Speech Communication and Technology, 4 : , [Illina, 1997] I Illina. Extension du modèle stochastique des mélanges de trajectoires pour la reconnaissance automatique de la parole continue. PhD Thesis, [Istrate et al., 2005] D. Istrate, N. Scheffer, C. Fredouille et J.-F. Bonastre. Broadcast News Speaker Tracking for ESTER 2005 Campaign. Proc. European Conf. on Speech Communication and Technology, [Jelinek, 1976] Jelinek. Continuous Speech Recognition by Statistical Methods. IEEE Proc., 64 : , [Jiang et Zhang, 2001] L. Jiang et H. Zhang. A Robust Audio Classification and Segmentation Method. International Conference on Multimedia, [Jonas et Schmolze, 2005] M. Jonas et J. Schmolze. Hierarchical Clustering of Mixture Tying Using a Partially Observable Markov Decision Process. Proc. European Conf. on Speech Communication and Technology, 2005.

115 107 [Juang et Rabiner, 1985] B. H. Juang et L. R. Rabiner. Mixture Autoregressive Hidden Markov Models. IEEE Transactions on Acoustics, Speech and Signal Processing, 33(6) : , [Junqua et al., 1995] J.-C. Junqua, D. Fohr, J.-F. Mari, T. H. Applebaum et B. A. Hanson. Time Derivatives, Cepstrai Normaiization, and Spectral Parameter Filtering for Continuously Spelled Names Over the Telephone. Proc. European Conf. on Speech Communication and Technology, [Kenny et al., 1990] P. Kenny, M. Lenning et P. Mermelstein. A Linear Predictive HMM for Vector-valued Observations With Applications to Speech Recognition. IEEE Transactions on Acoustics, Speech and Signal Processing, 38(2) : , [Kim et al., 2005] D. Y. Kim, H. Y. Chan, G. Evermann, M. Gales, D. Mrva, K. Sim et P.C. Woodland. Development of the CU-HTK 2004 Broadcast News Transcription Systems. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Kim et Ruwisch, 2002] H.-G. Kim et D. Ruwisch. Speech Enhancement in Non-Stationary Noise Environments. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Klatt, 1976] D.H. Klatt. A Digital Filter-Bank for Spectral Matching. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Korkmazsky et al., 2004] P. Korkmazsky, D. Fohr et I. Illina. Using Linear Interpolation to Improve Histogram Equalization for Speech Recognition. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Kuhn et al., 1998] R. Kuhn, P. Nguyen, J.-C. Junqua, L. Goldwasser, N. Niedzielski, S. Fincke, Field K. et M. Contolini. Eigenvoices for Speaker Adaptation. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Lauri et al., 2001] F. Lauri, I. Illina et D. Fohr. Adaptation MLLR pour des HMMs. Proc. de Quatrièmes Journées de Jeunes Chercheurs en Parole, [Lauri et al., 2002] F. Lauri, I. Illina et D. Fohr. Comparaison de SMLLR et de SMAP pour une adaptation au locuteur en utilisa nt des modèles acoustiques markoviens. Proc. de XXIV-ème Journées d Etude sur la Parole, [Lauri et al., 2003a] F. Lauri, I. Illina et D. Fohr. Combining Eigenvoices and Structural MLLR for Speaker Adaptation. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Lauri et al., 2003b] F. Lauri, I. Illina, D. Fohr et F. Korkmazski. Using Genetic Algorithm for Rapid Speaker Adaptation. Proc. European Conf. on Speech Communication and Technology, [Lauri et al., 2005] F. Lauri, I. Illina et D. Fohr. Improving Eigen Voices-based Techniques and MLLR for Speaker Adaptation by Combining EV and MLLR Techniques or Using Genetic Algorithms. Speech Communication, soumis. [Lauri, 2004] F. Lauri. Adaptation au locuteur des modèles acoustiques de markoviens pour la reconnaissance automatique de la parole. These de doctorat, Université Nancy 1. [Lee et al., 1997] A. Lee, T. Kawahara et K. Shikano. Julius - An Open Source Real-Time Large Vocabulary Recognition Engine. Proc. European Conf. on Speech Communication and Technology, [Lee et al., 1999] S. Lee, A. Potamianos et S. Narayanan. Acoustics of Children s Speech : Developmental Changes of Temporal and Spectral Parameters. Journal of the Acoustical Society of America, pages , 1999.

116 108 Bibliographie [Lee, 1988] K.-F. Lee. Large-Vocabulary Speaker-Independent Continuous Speech Recognition : the SPHINX System. PhD Thesis, Computer Science Department, Carnegie Mellon University. [Lee, 1997] C.-H. Lee. On Feature and Model Compensation Approach to Robust Speech Recognition. Robust Speech Recognition for Unknown Communication Channels, ESCA-NATO Tutorial and Research Workshop, [Lee, 2004] C.-H. Lee. From Knowledge-Ignorant to Knowledge-Rich Modeling : A New Speech Research Paradigm for Next Generation Automatic Speech Recognition. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Leggetter et Woodland, 1995a] C. J. Leggetter et P. C. Woodland. Flexible Speaker Adaptation Using Maximum Likelihood Linear Regression. Proc. ARPA Workshop on Spoken Language Systems Technology, pages , [Leggetter et Woodland, 1995b] C. J. Leggetter et P. C. Woodland. Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density HMMs. Computer Speech and Language, 9(2) : , [Leggetter et Woodland, 1995c] C.J. Leggetter et P.C. Woodland. Flexible Speaker Adaptation Using Maximum Likelihood Linear Regression. Proc. European Conf. on Speech Communication and Technology, [Li et Siu, 2004] C.-F. Li et M.-H. Siu. Training for Polynomial Segment Model Using the Expectation Maximization Algorithm. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Lim, 1978] J.S. Lim. Evaluation of a Correlation Subtraction Method for Enhancing Speech Degraded by Additive White Noise. IEEE Transactions on Speech and Audio Processing, [Liporace, 1982] L. A. Liporace. Maximum Likelihood Estimation for Multivariate Observations of Markov Sources. IEEE Transactions in Information Theory, IT-28 : , [Livescu et Glass, 2000] K. Livescu et J. Glass. Lexical Modeling of Non-Native Speech for Automatic Speech Recognition. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Lockwood et Boudy, 1992] P. Lockwood et J. Boudy. Experiments With a Nonlinear Spectral Subtractor, HMM and the Projection, for Robust Speech Recognition In Cars. Speech Communication, [Macherey et al., 2004] W. Macherey, R. Schluter et H. Ney. Discriminative Training with Tied Covariance Matrices. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Macherey et al., 2005] W. Macherey, L. Haferkamp, R. Schluter et H. Ney. Investigations on Error Minimising Training Criteria for Discriminative Training in Automatic Speech Recognition. Proc. European Conf. on Speech Communication and Technology, [Massaro et Hidalgo-Barnes, 2005] D. Massaro et M. Hidalgo-Barnes. Read My Lips : An Animated Face Helps Communicate Musical Lyrics. Proceedings of Auditory-Visual Speech Processing International Conference, AVSP, [Massonié et al., 2005] D. Massonié, P. Nocera et G. Linares. Scalable Language Model Look- Ahead for LVCSR. Proc. European Conf. on Speech Communication and Technology, [Matrouf et Gauvain, 1997] D. Matrouf et J.L. Gauvain. Model Compensation For Noise In Training and Test Data. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, 1997.

117 109 [Matsoukas et al., 2005] S. Matsoukas, R. Prasad, S. Laxminarayan, B. Xiang, L. Nguyen et R. Schwartz. The 2004 BBN 1xRT Recognition Systems for English Broadcast News and Conversational Telephone Speech. Proc. European Conf. on Speech Communication and Technology, [McTait et Adda-Decker, 2003] Kevin McTait et Martine Adda-Decker. The 300k LIMSI German Broadcast News Transcription System. Proc. European Conf. on Speech Communication and Technology, [Molau et al., 2003a] S. Molau, F. Hilger, D. Keyser et H. Ney. Enhanced Histogram Normalisation in the Acoustic Feature Space. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Molau et al., 2003b] S. Molau, F. Hilger, D. Keyser et H. Ney. Enhanced Histogram Normalization in the Acoustic Feature Space. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Molau et al., 2003c] S. Molau, F. Hilger et H. Ney. Feature Space Normalization in Adverse Acoustic Conditions. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Moraru et al., 2004] D. Moraru, S. Meignier, C. Fredouille, L. Besacier et J.-F. Bonastre. The ELISA Consortium approches in Broadcast News Speaker segmentation during the NIST 2003 rich transcription evaluation. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Moraru et al., 2005] D. Moraru, M. Ben et G. Gravier. Experiments on Speaker Tracking and Segmentation in Radio Broadcast News. Proc. European Conf. on Speech Communication and Technology, [Moreno, 1996] P. Moreno. Speech Recognition in Noisy Environmets. PhD Thesis, [Morgan, 2004] J. Morgan. Making a Speech Recognizer Tolerate Non-Native Speech Through Gaussian Mixture Merging. ICALL Symposium on Computer Assisted Learning, [Morris et al., 2001] A. Morris, J. Barker et H. Bourlard. From missing data to maybe useful data : Soft data modelling for noise robust asr. Proc. WISP-01, [Mosur et Rudnicky, 2005] A.C. Mosur et A. Rudnicky. On Improvements to CI-based GMM Selection. Proc. European Conf. on Speech Communication and Technology, [Murveit et Weintraub, 1988] H. Murveit et M. Weintraub Word Speaker-Independent Coninuous-Speech Recognition Using Hidden Markov Models. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, 1 : , [Myrvoll et Nakamura, 2003] T.A. Myrvoll et S. Nakamura. Optimal Filtering of Noisy Cepstral Coefficients for Robust ASR. Automatic Speech Recognition and Understanding Workshop, [Nakamura et al., 2005] M. Nakamura, K. Iwano et S. Furui. Analysis of Spectral Space Reduction in Spontaneous Speech and its Effects on Speech Recognition Performances. Proc. European Conf. on Speech Communication and Technology, [Neumeyer et Weintraub, 1994] L. Neumeyer et M. Weintraub. Probabilistic Optimum Filtering for Robust Speech Recognition. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Ney et al., 1994] H. Ney, V. Steinbiss, X. Aubert et R. Haeb-Umbach. Progress in Large Vocabulary Continuous Speech Recognition. Proc. in Artificial Intelligence, Progress and Prospects of Speech Research and Technology, pages 75 92, 1994.

118 110 Bibliographie [Nguyen et al., 1999] P. Nguyen, P. Gelin, J.-C. Junqua et J.-T. Chien. N-Best Based Supervised and Unsupervised Adaptation for Native and Non-Native Speakers in Cars. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Nguyen et al., 2004] L. Nguyen, S. Abdou, M. Afify, J. Makhoul, S. Matsoukas, S. Schwartz, R.B. Xiang, L. Lamel, J.-L. Gauvain, G. Adda, H. Schwenk et F. Lefevre. The 2004 BBN/LIMSI 10xRT English Broadcast News Transcription System. Proc. DARPA RT04, [Obushi et Stern, 2003] Y. Obushi et R. Stern. Normalisation of Time-Derivative Prameters Using Histogram Equalization. Proc. European Conf. on Speech Communication and Technology, [Ostendorf et al., 1996] M. Ostendorf, V. Digalakis et O. Kimball. From HMM s to Segments Models : a Unified View of Stochastic Modeling for Speech Recognition. IEEE Transactions on Speech and Audio Processing, 4(5) : , [Paliwal, 1993] K. K. Paliwal. Use of Temporal Correlation Between Successive Frames in a Hidden Markov Model Based Speech Recognizer. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, 2 : , [Pallett et al., 1999] D. Pallett, G. Fiscus, J.S. Garofolo et M. Przybocki Broadcast News Benchmark Test Results : English and Non-English Word Error Rate Performance Measures. DARPA Workshop, [Pearl, 1984] J. Pearl. Heuristics Intelligent Search Strategies for Computer Problem Solving. Addison-Wesley Publishing Co., Reading, MA, [Petrucci et al., 2002] G. Petrucci, K. El-Maleh, M. Klein et P. Kabal. Speech Music Discrimination for Multimedia Applications. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Pinquier, 2004] Julien Pinquier. Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle. PhD thesis, Universite Toulouse III - Paul Sabatier, [Pitz et Ney, 2003] M. Pitz et H. Ney. Vocal Tract Normalisation as Linear Transformation of MFCC. Proc. European Conf. on Speech Communication and Technology, [Povey, 2005] D. Povey. Improvements to fmpe for Discriminative Training of Features. Proc. European Conf. on Speech Communication and Technology, [Pylkkonen et Kurimo, 2004] J. Pylkkonen et M. Kurimo. Duration Modeling Techniques for Continuous Speech Recognition. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Rabiner et Juang, 1993] L. Rabiner et B.-H. Juang. Fundamentals of Speech Recognition. Prentice Hall International Editions, [Raj et al., 1996] B. Raj, E. Gouvea, P. Moreno et R. Stern. Cepstral Compensation By Polynomail Approximation For Environment-Independent Speech Recognition. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Raj et al., 2000a] B. Raj, M.L. Seltzer et R. Stern. Reconstitution of Damaged Spectrographic Features for Robust Speech Recognition. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Raj et al., 2000b] B. Raj, M.L. Seltzer et R.M. Stern. An Application of Reccurent Nets to Phone Probability Estimation. ICSLP, 5(2) : , 2000.

119 111 [Ravishankar et al., 2000] M. Ravishankar, R. Singh, B. Raj et R. Stern. The 1999 CMU 10X Real Time Broadcast News Transcription System. Proc. DARPA workshop on Automatic Transcription of Broadcast News, [Razik et al., 2004] J. Razik, D. Fohr, O. Mella et N. Parlangeau-Vallès. Segmentation parole/musique pour la transcription automatique. Journées d Etudes sur la Parole, [Renevey et Drygajlo, 2001] Philippe Renevey et Andrzej Drygajlo. Detection of Reliable Features for Speech Recognition in Noisy Conditions Using a Statistical Criterion. Dans Proc. CRAC-01, Aalborg, Denmark, September [Renevey, 2001] P Renevey. Speech Recognition in Noisy Conditions Using Missing Feature Approach. PhD Thesis, Ecole Polytechnique Fédérale de Lausanne. [Richardson et al., 1999] M. Richardson, M. Hwang, A. Acero et X. d. Huang. Improvements on Speech Recognition for Fast Talkers. Proc. European Conf. on Speech Communication and Technology, [Ris et Dupont, 2001] C. Ris et S. Dupont. Assessing Local Noise Level Estimation Methods : Application to Noise Robust ASR. Speech Communication, 34(1-2) : , [Roucos et al., 1988] S. Roucos, M. Ostendorf, H. Gish et A. Derr. Stochastic Segment Modelling using the Estimate-Maximize Algorithm. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, 1 : , [Russell, 1993] M. J. Russell. A Segmental HMM for Speech Pattern Modeling. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, 2 : , [Salonidis et Digalakis, 1998] T. Salonidis et V. Digalakis. Robust Speech Recognition for Multiple Topological Scenarios of the GSM Mobile Phone System. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Sankar et Gadde, 1999] A. Sankar et R. Gadde. Parameter Tying and Gaussian Clustering for Faster, Better and Smaller Speech Recognition. Proc. European Conf. on Speech Communication and Technology, [Sankar et Lee, 1995] A. Sankar et H. Lee. Robust Speech Recognition Based on Stochastic Matching. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, pages , [Sankar et Lee, 1996] A. Sankar et C.-H. Lee. A Maximum-Likelihood Approach to Stochastic Matching for Robust Speech Recognition. IEEE Transactions on Speech and Audio Processing, 4(3) : , [Santen et al., 1997] J. Santen, R. Sproat, J. Olive et J. Hirschberg. Progress in Speech Synthesis. Springer Edition, [Saunders, 1996] J. Saunders. Real-Time Discrimination of Broadcast Speech/Music. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Schaden, 2003] S. Schaden. Generating Non-Native Pronunciation Lexicon by Phonological Rule. Int. Conf. of Phonetic Sciences, [Scheirer et Slaney, 1997] E. Scheirer et M. Slaney. Construction and Evaluation of a Robust Multifeature Speech/Music Discriminator. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Seck et al., 2001] M. Seck, I. Magrin-Chagnolleau et F. Bimbot. Experiments on Speech Tracking in Audio Documents Using Gaussian Mixture Modeling. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, à paraitre.

120 112 Bibliographie [Segura et al., 2002a] J. Segura, M. Benitez, A. de la TOrre et A. Rubio. Feature Extraction Combining Spectral Noise Reduction and Cepstral Histogram Equalization for Robust ASR. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Segura et al., 2002b] J.-C. Segura, M.C. Benitez, A. de la Torre et A.J. Rubio. Feature Extraction Combining Spectral Noise Reduction and Cepstral Histogram Equalization. Proc. Int. Conf. on Spoken Language Processing, ICSLP, [Seltzer et al., 2004] Michael L. Seltzer, Bhiksha Raj et Richard M. Stern. A bayesian classifier for spectrographic mask estimation for missing feature speech recognition. Speech Communication, 43 : , [Shinoda et Lee, 1998] K. Shinoda et C.-H. Lee. Unsupervised Adaptation using Structural Bayes Approach. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Shinoda et Lee, 2001] K. Shinoda et C.-H. Lee. Structural Bayes Approach to Speaker Adaptation. IEEE Transactions on Speech and Audio Processing, [Shriberg, 2005] E. Shriberg. Spontaneous Speech : How People Really Talk and Why Engineers Should Care. Proc. European Conf. on Speech Communication and Technology, [Singh et al., 2001] R. Singh, M.L. Seltzer, B. Raj et M. Stern. Speech in Noisy Environments : Robust Automatic Segmentation, Feature Extraction and Hypothesis Combination. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Siohan et al., 2001] O. Siohan, C. Chesta et C.-H. Lee. Joint Maximum a Posteriori Adaptation of Transformation and HMM Parameters. IEEE Transactions on Speech and Audio Processing, [Siohan et Lee, 2001] T.A. Siohan, O. Myrvoll et C.H. Lee. Structural Maximum A Posteriori Linear Regression for Fast HMM Adaptation. Workshop on Automatic Speech Recognition, [Stern et al., 1997] R. Stern, B. Raj et P. Moreno. Compensation for Environmental Degradation in Automatic Speech Recognition. Robust Speech Recognition for Unknown Communication Channels, ESCA-NATO Tutorial and Research Workshop, [Stolcke et al., 2000] A. Stolcke, H. Bratt, J. Butzberger, H. Franco, V.R. Rao Gadde, M. Plauché, C. Richey, E. Shriberg, K. Sonmez, F. Weng et J. Zheng. The SRI March 2000 HUB-5 Conversational Speech Transcription System. NIST Speech Transcription Workshop, [Stolcke et al., 2005] A. Stolcke, L. Ferrer, S. Kajarekar, E. Shriberg et Venkataraman. MLLR Transforms as Features in Speaker Recognition. Proc. European Conf. on Speech Communication and Technology, [Tomokiyo et Waibel, 2001] L.M. Tomokiyo et A. Waibel. Adaptation Methods for Non-Native Speech. Multilinguality in Spoken Processing, [Tomokiyo, 2001] L.M. Tomokiyo. Recognizing Non-Native Speech : Characterizing and Adapting to Non-Native Uasge in Speech Recognition. PhD Thesis, [Tsakalidis et al., 2003] S. Tsakalidis, V. Doumpiotis et W. Byrne. Discriminative Linear Transforms for Feature Normalisation and Speaker Adaptation in HMM Estimation. IEEE Transactions on Speech and Audio Processing, [Uebel et Woodland, 2001] L Uebel et P. Woodland. Improvements in Linear Transform Based Speaker Adaptation. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, 2001.

121 113 [Uebler et Boros, 1999] U. Uebler et M. Boros. Recognition of Non-Native German Speech with Multilingual Recognizers. Proc. European Conf. on Speech Communication and Technology, [Verhasselt et al., 1997a] J. Verhasselt, I. Illina, J.P. Martens, Y. Gong et J.-P. Haton. The Importance of Segmentation Probabilities in Segment-Based Recognition. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, 2 : , [Verhasselt et al., 1997b] J. Verhasselt, I. Illina, J.P. Martens, Y. Gong et J.-P. Haton. The Importance of Segmentation Probabilities in Segmental Posterior Distribution Based Speech Recognition. Speech Communication, [Viterbi, 1982] A.J. Viterbi. Error Bounds for Convolutional Codes and Asymptotically Optimum Decoding Algorithm. IEEE Transactions Information Theory, 13 : , [Vizinho et al., 2000] A. Vizinho, M. Cooke, P. Green et L. Josifovski. Missing Data Theory, Spectral Subtraction and Signal-to-Noise Estimation for Robust ASR : an Integrated Study. Proc. Int. Conf. on Spoken Language Processing, ICSLP, 34(3), [Wang et al., 2003] Z. Wang, T. Schultz et A. Waibel. Comparison of Acoustic Model Adaptation Techniques on Non-Native Speech. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Wellekens, 1987] C. J. Wellekens. Explicit Time Correlation in Hidden Markov Models for Speech Recognition. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, 1 : , [Whipple, 1994] G. Whipple. Low Residual Noise Speech Enhancement Utilizing Time- Frequency Filtering. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, [Widrow et al., 1975] B. Widrow, J.R. Glover, J.M. McCool, J. Kaunitz, C.S. Williams, R.H. Hearn, J.R. Zeidler, E. Dong et R.C. Goodlin. Adaptive Noise Calcelling : Principles and Applications. IEEE Transactions on Speech and Audio Processing, 63(12) : , [Williams et Ellis, 1999] G. Williams et D. Ellis. Speech Music Discrimination based on Posterior Probabilites. Proc. European Conf. on Speech Communication and Technology, [Woodland et Povey, 2002] P.C. Woodland et D. Povey. Large Scale Discriminative Training of HMM for Speech Recognition. Computer Speech and Language, [Woodland et Young, 1993] P. C. Woodland et S. J. Young. The HTK Tied-State Continuous Speech Recogniser. Proc. European Conf. on Speech Communication and Technology, 3 : , [Woodland, 1999] P.C. Woodland. Speaker Adaptation : Techniques and Challenges. Automatic Speech Recognition and Understanding Workshop, [Wu et al., 2003] J. Wu, J. Droppy et A. Acero. A Noise Robust ASR Front-ENd Using Wiener Filter Constructed from MMSE Estimation of Clean Speech and Noise. Automatic Speech Recognition and Understanding Workshop, [Young et al., 1993] S. J. Young, P. C. Woodland et W. J. Byrne. HTK Version 1.5 : User, Reference and Programmer Manual. Cambridge University Engineering Department and Entropic research Laboratories Inc., [Young et al., 1994] S. J. Young, J. J. Odell et P. C. Woodland. Tree-State Tying for High Accuracy Acoustic Modelling. Proc. ARPA Workshop on Human Language Technology, pages , 1994.

122 114 Bibliographie [Young et Woodland, 1993] S. J. Young et P. C. Woodland. The use of State tying in Continuous Speech Recognition. Proc. European Conf. on Speech Communication and Technology, 4 : , [Zavaliagkos et al., 1995] G. Zavaliagkos, R. Schwartz et J. McDonough. Maximum a Posteriori Adaptation for Large Scale HMM Recognizers. Proc. IEEE Int. Conf. on Acoustic, Speech and Signal Processing, ICASSP, 1 : , [Zavaliagkos, 1995] G. Zavaliagkos. Maximum a Posteriori Adaptation Techniques for Speech Recognition. PhD Thesis, Northeastern University. [Zhu et al., 2005] X. Zhu, C. Barras, S. Meignier et J.-L. Gauvain. Combining Speaker Indentification and BIC for Speaker Diarization. Proc. European Conf. on Speech Communication and Technology, [Zhu et Alwan, 2002] Q. Zhu et A. Alwan. The Effect of Additive Noise on Speech Amplitude Spectra : a Quantitative Analysis. IEEE Signal Processing Letters, 9(9) : , [Zibert et al., 2005] J. Zibert, F. Mihelic, J.-P. Martens, H. Meinedo, J. Neto et al. The COST278 Broadcast News Segmentation and Speaker Clustering Evaluation - Overview, Methodology, Systems, Results. Proc. European Conf. on Speech Communication and Technology, 2005.

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I [email protected] www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Modélisation du comportement habituel de la personne en smarthome

Modélisation du comportement habituel de la personne en smarthome Modélisation du comportement habituel de la personne en smarthome Arnaud Paris, Selma Arbaoui, Nathalie Cislo, Adnen El-Amraoui, Nacim Ramdani Université d Orléans, INSA-CVL, Laboratoire PRISME 26 mai

Plus en détail

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Détection et reconnaissance des sons pour la surveillance médicale Dan Istrate le 16 décembre 2003 Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Thèse mené dans le cadre d une collaboration

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail

Curriculum Vitae. Informations générales

Curriculum Vitae. Informations générales Sandy CAMPART Maître de conférences de sciences économiques Membre permanent du CREM (UMR CNRS 6211) Directeur délégué à la formation continue de l IUP Banque Assurance de Caen Responsable de la licence

Plus en détail

Projet de Master en Informatique: Web WriteIt!

Projet de Master en Informatique: Web WriteIt! Projet de Master en Informatique: Web WriteIt! Web WriteIt! Baris Ulucinar Supervisé par le Prof. Rolf Ingold, Dr. Jean Hennebert, Andreas Humm et Robert Van Kommer Avril 2007 Table des matières 2 1. Introduction

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar [email protected]

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar [email protected] Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP Frédéric Aman, Michel Vacher, Solange Rossato, Remus Dugheanu, François Portet,

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole ÉCOLE DOCTORALE SCIENCES ET TECHNOLOGIES (ORLEANS) FACULTÉ de TECHNOLOGIE (Sétif) Laboratoire PRISME THÈSE EN COTUTELLE INTERNATIONALE présentée par : Abdenour Hacine-Gharbi soutenue le : 09 décembre 2012

Plus en détail

Master Informatique Aix-Marseille Université

Master Informatique Aix-Marseille Université Aix-Marseille Université http://masterinfo.univ-mrs.fr/ Département Informatique et Interactions UFR Sciences Laboratoire d Informatique Fondamentale Laboratoire des Sciences de l Information et des Systèmes

Plus en détail

Christian BONTEMPS né le 08 juillet 1969

Christian BONTEMPS né le 08 juillet 1969 Curriculum Vitae Christian BONTEMPS né le 08 juillet 1969 Situation actuelle : Ingénieur en Chef des Ponts et Chaussées, Chercheur IDEI Professeur Sciences Économiques, GREMAQ - Université Toulouse I.

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

CURRICULUM VITAE. Informations Personnelles

CURRICULUM VITAE. Informations Personnelles CURRICULUM VITAE Informations Personnelles NOM: BOURAS PRENOM : Zine-Eddine STRUCTURE DE RATTACHEMENT: Département de Mathématiques et d Informatique Ecole Préparatoire aux Sciences et Techniques Annaba

Plus en détail

Master Energie spécialité Energie électrique

Master Energie spécialité Energie électrique 03/12/2013 http://www.univ-fcomte.fr Master Energie spécialité Energie UFR Sciences, techniques, et gestion de l'industrie http://stgi.univ-fcomte.fr/ Dénomination officielle : Master Sciences, technologies,

Plus en détail

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique A la découverte du Traitement des signaux audio METISS Inria Rennes - Bretagne Atlantique Les conférences scientifiques au Lycée Descartes Imagerie médicale et neuronavigation par Pierre Hellier Le respect

Plus en détail

SUPPLEMENT AU DIPLOME

SUPPLEMENT AU DIPLOME SUPPLEMENT AU DIPLOME Préambule : «Le présent supplément au diplôme suit le modèle élaboré par la Commission européenne, le Conseil de l Europe et l UNESCO/CEPES. Le supplément vise à fournir des données

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Indexation de documents audio : Cas des grands volumes de données

Indexation de documents audio : Cas des grands volumes de données Indexation de documents audio : Cas des grands volumes de données Jamal Rougui To cite this version: Jamal Rougui. Indexation de documents audio : Cas des grands volumes de données. Human- Computer Interaction

Plus en détail

Curriculum Vitae 1 er février 2008

Curriculum Vitae 1 er février 2008 Curriculum Vitae 1 er février 2008 Informations générales Cédric MEUTER Nationalité belge Né à La Louvière, le 16 novembre 1979 Adresse personnelle : Adresse professionnelle : Ave Général Bernheim, 57

Plus en détail

PRÉPARER LA PREMIÈRE ÉPREUVE ORALE D ADMISSION OPTION EPS. DEVOIRS SUPPLÉMENTAIRES 1 et 2

PRÉPARER LA PREMIÈRE ÉPREUVE ORALE D ADMISSION OPTION EPS. DEVOIRS SUPPLÉMENTAIRES 1 et 2 CONCOURS DE RECRUTEMENT DE PROFESSEURS DES ÉCOLES PRÉPARER LA PREMIÈRE ÉPREUVE ORALE D ADMISSION OPTION EPS DEVOIRS SUPPLÉMENTAIRES 1 et 2 Rédaction Jean-Pierre GUICHARD Conseiller pédagogique en EPS Ministère

Plus en détail

Vérification audiovisuelle de l identité

Vérification audiovisuelle de l identité Vérification audiovisuelle de l identité Rémi Landais, Hervé Bredin, Leila Zouari, et Gérard Chollet École Nationale Supérieure des Télécommunications, Département Traitement du Signal et des Images, Laboratoire

Plus en détail

MCMC et approximations en champ moyen pour les modèles de Markov

MCMC et approximations en champ moyen pour les modèles de Markov MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:

Plus en détail

CURRICULUM VITAE FORMATION. 2001/2002 : Thèse ès sciences de gestion, option marketing, à l IAE de Dijon, Université de Bourgogne :

CURRICULUM VITAE FORMATION. 2001/2002 : Thèse ès sciences de gestion, option marketing, à l IAE de Dijon, Université de Bourgogne : CURRICULUM VITAE Nom : DJELASSI Prénom : Souad Fonction : Maître de conférences, Université Lille2 Adresse personnelle : 4 Rue Alexandre Desrousseaux, 59000 Lille Tél. personnel : 06.68.68.26.44 Mail :

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax [email protected],

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

Méthodologie de conception des Systèmes d Aide à l Exploitation des Simulateurs d Entraînement

Méthodologie de conception des Systèmes d Aide à l Exploitation des Simulateurs d Entraînement Méthodologie de conception des Systèmes d Aide à l Exploitation des Simulateurs d Entraînement Michelle Joab LIP6 Systèmes d Aide à la Décision et à la Formation (SYSDEF) Université Pierre-et-Marie Curie

Plus en détail

DROIT-ECONOMIE-GESTION SCIENCES DU MANAGEMENT ADMINISTRATION DES ENTREPRISES

DROIT-ECONOMIE-GESTION SCIENCES DU MANAGEMENT ADMINISTRATION DES ENTREPRISES Niveau : MASTER année Domaine : Mention : DROIT-ECONOMIE-GESTION SCIENCES DU MANAGEMENT M Spécialité: ADMINISTRATION DES ENTREPRISES 120 ECTS Volume horaire étudiant : 362 h 90 h h h h h cours magistraux

Plus en détail

Statistiques et traitement des données

Statistiques et traitement des données Statistiques et traitement des données Mention : Mathématiques Nature de la formation : Diplôme national de l'enseignement Supérieur Durée des études : 2 ans Crédits ECTS : 120 Formation accessible en

Plus en détail

Correcteur INTEC, CNED, Niveau Masters (Management et Contrôle de Gestion)

Correcteur INTEC, CNED, Niveau Masters (Management et Contrôle de Gestion) Yvette MASSON FRANZIL Docteur en Sciences de Gestion Adresse personnelle: 47, rue des Tilleuls 57070 METZ 03 87 76 24 73 [email protected] Formation académique 2008 : Qualifiée aux fonctions d enseignant

Plus en détail

2013-2015 Attachée Temporaire d Enseignement et de Recherche Institut d Administration des Entreprises Université de Toulouse 1 Capitole.

2013-2015 Attachée Temporaire d Enseignement et de Recherche Institut d Administration des Entreprises Université de Toulouse 1 Capitole. Adresse personnelle : NEGRE Emmanuelle 5 rue Rivals 31000 Toulouse Née le 25/06/1987, 27 ans FRANCE 06.76.79.01.31 emmanuelle.negre@ iae-toulouse.fr Fonctions 2013-2015 Attachée Temporaire d Enseignement

Plus en détail

Le Master Mathématiques et Applications

Le Master Mathématiques et Applications Le Master Mathématiques et Applications Franck BOYER [email protected] Institut de Mathématiques de Marseille Aix-Marseille Université Marseille, 20 Mai 2014 1/ 16 Structure générale Vue d ensemble

Plus en détail

Mon métier, mon parcours

Mon métier, mon parcours Mon métier, mon parcours Anthony, ingénieur d études diplômé d un Master Réseaux, application documentaire, ingénierie et sécurité Les métiers de l Informatique Le domaine Sciences, Technologies, Santé

Plus en détail

Reconnaissance du locuteur

Reconnaissance du locuteur Reconnaissance du locuteur Claude Barras! Master, Université Paris-Sud Plan Introduction Vérification du locuteur Structuration en tours de parole Recherches en cours 2/46 Introduction Plan Introduction

Plus en détail

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger. Cet ouvrage est fondé sur les notes d un cours dispensé pendant quelques années à l Institut universitaire de technologie de Grenoble 2, au sein du Département statistique et informatique décisionnelle

Plus en détail

Optimisez les performances de vos aides auditives. Accessoires sans fil Phonak

Optimisez les performances de vos aides auditives. Accessoires sans fil Phonak Optimisez les performances de vos aides auditives Accessoires sans fil Phonak Les aides auditives hautes performances Phonak vous aident à vous reconnecter au monde sonore. Bien que les nouvelles technologies

Plus en détail

COORDONNÉES PROFESSIONNELLES PARCOURS PROFESSIONNEL FORMATION

COORDONNÉES PROFESSIONNELLES PARCOURS PROFESSIONNEL FORMATION Naomi Yamaguchi Maîtresse de Conférences Université Sorbonne Nouvelle Paris 3 Laboratoire de Phonétique et Phonologie (UMR 7018) http://naomi.yamaguchi.free.fr/ http://lpp.in2p3.fr/axes-de-recherche-592

Plus en détail

Devenez expert en éducation. Une formation d excellence avec le master Métiers de l Enseignement, de l Education et de la Formation

Devenez expert en éducation. Une formation d excellence avec le master Métiers de l Enseignement, de l Education et de la Formation Institut Universitaire de Formation des Maîtres Université de Provence - Aix-Marseille Université 20 ans d expérience dans la formation des professionnels dans les métiers de l enseignement, de l éducation

Plus en détail

CarrotAge, un logiciel pour la fouille de données agricoles

CarrotAge, un logiciel pour la fouille de données agricoles CarrotAge, un logiciel pour la fouille de données agricoles F. Le Ber (engees & loria) J.-F. Mari (loria) M. Benoît, C. Mignolet et C. Schott (inra sad) Conférence STIC et Environnement, Rouen, 19-20 juin

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Cécile MAUNIER. Maître de Conférences Sciences de Gestion Responsable pédagogique - Master 1 Marketing, Vente TITRES UNIVERSITAIRES

Cécile MAUNIER. Maître de Conférences Sciences de Gestion Responsable pédagogique - Master 1 Marketing, Vente TITRES UNIVERSITAIRES Cécile MAUNIER Maître de Conférences Sciences de Gestion Responsable pédagogique - Master 1 Marketing, Vente IAE REUNION 24 avenue de la Victoire CS 92003 Saint Denis Cedex 09 ( : 02 62 47 99 01 E- mail

Plus en détail

Rapport d évaluation du master

Rapport d évaluation du master Section des Formations et des diplômes Rapport d évaluation du master Management public de l Université de Lorraine Vague C 2013-2017 Campagne d évaluation 2011-2012 Section des Formations et des diplômes

Plus en détail

MASTER LPL : LANGUE ET INFORMATIQUE (P)

MASTER LPL : LANGUE ET INFORMATIQUE (P) MASTER LPL : LANGUE ET INFORMATIQUE (P) RÉSUMÉ DE LA FORMATION Type de diplôme := Master Domaine : Arts, Lettres, Langues Mention : LITTERATURE, PHILOLOGIE, LINGUISTIQUE Spécialité : LANGUE ET INFORMATIQUE

Plus en détail

Bruno ASDOURIAN Lecteur en Sciences de la Communication et des Médias Université de Fribourg Suisse

Bruno ASDOURIAN Lecteur en Sciences de la Communication et des Médias Université de Fribourg Suisse Bruno ASDOURIAN Lecteur en Sciences de la Communication et des Médias Université de Fribourg Suisse Chercheur en Sciences de l Information et de la Communication Laboratoire IRSIC EA 4262 France Grand-Places

Plus en détail

ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE

ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE Proceedings of the SELF-ACE 001 Conference Ergonomics for changing work ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE CELLIER JEAN-MARIE Laboratoire Travail et Cognition (LTC), UMR

Plus en détail

Organisation du parcours M2 IR Les unités d enseignements (UE) affichées dans la partie tronc commun sont toutes obligatoires, ainsi que le stage et

Organisation du parcours M2 IR Les unités d enseignements (UE) affichées dans la partie tronc commun sont toutes obligatoires, ainsi que le stage et Organisation du parcours M2 IR Les unités d enseignements (UE) affichées dans la partie tronc commun sont toutes obligatoires, ainsi que le stage et l'anglais. L'étudiant a le choix entre deux filières

Plus en détail

Les cotutelles internationales de thèse

Les cotutelles internationales de thèse Les cotutelles internationales de thèse Période de travail et de création, le Doctorat offre une réelle expérience professionnelle au jeune chercheur. Le doctorant est formé pour la recherche et par la

Plus en détail

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués International Journal of Engineering Research and Development e-issn: 2278-067X, p-issn: 2278-800X, www.ijerd.com Volume 7, Issue 5 (June 2013), PP.99-103 Solution A La Gestion Des Objets Java Pour Des

Plus en détail

Temps forts départementaux. Le calcul au cycle 2 Technique opératoire La soustraction

Temps forts départementaux. Le calcul au cycle 2 Technique opératoire La soustraction Temps forts départementaux Le calcul au cycle 2 Technique opératoire La soustraction Calcul au cycle 2 La soustraction fait partie du champ opératoire additif D un point de vue strictement mathématique,

Plus en détail

ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT

ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT SPÉCIALITÉ : Informatique École Doctorale 503 «Sciences et Technologies de l Information

Plus en détail

Formations et diplômes. Rapport d'évaluation. Master Marketing. Université Toulouse 1 Capitole UT1. Campagne d évaluation 2014-2015 (Vague A)

Formations et diplômes. Rapport d'évaluation. Master Marketing. Université Toulouse 1 Capitole UT1. Campagne d évaluation 2014-2015 (Vague A) Formations et diplômes Rapport d'évaluation Master Marketing Université Toulouse 1 Capitole UT1 Campagne d évaluation 2014-2015 (Vague A) Formations et diplômes Pour le HCERES, 1 Didier Houssin, président

Plus en détail

FORMATION. 2001/2002 : Thèse ès sciences de gestion, option marketing, à l IAE de Dijon, Université de Bourgogne :

FORMATION. 2001/2002 : Thèse ès sciences de gestion, option marketing, à l IAE de Dijon, Université de Bourgogne : Nom : DJELASSI Prénom : Souad Fonction : Maître de conférences, Université Lille2 Adresse professionnelle : IUT département TC, Rond-Point de l Europe, BP 557, 59060 Roubaix Cedex 01 Tél. professionnel

Plus en détail

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie S3 Spécialité : Recherches en psychologie UE OBLIGATOIRES UE 1 : Epistémologie et méthodes de recherche en psychologie Ce séminaire aborde plusieurs aspects de la recherche en psychologie. Il présente

Plus en détail

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES Activités de production et stratégies PRODUCTION ORALE MONOLOGUE SUIVI

Plus en détail

MAITRE DE CONFERENCES EN GEOGRAPHIE, AMENAGEMENT DE L ESPACE ET URBANISME Université Paris IV - Sorbonne. e-mail : estelle.ducom@paris-sorbonne.

MAITRE DE CONFERENCES EN GEOGRAPHIE, AMENAGEMENT DE L ESPACE ET URBANISME Université Paris IV - Sorbonne. e-mail : estelle.ducom@paris-sorbonne. MAITRE DE CONFERENCES EN GEOGRAPHIE, AMENAGEMENT DE L ESPACE ET URBANISME Université Paris IV - Sorbonne Parcours : e-mail : [email protected] Parcours Enseignement Recherche Responsabilités

Plus en détail

De la mesure à l analyse des risques

De la mesure à l analyse des risques De la mesure à l analyse des risques Séminaire ISFA - B&W Deloitte Jean-Paul LAURENT Professeur à l'isfa, Université Claude Bernard Lyon 1 [email protected] http://laurent.jeanpaul.free.fr/ 0 De

Plus en détail

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur Réalisé par : Bassem Besbes Laboratoire d Informatique, Traitement de l Information

Plus en détail

Et avant, c était comment?

Et avant, c était comment? 3 Et avant, c était comment? Objectifs de l unité Tâche La première partie de l évaluation comprend une tâche, QUELS CHANGEMENTS!, divisée en quatre phases. Dans la première phase, il s agit d écouter

Plus en détail

Livret du Stagiaire en Informatique

Livret du Stagiaire en Informatique Université François-Rabelais de Tours Campus de Blois UFR Sciences et Techniques Département Informatique Livret du Stagiaire en Informatique Licence 3ème année Master 2ème année Année 2006-2007 Responsable

Plus en détail

MATHEMATIQUES ET SCIENCES POUR L INGENIEUR

MATHEMATIQUES ET SCIENCES POUR L INGENIEUR MASTER SCIENCES, TECHNOLOGIES, SANTE/STAPS MATHEMATIQUES ET SCIENCES POUR L INGENIEUR Informatique www.univ-littoral.fr OBJECTIFS DE LA FORMATION Le master Informatique se compose de deux parcours et se

Plus en détail

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21 IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances

Plus en détail

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Quatrième colloque hypermédias et apprentissages 275 BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Anne-Olivia LE CORNEC, Jean-Marc FARINONE,

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches Niveau C1 Descripteur global Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches La personne peut : comprendre en détail de longs discours et des échanges complexes

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant Master CCI Compétences Complémentaires en Informatique Livret de l étudiant 2014 2015 Master CCI Le Master CCI (Compétences Complémentaires en Informatique) permet à des étudiants de niveau M1 ou M2 dans

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, [email protected] 2 Université

Plus en détail

UFR d Informatique. FORMATION MASTER Domaine SCIENCES, TECHNOLOGIE, SANTE Mention INFORMATIQUE 2014-2018

UFR d Informatique. FORMATION MASTER Domaine SCIENCES, TECHNOLOGIE, SANTE Mention INFORMATIQUE 2014-2018 UFR d Informatique FORMATION MASTER Domaine SCIENCES, TECHNOLOGIE, SANTE Mention INFORMATIQUE 2014-2018 Objectif L UFR d informatique propose au niveau du master, deux spécialités sous la mention informatique

Plus en détail

Qualité de la conception de tests logiciels : plate-forme de conception et processus de test

Qualité de la conception de tests logiciels : plate-forme de conception et processus de test Ecole Doctorale en Sciences de l Ingénieur de l ECP Formation doctorale en Génie Industriel Qualité de la conception de tests logiciels : plate-forme de conception et processus de test Quality of the design

Plus en détail

1. Situation actuelle... p. 1

1. Situation actuelle... p. 1 Curriculum Vitae - page 1 / 7 Curriculum Vitae 1. Situation actuelle... p. 1 2. Formation et titres universitaires français... p. 2 Thèse de doctorat de l'institut National Polytechnique de Grenoble (INPG)...

Plus en détail

REMARQUES IMPORTANTES. - L usage d une calculatrice non programmable est autorisé.

REMARQUES IMPORTANTES. - L usage d une calculatrice non programmable est autorisé. CONCOURS EXTERNES IT 2013 EPREUVE TECHNIQUE D ADMISSION Durée : 1 heures 30 Coefficient : 2 CONCOURS N 125 Corps : Techniciens BAP : J - Gestion et pilotage Emploi type : Gestionnaire financier et comptable

Plus en détail

Emploi du temps prévisionnel

Emploi du temps prévisionnel 1 Emploi du temps prévisionnel 1. Séances de cours et d exercices Nous aurons cours ensemble : tous les mercredis matins du 28 septembre au 7 décembre inclus, à l exception du mercredi 2 novembre, libéré

Plus en détail

Notice biographique Repères biographiques communs. Grade : Maître de conférences depuis septembre 2003. Ecole Abbé Grégoire du CNAM.

Notice biographique Repères biographiques communs. Grade : Maître de conférences depuis septembre 2003. Ecole Abbé Grégoire du CNAM. Nom : RIVAL Corps : Maître de conférences Equipe de recherche Notice biographique Repères biographiques communs Prénom : MADINA Grade : Maître de conférences depuis septembre 2003 Section : 06 Membre du

Plus en détail

PROJET BIGDATART DOSSIER DE PRESENTATION

PROJET BIGDATART DOSSIER DE PRESENTATION PROJET BIGDATART DOSSIER DE PRESENTATION Le projet BigDatArt est une installation scientifico-artistique centrée autour des notions d images et de BigData. Ce que je propose dans mon projet et d'inverser

Plus en détail

Master Information et communication spécialité Produits et services multimédia

Master Information et communication spécialité Produits et services multimédia 18/09/2013 http://www.univ-fcomte.fr Master Information et communication spécialité Produits et services multimédia UFR Sciences, techniques, et gestion de l'industrie http://stgi.univ-fcomte.fr/ Dénomination

Plus en détail

Mesure agnostique de la qualité des images.

Mesure agnostique de la qualité des images. Mesure agnostique de la qualité des images. Application en biométrie Christophe Charrier Université de Caen Basse-Normandie GREYC, UMR CNRS 6072 Caen, France 8 avril, 2013 C. Charrier NR-IQA 1 / 34 Sommaire

Plus en détail

Institut. Master MIAGE. Master SIC. d Administration des Entreprises de Paris. Sorbonne Graduate Business school

Institut. Master MIAGE. Master SIC. d Administration des Entreprises de Paris. Sorbonne Graduate Business school U N I V E R S I T É P A R I S 1 P A N T H É O N - S O R B O N N E Institut d Administration des Entreprises de Paris Sorbonne Graduate Business school Master MIAGE Master SIC par la voie de l apprentissage

Plus en détail

Roger pour la maison et la vie sociale. Combler le manque de compréhension

Roger pour la maison et la vie sociale. Combler le manque de compréhension Roger pour la maison et la vie sociale Combler le manque de compréhension Profiter pleinement des moments qui comptent le plus La technologie moderne des aides auditives permet aux utilisateurs d entendre

Plus en détail

Rapport d évaluation des masters réservés aux établissements habilités à délivrer le titre d'ingénieur diplômé

Rapport d évaluation des masters réservés aux établissements habilités à délivrer le titre d'ingénieur diplômé Section des Formations et des diplômes Rapport d évaluation des masters réservés aux établissements habilités à délivrer le titre d'ingénieur diplômé Grenoble INP ENSE Campagne d évaluation 2013-2014 Section

Plus en détail

Évaluation des logiciels et autres réalisations

Évaluation des logiciels et autres réalisations DOCUMENT D ANALYSE DE LA COMMISSION D ÉVALUATION DE L INRIA Évaluation des logiciels et autres réalisations Préparé par David Margery, Jean-Pierre Merlet, Cordelia Schmid, Agnès Sulem, Paul Zimmermann

Plus en détail

Licence professionnelle Systèmes d information, méthodes et outils

Licence professionnelle Systèmes d information, méthodes et outils Formations et diplômes Rapport d'évaluation Licence professionnelle Systèmes d information, méthodes et outils Université Pierre Mendes France - Grenoble - UPMF Campagne d évaluation 2014-2015 (Vague A)

Plus en détail

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot majuscu conjugaison >>>, L orthographe singulier syllabe virgule mémoire lettres et son enseignement graphie suffixe usage accent ; écrire féminin temps voyelles mot point Renforcer l enseignement de l

Plus en détail

MASTER ECONOMIE APPLIQUEE

MASTER ECONOMIE APPLIQUEE Le Master Economie Appliquée est destiné à des étudiants ayant reçu une formation universitaire solide en économie, statistiques, mathématiques et économétrie. Ce Master propose un cursus sur deux années

Plus en détail

Association Réseau Ecoles de Gestion et de Commerce C/o CCI France 46 Avenue de la Grande Armée - CS 50071-75958 Paris Cedex 17 - Tél.

Association Réseau Ecoles de Gestion et de Commerce C/o CCI France 46 Avenue de la Grande Armée - CS 50071-75958 Paris Cedex 17 - Tél. 1 SOMMAIRE EGC, ADN du réseau d écoles de commerce le plus dense de France 01 Une approche différenciatrice, équilibrant savoir-faire et savoir être 02 Une formation complète, tournée vers la réussite

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Alexis PARMENTIER. 2005-2006 Assistant de recherches (post-doctorat) au département d économie de l Université Catholique de Louvain (Belgique).

Alexis PARMENTIER. 2005-2006 Assistant de recherches (post-doctorat) au département d économie de l Université Catholique de Louvain (Belgique). CURRICULUM VITAE Alexis PARMENTIER Adresse Professionnelle : Université de Département d Economie 15, Avenue René Cassin BP 7151 97715 Saint-Denis Messag Cedex 9, FRANCE Tel (Bureau) : 02 62 93 84 28 [email protected]

Plus en détail

JUNIOR MBA ECOFI MANAGEMENT DES ORGANISATIONS ET DE S PROJETS

JUNIOR MBA ECOFI MANAGEMENT DES ORGANISATIONS ET DE S PROJETS JUNIOR MBA ECOFI MANAGEMENT DES ORGANISATIONS ET DE S PROJETS Diplôme Grade Master de l IEP Rennes bac+5 En Alternance Coordination pédagogique : Lionel Honoré - Professeur [email protected]

Plus en détail

SMU MEDITERRANEAN. SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002)

SMU MEDITERRANEAN. SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002) SMU SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002) MEDITERRANEAN institute OF TECHNOLOGY The Unique English-Speaking Engineering School in Tunisia 'Masters in Systems

Plus en détail

Sujet de thèse CIFRE RESULIS / LGI2P

Sujet de thèse CIFRE RESULIS / LGI2P Ecole des Mines d Alès Laboratoire de Génie Informatique et d Ingénierie de Production LGI2P Nîmes Sujet de thèse CIFRE RESULIS / LGI2P Titre Domaine De l ingénierie des besoins à l ingénierie des exigences

Plus en détail

Rapport d évaluation du master

Rapport d évaluation du master Section des Formations et des diplômes Rapport d évaluation du master Marketing et vente de l Université Paris-Est Créteil Val de Marne - UPEC Vague E 2015-2019 Campagne d évaluation 2013-2014 Section

Plus en détail

Rapport d évaluation de la licence

Rapport d évaluation de la licence Section des Formations et des diplômes Rapport d évaluation de la licence Informatique de l Université Paris 6 - Pierre et Marie Curie Vague D 2014-2018 Campagne d évaluation 2012-201 Section des Formations

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) [email protected], [email protected] Mots clefs : Fouille d information, base de données, système

Plus en détail

CURRICULUM VITAE PARCOURS PROFESSIONNEL

CURRICULUM VITAE PARCOURS PROFESSIONNEL CURRICULUM VITAE Adresses professionnelles : Institut d Administration des Entreprises de l Université de Toulon Campus de La Garde - Bâtiment Z - Av. de l Université - BP 20132 83957 La Garde Cedex Tél

Plus en détail

Formations et Diplômes

Formations et Diplômes Ahmed BOUSSELHAMI Docteur -Economiste Enseignant- Chercheur. Responsable du Master : Finance-Banque et Marchés(FBM). Equipe de recherche en Economie, Finance et Développement(EFED). Département Economie

Plus en détail

N 334 - SIMON Anne-Catherine

N 334 - SIMON Anne-Catherine N 334 - SIMON Anne-Catherine RÉALISATION D UN CDROM/DVD CONTENANT DES DONNÉES DU LANGAGE ORAL ORGANISÉES EN PARCOURS DIDACTIQUES D INITIATION LINGUISTIQUE A PARTIR DES BASES DE DONNÉES VALIBEL Introduction

Plus en détail

Etudier l informatique

Etudier l informatique Etudier l informatique à l Université de Genève 2015-2016 Les bonnes raisons d étudier l informatique à l UNIGE La participation à des dizaines de projets de recherche européens Dans la présente brochure,

Plus en détail

GUIDE DE CONSTITUTION DE DOSSIER EN VUE DE LA RECONNAISSANCE ET/OU DE L EQUIVALENCE DES DIPLOMES, TITRES ET GRADES DE L ENSEIGNEMENT SUPERIEUR

GUIDE DE CONSTITUTION DE DOSSIER EN VUE DE LA RECONNAISSANCE ET/OU DE L EQUIVALENCE DES DIPLOMES, TITRES ET GRADES DE L ENSEIGNEMENT SUPERIEUR CONSEIL AFRICAIN ET MALGACHE POUR L'ENSEIGNEMENT SUPERIEUR (C. A. M. E. S.) 01 B.P. 134 OUAGADOUGOU 01 (BURKINA FASO) Tél. : (226) 50.36.81.46 - Fax : (226) 50.36.85.73 Email : [email protected] GUIDE

Plus en détail