MASTER INFORMATIQUE. Sujets de stages de recherche. Notes de cours. Document édité par Dominique Méry. 29 octobre 2007



Documents pareils
N SIMON Anne-Catherine

UE11 Phonétique appliquée

Apprentissage Automatique

Contributions à la reconnaissance robuste de la parole

L enseignement/apprentissage de la prononciation des langues assisté par ordinateur : le cas du français langue étrangère.

Le modèle standard, SPE (1/8)

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Laboratoire 4 Développement d un système intelligent

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

Document d aide au suivi scolaire

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

1. Qu est-ce que la conscience phonologique?

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

Transmission d informations sur le réseau électrique

M2S. Formation Management. formation. Animer son équipe Le management de proximité. Manager ses équipes à distance Nouveau manager

Projet de Master en Informatique: Web WriteIt!

COORDONNÉES PROFESSIONNELLES PARCOURS PROFESSIONNEL FORMATION

Rapport : Base de données. Anthony Larcher 1

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

VI- Exemples de fiches pédagogiques en 3 ème année primaires

Application d un algorithme de traduction statistique à la normalisation de textos

Etudier l informatique

Les clients puissance cube

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

LES LANGUES EN DANGER : UN DÉFI POUR LES TECHNOLOGIES DE LA LANGUE

Introduction à la méthodologie de la recherche

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Phonologie, Master LFA Professeur : André THIBAULT

Portail Vocal d Entreprise

ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Expérimentation «Tablettes Tactiles en maternelle» (Octobre Février 2014) Ecole maternelle Les Alouettes, Champhol

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF

Les technologies d aide

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Vérifier la qualité de vos applications logicielle de manière continue

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

De la captation de données à la Datavisualisation

La série L est revalorisée

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Simulation en santé. Outil de gestion des risques. Avril Dr MC Moll 1

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Compte-rendu de Hamma B., La préposition en français

FICHE PRODUIT 360 SPEECHMAGIC SDK

Travail en groupe Apprendre la coopération

En tant que producteur de technologies applicatives, nous vous proposons un large panel de solutions vocales :

Livret du Stagiaire en Informatique

Synthèse «Le Plus Grand Produit»

Danseur / Danseuse. Les métiers du spectacle vivant

UNIVERSITÉ DE LORRAINE Master MIAGE (Méthodes Informatiques Appliquées à la Gestion des Entreprises)

OPTION SCIENCES BELLE-ISLE-EN-TERRE

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Le graphisme et l écriture, en lien avec les apprentissages en maternelle

Tutoriel Prosogram. 1. Installation. Tutoriel prosogram

REALISATION D UNE CALCULATRICE GRACE AU LOGICIEL CROCODILE CLIPS 3.

AXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES

Efficace et ciblée : La surveillance des signaux de télévision numérique (2)

Interférences lexicales entre deux langues étrangères: anglais et français

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

Note de cadrage du PEPI MACS Mathématiques Appliquées & Calcul Scientifique

Master Informatique Aix-Marseille Université

Et avant, c était comment?

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Mesure agnostique de la qualité des images.

Demande d admission au Centre pédagogique Lucien-Guilbault Secteur primaire

UN PROJET SCIENTIFIQUE ET CULTUREL POUR LA SOCIÉTÉ DE LA CONNAISSANCE

ENSEIGNEMENT DES SCIENCES ET DE LA TECHNOLOGIE A L ECOLE PRIMAIRE : QUELLE DEMARCHE?

Stratégies gagnantes pour les prestataires de services : le cloud computing vu par les dirigeants Dossier à l attention des dirigeants

Formation de dirigeant de PME

Les nouveaux tableaux de bord des managers

LA RECONNAISSANCE VOCALE INTEGREE

BOOK REFERENCES ERGONOMIQUES Gfi Informatique

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Différencier, d accord oui mais comment organiser sa classe.

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Le scoring est-il la nouvelle révolution du microcrédit?

Rédiger et administrer un questionnaire

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Document à l attention de l enseignant Grande section

Initiation au binaire

Formula Negator, Outil de négation de formule.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

ITIL V3. Transition des services : Principes et politiques

Objectif. Développer son efficacité personnelle par une meilleure communication avec soi et les autres

SMPMKPOO=aKbKbKpK=qÉÅÜåáèìÉë=kìã êáèìéë=éí= jìäíáã Çá~=J=abbpqkj

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Rapport d évaluation de la licence professionnelle

La construction du nombre en petite section

Transcription:

MASTER INFORMATIQUE Sujets de stages de recherche Notes de cours 29 octobre 2007 Document édité par Dominique Méry Université Henri Poincaré Nancy 1 Université Nancy 2 INPL email: mery@loria.fr année universitaire 2007-2008

1

Liste des sujets Équipe parole 3 Sujet parole 1 Reconnaissance automatique de la parole : vers la compréhension............ 4 Sujet parole 2 Perception des modifications de la parole en apprentissage des langues......... 6 Sujet parole 3 Aide à la traduction automatique de sous-titres de film.................. 7 Sujet parole 4 Prise en compte des événements impossibles dans les modèles statistiques de langage 8 Sujet parole 5 Evaluation de l inversion acoustique-articulatoire..................... 10 Sujet parole 6 Elaboration d un modèle articulatoire dynamique pour l inversion acoustique articulatoire..................................................... 11 Sujet parole 7 Alignement texte parole pour l apprentissage des langues................. 13 2

Équipe parole L équipe PAROLE est une équipe du LORIA UMR 7503 et une équipe-projet du centre INRIA Nancy-Grand- Est. Les thèmes de recherche principaux sont la reconnaissance automatique de la parole, l inversion acousticoarticulatoire, la perception et la production de la parole, l apprentissage des langues et la synthèse de la parole. 3

Sujet 1 Reconnaissance automatique de la parole : vers la compréhension Proposé par : Christophe Cerisara Informations générales Encadrants Christophe Cerisara (Parole) Adresse LORIA, Campus Scientifique - BP 239, 54506 Vandœuvre-lès-Nancy Téléphone 03 83 59 30 64 Email Christophe.Cerisara@loria.fr Bureau C 125 Motivations La parole et le langage naturel sont les modalités d interaction les plus naturelles et les plus efficaces pour l Homme. La maîtrise du langage oral est donc un défi majeur pour la recherche en interaction Hommes- Machines. La reconnaissance automatique de la parole a été déployée récemment à grande échelle dans tous les PCs équipés de Windows Vista, et il est donc aujourd hui possible de parler à son ordinateur, ou plus exactement, de lui donner des ordres et de lui dicter un texte. Mais au-delà de l attrait de la nouveauté, tous les algorithmes de reconnaissance automatique de la parole font de nombreuses erreurs qui rendent leur utilisation difficile, voire pénible. L une des principales raisons qui explique le gouffre entre la reconnaissance de la parole humaine et automatique, est l absence totale de compréhension chez la machine. Or, nous savons que la suppléance mentale joue un très grand rôle lorsque nous écoutons quelqu un parler, et que le sens du texte (et son contexte) sont des facteurs très importants pour corriger les inévitables erreurs et imprécisions issues du signal. La prise en compte du sens des phrases perçues est donc certainement ce qui, potentiellement, peut apporter l espoir de gain le plus grand en reconnaissance automatique de la parole. Mais la compréhension est un phénomène très difficile à modéliser, comme en témoignent les nombreux travaux en sémantique, en sciences cognitives et en intelligence artificielle. La sémantique latente (LSA) est un formalisme permettant de construire automatiquement, dans une certaine mesure, des relations sémantiques entre les mots à partir de grands corpus textuels. Bien que ces relations soient très pauvres, comparativement à des relations sémantiques construites manuellement, l intérêt de la LSA est qu elle s appuie sur un formalisme statistique qui permet de l intégrer relativement proprement dans un système de reconnaissance automatique de la parole, également basé sur des approches stochastiques. Sujet Le sujet du stage est la conception et l intégration d une information sémantique, basée sur le formalisme de la LSA, dans un système de reconnaissance automatique de la parole. Il faudra donc dans un premier temps étudier la littérature sur la LSA, afin d en comprendre les principes fondamentaux, puis adapter l une des implémentations existantes aux besoins d un système de reconnaissance automatique de la parole : dans le meilleur cas, cette adaptation consistera simplement à interfacer l outil de LSA avec le système de reconnaissance, mais il est possible qu une adaptation plus conséquente soit nécessaire. Si l étudiant est plus particulièrement intéressé par les aspects sémantiques, il lui sera alors également possible de focaliser sa recherche sur une amélioration de la LSA, par exemple en essayant de construire des relations sémantiques plus riches que celles simplement dérivées de la co-occurence des mots. La deuxième étape du sujet concerne l intégration de ces informations sémantiques dans un système de reconnaissance automatique de la parole, choisi parmi ceux existant dans l équipe Parole. Cette intégration peut être réalisée de différentes manières [1, 2] et l étudiant pourra en choisir une, ou plusieurs afin de les comparer. L évaluation sera réalisée en terme d amélioration du taux de reconnaissance en mots, estimée sur un panel d émissions radiophoniques (France-Info, RFI,...), le système de transcription de base et les corpus étant disponibles dans l équipe Parole. Cadre du travail 4

Le sujet demande des connaissances de base des modèles et des méthodes d analyse statistique. Les modélisations sémantiques abordées dans ce sujet sont utiles aussi bien aux travaux en traitement du langage naturel qu en reconnaissance automatique de la parole, ce qui ouvre des perspectives variées pour l étudiant. L importance de la compréhension de la parole pour la communication homme-machine n est plus à démontrer, et les défis fondamentaux qu elle soulève sont largement suffisants pour poursuivre ce travail en thèse. Références [1] N. Coccoro. Latent Semantic Analysis as a tool to improve automatic speech recognition perfrormance Ph.D. thesis, Univ. Colorado, USA, 2004. [2] L. McCauley. Using Latent Semantic Analysis to aid speech recognition and understanding 5

Sujet 2 Perception des modifications de la parole en apprentissage des langues Proposé par : Anne Bonneau, Vincent Colotte Informations générales Encadrants Anne Bonneau et Vincent Colotte (Parole) Adresse LORIA, Campus Scientifique - BP 239, 54506 Vandœuvre-lès-Nancy Téléphone 03 83 59 20 80 Email anne.bonneau@loria.fr,vincent.colotte@loria.fr Bureau C 136, C132 Motivations La maîtrise des langues étrangères est devenue un enjeu de réussite essentiel dans notre société. Il est donc important de disposer des meilleurs outils d apprentissage pour l acquisition d une langue étrangère, en particulier pour la compréhension et l expression orale. L ambition de notre équipe est d apporter à l apprenant des retours intelligents sur sa production qui exploite au mieux les outils de traitement automatique de la parole et les connaissances phonétiques. Sujet Le projet concerne l amélioration de la production et de la perception de la prosodie de l anglais par des apprenants français, grâce notamment à des outils de traitement de la parole. Plus précisément, on étudie la réalisation de l accent lexical («accent qui tombe sur chaque mot»). La stratégie adoptée pour améliorer la prosodie de l élève est la suivante : on demande à un sujet de prononcer un mot, puis sa réalisation acoustique est comparée à celle d un locuteur natif. Le système permet au sujet de visualiser ses indices prosodiques (sa courbe mélodique, les durées relatives de ses syllabes) et de les comparer à ceux de la référence. Deux types de corrections sont effectuées : une correction de type évaluation -le système indique au sujet les différences importantes entre sa réalisation et celle de la référence ; une correction auditive : les indices prosodiques du sujet sont remplacés par ceux du locuteur natif, sans que les autres caractéristiques de sa voix soient modifiées. Ainsi le sujet peut entendre «sa» voix avec une prosodie correcte. Les expériences perceptives définies et menées par le candidat porteront sur l impact des corrections visuelles et auditives. Il s agira de déterminer si les sujets qui ont reçu ces corrections ont une meilleure production de l accent lexical anglais. Pour ce faire, les sujets seront amenés à répéter leurs réalisations. Un groupe de sujets -groupe témoin- n entendra pas la parole modifiée. L amélioration de la production sera évaluée par des critères perceptifs (jugement de la part de locuteurs natifs), ainsi que par des critères acoustiques (rapprochement de la cible) après nouvelle répétition. L amélioration de la perception des sujets fera l objet d expériences ultérieures (en dehors du cadre du master). Il s agit d une expérience pilote. Le candidat devra à la fois participer à la définition du protocole d expérimentation, analyser les performances des apprenants, et proposer d éventuelles améliorations afin de conduire par la suite (éventuellement en thèse) une expérience à plus grande échelle. Cadre du travail Le candidat aura à sa disposition un logiciel dédié à l apprentissage de la prosodie. Cet outil permet de visualiser et d écouter la parole, de modifier le signal. Les corrections auditives et visuelles sont intégrées. Le logiciel a été développé en Java. Des connaissances en phonétiques ainsi qu en programmation JAVA sont souhaitées. Références [1] A. Bonneau, Koray Balci, Vincent Colotte, Yves Laprie Design and development of computer-assisted learning of prosody.international Congress of Phonetic Sciences, Barcelona, Spain. 2003. 6

Sujet 3 Aide à la traduction automatique de sous-titres de film Proposé par : Kamel Smaïli, David Langlois Informations générales Encadrants Kamel Smaïli et David Langlois (Parole) Adresse LORIA, Campus Scientifique - BP 239, 54506 Vandœuvre-lès-Nancy Téléphone 03 83 59 20 83, 03 83 59 20 74 Email Kamel.Smaili@loria.fr, David.Langlois@loria.fr Bureau C 125, C132 Motivations La traduction Parole-Parole est le processus qui prend un signal de parole en entrée, le reconnait, le traduit dans une langue cible et produit un signal dans la langue cible. Cette thématique constitue une des démarches les plus prometteuses de cette décennie. En effet, plusieurs applications sont envisageables : envoi de e-mails dans la langue maternelle à un étranger ne parlant pas la langue, communication à l étranger dans sa propre langue, réservation d un hôtel à l étranger, etc. L application à laquelle nous nous intéressons dans ce sujet est la génération automatique de sous-titres à partir de la bande originale d un film. Sujet Un sous-titre possède des caractéristiques propres, il est présenté sur une ou deux lignes, il dépasse rarement 32 caractères et doit être lu en 6 secondes maximum [2]. L objectif est de transformer le signal de la source A en un signal B respectant les traits particuliers du sous-titre (par exemple, compromis entre l alignement temporel et la segmentation contrainte par la taille de l écran). La traduction envisagée dans ce sujet est de nature statistique [3], celle-ci nécessite des corpus bilingues alignés afin d apprendre les probabilités de traduction d une séquence cible sachant la séquence source. Nous disposons de corpus de sous-titres alignés automatiquement. Ce travail a été réalisé dans le cadre de la thèse de C. Lavecchia [1]. L étudiant(e) en Master se familiarisera avec les cinq méthodes de base de la traduction statistique proposées par IBM [3], explorera les méthodes fondées sur la traduction à base de séquences et étudiera les différentes méthodes d évaluation de la traduction, BLEU [4], NIST, ROUGE, WER,... Plusieurs problèmes seront abordés dans ce sujet : traduction discriminante, utilisation de mesure de confiance pour la traduction, développement d un décodeur performant, etc. Cadre du travail Le sujet nécessite une connaissance en modélisation statistique du langage. L étudiant(e) bénificiera des acquis du groupe modèle statistique de langage de l équipe PAROLE. Plusieurs outils en modélisation du langage et traduction peuvent être réutilisés (modèles à base de séquences, décodeur, alignement automatique, modèles de langage à base de traits, etc.). A terme (à la fin de la thèse) l étudiant devra réaliser une maquette complète de traduction Parole-Parole d une bande originale de film. Références [1] C. Lavecchia, K. Smaïli et D. Langlois. Building a bilingual dictionary from movie subtitles based on interlingual triggers in Aslib, Translating and The computer, Londres, Novembre 2007. [2] Vandeghinste, V. et Sang, E. K. (2004). Using a parallel transcript/subtitle corpus for sentence compression. In Proceedings of the Language and Resource Evaluation Conference, Lisbonne, Portugal. [3] P. F. Brown et al. The mathematics of statistical machine translation : parameter estimation, Computational Linguistics, vol. 19, pp. 263 311, 1993. [4] K. Papineni et al. Bleu : a method for automatic evaluation of machine translation, inproceedings of the 40th Annual Conference of the Association for Computational linguistics, Philadelphie, USA, 2001, pp. 311 318. 7

Sujet 4 Prise en compte des événements impossibles dans les modèles statistiques de langage Encadrants Kamel Smaïli et David Langlois (Parole) Adresse LORIA, Campus Scientifique - BP 239, 54506 Vandœuvre-lès-Nancy Téléphone 03 83 59 20 83, 03 83 59 20 74 Email Kamel.Smaili@loria.fr, David.Langlois@loria.fr Bureau C 125, C132 Motivations La modélisation statistique du langage a pour objectif de modéliser un langage en définissant la probabilité d apparition d une suite de mots dans un énoncé. Cette information peut être utilisée en Reconnaissance Automatique de la Parole en tant que module linguistique [5], dans la Traduction Automatique en tant que modèle de langue cible [1], et aussi dans de nombreuses autres applications. La probabilité d une suite de mots est estimée grâce à une approche fréquentielle sur des corpus textuels : plus une suite de mots est rencontrée dans un corpus, plus elle sera considérée comme vraisemblable. Cette approche a pour limite que tout corpus de texte est de taille finie. Or, une langue possède une combinatoire infinie. Donc un corpus ne peut permettre de modéliser toute la langue. Pour contourner ce problème, en modélisation statistique du langage, on prend comme hypothèse : «en absence d une connaissance parfaite de la langue, tout est possible». Concrètement, cela consiste à octroyer une probabilité non nulle à toute suite de mots, même si elle n a été rencontrée dans aucun des corpus à disposition. Pour ce faire, on utilise des méthodes de repli. Une littérature importante existe, qui vise à définir des méthodes de repli [2] offrant des résultats les plus proches possibles de la réalité de la langue. Le postulat est bien sûr faux : de nombreuses suites de mots ne peuvent être rencontrées dans un texte, et si une telle suite était rencontrée, on l estimerait comme fausse ou impossible. Ceci a plusieurs conséquences. Premièrement, le modèle est donc faux. Deuxièmement, une partie de la masse de probabilité globale est octroyée inutilement à des événements impossibles. Troisièmement, cette masse d événements impossibles tout de même pris en compte par le modèle est un frein dans les applications : ils génèrent des hypothèses fausses et donc font perdre du temps et peuvent mener à des erreurs. Objectif du stage Le stagiaire devra définir une méthode de repli originale prenant en compte la notion d événements impossibles. Ce travail nécessitera une lecture des méthodes classiques, et une remise en cause de ces méthodes. La méthode sera évaluée grâce à une mesure de son adéquation par rapport à un corpus de test. Le stagiaire disposera des fruits du travail précédent dans l équipe, à savoir une expertise sur les qualités et défauts des méthodes de repli classiques et une liste de 60 millions de suites de 2 mots (bigrammes) considérées comme impossibles. Ce travail a déjà donné lieu à publication [3, 4]. Le stagiaire pourra aussi étudier l impact de la notion d événements impossibles dans le cadre d un système de reconnaissance automatique de la parole (impact sur les performances, sur le temps de calcul). Pour cela, il bénéficiera encore une fois de l expérience des encadrants sur le système de reconnaissance utilisé. Cadre de travail Le stagiaire travaillera au sein de l équipe Parole du LORIA (http ://parole.loria.fr). Le travail est clairement une initiation solide à la problématique de la modélisation statistique du langage et donnera des bases pour commencer une thèse dans le domaine. Références [1] P. F. Brown et al., The mathematics of statistical machine translation : parameter estimation, Computational Linguistics, vol. 19, pp. 263 311, 1993. [2] S. F. Chen et J. Goodman. An empirical study of smoothing techniques for language modeling, Computer Speech and Language, 13 :359 394, 1999. [3] A. Brun, D. Langlois, K. Smaïli, et J.-P. Haton, Improving statistical language models by removing impossible events, inproceedings of the International Workshop Speech and Computer (SPECOM), 2001. [4] D. Langlois, A. Brun, K. Smaïli, et J.-P. Haton, Événements impossibles en modélisation stochastique du langage, Traitement Automatique des Langages : Apprentissage Automatique des Modèles de Langage, no. 44/1, 2002, 8

[5] J.-P. Haton, C. Cerisara, D. Fohr, Y. Laprie et K. Smaïli, Reconnaissance automatique de la parole : du signal à son interprétation, Editions DUNOD. 9

Sujet 5 Evaluation de l inversion acoustique-articulatoire Proposé par : Slim Ouni et Yves Laprie Informations générales Encadrants Slim Ouni Yves Laprie Email Slim.Ouni@loria.fr Yves.Laprie@loria.fr Bureau C134 C126 Motivations L inversion acoustique articulatoire consiste à retrouver l évolution temporelle de la forme du conduit vocal à partir du signal de parole. Ce sujet est important car il est susceptible de conduire à des applications en codage de la parole et surtout pour l apprentissage des langues. L approche que nous utilisons repose sur une méthode d analyse par synthèse. Cela signifie que nous utilisons un synthétiseur articulatoire qui génère un signal de parole à partir de la donnée des paramètres articulatoires décrivant la forme du conduit vocal (la position et la forme de la langue, la position de la mâchoire, du larynx et des lèvres). Ce synthétiseur est adapté géométriquement à un locuteur à partir d images IRM et il sert à construire une table formée de couples associant un vecteur articulatoire au vecteur acoustique correspondant. Lors de l inversion, on récupère toutes les formes articulatoires dont les paramètres acoustiques sont proches de ceux qui ont été observés dans le signal de parole. L inversion est donc une méthode de tabulation améliorée que nous avons utilisée pour les voyelles [2]. Sujet Nous nous intéressons actuellement à l évaluation de l inversion sur des données réelles. Pour cela, nous allons construire un corpus de données articulatoires grâce à un articulographe. Ce dernier permet de récupérer les positions de capteurs placés dans le conduit vocal en temps réel. Il est important de noter que l articulographe ne donne la position des articulateurs qu en un petit nombre de points, en l occurrence neuf en tout qui se répartissent entre la langue, les lèvres, la mâchoire et éventuellement le voile du palais. En revanche, la facette de synthèse de l inversion utilise un modèle articulatoire qui décrit des formes et non des points. La difficulté est donc de revenir à une description continue à partir de quelques points seulement. L objectif de ce stage est donc de construire ce corpus, de l adapter au modèle articulatoire, de passer des données ponctuelles aux données continues et enfin de comparer les données du corpus aux trajectoires récupérées par inversion. L évaluation sera faite sur un certain nombre d exemples extraits de ce corpus. Cadre du travail Ce stage sera effectué au sein de l équipe Parole. Nous possédons les outils matériels et logiciels nécessaires pour réaliser ce travail. Ce stage fait partie d un projet Européen ASPI [2], en collaboration avec plusieurs partenaires européens. Ce stage pourrait naturellement se poursuivre en thèse. Références [1] S. Ouni et Y. Laprie Modeling the articulatory space using a hypercube codebook for acoustic-to-articulatory inversion. J. Acoust. Soc. Am., July 2005 - V. 118(1), pp. 444-460. [2] http://aspi.loria.fr/ 10

Sujet 6 Elaboration d un modèle articulatoire dynamique pour l inversion acoustique articulatoire Proposé par : Yves laprie et Slim Ouni Informations générales Encadrants Yves laprie Slim Ouni Adresse LORIA, Campus Scientifique - BP 239, 54506 Vandœuvre-lès-Nancy Téléphone 03 83 59 20 36 03 83 59 20 22 Email Yves.Laprie@loria.fr Slim.Ouni@loria.fr Bureau C 126 C 134 Motivations La possibilité de récupérer automatiquement l évolution temporelle de forme du conduit vocal à partir du signal acoustique -l inversion acoustique articulatoire- constituerait une avancée majeure en traitement automatique de la parole. Cela ouvrirait en effet de nouvelles perspectives tant pour la reconnaissance automatique, le développement de têtes parlantes réalistes, que pour des applications visant l apprentissage des langues ou l acquisition du langage. Les progrès récents dans le domaine de la synthèse articulatoire rendent possibles les approches d analyse par synthèse [2] dont l avantage essentiel est de pouvoir faire le lien entre les données à inverser, la modélisation articulatoire et les résultats obtenus. Nous étudions cette thématique dans le cadre du projet européen ASPI (http://aspi.loria.fr) coordonné par notre équipe. Ses objectifs sont d une part de concevoir de nouvelles approches de l inversion, et d autre part de développer un système d acquisition de données articulatoires dont la fréquence d échantillonnage et la résolution spatiale soient suffisantes pour construire des modèles de synthèse articulatoire et évaluer l inversion. Sujet Le principal obstacle à surmonter lors de l inversion acoustique articulatoire est la non bijectivité de la relation articulatoire acoustique : une infinité de formes du conduit vocal peuvent donner le même spectre de parole. Il est donc absolument nécessaire d introduire des contraintes pour limiter le nombre des solutions. Le modèle articulatoire offre une première source de contraintes en fournissant les modes de déformation du conduit vocal. Ces modes sont obtenus en analysant des images du conduit vocal généralement acquises à l aide l imagerie par résonance magnétique (IRM) à l heure actuelle. Par construction, les modes de déformation sont indépendants les uns des autres et il n est donc pas assuré que les formes obtenues soient toutes réalistes. Certaines formes risquent en effet de correspondre à des efforts contradictoires, par exemple une ouverture très forte de la mâchoire inférieure avec le déplacement de la pointe de langue à proximité du palais. Il est donc important de compléter les contraintes fournies par les modes de déformation en prenant en compte les synergies entre articulateurs [3]. L objectif de ce stage est de développer un modèle de synergie des articulateurs de la parole. Ce modèle articulatoire dynamique viendra donc compléter le modèle articulatoire existant. Plusieurs voies pourront être explorées pour représenter ce modèle. Il pourra s agit d utiliser des approches d analyse de données afin de mettre en évidence les effets de synergie ou de compensation articulatoires, ou encore de s inspirer des travaux de Hiroya sur les modèles stochastiques de production de la parole [1]. Par ailleurs, les connaissances phonétiques standard fournissent aussi une source d information très intéressante puisqu elle est tout à fait indépendante du locuteur et couvre plusieurs langues. Cadre du travail L élaboration de ce modèle dynamique nécessitera l acquisition de données articulatoires, soit à l aide du système développé dans le cadre du projet ASPI (associant l échographie à des capteurs électromagnétiques), soit à l aide de l articulographe AG500 dont nous disposons à Nancy. Ce travail s appuiera sur notre expérience dans le domaine de la modélisation articulatoire et s effectuera en coopération étroite avec les autres membres 11

de l équipe Parole travaillant sur les modèles stochastiques. Ce stage pourra naturellement se poursuivre en thèse. Références [1] S. Hiroya and T. Mochida. Multi-speaker articulatory trajectory formation based on speaker-independent articulatory HMMs. Vol. 48, Speech communication, 2006. [2] S. Ouni et Y. Laprie Modeling the articulatory space using a hypercube codebook for acoustic-to-articulatory inversion. J. Acoust. Soc. Am., July 2005 - V. 118(1), pp. 444-460. [3] B. Potard, Y. Laprie et A. Bonneau. Evaluation of phonetic constraints used in acoustic to articulatory inversion Proc. of the 7th International Seminar on Speech Production, Ubatuba, 2006. 12

Sujet 7 Alignement texte parole pour l apprentissage des langues Proposé par : Dominique Fohr et Anne Bonneau Informations générales Encadrants Dominique Fohr Anne Bonneau Adresse LORIA, Campus Scientifique - BP 239, 54506 Vandœuvre-lès-Nancy Téléphone 03 83 59 20 27 03 83 59 20 80 Email Dominique.Fohr@loria.fr Anne.Bonneau@loria.fr Bureau C 125 C 126 Motivations L apprentissage des langues est un domaine de recherche qui connaît un succès croissant pour deux raisons. Applicatives bien sûr, car la maîtrise des langues étrangères est devenue un enjeu important avec le développement de nombreux échanges internationaux. Scientifiques ensuite, car l apprenant est confronté à deux systèmes phonétiques et phonologiques différents ce qui fait émerger des thèmes de recherche concernant l acquisition de nouveaux contrastes phonétiques. L un des enjeux est de fournir un feedback pertinent aux apprenants pour les guider efficacement. Cela nécessite de comparer la réalisation d un locuteur natif, en l occurrence un mot ou une phrase, à celle de l apprenant. Il s agit d un problème difficile puisque la phrase de l apprenant peut s écarter très sensiblement de la phrase attendue pour de nombreuses raisons : mauvaise syllabation des mots, utilisation des phonèmes de la langue maternelle à la place de ceux de la langue étrangère, hésitations...a cela s ajoutent des problèmes d ambiance sonore ou d enregistrement de la parole de l apprenant. Ces difficulté expliquent pourquoi il n est pas possible d utiliser les algorithmes d alignement du texte - la phrase attendue - et de la parole - le signal de parole produit par l apprenant - utilisés pour étiqueter phonétiquement des corpus dont on connaît la transcription orthographique. Sujet La comparaison nécessite donc le développement d algorithmes d alignement très performants puisqu ils doivent couvrir une grande variété de déviations par rapport à la prononciation de référence. Par ailleurs, ces algorithmes doivent bien se prêter à l usage auquel ils sont destinés. Dans notre cas il s agit d améliorer la réalisation de la prosodie de l anglais par des apprenants francophones. L évaluation de la prosodie repose sur une segmentation des mots en syllabes, il est donc important que les algorithmes d alignement prennent en compte les syllabes [2]. L une des voies qu il sera possible d explorer est d utiliser la syllabe comme unité de reconnaissance [1]. Cette solution est susceptible d améliorer légèrement la fiabilité de la reconnaissance car la syllabe est l unité de production naturelle en parole. Par ailleurs, il est probable qu un locuteur non natif insère des syllabes complètes. La difficulté est de réorganiser assez profondément les algorithmes de reconnaissance du point de vue de l apprentissage pour garantir que les modèles construits soient toujours efficaces malgré le grand nombre de modèles à apprendre. Par ailleurs, il faut représenter le lexique sous la forme de syllabes. Un autre point crucial pour l alignement est la prise en compte des systèmes phonologiques des deux langues. Cela permet en effet de prédire les confusions phonétiques les plus probables et par conséquent d améliorer très nettement l alignement. Cadre du travail L étudiant travaillera dans l éuipe Parole et il disposera donc de tous les outils d analyse et de reconnaissance automatique de la parole d une part et des outils d apprentissage des langues d autre part. Ce stage pourra naturellement se poursuivre en thèse. Références 13

[1] O. Le Blouch et P. Collen. Reconnaissance automatique de phonèmes guidée par les syllabes. Actes des JEP 2006. [2] F. Antoine, D. Zhu, P. Boula de Mareüil et M. Adda-Decker. Approches segmentales multilingues pour l identification automatique de la langue : phones et syllabes Actes des JEP 2004. 14