Vers une inversion acoustico-articulatoire d un locuteur étranger

Documents pareils
BILAN EN ELECTRICITE : RC, RL ET RLC

Lot-sizing Résumé :

Regional Wind Speed Evolution Identification and Longterm Correlation Application

«Modèle Bayésien de tarification de l assurance des flottes de véhicules»

UNE ÉVALUATION EMPIRIQUE DE LA NOUVELLE TARIFICATION DE L'ASSURANCE AUTOMOBILE (1992) AU QUÉBEC * par. Georges Dionne 1,2 Charles Vanasse 2

Modèles de Risques et Solvabilité en assurance Vie. Kaltwasser Perrine Le Moine Pierre. Autorité de Contrôle des Assurances et des Mutuelles (ACAM)

N o XIF au catalogue. Techniques d'enquête

Intégration financière en Asie de l Est : l apport des tests de stationnarité et de cointégration en panel

par Yazid Dissou** et Véronique Robichaud*** Document de travail

F 2 = - T p K F T = - T p K 0 - K 0

Émissions d obligations rachetables :

Annuités. I Définition : II Capitalisation : ( Valeur acquise par une suite d annuités constantes ) V n = a t

MATHEMATIQUES FINANCIERES

ANNEXE I TRANSFORMEE DE LAPLACE

VA(1+r) = C 1. VA = C 1 v 1

Notice d information contractuelle Loi Madelin. Generali.fr

Notice d information contractuelle Loi Madelin. Generali.fr

Recueil d'exercices de logique séquentielle

Files d attente (1) F. Sur - ENSMN. Introduction. 1 Introduction. Vocabulaire Caractéristiques Notations de Kendall Loi de Little.

Le mode de fonctionnement des régimes en annuités. Secrétariat général du Conseil d orientation des retraites

Documentation Technique de Référence Chapitre 8 Trames types Article

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Caractéristiques des signaux électriques

Cours Thème VIII.3 CONVERSION STATIQUE D'ÉNERGIE

CIFA 2004 Synthèse mixte H 2 /H par retour d état statique

ELECTRICITE. Chapitre 13 Régimes transitoires des circuits RC et RL. Analyse des signaux et des circuits électriques. Michel Piou

Dares Analyses. La répartition des hommes et des femmes par métiers Une baisse de la ségrégation depuis 30 ans

2. Quelle est la valeur de la prime de l option américaine correspondante? Utilisez pour cela la technique dite de remontée de l arbre.

MIDI F-35. Canal MIDI 1 Mélodie Canal MIDI 2 Basse Canal MIDI 10 Batterie MIDI IN. Réception du canal MIDI = 1 Reproduit la mélodie.

Chapitre 2 L investissement. . Les principales caractéristiques de l investissement

TB 352 TB 352. Entrée 1. Entrée 2

Les circuits électriques en régime transitoire

Ecole des JDMACS, Angers, Mars 2009 Commande prédictive : interaction optimisation commande

THÈSE. Pour l obtention du grade de Docteur de l Université de Paris I Panthéon-Sorbonne Discipline : Sciences Économiques

Risque associé au contrat d assurance-vie pour la compagnie d assurance. par Christophe BERTHELOT, Mireille BOSSY et Nathalie PISTRE

République Algérienne Démocratique et Populaire Ministère de l Enseignement supérieur et de La Recherche Scientifique. Polycopie:

Ned s Expat L assurance des Néerlandais en France

Intégration de Net2 avec un système d alarme intrusion

Finance 1 Université d Evry Val d Essonne. Séance 2. Philippe PRIAULET

Rappels théoriques. -TP- Modulations digitales ASK - FSK. Première partie 1 INTRODUCTION

STATISTIQUE AVEC EXCEL

Remboursement d un emprunt par annuités constantes

Texte Ruine d une compagnie d assurance

S euls les flux de fonds (dépenses et recettes) définis s ent l investissement.

COURS GESTION FINANCIERE A COURT TERME SEANCE 3 PLANS DE TRESORERIE. François LONGIN

Le document unique : Évaluation des risques pour la Santé et la Sécurité des travailleurs.

CARACTERISTIQUES STATIQUES D'UN SYSTEME

La rentabilité des investissements

Les jeunes économistes

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

Programmation, organisation et optimisation de son processus Achat (Ref : M64) Découvrez le programme

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Les solutions solides et les diagrammes d équilibre binaires. sssp1. sssp1 ssss1 ssss2 ssss3 sssp2

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Impact du vieillissement démographique sur l impôt prélevé sur les retraits des régimes privés de retraite

A l aise dans mon parking!

Mesure avec une règle

TD/TP : Taux d un emprunt (méthode de Newton)

CHAPITRE I : Cinématique du point matériel

Montage émetteur commun

EVALUATION DE LA FPL PAR LES APPRENANTS: CAS DU MASTER IDS

N Juin. Base de données CHELEM commerce international du CEPII. Alix de SAINT VAULRY

Système solaire combiné Estimation des besoins énergétiques

OBJECTIFS LES PLUS DE LA FORMATION

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

MODÈLE BAYÉSIEN DE TARIFICATION DE L ASSURANCE DES FLOTTES DE VÉHICULES

Coaching - accompagnement personnalisé (Ref : MEF29) Accompagner les agents et les cadres dans le développement de leur potentiel OBJECTIFS

L intégration intra-régionale des marchés boursiers de l Europe du sudest : une analyse multivariée

Sommaire de la séquence 12

Stéganographie Adaptative par Oracle (ASO)

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

GUIDE DES INDICES BOURSIERS

EFFICIENCE INFORMATIONNELLE DES UNE VERIFICATION ECONOMETRIQUE MARCHES DE L OR A PARIS ET A LONDRES, DE LA FORME FAIBLE

Université Technique de Sofia, Filière Francophone d Informatique Notes de cours de Réseaux Informatiques, G. Naydenov Maitre de conférence, PhD

No Décembre. La coordination interne et externe des politiques économiques : une analyse dynamique. Fabrice Capoën Pierre Villa

ANALYSE DES DETERMINANTS DE L EPARGNE NATIONALE DANS UN PAYS EN DEVELOPPEMENT : LE CAS DU RWANDA

CANAUX DE TRANSMISSION BRUITES

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

Avez-vous vous aperçu cette drôle de trogne? Entre nature et histoire autour de Mondoubleau

SÉLECTIONNER LES MEILLEURS CANDIDATS : L APPORT DES OUTILS D ÉVALUATION AU RECRUTEMENT ET À LA MOBILITÉ INTERNE

Cours d électrocinétique :

CHELEM Commerce International

CONVERSION ÉLECTRONIQUE STATIQUE. HACHEURS. I : Ce que vous ne pouvez pas deviner. 1 ) Principes généraux des convertisseurs de puissance.

CHAPITRE 13. EXERCICES a) 20,32 ± 0,055 b) 97,75 ± 0,4535 c) 1953,125 ± 23, ±0,36π cm 3

Les Comptes Nationaux Trimestriels

Article. «Les effets à long terme des fonds de pension» Pascal Belan, Philippe Michel et Bertrand Wigniolle

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

Evaluation des Options avec Prime de Risque Variable

Simulation d essais d extinction et de roulis forcé à l aide d un code de calcul Navier-Stokes à surface libre instationnaire

Thème : Electricité Fiche 5 : Dipôle RC et dipôle RL

Le «Scoring» LOGISTIQUE

Relation entre la Volatilité Implicite et la Volatilité Réalisée.

Exercices d Électrocinétique

Oscillations forcées en régime sinusoïdal.

n 1 LES GRANDS THÈMES DE L ITB > 2009 Les intérêts simples et les intérêts composés ( ) C T D ( en mois)

Le mécanisme du multiplicateur (dit "multiplicateur keynésien") revisité

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Apprentissage Automatique

Chapitre IV Les oscillations couplées «Les oscillations libres d un système à plusieurs degrés de liberté»

Transcription:

Vers une nverson acousco-arculaore d un locueur éranger Hélène Lachambre, Régne André-Obrech IRIT - Unversé de Toulouse, 118 roue de Narbonne, 31062 Toulouse Cedex 9 lachambre@r.fr, obrech@r.fr RÉSUMÉ Nous présenons une exenson de nore méhode d nverson acousco-arculaore basée sur des Modèles de Markov Cachés non supervsés. La généraon des veceurs arculaores es nsprée par l approche GMM. Dans le cadre de l ade à l apprenssage des langues érangères, nous éudons le comporemen de cee approche dans le cas de données (phonèmes) manquans. ABSTRACT Toward an acousc o arculaory nverson of a foregn speaker We presen an exenson of our acousc-o-arculaory nverson mehod, based on unsupervsed Hdden Markov Models. The arculaory vecors generaon s based on he GMM approach. Consderng he applcaon of our mehod o he eachng of foreng languages, we sudy he performances of hs approach n he case of mssng daa. MOTS-CLÉS : Inverson acousco-arculaore, HMM non supervsé, données manquanes. KEYWORDS: Acousc-o-arculaory nverson, unsupervsed HMM, mssng daa. 1 Inroducon L nverson acousco-arculaore consse à déermner la forme du condu bucal à parr d un enregsremen audo de parole. Il s ag plus précsémen de reconsrure la rajecore de dvers pons sués sur la langue, les lèvres e la machore (e évenuellemen le palas) à parr du sgnal acousque. Inéressane en an que elle pour l éude des processus de producon de la parole, l nverson acousco-arculaore a égalemen des applcaons plus grand publc : par exemple, la parole augmenée (pour l ade à la compréhenson des mal-enendans) ou encore l ade à l apprenssage des langues érangères (monrer à un apprenan commen l a prononcé un son, e commen l devra le prononcer). Deux prncpales approches son ulsées dans la léraure, pour l nverson acouscoarculaore : l approche GMM (Toda e al., 2008; Ben Youssef e al., 2010) (Modèles de Mélanges de Gaussennes) e l approche HMM (Modèles de Markov Cachés) (Hroya e Honda, 2004; Ben Youssef e al., 2009; Zhang e Renals, 2008; Zen e al., 2010). L approche GMM consse à modélser la dsrbuon conjone des veceurs acousques e arculaores par un modèle GMM. L nverson es consdérée comme une recherche de données manquanes e es réalsée par mappage, selon dvers crères : MMSE (Mnmum Mean Square Error) (Toda e al., 2008) ou Maxmum de vrasemblance (Toda e al., 2008; Ben Youssef e al., 2010). L approche HMM Aces de la conférence conjone JEP-TALN-RECITAL 2012, volume 1: JEP, pages 169 176, Grenoble, 4 au 8 jun 2012. c 2012 ATALA & AFCP 169

vse à prendre en compe le caracère emporel de la parole, e les conséquences en ermes de conranes an au nveau acousque qu arculaore. La pare acousque es alors modélsée par un HMM. (Hroya e Honda, 2004) propose une régresson lnéare enre l acousque e l arculaore pour modélser cee dernère. Dans (Ben Youssef e al., 2009; Zhang e Renals, 2008; Zen e al., 2010), la pare arculaore es modélsée par un HMM apprs conjonemen à celu de l acousque. La phase d nverson commence oujours par un décodage du sgnal audo par le HMM acousque. La séquence d éas (phonèmes, bphones ou rphones) ans déermnée es alors convere en paramères arculaores so par régresson lnéare (Hroya e Honda, 2004), so à l ade du HMM arculaore (Ben Youssef e al., 2009; Zhang e Renals, 2008; Zen e al., 2010). Dans ce derner cas, l nverson nclu des modèles de rajecore (HTS (Zen e al., 2004)), qu prennen en compe la dynamque des veceurs arculaores. Selon les ravaux, l apprenssage des modèles es fa en enan compe des rajecores (Zen e al., 2010) ou non (Ben Youssef e al., 2009; Zhang e Renals, 2008). La modélsaon par HMM consdère l aspec emporel de la parole, mas nécesse un équeage phonéque coûeux. L approche GMM consdère chaque nsan ndépendamen des aures, mas l apprenssage se fa de manère non supervsée. L approche que nous avons déjà proposée (Lachambre e al., 2011) se place à un nveau nermédare : la modélsaon se fa par des HMMs, afn de enr compe de l aspec emporel de la parole. Cependan, l apprenssage se fa de manère non supervsée. Pour la phase d nverson, nous avons précédemmen proposé deux approches smples, basées sur des combnasons lnéares d éas. Nous proposons une nouvelle approche, basée sur le Maxmum de vrasemblance. Dans le cadre parculer de l apprenssage des langues érangères, le processus comple consse à mager la parole de l apprenan dans l espace arculaore d une personne connue parlan la langue cble (l n es pas envsageable, pour des quesons de coû e de confor de l apprenan, d acquérr des données arculaores de l apprenan.). Deux problèmes prncpaux se posen alors. Le premer, qu a éé abordé récemmen (Ben Youssef e al., 2011), es lé au passage de l acousque de l apprenan à l arculaore de la cble, alors que seul le modèle acouscoarculaore de la cble es connu. Le second résde dans le fa que l apprenan es suscepble de prononcer des sons nconnus dans la langue cble, sons qu l faudra malgré ou mager. Nous nous proposons c d éuder la capacé de généralsaon de nore modèle confroné, pendan la phase d nverson, à des sons nconnus lors de l apprenssage. Après une présenaon du corpus ulsé dans la pare 2, nous rappelons l apprenssage du modèle dans la pare 3.1. Dans la pare 3.2, nous décrvons l nverson par Maxmum de vrasemblance. Enfn, nous éudons ce modèle en conexe de données manquanes dans la pare 4. 2 Corpora En an que parenare du proje ANR ARTIS 1, nous avons accès à la base de donnée développée par le Gpsa-Lab à Grenoble. Ce corpus a déjà éé ulsé dans de nombreuses publcaons sur l nverson acousco-arculaore (Ben Youssef e al., 2010; Lachambre e al., 2011). Son présens des prononcaons des 34 phonèmes du franças : [ y e E Ẽ œ œ @ a à u ø o O Õ p 1. ARTIS : Arculaory nverson from audo-vsual speech for augmened speech presenaon, ANR-08-EMER-001-02 170

b m d s z n f v K l S Z k g j 4 w]. Le corpus es composé de deux répéons de 224 séquences VCV (Voyelle-Consonne-Voyelle), deux répéons de 109 mos cours (CVC) franças réels, 68 phrases coures e 20 phrases longues. Les données arculaores son acquses à l ade d un ElecroMagnec Arculographe (EMA), e son consuées des coordonnées (X,Y) de sx capeurs placés dans un plan sagal. Deux capeurs son posonnés sur les lèvres (nféreure e supéreure), un sur la machore, e ros sur la langue (devan, au mleu e au fond). Les données audo son acquses au forma WAV. Elles son représenées par 12 MFCC, l énerge, e leurs dérvées. Tous ces paramères son calculés oues les 10 ms, l en résule des données acousques e arculaores synchrones. Le veceur global sera noé O = [O ac T O ar T ] T avec O ac e O ar les veceurs acousque e arculaore. 3 Approche markovenne non supervsée Nore approche repose sur un modèle de Markov Caché global M(A, B). Ce modèle ndu deux sous-modèles M ac (A, B ac ) e M ar (A, B ar ), représenan respecvemen les pares acousque e arculaore du sgnal. Lors de l éape d nverson, le sgnal acousque es classquemen décodé à l ade du modèle acousque M ac, résulan en une sue d éas. Cee sue d éa es ensue ransposée dans le modèle arculaore pour générer les sgnaux arculaores (fgure 1). Données d'apprenssage M (A, B) M ac (A, B ac ) M ar ( A, B ar) Données de es Séquence d'éas Veceurs arculaores générés FIGURE 1 Schéma global de nore méhode. 3.1 Apprenssage L apprenssage du modèle global M es réalsé en mode non supervsé (Lachambre e al., 2011). Il se fa en ros éapes : 1. Un cluserng non supervsé à l ade d un GMM es applqué à l ensemble d apprenssage. Le nombre Q de composanes es fxé a pror. Chaque veceur d apprenssage es affecé a poseror à une gaussenne e assocé par conséquen à un label. 2. Le modèle de Markov global ndu se compose d auan d éas que de clusers. La probablé d émsson assocé à l éa es modélsée par une lo gaussenne (µ, Σ ). Les 171

paramères de cee lo son esmés à l ade des veceurs poran le label. 3. La marce de ranson A es classquemen esmée en compan le nombre de ransons sur les séquences de labels, assocées aux séquences des veceurs d apprenssage. Du modèle global M son dédus les modèles acousque e arculaore M ac e M ar : Le nombre d éas des deux modèles es le même que pour M. Chaque veceur d apprenssage O, poran le label dans M, es séparé en sa pare acousque O ac e sa pare arculaore O ar, chacun assgné à l éa du modèle correspondan. Les marces de ransons A son nchangées par rappor à celle de M. Les probablés d émsson pour chaque éa de chaque modèle son des gaussennes (µ ac, Σ ac ) e (µ ar, Σ ar ), don les paramères son esmés avec les veceurs poran le label. Noons que nous avons les relaons suvanes : Σ µ = [µ ac T, µ ar T ac ] T Σ = Σ ac,ar ar,ac Σ Σ ar 3.2 Procédure d nverson Deux approches peuven êre envsagées résulan d une résoluon de ype so mondres carrés (MMSE) so maxmum de vrasemblance (ML). Compe enu des modèles de Markov sous jacens, les deux approches prennen en compe parellemen la dmenson emporelle ; elles dffèren par la prse en compe à chaque nsan de la correlaon enre acousque e arculaore. 3.2.1 Inverson MMSE Lors de la phase d nverson, le sgnal acousque es paraméré en une séquence de K veceurs O ac 1...Oac K. Dans une précédene éude (Lachambre e al., 2011), l approche MMSE a éé ulsée pour générer les veceurs arculaores correspondans de la manère suvane (avec les noaons classques (Rabner e Juang, 1993)) : Ô ar = Q =1 γ ac ()µ ar α ac β ac γ ac () = αac Q =1 αac ()β ac () ()β ac () () = P(O ac 1,..., Oac, s ac = ) () = P(O ac +1,..., Oac K sac = ) (1) 3.2.2 Inverson ML L approche ML condu à prendre en compe la correlaon nsananée enre les données arculaores e acousques. La comparason avec les approches classques basées GMM (cf nroducon) monre une dfférence au nveau de la prse en compe de la dmenson emporelle. Ô ar = Q =1 γ ac ()(µ ar + Σ ac,ar Σ ac 1 (O ac µ ac )) (2) 172

Des expérences précédenes (Lachambre e al., 2011) sur l approche MMSE ayan monré que ne consdérer que le erme prépondéran (l éa le plus probable) dans l équaon 1 donne des résulas équvalens, nous smplfons de la même façon l approche ML : Ô ar = µ ar ŝ + Σ ac,ar Σ ac 1 (O ac µ ac ŝ ), ŝ = ar gmax =1,...,Q γ () (3) 4 Evaluaon 4.1 Evaluaon du modèle proposé - Comparason des méhodes d nverson Nous avons monré (Lachambre e al., 2011) qu un cluserng à 128 éas es performan pour l approche MMSE sur ce corpus. Nous avons reprs cee valeur pour comparer les performances de l approche MMSE à l approche ML. Les résulas quanafs (Roo Mean Square Error (RMSE) e Pearson Produc-Momen Correlaon Coeffcen) son présenés dans le ableau 1. TABLE 1 Comparason des approches MMSE e ML pour l nverson Méhode RMSE PMCC MMSE 2.25 mm 0.59 ML 1,83 mm 0.64 Il es clar que l approche ML es plus perfomane que l approche MMSE. Une vsualsaon de la couverure de l espace arculaore aene lors de l nverson, pour chacune des deux méhodes, es vsble sur la fgure 2. La méhode Maxmum de vrasemblance perme d aendre des pons beaucoup plus proches de la fronère de l espace arculaore, ce qu explque les melleures performances de l approche proposée c. (a) MMSE (b) ML FIGURE 2 Dsperson des veceurs arculaores pour les deux méhodes d nverson (grs : référence, nor : esmaon). 173

4.2 Inverson pour l apprenssage d une langue érangère Dans le cadre d nverson acousco-arculaore pour l ade à l apprenssage des langues, l fau enr compe du fa que l apprenan ne conna pas ous les sons de la langue cble, e qu l va évenuellemen ajouer des sons nexsans. Nous éudons c le comporemen de nore modèle, dans le cas où le sysème do nverser des sons nconnus lors de l apprenssage. Le proocole que nous avons suv es le suvan : L apprenssage du modèle global e des modèles acousque e arculaore son effecués en enlevan la oalé des prononcaons de cerans phonèmes de l ensemble d apprenssage. L nverson es effecuée sur l ensemble de es comple : des prononcaons de phonèmes nconnus des modèles son présenes. Nous avons évalué pluseurs confguraons ; pour chacune d elles, nous précserons : Les phonèmes manquans lors de l apprenssage, La proporon de phonèmes enlevés e resans en erme de durée, Le RMSE pour les phonèmes nconnus, les phonèmes connus, e l ensemble des données. 4.2.1 Les voyelles En nous basan sur des éudes phonéques des langues (Vallée, 1994; Pellegrno, 1998), ellesmêmes basées sur la base de données UPSID 2, l s avère que 90% des langues ulsen le sous sysème vocalque [a u] qu corresponden aux ros confguraons exrèmes d un pon de vue arculaore ; d aure par, le sysème vocalque [a e o u] es le plus représené dans UPSID. Il appara donc pernen d éuder le comporemen de nore sysème en ne gardan que ces ros ou cnq voyelles don les résulas apparassen respecvemen dans les ableau 2 e ableau 3. TABLE 2 Performances en l absence de oues les voyelles cenrales - Phonèmes exclus de l apprenssage : [y e E Ẽ œ œ @ à ø o O Õ] RMSE % du emps Phonèmes manquans 2,51 mm 40 % Phonèmes connus 1,99 mm 60 % Tous phonèmes 2,22 mm 100 % TABLE 3 Performances en l absence des voyelles cenrales suvanes : [y E Ẽ œ œ @ à ø O Õ] RMSE % du emps Phonèmes manquans 2,49 mm 34 % Phonèmes connus 1,95 mm 66 % Tous phonèmes 2,15 mm 100 % Il es à noer qu en enlevan 40 % du corpus d apprenssage qu corresponden à 1/3 des phonèmes, les performances de nore sysème resen ou à fa honorables avec un RMSE 2. UCLA Phonologcal Segmen Invenory Daabase 174

d envron 2,22 mm sur l ensemble du corpus de es. Cependan de fores dfférences son à observer selon les phonèmes : parm les phonèmes nconnus, le meux reconsru es le [e] avec un RMSE de 1,88 mm, e le mons ben reconsru es le [o] avec un RMSE de 3,03 mm. Lors de la comparason des eux expérences, nous avons noé que les phonèmes ben ou mal reconsrus le son dans les deux cas. Nous pensons que l approche, non supervsée lors de la phase d apprenssage, perme effecvemen une assez bonne capacé de généralsaon : le noyau don dérve chaque lo gaussenne, n es pas pur en erme de classes phonéques, pusque, en moyenne, l conen 70 % d un seul phonème, son dené n es donc pas une dene phonéque, mas sans doue plus proche d une confguraon arculaore. 4.2.2 Vers l nverson du franças avec un modèle anglas Afn de préfgurer l apprenssage de l anglas par un franças, nous proposons l expérence suvane : afn d apprendre un " modèle d nverson proche d un modèle d nverson pour l anglas", les phonèmes connus du franças, e manquan en anglas son rerés. Il es évden que dans la réalé, l manquera des consonnes ou sem consonnes propres à l anglas. Les résulas son présenés dans le ableau 4. TABLE 4 Performances en l absence des phonèmes nconnus d un anglas : [y e ø Ẽ œ à o Õ K 4] RMSE % du emps Phonèmes manquans 2,63 mm 31,5 % Phonèmes connus 1,94 mm 68,5 % Tous phonèmes 2,18 mm 100 % Dans cee expérence, les résulas son cohérens avec les résulas précédens, en erme de voyelles plus ou mons ben reconsrues. Les deux consonne/sem-consonne que nous avons rerées de l apprenssage son parm les zones les mons ben reconsrus (RMSE de 3,45 mm pour le son [4]). 5 Concluson e perspecves Dans ce arcle, nous avons proposé une nouvelle méhode pour l nverson acouscoarculaore, à m chemn enre les deux prncpales approches courammen développées : l ulsaon d un modèle HMM mas don l apprenssage es non supervsé, e la défnon de la foncon d nverson exploan l approche ML des GMM. Cee nouvelle proposon amélore les résulas de nore approche. Par alleurs, en nous plaçan dans le cadre de l apprenssage des langues érangères, nous avons proposé une premère éude du cas de phonèmes manquans lors de la phase d apprenssage. Les premers résulas son à la fos encourageans e conformes à nos prévsons : plus le nombre de phonèmes enlevé es mporan, plus la âche d nverson es dffcle ; les consonnes nconnues son plus dffcles à reconsrure que les voyelles nconnues. 175

Pour la sue, nous allons éuder plus avan les performances de l nverson pour chacun des phonèmes e nous éuderons à re de comparason les performances des approches classques (HMM, GMM) en l absence de données manquanes. Remercemens Les aueurs remercen le Gpsa-Lab à Grenoble, pour le parage du corpus ARTIS e les nombreux échanges scenfques sur ce suje. Références BEN YOUSSEF, A., BADIN, P. e BAILLY, G. (2010). Acousc-o-arculaory nverson n speech based on sascal models. In 9h Inernaonal Conference on Audory-Vsual Speech Processng (AVSP), pages 160 165. BEN YOUSSEF, A., BADIN, P., BAILLY, G. e HERACLEOUS, P. (2009). Acousc-o-arculaory nverson usng speech recognon and rajecory formaon based on phoneme Hdden Markov Models. In Inerspeech - European Conference on Speech Communcaon and Technology, pages 2255 2258. BEN YOUSSEF, A., HUEBER, T., BADIN, P. e BAILLY, G. (2011). Toward a mul-speaker vsual arculaory feedback sysem. In 12h Annual Conference of he Inernaonal Speech Communcaon Assocaon (Inerspeech 2011), pages 589 592. HIROYA, S. e HONDA, M. (2004). Esmaon of arculaory movemens from speech acouscs usng an HMM-based speech producon model. IEEE Transacons on Audo, Speech, and Language Processng, 12(2):175 185. LACHAMBRE, H., KOENIG, L. e ANDRÉ-OBRECHT, R. (2011). Arculaory parameer generaon usng unsupervsed hdden markov models. In European Sgnal Processng Conference (EUSIPCO), pages 456 459. PELLEGRINO, F. (1998). Une approche phonéque en denfcaon auomaque des langues : la modélsaon acousque des sysèmes vocalques. Thèse de docora, Unversé Paul Sabaer, Toulouse. RABINER, L. e JUANG, B.-H. (1993). Fundamenals of speech recognon. Upper Saddle Rver, NJ, USA. TODA, T., BLACK, A. W. e TOKUDA, K. (2008). Sascal Mappng beween Arculaory Movemens and Acousc Specrum Usng a Gaussan Mxure Model. Speech Communcaon, 50:215 227. VALLÉE, N. (1994). Sysèmes vocalques : de la ypologe aux prédcons. Thèse de docora, Unversé Sendhal, Grenoble. ZEN, H., NANKAKU, Y. e TOKUDA, K. (2010). Connuous sochasc feaure mappng based on rajecory hmms. IEEE Transacon on Audo, Speech, and Language Processng, 19(2):417 430. ZEN, H., TOKUDA, K. e KITAMURA, T. (2004). An nroducon of rajecory model no HMM-based speech synhess. In Ffh ISCA ITRW on Speech Synhess. ZHANG, L. e RENALS, S. (2008). Acousc-arculaory modelng wh he rajecory HMM. IEEE Sgnal Processng Leers, 15:245 258. 176