Vers une inversion acoustico-articulatoire d un locuteur étranger

Vers une nverson acousco-arculaore d un locueur éranger Hélène Lachambre, Régne André-Obrech IRIT - Unversé de Toulouse, 118 roue de Narbonne, 31062 Toulouse Cedex 9 lachambre@r.fr, obrech@r.fr RÉSUMÉ Nous présenons une exenson de nore méhode d nverson acousco-arculaore basée sur des Modèles de Markov Cachés non supervsés. La généraon des veceurs arculaores es nsprée par l approche GMM. Dans le cadre de l ade à l apprenssage des langues érangères, nous éudons le comporemen de cee approche dans le cas de données (phonèmes) manquans. ABSTRACT Toward an acousc o arculaory nverson of a foregn speaker We presen an exenson of our acousc-o-arculaory nverson mehod, based on unsupervsed Hdden Markov Models. The arculaory vecors generaon s based on he GMM approach. Consderng he applcaon of our mehod o he eachng of foreng languages, we sudy he performances of hs approach n he case of mssng daa. MOTS-CLÉS : Inverson acousco-arculaore, HMM non supervsé, données manquanes. KEYWORDS: Acousc-o-arculaory nverson, unsupervsed HMM, mssng daa. 1 Inroducon L nverson acousco-arculaore consse à déermner la forme du condu bucal à parr d un enregsremen audo de parole. Il s ag plus précsémen de reconsrure la rajecore de dvers pons sués sur la langue, les lèvres e la machore (e évenuellemen le palas) à parr du sgnal acousque. Inéressane en an que elle pour l éude des processus de producon de la parole, l nverson acousco-arculaore a égalemen des applcaons plus grand publc : par exemple, la parole augmenée (pour l ade à la compréhenson des mal-enendans) ou encore l ade à l apprenssage des langues érangères (monrer à un apprenan commen l a prononcé un son, e commen l devra le prononcer). Deux prncpales approches son ulsées dans la léraure, pour l nverson acouscoarculaore : l approche GMM (Toda e al., 2008; Ben Youssef e al., 2010) (Modèles de Mélanges de Gaussennes) e l approche HMM (Modèles de Markov Cachés) (Hroya e Honda, 2004; Ben Youssef e al., 2009; Zhang e Renals, 2008; Zen e al., 2010). L approche GMM consse à modélser la dsrbuon conjone des veceurs acousques e arculaores par un modèle GMM. L nverson es consdérée comme une recherche de données manquanes e es réalsée par mappage, selon dvers crères : MMSE (Mnmum Mean Square Error) (Toda e al., 2008) ou Maxmum de vrasemblance (Toda e al., 2008; Ben Youssef e al., 2010). L approche HMM Aces de la conférence conjone JEP-TALN-RECITAL 2012, volume 1: JEP, pages 169 176, Grenoble, 4 au 8 jun 2012. c 2012 ATALA & AFCP 169

vse à prendre en compe le caracère emporel de la parole, e les conséquences en ermes de conranes an au nveau acousque qu arculaore. La pare acousque es alors modélsée par un HMM. (Hroya e Honda, 2004) propose une régresson lnéare enre l acousque e l arculaore pour modélser cee dernère. Dans (Ben Youssef e al., 2009; Zhang e Renals, 2008; Zen e al., 2010), la pare arculaore es modélsée par un HMM apprs conjonemen à celu de l acousque. La phase d nverson commence oujours par un décodage du sgnal audo par le HMM acousque. La séquence d éas (phonèmes, bphones ou rphones) ans déermnée es alors convere en paramères arculaores so par régresson lnéare (Hroya e Honda, 2004), so à l ade du HMM arculaore (Ben Youssef e al., 2009; Zhang e Renals, 2008; Zen e al., 2010). Dans ce derner cas, l nverson nclu des modèles de rajecore (HTS (Zen e al., 2004)), qu prennen en compe la dynamque des veceurs arculaores. Selon les ravaux, l apprenssage des modèles es fa en enan compe des rajecores (Zen e al., 2010) ou non (Ben Youssef e al., 2009; Zhang e Renals, 2008). La modélsaon par HMM consdère l aspec emporel de la parole, mas nécesse un équeage phonéque coûeux. L approche GMM consdère chaque nsan ndépendamen des aures, mas l apprenssage se fa de manère non supervsée. L approche que nous avons déjà proposée (Lachambre e al., 2011) se place à un nveau nermédare : la modélsaon se fa par des HMMs, afn de enr compe de l aspec emporel de la parole. Cependan, l apprenssage se fa de manère non supervsée. Pour la phase d nverson, nous avons précédemmen proposé deux approches smples, basées sur des combnasons lnéares d éas. Nous proposons une nouvelle approche, basée sur le Maxmum de vrasemblance. Dans le cadre parculer de l apprenssage des langues érangères, le processus comple consse à mager la parole de l apprenan dans l espace arculaore d une personne connue parlan la langue cble (l n es pas envsageable, pour des quesons de coû e de confor de l apprenan, d acquérr des données arculaores de l apprenan.). Deux problèmes prncpaux se posen alors. Le premer, qu a éé abordé récemmen (Ben Youssef e al., 2011), es lé au passage de l acousque de l apprenan à l arculaore de la cble, alors que seul le modèle acouscoarculaore de la cble es connu. Le second résde dans le fa que l apprenan es suscepble de prononcer des sons nconnus dans la langue cble, sons qu l faudra malgré ou mager. Nous nous proposons c d éuder la capacé de généralsaon de nore modèle confroné, pendan la phase d nverson, à des sons nconnus lors de l apprenssage. Après une présenaon du corpus ulsé dans la pare 2, nous rappelons l apprenssage du modèle dans la pare 3.1. Dans la pare 3.2, nous décrvons l nverson par Maxmum de vrasemblance. Enfn, nous éudons ce modèle en conexe de données manquanes dans la pare 4. 2 Corpora En an que parenare du proje ANR ARTIS 1, nous avons accès à la base de donnée développée par le Gpsa-Lab à Grenoble. Ce corpus a déjà éé ulsé dans de nombreuses publcaons sur l nverson acousco-arculaore (Ben Youssef e al., 2010; Lachambre e al., 2011). Son présens des prononcaons des 34 phonèmes du franças : [ y e E Ẽ œ œ @ a Ã u ø o O Õ p 1. ARTIS : Arculaory nverson from audo-vsual speech for augmened speech presenaon, ANR-08-EMER-001-02 170

b m d s z n f v K l S Z k g j 4 w]. Le corpus es composé de deux répéons de 224 séquences VCV (Voyelle-Consonne-Voyelle), deux répéons de 109 mos cours (CVC) franças réels, 68 phrases coures e 20 phrases longues. Les données arculaores son acquses à l ade d un ElecroMagnec Arculographe (EMA), e son consuées des coordonnées (X,Y) de sx capeurs placés dans un plan sagal. Deux capeurs son posonnés sur les lèvres (nféreure e supéreure), un sur la machore, e ros sur la langue (devan, au mleu e au fond). Les données audo son acquses au forma WAV. Elles son représenées par 12 MFCC, l énerge, e leurs dérvées. Tous ces paramères son calculés oues les 10 ms, l en résule des données acousques e arculaores synchrones. Le veceur global sera noé O = [O ac T O ar T ] T avec O ac e O ar les veceurs acousque e arculaore. 3 Approche markovenne non supervsée Nore approche repose sur un modèle de Markov Caché global M(A, B). Ce modèle ndu deux sous-modèles M ac (A, B ac ) e M ar (A, B ar ), représenan respecvemen les pares acousque e arculaore du sgnal. Lors de l éape d nverson, le sgnal acousque es classquemen décodé à l ade du modèle acousque M ac, résulan en une sue d éas. Cee sue d éa es ensue ransposée dans le modèle arculaore pour générer les sgnaux arculaores (fgure 1). Données d'apprenssage M (A, B) M ac (A, B ac ) M ar ( A, B ar) Données de es Séquence d'éas Veceurs arculaores générés FIGURE 1 Schéma global de nore méhode. 3.1 Apprenssage L apprenssage du modèle global M es réalsé en mode non supervsé (Lachambre e al., 2011). Il se fa en ros éapes : 1. Un cluserng non supervsé à l ade d un GMM es applqué à l ensemble d apprenssage. Le nombre Q de composanes es fxé a pror. Chaque veceur d apprenssage es affecé a poseror à une gaussenne e assocé par conséquen à un label. 2. Le modèle de Markov global ndu se compose d auan d éas que de clusers. La probablé d émsson assocé à l éa es modélsée par une lo gaussenne (µ, Σ ). Les 171

paramères de cee lo son esmés à l ade des veceurs poran le label. 3. La marce de ranson A es classquemen esmée en compan le nombre de ransons sur les séquences de labels, assocées aux séquences des veceurs d apprenssage. Du modèle global M son dédus les modèles acousque e arculaore M ac e M ar : Le nombre d éas des deux modèles es le même que pour M. Chaque veceur d apprenssage O, poran le label dans M, es séparé en sa pare acousque O ac e sa pare arculaore O ar, chacun assgné à l éa du modèle correspondan. Les marces de ransons A son nchangées par rappor à celle de M. Les probablés d émsson pour chaque éa de chaque modèle son des gaussennes (µ ac, Σ ac ) e (µ ar, Σ ar ), don les paramères son esmés avec les veceurs poran le label. Noons que nous avons les relaons suvanes : Σ µ = [µ ac T, µ ar T ac ] T Σ = Σ ac,ar ar,ac Σ Σ ar 3.2 Procédure d nverson Deux approches peuven êre envsagées résulan d une résoluon de ype so mondres carrés (MMSE) so maxmum de vrasemblance (ML). Compe enu des modèles de Markov sous jacens, les deux approches prennen en compe parellemen la dmenson emporelle ; elles dffèren par la prse en compe à chaque nsan de la correlaon enre acousque e arculaore. 3.2.1 Inverson MMSE Lors de la phase d nverson, le sgnal acousque es paraméré en une séquence de K veceurs O ac 1...Oac K. Dans une précédene éude (Lachambre e al., 2011), l approche MMSE a éé ulsée pour générer les veceurs arculaores correspondans de la manère suvane (avec les noaons classques (Rabner e Juang, 1993)) : Ô ar = Q =1 γ ac ()µ ar α ac β ac γ ac () = αac Q =1 αac ()β ac () ()β ac () () = P(O ac 1,..., Oac, s ac = ) () = P(O ac +1,..., Oac K sac = ) (1) 3.2.2 Inverson ML L approche ML condu à prendre en compe la correlaon nsananée enre les données arculaores e acousques. La comparason avec les approches classques basées GMM (cf nroducon) monre une dfférence au nveau de la prse en compe de la dmenson emporelle. Ô ar = Q =1 γ ac ()(µ ar + Σ ac,ar Σ ac 1 (O ac µ ac )) (2) 172

Des expérences précédenes (Lachambre e al., 2011) sur l approche MMSE ayan monré que ne consdérer que le erme prépondéran (l éa le plus probable) dans l équaon 1 donne des résulas équvalens, nous smplfons de la même façon l approche ML : Ô ar = µ ar ŝ + Σ ac,ar Σ ac 1 (O ac µ ac ŝ ), ŝ = ar gmax =1,...,Q γ () (3) 4 Evaluaon 4.1 Evaluaon du modèle proposé - Comparason des méhodes d nverson Nous avons monré (Lachambre e al., 2011) qu un cluserng à 128 éas es performan pour l approche MMSE sur ce corpus. Nous avons reprs cee valeur pour comparer les performances de l approche MMSE à l approche ML. Les résulas quanafs (Roo Mean Square Error (RMSE) e Pearson Produc-Momen Correlaon Coeffcen) son présenés dans le ableau 1. TABLE 1 Comparason des approches MMSE e ML pour l nverson Méhode RMSE PMCC MMSE 2.25 mm 0.59 ML 1,83 mm 0.64 Il es clar que l approche ML es plus perfomane que l approche MMSE. Une vsualsaon de la couverure de l espace arculaore aene lors de l nverson, pour chacune des deux méhodes, es vsble sur la fgure 2. La méhode Maxmum de vrasemblance perme d aendre des pons beaucoup plus proches de la fronère de l espace arculaore, ce qu explque les melleures performances de l approche proposée c. (a) MMSE (b) ML FIGURE 2 Dsperson des veceurs arculaores pour les deux méhodes d nverson (grs : référence, nor : esmaon). 173

4.2 Inverson pour l apprenssage d une langue érangère Dans le cadre d nverson acousco-arculaore pour l ade à l apprenssage des langues, l fau enr compe du fa que l apprenan ne conna pas ous les sons de la langue cble, e qu l va évenuellemen ajouer des sons nexsans. Nous éudons c le comporemen de nore modèle, dans le cas où le sysème do nverser des sons nconnus lors de l apprenssage. Le proocole que nous avons suv es le suvan : L apprenssage du modèle global e des modèles acousque e arculaore son effecués en enlevan la oalé des prononcaons de cerans phonèmes de l ensemble d apprenssage. L nverson es effecuée sur l ensemble de es comple : des prononcaons de phonèmes nconnus des modèles son présenes. Nous avons évalué pluseurs confguraons ; pour chacune d elles, nous précserons : Les phonèmes manquans lors de l apprenssage, La proporon de phonèmes enlevés e resans en erme de durée, Le RMSE pour les phonèmes nconnus, les phonèmes connus, e l ensemble des données. 4.2.1 Les voyelles En nous basan sur des éudes phonéques des langues (Vallée, 1994; Pellegrno, 1998), ellesmêmes basées sur la base de données UPSID 2, l s avère que 90% des langues ulsen le sous sysème vocalque [a u] qu corresponden aux ros confguraons exrèmes d un pon de vue arculaore ; d aure par, le sysème vocalque [a e o u] es le plus représené dans UPSID. Il appara donc pernen d éuder le comporemen de nore sysème en ne gardan que ces ros ou cnq voyelles don les résulas apparassen respecvemen dans les ableau 2 e ableau 3. TABLE 2 Performances en l absence de oues les voyelles cenrales - Phonèmes exclus de l apprenssage : [y e E Ẽ œ œ @ Ã ø o O Õ] RMSE % du emps Phonèmes manquans 2,51 mm 40 % Phonèmes connus 1,99 mm 60 % Tous phonèmes 2,22 mm 100 % TABLE 3 Performances en l absence des voyelles cenrales suvanes : [y E Ẽ œ œ @ Ã ø O Õ] RMSE % du emps Phonèmes manquans 2,49 mm 34 % Phonèmes connus 1,95 mm 66 % Tous phonèmes 2,15 mm 100 % Il es à noer qu en enlevan 40 % du corpus d apprenssage qu corresponden à 1/3 des phonèmes, les performances de nore sysème resen ou à fa honorables avec un RMSE 2. UCLA Phonologcal Segmen Invenory Daabase 174

d envron 2,22 mm sur l ensemble du corpus de es. Cependan de fores dfférences son à observer selon les phonèmes : parm les phonèmes nconnus, le meux reconsru es le [e] avec un RMSE de 1,88 mm, e le mons ben reconsru es le [o] avec un RMSE de 3,03 mm. Lors de la comparason des eux expérences, nous avons noé que les phonèmes ben ou mal reconsrus le son dans les deux cas. Nous pensons que l approche, non supervsée lors de la phase d apprenssage, perme effecvemen une assez bonne capacé de généralsaon : le noyau don dérve chaque lo gaussenne, n es pas pur en erme de classes phonéques, pusque, en moyenne, l conen 70 % d un seul phonème, son dené n es donc pas une dene phonéque, mas sans doue plus proche d une confguraon arculaore. 4.2.2 Vers l nverson du franças avec un modèle anglas Afn de préfgurer l apprenssage de l anglas par un franças, nous proposons l expérence suvane : afn d apprendre un " modèle d nverson proche d un modèle d nverson pour l anglas", les phonèmes connus du franças, e manquan en anglas son rerés. Il es évden que dans la réalé, l manquera des consonnes ou sem consonnes propres à l anglas. Les résulas son présenés dans le ableau 4. TABLE 4 Performances en l absence des phonèmes nconnus d un anglas : [y e ø Ẽ œ Ã o Õ K 4] RMSE % du emps Phonèmes manquans 2,63 mm 31,5 % Phonèmes connus 1,94 mm 68,5 % Tous phonèmes 2,18 mm 100 % Dans cee expérence, les résulas son cohérens avec les résulas précédens, en erme de voyelles plus ou mons ben reconsrues. Les deux consonne/sem-consonne que nous avons rerées de l apprenssage son parm les zones les mons ben reconsrus (RMSE de 3,45 mm pour le son [4]). 5 Concluson e perspecves Dans ce arcle, nous avons proposé une nouvelle méhode pour l nverson acouscoarculaore, à m chemn enre les deux prncpales approches courammen développées : l ulsaon d un modèle HMM mas don l apprenssage es non supervsé, e la défnon de la foncon d nverson exploan l approche ML des GMM. Cee nouvelle proposon amélore les résulas de nore approche. Par alleurs, en nous plaçan dans le cadre de l apprenssage des langues érangères, nous avons proposé une premère éude du cas de phonèmes manquans lors de la phase d apprenssage. Les premers résulas son à la fos encourageans e conformes à nos prévsons : plus le nombre de phonèmes enlevé es mporan, plus la âche d nverson es dffcle ; les consonnes nconnues son plus dffcles à reconsrure que les voyelles nconnues. 175

Pour la sue, nous allons éuder plus avan les performances de l nverson pour chacun des phonèmes e nous éuderons à re de comparason les performances des approches classques (HMM, GMM) en l absence de données manquanes. Remercemens Les aueurs remercen le Gpsa-Lab à Grenoble, pour le parage du corpus ARTIS e les nombreux échanges scenfques sur ce suje. Références BEN YOUSSEF, A., BADIN, P. e BAILLY, G. (2010). Acousc-o-arculaory nverson n speech based on sascal models. In 9h Inernaonal Conference on Audory-Vsual Speech Processng (AVSP), pages 160 165. BEN YOUSSEF, A., BADIN, P., BAILLY, G. e HERACLEOUS, P. (2009). Acousc-o-arculaory nverson usng speech recognon and rajecory formaon based on phoneme Hdden Markov Models. In Inerspeech - European Conference on Speech Communcaon and Technology, pages 2255 2258. BEN YOUSSEF, A., HUEBER, T., BADIN, P. e BAILLY, G. (2011). Toward a mul-speaker vsual arculaory feedback sysem. In 12h Annual Conference of he Inernaonal Speech Communcaon Assocaon (Inerspeech 2011), pages 589 592. HIROYA, S. e HONDA, M. (2004). Esmaon of arculaory movemens from speech acouscs usng an HMM-based speech producon model. IEEE Transacons on Audo, Speech, and Language Processng, 12(2):175 185. LACHAMBRE, H., KOENIG, L. e ANDRÉ-OBRECHT, R. (2011). Arculaory parameer generaon usng unsupervsed hdden markov models. In European Sgnal Processng Conference (EUSIPCO), pages 456 459. PELLEGRINO, F. (1998). Une approche phonéque en denfcaon auomaque des langues : la modélsaon acousque des sysèmes vocalques. Thèse de docora, Unversé Paul Sabaer, Toulouse. RABINER, L. e JUANG, B.-H. (1993). Fundamenals of speech recognon. Upper Saddle Rver, NJ, USA. TODA, T., BLACK, A. W. e TOKUDA, K. (2008). Sascal Mappng beween Arculaory Movemens and Acousc Specrum Usng a Gaussan Mxure Model. Speech Communcaon, 50:215 227. VALLÉE, N. (1994). Sysèmes vocalques : de la ypologe aux prédcons. Thèse de docora, Unversé Sendhal, Grenoble. ZEN, H., NANKAKU, Y. e TOKUDA, K. (2010). Connuous sochasc feaure mappng based on rajecory hmms. IEEE Transacon on Audo, Speech, and Language Processng, 19(2):417 430. ZEN, H., TOKUDA, K. e KITAMURA, T. (2004). An nroducon of rajecory model no HMM-based speech synhess. In Ffh ISCA ITRW on Speech Synhess. ZHANG, L. e RENALS, S. (2008). Acousc-arculaory modelng wh he rajecory HMM. IEEE Sgnal Processng Leers, 15:245 258. 176