Implémentation d une interface de communication silencieuse en temps réel : Projet Ultraspeech II



Documents pareils
Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Apprentissage Automatique

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Chapitre 2 Les ondes progressives périodiques

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Chaine de transmission

Mesure agnostique de la qualité des images.

Projet de Traitement du Signal Segmentation d images SAR

UE11 Phonétique appliquée

Caractéristiques des ondes

DIPLÔME INTERUNIVERSITAIRE D ECHOGRAPHIE. Examen du Tronc Commun sous forme de QCM. Janvier h à 16 h

Intérêt du découpage en sous-bandes pour l analyse spectrale

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

Son et Mathématiques

Scanner acoustique NoiseScanner

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

INF6304 Interfaces Intelligentes

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Quantification Scalaire et Prédictive

Transmission d informations sur le réseau électrique

Vérification audiovisuelle de l identité

Chapitre I La fonction transmission

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

Chapitre 13 Numérisation de l information

Numérisation du signal

L apprentissage automatique

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

ACOUSTIQUE 3 : ACOUSTIQUE MUSICALE ET PHYSIQUE DES SONS

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

Analyse des bruits de clavier d ordinateur

Coup de Projecteur sur les Réseaux de Neurones

CAPTEURS - CHAINES DE MESURES

Echantillonnage Non uniforme

Phonologie, Master LFA Professeur : André THIBAULT

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Traitement bas-niveau

Acquisition et conditionnement de l information Les capteurs

Analyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Introduction au Data-Mining

Chapitre 2 Caractéristiques des ondes

Ordonnance du DFJP sur les instruments de mesure audiométriques

EMETTEUR ULB. Architectures & circuits. Ecole ULB GDRO ESISAR - Valence 23-27/10/2006. David MARCHALAND STMicroelectronics 26/10/2006

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

NON-LINEARITE ET RESEAUX NEURONAUX

données en connaissance et en actions?

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Formats d images. 1 Introduction

Recherche De Coalescences Binaires Étalonnage Du Détecteur

Le modèle standard, SPE (1/8)

ACADÉMIE D ORLÉANS-TOURS NOTE D INFORMATION n 50

Expérience 3 Formats de signalisation binaire

Les atouts et faiblesses des caméras TEP dédiées, TEP corps entier, TEP-CT, TEMP pour la quantification

N SIMON Anne-Catherine

LES CARACTERISTIQUES DES SUPPORTS DE TRANSMISSION

Introduction à l informatique temps réel Pierre-Yves Duval (cppm)

SYSTEME DE PALPAGE A TRANSMISSION RADIO ETUDE DU RECEPTEUR (MI16) DOSSIER DE PRESENTATION. Contenu du dossier :

Etude et conception d un serveur vocal :

1S9 Balances des blancs

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Partie Agir : Défis du XXI ème siècle CHAP 20-ACT EXP Convertisseur Analogique Numérique (CAN)

Enregistrement et transformation du son. S. Natkin Novembre 2001

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Précision d un résultat et calculs d incertitudes

Introduction au Data-Mining

ISO/CEI NORME INTERNATIONALE

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

Chapitre 3. Les distributions à deux variables

J AUVRAY Systèmes Electroniques TRANSMISSION DES SIGNAUX NUMERIQUES : SIGNAUX EN BANDE DE BASE

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Chapitre 5 Émetteurs et récepteurs sonores

Optimisation, traitement d image et éclipse de Soleil

Filtrage stochastique non linéaire par la théorie de représentation des martingales

P2: Perception auditive

Principe de symétrisation pour la construction d un test adaptatif

-1- SOUNDMAN. Fabrication et distribution. SOUNDMAN e.k. Bornimer Str Berlin (Allemagne) Tél & Fax (+49)

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008


Une comparaison de méthodes de discrimination des masses de véhicules automobiles

LES DIFFÉRENTS FORMATS AUDIO NUMÉRIQUES

TRAVAUX PRATIQUES SCIENTIFIQUES SUR SYSTÈME

V- Manipulations de nombres en binaire

SONS. Dossier pédagogique. Enseignants Niveau lycée

TD1 Signaux, énergie et puissance, signaux aléatoires

Didier Pietquin. Timbre et fréquence : fondamentale et harmoniques

«Tous les sons sont-ils audibles»

TSTI 2D CH X : Exemples de lois à densité 1

Actions de réduction de bruit sur un moteur poids lourd

Communications immersives : Enjeux et perspectives

La classification automatique de données quantitatives

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Université de La Rochelle. Réseaux TD n 6

Relation entre deux variables : estimation de la corrélation linéaire

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Transcription:

DAM/DIF Implémentation d une interface de communication silencieuse en temps réel : Projet Ultraspeech II Maël Pouget 3 ème année Sicom sp. Traitement De la Parole et Traitement d Images Grenoble INP - Phelma Projet de fin d études du 6 Février au 27 Juillet 2012 Tutoré augipsa-lab par M. Thomas Hueber Suivi à Phelma par Mme Barbara Nicolas Jury présidé par M. Jocelyn Chanussot

Abstract English The aim of the internship is the design of a real time silent speech interface, or system permitting voice communication without vocalization. The system developed is based on capturing articulatory activity via ultrasound and video imaging. The problem addressed in this work is that of transforming multimodal observations of articulatory gestures into an audio speech signal. This visuo-acoustic conversion is achieved using machine learning methods requiring the construction of audiovisual training databases. Discrete cosine transform (DCT) is used in order to extract visual features and Mel-Generalized Cepstral analysis (MGC) for acoustic features extraction. The visuo-acoustic converstion is based on direct mapping between visual and acoustic features using neural networks and Gaussian mixture Regression (GMR). Finally, a Mel Log Sectrum Analysis based vocodeur is used in order to synthetize the obtained signal. After a study using Matlab, the real-time modules are developed on the real time platform : Max/MSP. Key words : Machine learning, Gaussian Model Regression, Artificial Neural Network, Discret Cosine Transform, Cepstral Analysis, Real Time. Français L objectif de ce stage est l implémentation d une interface de communication en parole silencieuse, système permettant de communiquer en parlant sans émettre de son. Il fonctionne par analyse de l activité articulatoire via une caméra vidéo et une sonde ultrasons. La problématique abordée est celle de la transformation d observation multimodale de configuration articulatoire en signal de parole. Cette transformation est rendue possible grâce à aux techniques d apprentissage supervisé nécessitant l acquisition de corpus d apprentissage audio-visuel. Afin d extraire les caractéristiques visuelles, on utilise les techniques de Transformée en Cosinus Discrète et pour les caractéristiques acoustiques, on utilise l analyse mel-cepstrale généralisée. La conversion visuo-acoustique est réalisée grâce à la Regression par Mélange de Gaussienne et l utilisation de réseaux de neurones artificiels. Enfin, un vocodeur MLSA est utilisé afin de générer le signal obtenu. Après une étude sur Matlab de tout ces modules, une version temps réel est developpée sur une plateforme dédiée au temps réel : Max/MSP Mots-clefs : Apprentissage supervisé, Regression par Modèle de Gaussiennes, Réseaux de Neurones Artificiels, Transformée en Cosinus Discrète, Analyse Cepstrale, Temps-Réel. 3

4

Table des matières 1 Introduction 7 2 La parole silencieuse 9 2.1 Production de parole............................... 9 2.1.1 Analogie source-filtre........................... 9 2.1.2 Les différents articulateurs de la parole................. 9 2.1.3 La coarticulation.............................. 12 2.2 État de l art.................................... 13 2.3 Le temps réel................................... 14 3 Acquisition. 15 3.1 Génération de corpus et statistiques...................... 15 3.1.1 Les corpus utilisés............................ 15 3.2 Le logiciel : Ultraspeech............................. 16 3.3 Acquisition audio et vidéo............................ 16 3.3.1 Le casque................................. 16 3.3.2 Caméra.................................. 17 3.3.3 Ultrasons................................. 17 3.3.4 Audio................................... 17 4 Extraction des caractéristiques 19 4.1 Extraction des caractéristiques visuelles.................... 19 4.1.1 La Transformation en Cosinus Discrète................ 19 4.2 Extraction des caractéristiques acoustiques.................. 20 4.2.1 Analyse mel-cepstrale.......................... 20 4.2.2 Analyse du voisement.......................... 22 5 Conversion Visuo-Acoustique. 23 5.1 Utilisation du corpus dans le cadre d un apprentissage............ 23 5.2 Prise en compte du contexte........................... 23 5.2.1 L Analyse en Composantes Principales................. 24 5.3 Régression par Mélange de Gaussiennes.................... 25 5.3.1 Principe général de la Régression par Mélange de Gaussienne..... 25 5.3.2 Influence du nombre de gaussiennes sur les performances....... 27 5.4 Estimation du voisement............................. 28 5.4.1 Les réseaux de neurones artificiels................... 28 5.4.2 Calcul du seuillage optimal : Courbe ROC............... 29 5.4.3 Architecture du réseau.......................... 30 5.5 Évalutation du modèle.............................. 30 5

5.5.1 Génération du corpus utilisé lors du test perceptif.......... 31 5.5.2 Résultats................................. 31 6 Implémentation sur plateforme temps-réel 33 6.1 Max/MSP..................................... 33 6.2 Modules Réalisés................................. 34 7 Conclusion et perspectives. 37 6

Chapitre 1 Introduction La parole est le vecteur principal de l interaction entre les humains et les pathologies de l appareil vocal sont à l origine d importants handicaps. Une des pathologies les plus graves est le cancer du larynx, l organe qui abrite les cordes vocales et qui joue le rôle d aiguilleur entre les voix respiratoire et digestive. Le traitement de ce cancer peut impliquer l ablation complète de l organe (on parle alors de laryngectomie totale). L intervention laisse le patient dans l incapacité de parler ; ce dernier est capable d articuler normalement (c est à dire bouger sa langue, ses lèvres, son voile du palais et sa mâchoire) mais n est plus capable de rediriger l air pulmonaire vers son résonateur, c est à dire ses cavités orales (buccale et nasale). Depuis les années 2000, plusieurs groupes de recherche en traitement automatique de la parole tentent de concevoir un dispositif permettant aux personnes laryngectomisées, de parler à nouveau. Les différentes technologies proposées visent (1) à capturer les indices non-audibles de la production de la parole, tels que les mouvements des articulateurs (Hueber & Denby[2], Fagan[3]), les activités nerveuses ou musculaires (Jorgensen[4], Jou[5]), les très faibles déplacements d air à l intérieur de la cavité buccale (Nakajima[6], Toda[7]), etc. et (2), à transformer ces informations en un signal de parole audible et intelligible, en s appuyant sur des techniques de modélisation par apprentissage statistique et de synthèse sonore. Les applications de ce type de technologies dépassent le cadre médicale. En effet, elles pourraient permettre l émergence d un téléphone silencieux utilisable par tous pour des communications discrètes (ou furtives). Dans ce cas, l utilisateur parlerait silencieusement, c est à dire qu il bougerait sa langue et ses lèvres normalement, mais ne vocaliserait aucun son. Ce stage s inscrit dans le cadre de ces recherches sur ce que les chercheurs ont appelé des interfaces de communication en parole silencieuse (ou silent speech interface en anglais), et plus précisément dans le cadre de l approche proposée par Hueber et Denby[2]. Cette dernière est basée sur la capture de l activité articulatoire à l aide d un double système d imagerie constitué d une sonde ultrasonore (échographique) placée sous la mâchoire du locuteur, et d une caméra placée devant les lèvres de ce dernier. Dans sa thèse, Hueber[1] a proposé différentes approches pour convertir un flux d images ultrasonores et video en un signal de parole audible. Cependant, l ensemble des expériences ont été menées en temps différé, la synthèse du signal sonore ne débutant qu une fois la totalité du mouvement articulatoire acquis. L objectif de se stage est de réaliser une implémentation temps réel d une des techniques de conversion visuo-acoustique proposée par Hueber[1], (approche par GMM), et d évaluer le prototype réalisé dans une situation de communication réaliste. 7

Dans ce rapport, nous détaillerons successivement le protocole d acquisition de données multimodales, l analyse des données acquises (extraction des descripteurs visuels et acoustiques), les techniques de mapping visuo-accoustique et enfin l adaptation de ces procédés au temps réel. 8

Chapitre 2 La parole silencieuse L usage quotidien distingue deux modes de production de parole. La parole modale, classique, est le mode de production qui est utilisé de façon normale dans une conversation en face à face. La voix chuchotée est utilisée pour parler dans un environnement silencieux sans déranger les personnes proches. En parole chuchotée, les organes qui permettent la production d un son particulier ont, en premiere approximation, la même position qu en voix modale, mais, dans le cas de la parole chuchotée, les cordes vocales ne vibrent pas. Dans le contexte de l étude, on peut également parler de parole silencieuse. Ce mode de production n est pas considéré comme un mode de production classique puisqu il consiste à activer les organes responsables de la parole de la même façon qu en parole classique ou chuchotée mais en bloquant tout flux d air en provenance des poumons. Aucun son n est émis en parole silencieuse. La production de la parole est un phénomène très complèxe qui met en jeu de nombreux muscles et organes. Ainsi, les éléments des systèmes respiratoires (poumons, nez), digestifs (langue, dents) ou même à l interface de ces deux systèmes (larynx, epiglotte, lèvres) sont utilisés pour l émission de sons complexes dans le cadre de la parole. 2.1 Production de parole. 2.1.1 Analogie source-filtre. L appareil phonatoire est souvent comparé, en traitement de la parole, à un système source-filtre. Les poumons insufflent de l air dans le larynx qui, selon l ouverture ou non des plis vocaux le transforme en un bruit blanc ou un train d impulsions. le couple poumons/larynx agit donc comme une source. Le flux d air parvient ensuite dans la partie supérieure des voies aériennes. Le mouvement des cordes vocales ou l absence de mouvement va mettre en forme ce flux d air qui va ensuite résonner dans les cavités orales (buccale et nasale). Les propriétés acoustiques de notre résonnateur dépendent de sa géométrie, que nous faisons varier en changeant la position de nos articulateurs. 2.1.2 Les différents articulateurs de la parole. La production de sons s effectue via la modulation du flux d air en provenance des poumons par les différents articulateurs. Chaque articulateur possède son rôle propre le 9

long du conduit vocal. En s appuyant sur Le Huche[8] et de Boite et al.[9], on décrit l appareil vocal humain et les fonctions des différents articulateurs qui le composent. Figure 2.1 Schéma de l appareil phonatoire humain, coupe sagittale médiane Le Larynx Afin de produire un son, il est nécessaire d insuffler de l air dans le conduit vocal. Le premier élément que rencontre l air en sortant des poumons est le larynx. Celui-ci se situe au point de rencontre entre les voies digestive et aérienne. Il permet donc d aiguiller l air vers les poumons et les aliments vers le système digestif par le biais de l épiglotte. En outre, les différents muscles du larynx permettent de déterminer le caractère voisé ou non de la voix. En effet, les plis vocaux (communément appelés cordes vocales) sont des muscles qui, s ils sont ouverts, laissent passer le flux d air tel quel, non perturbé, et qui, s ils sont fermés, vont être forcés à s ouvrir lorsque la pression de l air sera trop importante. Aussitôt la pression de l air redescendue, ils se ferment de nouveau. Ce phénomène d ouverture périodique des plis vocaux donne son caractère voisé à la voix : les plis vocaux d un chanteur qui produit un la440 s ouvrent et se referment à une fréquence de 440Hz. Ce trait de voisement permet de produire les voyelles d une part et les consonnes voisées d autre part : [b] de bateau [d] de demi [v] de voiture [z] de zeste [zh] de jouer 10

[g] de guitare [r] de rue [l] de lit Les sons ci-dessus sont dits voisés ou sonores car leur prononciation implique une vibration des plis vocaux. Ils possèdent par ailleurs pour la plupart leur homologue non voisé : en première approximation, la forme du conduit vocal est identique que l on prononce un [p] ou un [b] mais dans le cas du [b], les plis vocaux vibrent tandis que la glotte reste grande ouverte lors de la prononciation du [p]. On peut ainsi opposer les sons suivants : [p] de pain (analogue au [b]) [t] de tente (analogue au [d]) [f] de faux (analogue au [v]) [s] de santé (analogue au [z]) [sh] de chat (analogue au [zh]) [k] de cou (analogue au [g]) Ces consonnes prononcées sans le voisement sont appelées consonnes sourdes. Ainsi, si l on prononce par exemple [aba] et [apa] en chuchotant, comme les cordes vocales ne vibrent pas, il sera, a priori, impossible de les distinguer. Le résonateur L air sortant du larynx, peut ainsi être mis en forme par le conduit vocal grâce aux différents articulateurs qui composent le conduit vocal. La cavité nasale Le velum, ou voile du palais, ainsi que la luette, peuvent s abaisser afin de permettre à l air de passer à la fois par la bouche et par le nez. On parle alors de sons nasaux qui se composent de voyelles (lin, clan, long, jungle) et de consonnes (mat, nid, parking, oignon) La langue La langue est un organe du système digestif dont la fonction première est la déglutition. Elle joue cependant un rôle prépondérant dans la production des voyelles. On classe d ailleurs les voyelles en fonction de deux critères : le lieu d articulation de la langue qui décrit la position la langue dans la bouche et permet de qualifier les voyelles ainsi émises d antérieures, de centrales ou de postérieures. L aperture, elle, décrit l espace existant entre la langue et le palais distinguant ainsi les voyelles dites hautes de celles dites basses. Si les voyelles se distinguent par la position et le volume de l espace de résonance, les consonnes, elles, se distinguent par le lieu d obstruction permettant la génération de bruit. Les détails de la production de consonnes sont renseignées dans le tableau figure 2.2 Les lèvres La langue et les lèvres sont les deux articulateurs principaux du système de production de la parole. Les lèvres permettent la production des consonnes dites bilabiales : [p], [b], [m] ; et des consonnes labiodentales (contact entre la lèvre supérieure et les dents de la mâchoire inférieure) : [f], [v]. On peut donc constater que la production de parole est rendue possible possible grâce à l action coordordonnée plusieurs organes. De plus, l aspect dynamique de la production de la parole entraine de potentielles confusions liés au phénomène dit de coarticulation. 11

Figure 2.2 tableau détaillant la production des consonnes en fonction du lieu d articulation. 2.1.3 La coarticulation. La coarticulation est un phénomène dynamique qui consiste à anticiper le lieu d articulation suivant. On peut ainsi avoir différents placements de la langue pour émettre un même son. L exemple figure 2.3 montre une acquisition ultrason de la langue et une image des lèvres pendant la prononciation des logatomes iki et uku (il s agit de l écriture phonétique, à prononcer oukou )au moment de la prononciation du son [k]. L acquisition ultrasonore doit être comprise comme une coupe de la cavité buccale dans le plan sagittal médian (vue de profil), le bout de la langue se trouvant à droite de l image. Le trait rouge représente la partie supérieure de la langue qui vient, dans les deux cas, toucher le palais. Ce phénomène de coarticulation, mis en évidence dans cet exemple, permet de constater que la trajectoire des articulateurs dépend beaucoup du contexte dans lequel est placée la cible (ici, le son [k]) et qu on peut donc avoir différentes positions des lèvres et de la langue pour l articulation d un même son. Visible ici sur la coarticulation du son [k], ce phénomène apparaît sur la quasi totalité des consonnes du français. Au regard de ce rapide récapitulatif sur la physiologie de l appareil vocal et des mécanismes qui sous-tendent la production de la parole, on constatera que le problème de la parole silencieuse est particulièrement mal posé. En effet, en parole silencieuse, aucune information sur l activité laryngée n est disponible, il sera donc a priori difficile de reconnaitre si une consonne est voisée ou sourde. De plus, dans l approche étudiée, ne sont accessibles que les mouvements de la langue et ceux des lèvres. Aussi, il sera a priori également difficile de distinguer les sons faisant intervenir le voile du palais ([p]/[m], [t]/[n], etc.) Enfin, la restitution d un contenu prosodique acceptable, c est-à-dire l intonation d une phrase (qui dépend notamment des variations de la fréquence de vibration moyenne des cordes vocales à l échelle d un groupe de souffle) est un point très problématique en parole silencieuse (qui ne sera pas abordé dans le cadre de ce travail). 12

iki uku Figure 2.3 Différentes positions de la langue et des lèvres lors de la prononciation d une même son [k] selon le contexte 2.2 État de l art Ce travail s inscrit à la suite des travaux de Hueber[1]. Le schéma-bloc figure 2.4 décrit les différents modules de l interface de communication silencieuse qu il a établi. Figure 2.4 Schéma bloc résumant les différentes étapes de la conversion d images vers de la parole. Deux approches ont été proposées par Hueber[1] pour effectuer l étape de conversion visuo-acoustique. Elles s appuient sur l utilisation de techniques de modélisation par apprentissage statistique, pour construire une fonction de régression de l espace des paramètres visuels vers l espace des paramètres acoustiques. La première approche, dite di- 13

recte s appuie sur une modélisation des données audiovisuelles par un modèle de mélange de gaussiennes (GMR, gaussian mixture regression). C est cette approche qui sera utilisée dans le cadre de ce travail, pour la conception d un prototype temps-réel. La seconde approche proposée par Hueber, est dite indirecte, car elle introduit, en amont du processus de synthèse du signal audio, une étape de classification, qui consiste à reconnaître dans le mouvement articulatoire observé, une séquence (discrète) d étiquettes phonétiques. Cette étape permet notamment l introduction de connaissances linguistiques a priori (comme par exemple, une liste de mots autorisés ). Cette seconde approche fournit de meilleurs résultats que l approche directe, mais nécessite, dans sa définition actuelle, l observation de la totalité du mouvement articulatoire avant de pouvoir débuter la synthèse du signal audio. Cette approche n est donc, pour l instant, pas adaptée pour une implémentation temps réel, et n a donc pas été retenue dans le cadre de ce travail. 2.3 Le temps réel Par définition, un système est dit temps réel si le temps de traitement des données est constant. Dans notre système de conversion visuo-acoustique, nous visons un temps de traitement inférieur à 50ms car il s agit de la durée limite pour parler sans que le retour de sa propre parole ne soit perturbant (provoquant un bégaiement). Une application temps réel présente deux principaux avantages : 1. Bien que moins performant que le système analogue en temps différé, il permet au locuteur d avoir un retour quasi direct de ce qui est censé être prononcé. Le locuteur peut donc tenter d apprendre à utiliser le système pour l amener à faire ce qu il souhaite même si l articulation en parole silencieuse est plus difficile à réaliser que l articulation en parole vocalisée. 2. Lors d une interaction face à face, il est important que la conversation ait une certaine dynamique. Un système temps réel avec un court temps de traitement des informations permet d assurer cette dynamique dans l échange et donc rendre la conversation plus vivante. 14

Chapitre 3 Acquisition. 3.1 Génération de corpus et statistiques 3.1.1 Les corpus utilisés La mise en place du modèle utilisé pour la conversion visuo-acoustique s effectue par apprentissage supervisé. Ceci necessite donc l enregistrement d une base de données, qui associe des séquences visuelles de mouvements articulatoires (ultrasonores et vidéo) avec les sons associés. Afin de couvrir de façon optimal les espaces articulatoires et acoustiques, nous avons constitué un large corpus de phrases comportant : Les phrases de combescures[10] qui ont été enregistrées sont au nombre de 100. Elle sont, par groupe de 10 phrases, phonétiquement équilibrées. C est à dire que les mots sont choisis de façon à ce que la fréquence d apparition de chaque phonème dans la phrase soit la même qu en français. Les phrases tirées du Monde sont au nombre de 288 et sont également phonétiquement équilibrées. Les logatomes sont des suites de sons ou de syllabes sans signification particulière. Ils sont en général constitués d une suite de voyelles (V) et de consonnes (C) du type VCV (comme [aka]) ou CVC (comme [pop]). Bien qu ils puissent également être plus long, le corpus ne contient que des VCV et des CVC. On retrouve donc les 14 voyelles du français et les 18 consonnes du français pour les CVC, les voyelles et 15 consonnes pour les VCV (les 3 semis consonnes,[j] de yeux,[w] de fouet et [u] de lui avaient été retiré du corpus dans un premier temps). On compte donc 224 VCV et et 252 CVC. Certains VCV ayant été réenregistrés pour des besoins de test, on a un total de 224 + 160 = 384 VCV. Des voyelles tenues ont été enregistrées. Elles sont au nombre de 20 (14 voyelles et 6 transitions entre les voyelles les plus communes) et ont été répétées 2 fois. Des mots isolés ont également été enregistrés. Ils sont issus du test d oppositions de consonnes mis au point par Rossi[14] et sont au nombre de 181 mots. De plus 30 mots et phrases (répétés 2 fois) qui ont servi au départ à tester le système et qui sont ensuite venus s intégrer à la base de données ont également été enregistrés. On peut constater qu en début et en fin d enregistrement, il y a un court temps de latence durant lequel aucun son n est émis. Afin de ne pas avoir trop de trame de silence dans notre corpus, une étape de marquage des silences en vue de leur suppression est ajoutée au moment de l acquisition. Ce marquage se fait par detection d un dépassement d amplitude. Le premier et le dernier dépassement d un seuil correspondent au début et à la fin d une phrase. on constate après enregistrement du corpus en entier que sa durée totale est de 63 minutes dont 13 minutes de silence (soit près de 20%). Le détail du temps 15

de chaque sous-corpus est précisé figure 3.1 Nom du corpus Phrases de combescure Le Monde VCV CVC Voyelles tenues Test d opposition de Rossi Phrases de test Total Temps 4 minutes 35 secondes 13 minutes 27 secondes 11 minutes 29 secondes 6 minutes 52 secondes 7 minutes 12 secondes 4 minutes 20 secondes 2 minutes 27 secondes 50 minutes et 22 secondes Figure 3.1 Temps de parole effective par sous-corpus 3.2 Le logiciel : Ultraspeech Afin d acquérir les différents flux, on utilise le logiciel ultraspeech, développé par Thomas Hueber [1]. Il permet, en particulier, de synchroniser l acquisition des différents médias : audio, vidéo et ultrason. En effet, il est primordial que les différents flux soient parfaitement synchronisés afin d associer une configuration articulatoire au son qu elle permet de générer. 3.3 3.3.1 Acquisition audio et vidéo Le casque Pour permettre un positionnement précis des capteurs video et ultrasonore entre les différentes sessions d acquisition de données, on utilise un casque moulé selon la tête du locuteur. Ce casque a été réalisé en collaboration avec l ESPCI ParisTech et le LPP Université Paris et est présenté figure 3.2. (a)-caméra filmant les lèvres (b)-enregistrement Ultra-sonore Figure 3.2 Photographies du casque permettant d acquérir les enregistrements des différents articulateurs porté par M. Thomas Hueber 16

3.3.2 Caméra Afin d enregistrer le mouvement des lèvres, une caméra est fixée à l extrémité du casque et pointe vers une zone un peu plus large que la bouche. La caméra réalise un acquisition à raison de 60 images par secondes, en noir et blanc avec une résolution de 640x480 pixels. On peut voir un exemple de l image acquise sur l illustration de gauche de la figure 3.3-(a). Afin de s affranchir des variations de luminosité, on utilise un système de LED couplé avec un filtre afin de de récupérer que les composantes infrarouges du spectre. Bien que l image de gauche de la figure 3.3-(a) ait été acquise dans le noir complet, on peut voir que le résultat permet de faire de très nombreuses d interprétations et qu il est, a priori, possible d étudier le mouvement des lèvres à partir de cette image. 3.3.3 Ultrasons Le mouvement de la langue est lui enregistré à l aide d une sonde à ultrasons placée sous la mâchoire comme le montre la photo, figure 3.2-(b). On enregistre les données ultrasonores à une fréquence de 60 images par secondes, et les images ont une résolution de 320x240 pixels. La bande passante de la sonde est 4-8 Mhz. L ouverture angulaire est de 140, la profondeur maximale d exploration est fixée à 7cm. Avec ces réglages, la résolution spatiales est de l ordre d un demi-millimètre. L image obtenue par ce dispositif est celle visible sur la partie droite de la figure 3.3. (a)-image type acquise par la caméra (b)-image type acquise par la sonde Ultra-sonore Figure 3.3 Images types acquises par les dispositifs de capture du casque. Il est important de toujours avoir la même vue de la langue comme de la bouche. Ainsi, afin de permettre à l utilisateur de reprendre entre chaque session la même prise de vue, il est nécessaire d enregistrer des images de calibration. En pratique, la calibration des lèvres se fait en comparant la vidéo à une image des lèvres au repos. Celle de la langue se fait en comparant l ultrason à une image de la langue en train de d articuler la voyelle [i]. Les images de calibration sont celles présentées figure 3.3 3.3.4 Audio Pour procéder à l enregistrement, on place le sujet dont on souhaite acquérir la voix dans une chambre anéchoïque. Une telle salle est étudiée pour minimiser autant que possible les réverbérations en plaçant au mur, au plafond et au sol des pyramides à base carrée 17

en mousse. Ainsi, le signal acoustique ne se réverbère quasiment pas et aucun son parasite lié à la production de parole n est enregistré. Toujours dans une optique de réduction de bruit, les appareils électriques tels que les ordinateurs sont délocalisés dans une salle connexe. Le signal est enregistré avec une fréquence d échantillonage de 44100Hz. 18

Chapitre 4 Extraction des caractéristiques Afin de procéder à l association entre images et son, il est nécessaire de trouver des descripteurs de chaque média qui le décrivent fidèlement et en peu de coefficients. En effet, si l analyse des images se faisait en ne s appuyant que sur le niveau de gris de chaque pixel individuellement, on aurait de nombreuses redondances au sein des descripteurs. Afin de réaliser une correspondance entre une trame de video et un échantillon audio, il est nécessaire de choisir des caractéristiques telles que peu de descripteurs puissent porter un maximum d information. On cherche donc à réduire le nombre de paramètres pour, par exemple, passer de 640 480 + 240 320 = 384000 descripteurs (nombre de pixels dans les images de la caméra et de l ultrason) à une cinquantaine par couple d image. L étape d extraction des caractéristiques à pour but d extraire des données brutes l information qui nous semble pertinentes dans chacune des modalités (visuelle et audio), en vue de l étape de modélisation visuo-acoustique. Cette étape peut également être perçue comme une étape de compression des données. 4.1 Extraction des caractéristiques visuelles Une approche qui avait été choisie par Hueber[1] et d autres équipes travaillant sur une problématique similaire est le calcul des coefficients TCD (Transformation en Cosinus Discrète - Discret Cosine Transform (DCT) en anglais) de l image. Dans le cadre d une approche par TCD, l information pertinente est celle qui est portée par les basses fréquences spatiales. 4.1.1 La Transformation en Cosinus Discrète La Transformation en Cosinus Discrète est une technique très utilisée, en particulier dans le format de compression JPEG. Elle permet notamment d obtenir un signal bidimensionnel dans le domaine des fréquences spatiales. De même que la transformée de Fourier, la Transformation en Cosinus Discrète n implique pas la perte d information, elle transforme donc une image NxN du domaine spatial en une image de même taille du domaine des fréquences spatiales selon la formule (4.1) et est réversible. DCT (u, v) = N M i=1 j=1 [ π I(i, j) cos N (i 1 ] [ π 2 )(u 1) cos N (j 1 ] 2 )(v 1) (4.1) L image ainsi obtenue se lit depuis le pixel situé en haut à gauche qui représente la valeur de la composante continue (moyenne de l intensité des pixels de l image) puis se 19

parcourt en zigzag, chaque fréquel - équivalent fréquentiel du pixel, par analogie avec l opposition temps/fréquence - renseignant les variations d intensité plus ou moins rapides selon sa position par rapport à l origine. L illustration figure 4.1 illustre la transformation d une image vers l espace des fréquences spatiales. (a) Image originale filtrée et re-(bdimensionnée (32x32 pixels) correspondant aux basses fréquences spatiales (parcours zigzag Transformée en cosinus discrète et extraction des coefficients ) Figure 4.1 Transformée en Cosinus Discrète : extraction des coefficients DCT Afin de déterminer le nombre de coefficients qu il est intéressant de conserver, il est possible de calculer l erreur de reconstruction que l on obtient en ne gardant que les n premiers coefficients de la TCD. En effet selon (4.2), on peut estimer E n, l erreur quadratique de reconstruction d une image dont on a conservé seulement les n premiers coefficients. E n = I În 2 I 2 = N 2 k=n+1 α 2 k N 2 k=1 α 2 k (4.2) Afin de réduire le temps de calcul, on commence par un sous-échantillonnage de l image. En effet, sous-échantillonner une image correspond, dans le domaine fréquentiel, à diminuer la fréquence d échantillonnage. L information basse fréquence qui nous intéresse (de fréquence inférieure à la nouvelle fréquence d échantillonnage) est elle, complètement inchangée mais le calcul de la TCD sera par contre beaucoup plus rapide. On procède donc, avant de calculer la TCD, à un filtrage puis un sous-échantillonnage de l image pour l amener à une taille de 32x32 pixels. Hueber [1] a montré que si l on souhaite obtenir une image reconstruite conservant 80% à 90% de l énergie initiale, il suffit de conserver les 30 premiers coefficients de la TCD (soit seulement 3% des coefficents). De plus, afin de ne pas analyser les parties qui ne fournissent pas d informations sur les mouvements mis en jeux, il est également intéressant de mettre en place des régions d intérêt sur les image obtenues. On peut donc, toujours avec le même nombre de coefficients ne décrire que les parties variables des images analysées. 4.2 Extraction des caractéristiques acoustiques 4.2.1 Analyse mel-cepstrale Pour l extraction du contenu spectral du signal de parole acoustiques, nous avons adopté une approche classique en traitement du signal de parole : l analyse mel-cepstrale. Comme expliqué précédemment, le signal de parole peut être décrit comme le résultat de l excitation, par un signal source, d un filtre résonnant dont les caractéristiques varient au cours du temps. Cependant, les images ultrasonores et vidéos ne renseignent que sur 20

l état du conduit vocal (le filtre), et non sur celui de l appareil excitateur (la source). Aussi, il semble préférable, pour la modélisation visuo-acoustique, d opter pour une technique de description du signal acoustique qui isole les contributions du filtre de celles de la source. Cette déconvolution source-filtre peut être effectuée par analyse cepstrale. Le cepstre réel est défini comme la transformée de Fourier inverse, du logarithme du spectre (déconvolution homomorphique). En reconnaissance de la parole, l analyse cepstrale est utilisée pour l extraction des coefficients dits MFCC (pour Mel Frequency Cepstral Coefficient). Il s agit alors d évaluer le contenu spectral du signal sur une échelle fréquentielle non-linéaire, dite échelle de Mel, qui rend compte des caractéristiques propres à la perception des sons par l oreille humaine. Ce traitement est généralement effectué dans le domaine fréquentiel, en multipliant le module de la TFD par le gabarit d un banc de filtres triangulaires répartis sur l échelle de Mel, puis en intégrant les coefficients résultants sur chacun des intervalles définis par ce banc de filtres. Un schéma récapitulatif de la procédure couramment utilisée pour le calcul des coefficients mel-cepstraux est proposé à la figure 4.2. Ce schéma de calcul, très utilisé dans le cadre de la reconnaissance de la parole, n est pas applicable dans un contexte de synthèse. En effet, il est impossible de retrouver l enveloppe spectrale originale à partir des coefficients mel-cepstraux calculés selon ce schéma pour deux raisons. D une part le filtrage par banc de filtres effectue, sur chacun de ces filtres, une moyenne du spectre : il s agit d une opération destructrice, donc irréversible. D autre part ce schéma de calcul est basé sur l utilisation du cepstre réel. Ce dernier ne considère que le spectre d amplitude sans tenir compte des informations fournies par le spectre de phase. Pour permettre une transformation réversible utilisable dans un contexte de synthèse, un autre schéma de calcul, basé sur le cepstre complexe, a été proposé par Imai [12]. C est ce shéma de calcul (dont les détails ne seront pas rappelés ici par soucis de concision) que nous avons adopté pour l extration des caractéristiques acoustiques. Figure 4.2 Schéma-bloc de l analyse MFCC d un signal Imai [12], est parvenu à contourner le problème de non-inversibilité du filtrage en trouvant une bijection entre un signal audio et un jeu de coefficients. Il a donc développé un vocodeur qui fonctionne avec les coefficients dits mel-cepstraux généralisés. Le vocodeur Mel Log Spectrum Approximation (mlsa) permet donc non seulement d extraire des coefficients décrivant un flux audio mais aussi de générer un signal audio à partir de coefficients. Le synthétiseur de parole mis au point par Imai fonctionne selon le modèle source-filtre expliqué en introduction. Un filtre est créé a partir des coefficients extraits et l excitation de ce filtre permet de générer un signal de parole. Si on souhaite générer un signal voisé de fréquence fondamentale f 0, l excitation sera alors un train d impulsions de fréquence 21

f 0. Si le signal n est pas voisé, on excite alors le filtre par un bruit blanc. Le résultat est alors semblable à de la parole chuchotée. Dans notre étude, le signal est préalablement sous-echantillonné à 16kHz, la taille de fenêtre d analyse (Hanning) est fixée à 20ms, et la fréquence d analyse à 200 Hz (décalage de 5ms). Le nombre de coefficients est fixé à 25. L extraction des caractéristiques se fait ensuite via la toolbox SPTK, Speech Processing Tool Kit, développée par Imai et al[12] qui permet, à partir d un fichier d extension.wav de renvoyer un fichier binaire contenant les coefficients mel-cepstraux décrivant le signal. Echelle de mel Due à la forme de la cochlée, organe de l audition, la résolution auditive suit une échelle logarithmique. Cela se traduit par le fait qu un sujet sera capable de distinguer la différence entre 100Hz et 110Hz alors qu il n entendra pas de différence entre 8000Hz et 8010Hz. Afin de pallier cette caractéristique de la perception, l échelle de mel, adaptée à l oreille humaine, a été créée par Stevens et al. [11]. Cette échelle est telle qu une différence de 10mel sera toujours perçue de la même manière, que ce soit en basses ou en hautes fréquences. La conversion mel/hertz se fait selon la relation 4.3 m = 1127 ln(1 + 4.2.2 Analyse du voisement f ) avec m : fréquence en mel et f fréquence en Hz (4.3) 700 En plus du contenu spectral, nous extrayons également la caractéristique voisée/nonvoisée à l aide d un algorithme de mesure de la périodicité du signal (disponible dans la toolbox SPTK). Les paramètres de l analyse par fenêtre glissante sont similaires à ceux utilisés pour l analyse mel-cepstrale. 22

Chapitre 5 Conversion Visuo-Acoustique. 5.1 Utilisation du corpus dans le cadre d un apprentissage Lorsque l on effectue un apprentissage supervisé, il est important de diviser le corpus dont on se sert en plusieurs sous-corpus. En effet, on distingue généralement : Un corpus dit d apprentissage, qui sert à estimer les paramètres du modèle. Un corpus de validation qui sert à fixer la compléxité du modèle. Il sert également à fixer la capacité de généralisation du modèle en fournissant un critère d arrêt en cas d algorithme itératif (pour éviter d apprendre le corpus d apprentissage par cœur). Un corpus de test qui sert à réaliser une évaluation objective des performances du modèle estimé. Dans le cas où la sortie est un média audio, écouter les fichiers générés à partir de l ensemble de test permet d évaluer subjectivement l apprentissage. 5.2 Prise en compte du contexte Comme expliqué dans la section 2.1.3, il est fréquent, dans le processus de production de la parole d avoir différentes configurations articulatoires correspondant à un son et, inversement, plusieurs sons qui peuvent correspondre à une seule configuration articulatoire, faute d informations sur les autres articulateurs. Afin d outrepasser ce problème, il est possible d associer à un son l image correspondante mais également de donner des informations sur ses variations par rapport aux images précédentes et suivantes. La prise en compte du contexte visuel peut donc s opérer via la simple concaténation des caractéristiques des images suivant et précédant l image traitée. On parle alors d ajout de contexte. Le principal problème qu entraîne cette pratique est la multiplication des dimensions en entrée. En effet, on a vu que si l on souhaite garder 80 à 90% de l information contenue dans une image, il est nécessaire de conserver les 30 premiers coefficients de la Transformée en Cosinus Discrète. Avec deux flux à traiter (lèvres et langue), cela représente déjà 60 coefficients. Si on souhaite ajouter une trame de contexte dans le futur et une trame de contexte dans le passé, on passe à 180 coefficients pour l espace des caractéristiques visuelles. Il est cependant important que l espace des caractéristiques visuelles ne soit pas de dimension trop élevée, faute de quoi, le temps de calcul est décuplé. Il est donc intéressant d utiliser des techniques de réduction de dimension pour revenir à un nombre de coefficients acceptable. 23

5.2.1 L Analyse en Composantes Principales L analyse en composantes principales est une technique qui permet de décorréler des variables liées entre elles. Cette technique permet de calculer quelles sont les composantes qui véhiculent le plus d information au sein d un corpus de données et d en faire les axes porteurs de l information. Ainsi, au sein d un corpus, on peut calculer une famille vecteurs tels que la variance selon chaque direction soit aussi grande que possible. On peut voir, figure 5.1, que cette nouvelle base, liée au données, permet de les décrire avec des descripteurs pertinents. Bien qu elle n ait, a priori, pas de réalité physique, cette base est plus adaptée aux données puisqu elle décrit l écart d un point à la moyenne. Figure 5.1 Vecteurs décrivant le la mieux la répartition de la variance des données En plus de créer une base davantage adaptée aux données, l analyse en composantes principales ordonne les différents vecteurs de la base qu elle crée selon la variance portée par chacun d eux. Ainsi, on peut choisir de ne garder qu un certain nombre de vecteurs de la base pour réduire la dimension de l espace tout en conservant un maximum de variance. Dans l exemple figure 5.1, on peut choisir de ne conserver que le premier vecteur de la base, supprimant ainsi un peu d information mais simplifiant énormément la description des données. L exemple figure 5.1 montre un jeu de données d un espace de dimension 2 projetées sur un espace de dimension 2 pour qu il soit illustrable mais en pratique, on peut aller d un espace de dimension n quelconque vers un espace de dimension m < n. Dans nos expériences, on ajoute en général le contexte jusqu à 3 images dans le passé et 3 images dans le futur. En conservant 30 coefficients TCD, cela représente tout de même 420 coefficients. La figure 5.2 montre que conserver 30 coefficients sur 420 (un zoom a été réalisé sur la courbe pour faciliter la lecture) permet de conserver 98.5% de la variance. 24

Figure 5.2 Variance cumulée en fonction du nombre de composantes conservées L ajout de contexte en temps différé permet d augmenter considérablement les performances de la reconstruction. Cependant, en temps réel l utilisation du contexte futur entraîne un retard égal au nombre de trames futures prises en compte. 5.3 Régression par Mélange de Gaussiennes Afin d inférer une enveloppe spectrale à partir d une image (ou d un contexte visuel), on utilise une technique de régression non linéaire dite de régression par mélange de gaussiennes. 5.3.1 Principe général de la Régression par Mélange de Gaussienne. Dans une modélisation par mélange de gaussiennes, chaque réalisation x est considérée comme une réalisation aléatoire de probabilité p(x Θ) (Θ étant l ensemble des paramètres du modèle). Cette probabilité est une somme des contributions de m gaussiennes et s exprime donc sous la forme : m p(x Θ) = α i p i (x θ i ) (5.1) i=1 avec x = [x 1, x 2,..., x d ] un vecteur aléatoire de dimension d. θ i = {µ i, Σ i } les paramètres d une distribution normale de moyennes µ i = [µ i1, µ i2,..., µ id ] et de matrices de covariance Σ i M d,d (R) On a donc, (5.2) : p i (x θ i ) = N(x, µ i, Σ i ) avec [ 1 N(x, µ i, Σ i ) = (2π) d/2 Σ 1/2 exp 1 ] (5.2) 2 (x µ i) T Σ 1 i (x µ i ) 25

Les paramètres α i, i = 1,..., m sont appelés probabilités a priori et représentent la probabilité qu un point de l espace se situe dans la gaussienne i. On a i [1, m] 0 α i 1 et m i=1 α i = 1. En plus des probabilités a priori {α i } i=1,...,m, entraîner le modèle consiste aussi à calculer les moyennes µ i et les matrices de covariance Σ i de chacune des gaussiennes. L ensemble des paramètres optimaux, est obtenu à partir d un ensemble d observations, à l aide de l algorithme EM (Expectation-Maximization). Les détails de fonctionnement d un tel algorithme ne seront pas fournis dans ce rapport mais peuvent être trouvés dans les travaux de Stylianou[15]. Pour l élaboration de la fonction de conversion visuo-acoustique, nous adoptons l approche mise en œuvre par Kain dans [16]. Cette dernière est basée sur la modélisation, par un mélange de gaussiennes Θ, de la densité conjointe p(x, Y ), où X et Y représentent les variables aléatoires associées respectivement aux espaces source et cible. Les paramètres du modèle sont estimés a l aide de l algorithme EM, à partir d une matrice d observations conjointes, notée Z M dvisuel +d acoustique,n(r), définie par (eq. (5.3)) : x 1,1... x 1,N Z = [ ] X = Y..... x d1,1... x d1,n y 1,1... y 1,N..... y d2,1... y d2,n (5.3) Dans notre cas, X M d1,n(r) et Y M d2,n(r) sont deux ensembles constitués respectivement de N observations visuelles et acoustiques Initialisation de l algorithme EM : K-moyennes On retiendra que préalablement à l apprentissage, afin de placer approximativement les moyennes des gaussiennes dans l espace, on effectue une classification des données grâce à l algorithme dit des K-moyennes. Cet algorithme consiste à créer m classes parmi N points d un espace de dimension quelconque. Cette classification se fait par minimisation d une distance définie pour l espace considéré de façon à ce que chaque point de la classe i soit le plus proche du point moyen µ i. On cherche donc les µ i tels que m i=1 x j S i x j µ i 2 soit minimum. (5.4) µ i étant le barycentre des points appartenant à la classe i. Inférence des coefficients mel-cepstraux Stylianou[15] a montré qu après calculs des paramètres des lois normales grâce à l algorithme EM, l estimation des paramètres acoustiques ŷ est une somme de régressions linéaires pondérées par la probabilité a posteriori que la réalisation ait été produite par la i eme gaussienne. m ŷ = F (x) = (W i x + b i ).P (c i x) (5.5) i=1 Avec m le nombre de gaussiennes, P (c i x) la probabilité conditionnelle a posteriori (la probabilité qu on se situe dans la i eme gaussienne connaissant x), W i la matrice de transformation et b i le vecteur biais associés à c i, la i eme gaussienne. 26

W i = Σ Y i X (Σ XX i ) 1 b i = µ Y i Σ Y i X (Σ X i X) 1 µ X i α i N(x, µ X i, Σ XX i P (c i x) = mp=1 α p N(x, µ X p, Σ XX p ) (5.6) Avec Σ i = [ Σ XX i Σ Y i X Σ XY i Σ Y i Y ] et µ i = [ µ X i µ Y i ] En exploitant les équations (5.5) et (5.6), on arrive au résultat (5.7) qui est employé tel quel pour calculer le résultat du mapping en temps réel comme on le verra dans la section 6 consacrée à l implémentation du système. ŷ = M m=1 [ [µ Y m + Σ Y m X (Σ XX m ) 1 (x µ X m)].p(c m x) ] (5.7) 5.3.2 Influence du nombre de gaussiennes sur les performances On associe la capacité du système à générer un signal intelligible à la distorsion melcepstrale que l on peut calculer en comparant les coefficients estimés à partir du signal original et les coefficients prédits par le modéle visuo-acoustique (equation (5.8)). L utilisation de la distorsion mel-celpstrale comme mesure de l erreur est justifiée par Kominek[17]. DMC(s, ŝ) = 1 N N 1 n=0 α M ( Ki (n) ˆK i (n) ) 2 i=1 Avec M le nombre de coefficients mel-cestraux N le nombre de trames de signal que l on teste. α = 10 2 coefficient de normalisation [17] [18] ln 10 K i (n) le i eme coefficients mel cepstral de la n ieme trame ˆK i (n) sa valeur estimée grâce au mapping. (5.8) Dans le cadre de cette étude, nous ne prenons pas en compte l erreur commise sur le premier coefficient mel-cepstral, qui correspond à l énergie moyenne du signal. En effet, cette information n est pas disponible dans le cadre d une production silencieuse, et n est pas, en première approximation, décisive pour garantir l intelligibilité du signal de synthèse. En pratique, on constate qu un signal de synthèse présentant une distortion melcepstrale de l ordre de 7dB commence à être intelligible. La figure 5.3 montre l évolution de la distorsion mel-cepstrale en fonction du nombre de gaussiennes dans le modèle pour différents nombres de trames de contexte dans le futur (le nombre de trames dans le passé étant fixé à 3). Ces différents résultats montrent deux points importants. On atteint un minimum de distorsion mel-cepstrale autour de 100 gaussiennes 27

Figure 5.3 Évolution de la distorsion mel-cepstrale en fonction du nombre de gaussiennes et du nombre de trames utilisées. L utilisation du futur ne permet pas (ou peu, pour une seule trame dans le futur) d améliorer l efficacité du système. Ce point permet donc de se rassurer quant au problème soulevé précédemment lié au retard inhérent à l utilisation de trames dans le futur. Ces calculs ayant été faits en fin de stage, faute de temps, ils n ont d une part pas pu être confirmés par des tests sur d autres corpus, d autre part, ils n ont pas pu être complétés par une étude du nombre de trames dans le passé. 5.4 Estimation du voisement Dans cette étude, nous nous sommes également intéressé à la prédiction de la caractéristique de voisement à partir uniquement des configurations articulatoires, observées par imagerie ultrasonore et vidéo. Bien que la position des cordes vocales ne soit évidemment pas visible dans nos images ultrasonores et vidéos, nous faisons l hypothèse qu il est, dans une certaine mesure, possible de prédire la caractéristique voisée/non-voisée à partir de la position de la langue et des lèvres. Par exemple, il est probable que la configuration articulatoire associée à une voyelle, position qui est généralement tenue plus longtemps et qui est propre à la production de voyelles, sera voisée. La prédiction de la caractéristique (binaire) voisée/non-voisée à partir des images ultrasonores et vidéos étant une tâche de classification, nous nous proposons de l aborder à l aide d un réseau de neurones artificiels. 5.4.1 Les réseaux de neurones artificiels Le réseau de neurones est un outil de classification couramment utilisé qui trouve son principe de fonctionnement sur le système neuronal humain. Les Réseaux de Neurones Artificiels (RNA) sont des combinaisons de fonctions non 28

linéaires élémentaires appelées neurones formels ou simplement neurones. Un neurone réalise une fonction non linéaire bornée de ses entrées : ( n ) y = F ω i x i + β i=1 Où {x i } i [1..n] sont les variables (les entrées) (5.9) {ω i } i [1..n] les paramètres (poids synaptiques) β est le biais Il existe de multiples façons d agencer ces neurones élémentaires et construire ainsi des réseaux complexes. Nous utilisons dans cette étude un perceptron multicouche, dont la structure est illustrée par la figure 5.4. Dans nos expériences, la fonction d activation est de la forme log-sigmoïde. Figure 5.4 Schéma d un réseau de neurone du type perceptron multi-couche permettant de prendre des décisions binaires. source : [19] Le théorème d approximation de Cybenko[20] stipule que toute fonction peut être approchée en théorie par un perceptron multicouche possédant une seule couche cachée. Le nombre de neurone de la couche cachée peut cependant être très important. 5.4.2 Calcul du seuillage optimal : Courbe ROC Le signal en sortie du réseau de neurones est un signal continu et borné entre 0 et 1. Afin de le discrétiser, il est nécessaire de trouver le seuil optimal. Ce seuil peut être déterminé grâce à la courbe dite courbe ROC (Receiver Operating Characteristic - caractéristique de performance du récepteur). Cette courbe permet de contrôler la spécificité et la sensibilité d un classifieur en fonction du seuil. En classification binaire, on peut se retrouver dans 4 situations : une information a été classifiée comme vraie et elle l était réellement. On parle alors de Vrai Positif. Si elle ne l était pas, on parle de Faux Positif. Si elle à été classifiée comme fausse et qu elle l était, on parle de Vrai Négatif et si elle ne l était pas, on parle de Faux Négatif. En ayant établi ce vocabulaire, on peut donc calculer spécificité et sensibilité qui permettent d évaluer un classifieur de façon précise. 29

Pour le classifieur qui détermine si une trame est voisée ou non, la sensibilité est la probabilité que l on a de dire qu une trame est voisé quand elle est censée l être. On a donc : Sensibility = V P V P +F N la spécificité est la probabilité de prédire une trame non voisée sachant qu elle est censée être non voisée : Specificity = V N V N+F P La courbe ROC comporte en abscisse l anti-spécificité (1 spécificité) et en ordonnées la sensibilité. Ainsi, le point (0,0) correspond à une sensibilité nulle et une spécificité maximum : on sort toujours un signal non voisé ainsi, on prédit correctement les moment où le signal n est effectivement pas voisé. La situation inverse se produit au point (1,1) et le but est donc d atteindre le point (0,1) : point où la sensibilité et la spécificité sont maximum : toutes les prédictions s avère correctes. A chaque valeur de seuil testé, on peut calculer la sensibilité et la spécificité associées et on peut donc placer un point de la courbe. On choisit donc un ensemble de valeurs de seuils à tester et le point de la courbe le plus proche du point (0,1) sera le seuil optimal. Le figure 5.5 (avec les mesures ramenées en pourcentage) montre l aspect classique d une courbe ROC. Figure 5.5 5.4.3 Architecture du réseau Pour selectionner le modèle, c est à dire fixer la structure du réseau et plus spécifiquement le nombre de neurones sur la couche cachée, on utilise une procédure de validation croisée : Le modèle est entraîné en faisant varier le nombre de neurones cachés et celui qui donne les meilleurs résultats (au sens des moindres carrés) est choisi. En réalisant l apprentissage plusieurs fois et sur deux corpus de validation, on parvient à la conclusion que le meilleur modèle s obtient avec 15 neurones cachés. 5.5 Évalutation du modèle. Dans nos expériences, les critères que sont la distortion mel-cepstrale ou la précision du classifieur mis en oeuvre pour l estimation de la caractéristique de voisement, ne nous ont pas parus capables de rendre compte systématiquement et fidèlement du niveau d intelligibilité d un signal de synthése. Aussi, nous avons mis en oeuvre un test perceptif, visant à évaluer plus objectivement les performances de notre système. 30

5.5.1 Génération du corpus utilisé lors du test perceptif Le test perceptif a servi à évaluer deux critères importants : l intelligibilité des consonnes et l apport de la vision dans la perception. Il est possible de classer les consonnes selon certains traits : oral/nasal, compact/diffus, grave/aigu, interrompu/continu, sonore/sourd et voisé/non voisé. Rossi[14] a exploité ces particularités en créant un test consistant à discriminer les consonnes qui ne se différencient que par une seule de ces propriétés. Ce test, dit DRT (Diagnostic Rhyme Test), permet de detecter les indices acoustiques pertinents dans les oppositions consonantiques et établit un diagnostique sur le fonctionnement des systèmes de synthèse vocale. Nous avons, afin de tester la qualité de la synthèse de notre vocodeur, adapté ce test à des VCV en conservant les mêmes oppositions consonantiques. L opposition voisé/non voisé a cependant été volontairement retirée du corpus car elle n est, par essence, pas déterminable dans le cas de la parole silencieuse. Dans le test mis en œuvre, le sujet se voit proposé une série de 30 stimuli, de la forme VCV, avec V= [a,i,u] et C=[p,t,k,f,s,sh,m,n,r,l]. Les stimuli sont soit uniquement sonores, soit uniquement visuels (video des lèvres du locuteur prononçant le stimulus), soit audiovisuels (son+video des lèvres). Après présentation de chaque stimulus, le sujet se voit présenté deux propositions (exemple : aka ou ara) et doit choisir laquelle correspond au stimulus qu il vient de percevoir. L ordre de présentation des stimuli est rendu aléatoire ainsi que la position sur l écran du texte correspondant à la proposition correcte. La passation du test s effectue avec le logiciel Neurobs Presentation, dans la chambre anéchoïque du GIPSA-lab. Benoit et al[21] avaient déjà évalué l apport de la vision dans la perception d un son bruité. Dans la même optique, cette évaluation sert à montrer que l apport de la modalié visuelle contribue grandement à l intelligibilité globale. 5.5.2 Résultats Le test ayant été finalisé l avant-dernier jour du stage, le nombre de participants à l étude (10 sujets) n est pas assez important pour tirer des conclusions définitives sur les résultats obtenus. Cependant, aucun des sujets venus participer à l expérimentation n avait d expérience en traitement de la parole et les résultats sont donc fiables du point de vue du biais qu entraîne l implication de professionnels du traitement de la parole. Les résultats figure 5.6 nous montrent que la modalité audio + vidéo permet de gagner beaucoup en intelligibilité malgré le bruit et les imperfections du vocodeur. En effet, on constate que les modalités audio seul et video seule rencontre un taux de reconnaissance inférieur à celui de la modalité audio + video. Ce résultat confirme celui de Benoit et al.[21] qui avaient montré qu avoir de l information visuelle en plus de l audio bruité aidait grandement à la compréhension. En entrant dans le détail des résultats par type d opposition entendu, on se rend compte que les consonnes nasales sont les plus dures à distinguer : [m]/[p], [n]/[l], [n]/[t]. Cette constatation était cependant attendue dés le début car, comme expliqué en début de rapport, nous ne disposions d aucune information sur la position du velum. Les autres oppositions nous montrent que dans tous les cas, la reconnaissance en se servant du contexte audio-visuel est toujours meilleure que l audio et la vidéo seuls. En revanche, certaines oppositions sont plus simples à reconnaitre avec l audio qu avec la video : grave/aigu ([m]/[n], [f]/[s], [p]/[t]) et compact/diffus ([sh]/[s], [r]/[l], [k]/[p], [k]/[t]). À l inverse, d autres oppositions sont plus simples à reconnaitre avec l audio qu avec la video : Vocalique/non vocalique([r]/[k], [r]/[t], [r]/[sh]) et interrompue/continue ([r]/[k], [k]/[sh], [t]/[s], [p]/[f]). Le taux de reconnaissance est globalement 31

Figure 5.6 Analyse des résultats de l expérience selon la modalité Figure 5.7 Résultats de l expérience perceptive selon la modalité et les oppositions élevé pour toutes les modalités mais ceci est lié au fait qu il faille choisir 1 proposition parmi 2 : un choix aléatoire mène à une reconnaissance de 50% (et c est d ailleurs la raison pour laquelle les axes des ordonnées des deux graphiques commencent à 50). 32

Chapitre 6 Implémentation sur plateforme temps-réel En plus de l étude des techniques qui allaient être utilisées en temps réel et qui peuvent être différentes de celles du temps différé - la Regression par Melange de Gaussiennes n est pas la technique la plus performante pour inférer l audio mais elle a le mérite de se faire en temps-réel - le stage consistait à porter ces modules sur un logiciel dédié au traitement en temps réel : max/msp. 6.1 Max/MSP Max/MSP est un logiciel développé par l équipe cycling 74 dédié à la création d applications multimédia interactives. Chaque fonction que l on utilise est représentée par une boîte qui contient un bout de code destiné à agir sur le signal qu il reçoit en générant du son, de la vidéo ou en réalisant des calculs allant de l opération de logique à la densité spectrale de puissance d un signal. Les boîtes représentant les fonctions sont reliées entre elles par des traits (à la manière de simulink). Max dispose d un grand nombre de fonctions qui permettent de réaliser enormément de programmes complexes et certaines équipes développent leur propres modules (appelés externals) et les proposent en libre accés sur internet. Cependant, il est également possible de développer soi-même ses propres modules en respectant le mode de fonctionnement propre à Max. Figure 6.1 Interface graphique de Max/MSP mettant en avant l utilisation de boîtes reliées entre elles par des câbles 33