Techniques de conversion de voix appliquées à l imposture

Transcription

1 Techniques de conversion de voix appliquées à l imposture Patrick Perrot 1,2, Joseph Razik 2, Mathieu Morel 2, Houssemeddine Khemiri 2, et Gérard Chollet 2 1 Institut de Recherche Criminelle de la Gendarmerie Nationale, Département Signal-Image-Parole, 1 boulevard Théophile Sueur, Rosny sous bois, France. 2 CNRS-LTCI-Institut Telecom, Telecom-ParisTech, rue Dareau, Paris, France. [email protected] Résumé L objet de cet article est de présenter une étude comparative à la fois subjective et objective de deux méthodes de conversion de voix et de proposer une nouvelle approche fondée sur une mise en cascade de ces deux techniques. Les critères d évaluation objectifs reposent sur un calcul de distorsion spectrale normalisée et une mesure de vraisemblance alors que les critères subjectifs se concentrent sur une information perceptive. L objectif de notre nouvelle approche est d améliorer le résultat de la conversion d un point de vue perceptif et du point de vue de plusieurs mesures spectrales. Les deux méthodes de base que nous étudions montrent un effet de conversion aux performances semblables. L approche en cascade que nous proposons donne des performances supérieures à ces deux méthodes quelques soient les critères choisis : 6% d amélioration pour la distorsion spectrale et 82% pour la vraisemblance, ainsi qu un léger accroissement de la qualité perceptive. Mots clés Conversion de voix, ALISP, GMM. 1 Introduction Le but de la conversion de voix est de transformer les caractéristiques du signal sonore d un locuteur source vers les caractéristiques d un locuteur cible afin qu un auditeur ou qu un système de reconnaissance automatique ne puisse pas détecter l imposture. La conversion de voix a de nombreuses applications : synthèse, doublage et personnalisation vocale. Les études en conversion de voix permettent également de mettre à l épreuve les systèmes de reconnaissance automatique du locuteur. Différentes méthodes ont été développées au sein de la littérature fondées par exemple sur une quantification vectorielle [1] ou une déformation dynamique du spectre [10]. Toutefois, la plupart de ces approches, bien qu efficace, génère généralement des artefacts dus à des problèmes de phases ou à la conversion des parties non voisées du signal sonore. Nous allons tout d abord nous intéresser à la méthode à base de mélanges de gaussiennes GMM (Gaussian Mixture Model) décrite par Stylianou [8] et améliorée par Kain et Toda [5,9] qui nous a servi de base. Puis nous présenterons la méthode utilisée par Perrot [6] fondée sur l utilisation du codeur-décodeur ALISP (Automatic Language Independent Speech Processing) [2,4]. Enfin, nous réaliserons une combinaison de ces deux approches afin de

2 P. Perrot, J. Razik, M. Morel, H. Khemiri et G. Chollet proposer une nouvelle technique de conversion indépendante du texte. L évaluation de ces différentes approches s effectuera à la fois de façon subjective par des tests perceptifs, et de façon objective par le calcul de mesures de similarités comme la vraisemblance et la distorsion spectrale normalisée. 2 Principe de la conversion de voix Le processus de conversion de voix se décompose en deux étapes : l apprentissage et la transformation. Durant la phase d apprentissage, une séquence de vecteurs spectraux est extraite d enregistrements parallèles alignés de la voix source et de la voix cible. L objectif de cette phase est de déterminer une fonction de conversion optimale qui permet de transformer les vecteurs sources en vecteurs cibles tout en minimisant l erreur quadratique moyenne entre ces vecteurs. La phase de transformation consiste à appliquer cette fonction de conversion aux paramètres de la voix source prononçant un texte quelconque. La plupart des techniques proposées dans la littérature s appuie sur une transformation de paramètres tels que les MFCC (Mel Frequency Cepstral Coefficient) ou les LSF (Linear Spectral Frequency). Concernant la fonction de transformation, différentes possibilités ont été étudiées : la quantification vectorielle [1], la régression linéaire multivariée LMR (Linear Multivariate Regression) [10], la déformation fréquentielle dynamique DFW (Dynamic Frequency Warping) [10], les GMM à partir de l estimation de l erreur quadratique [8] ou de l estimation de la probabilité conjointe entre source et cible [5,9]. 3 Conversion à base de mélanges de gaussiennes Initialement proposée par Stylianou, Kain et Toda [8,5,9], cette méthode constitue la base de nombreux systèmes de conversion de voix dont celui que nous proposons dans cet article. La paramétrisation des signaux acoustiques des voix source et cible est fondée sur une analyse HNM (Harmonic + Noise Model) [7]. Les paramètres HNM des trames voisées sont les amplitudes complexes des harmoniques et la fréquence fondamentale du signal. Les trames non voisées sont représentées par un bruit blanc filtré. A partir de ces paramètres, les MFCC discrets [3] sont calculés par la résolution d un système linéaire. Soit X = [x 1,..., x n ] la séquence de vecteurs spectraux caractéristiques des paroles prononcées par le locuteur source et Y = [y 1,..., y n ], la séquence correspondant à la même phrase prononcée par le locuteur cible. Afin que les séquences X (source) et Y (cible) aient la même taille n, elles ont été préalablement temporellement alignées par programmation dynamique DTW (Dynamic Time Warping). Soit x un vecteur source et y le vecteur cible correspondant, au lieu de déterminer une fonction de conversion entre les modélisations GMM de la voix source et de la voix cible, un seul modèle GMM de la probabilité de

3 Techniques de conversion de voix appliquées à l imposture densité conjointe P (x, y) est appris. C est-à-dire, soit z = [x y] le vecteur conjoint : Q P (z) = α q N q (z, µ q, Σ q ) (1) q=1 Où Q est le nombre de gaussiennes et α q, µ q, Σ q les poids et paramètres de la gaussienne q. Ces paramètres sont estimés par l algorithme itératif EM (Expectation Maximization) sur les données d apprentissage. La fonction de conversion F (x) qui minimise l erreur quadratique est alors définie comme l espérance E(y x) : F (x) = E(x y) = N q=1 P (x q)(µ y q + Σq yx (Σq xx ) 1 (x µ x )) (2) Avec P (x q) la probabilité a posteriori que x soit générée par la q ieme gaussienne. Pour l étape de transformation du signal source les paramètres HNM et MFCC discrets sont également extraits. La fonction de conversion F nous permet donc de prédire pour chaque vecteur x de la source, le vecteur y correspondant de la cible via l équation 2. Une fois les vecteurs MFCC discrets sources transformés, ils sont inversés afin de calculer l enveloppe spectrale du signal et ainsi d en estimer l amplitude des harmoniques et la fréquence fondamentale. Toutefois, la phase de ces harmoniques est estimée à partir de l enveloppe de la phase du signal source. Les trames non voisées ne sont pas converties car celles-ci ont une faible influence sur la perception de l identité de la voix. Enfin, une synthèse HNM par interpolation des phases et des amplitudes des harmoniques, ainsi que du pitch entre les trames contiguës est réalisée afin d obtenir le signal converti. 4 Conversion de voix à partir d ALISP ALISP est un codeur-décodeur de voix à très bas débit qui repose sur le principe d indexation de la voix au sein d une mémoire cliente d unités acoustiques [2]. Son principe est de coder, puis de synthétiser, le signal de parole à partir d unités acoustiques élémentaires issues d une décomposition temporelle du signal. Cette décomposition est indépendante de connaissances linguistiques a priori. A partir d un corpus d apprentissage constitué d exemples de la voix à coder, l ensemble des segments résultant de la décomposition temporelle est découpé en 64 classes par quantification vectorielle. Ces 64 classes permettront de définir 64 modèles de Markov cachés HMM (Hiden Markov Model) qui représenteront les unités acoustiques élémentaires constituant le dictionnaire de segments de cette voix. Un nouveau signal de parole pourra ainsi être codé en une séquence d index sur ce dictionnaire et c est cette séquence qui sera transmise à la place du signal lui-même. De plus, chaque segment du dictionnaire est codé par analyse HNM de façon à permettre une concaténation plus fine lors de l étape de synthèse.

4 P. Perrot, J. Razik, M. Morel, H. Khemiri et G. Chollet L application du principe de codeur-décodeur d ALISP à la conversion de voix nécessite plusieurs étapes. Tout d abord, le dictionnaire et les modèles HMM doivent être créés à partir d un corpus de la voix cible. Après une analyse HNM du signal de la voix source, la sélection des segments les plus proches spectralement de ceux de la voix cible est effectuée par les HMM et le signal est ainsi codé. Lors de la phase de décodage, les données alignées par DTW sont tout d abord concaténées, puis modifiées de façon à se rapprocher le plus possible des informations de prosodie cible. Ces données sont ensuite resynthétisées pour obtenir le signal converti. L impact de cette méthode de conversion sur un système automatique de reconnaissance de locuteur a été étudié dans un précédent article [6]. 5 Conversion combinée Dans cet article, nous proposons de combiner les deux méthodes précédemment décrites afin de prendre avantage de chacune des méthodes. En effet, la méthode ALISP est sensible au spectre du signal à coder afin de générer la meilleure suite d index qui corresponde à la voix cible. Or, en codant directement la voix source avec les paramètres (dictionnaire, HMMs) de la voix cible, la séquence obtenue n est pas assurément la meilleure. Ainsi, en effectuant préalablement une conversion de la voix source vers la voix cible par GMM, le signal résultant est spectralement bien plus proche de la voix cible. Effectuer le codage sur ce signal permettra donc d obtenir un codage-décodage plus précis et un signal convertie de meilleure qualité. 6 Expérimentation et résultats Nous avons évalué les différents systèmes de conversion décrits dans cet article à partir d un même protocole, d une même base de données et selon 3 critères. Pour un scénario d imposture plus réaliste, nous avons extrait 40 minutes d un discours énoncé par un homme politique qui constitue la voix cible. 10 minutes du discours ont été prononcées par trois hommes et une femme, dont 8 minutes pour l apprentissage des GMM (corpus parallèle) et 2 minutes pour les tests. Le dictionnaire ALISP a été construit à partir de 35 minutes du discours de la voix cible. Les phrases de tests sont distinctes de celles utilisées pour les apprentissages. Nous mesurons les performances des trois systèmes étudiés selon 3 critères : la distorsion spectrale normalisée, la vraisemblance et un sondage perceptif. 6.1 Evaluation de la conversion par la distorsion spectrale normalisée La mesure de distorsion spectrale normalisée est un critère couramment utilisé dans le domaine de la conversion de voix pour mesurer l écart entre la voix convertie et la voix cible. La distance spectrale entre les enveloppes de deux signaux x et y pour un instant t est donné par : p d x,y (t) = c x,k (t) c y,k (t) 2 (3) k=1

5 Techniques de conversion de voix appliquées à l imposture où c x,k (t) est le k ieme coefficient MFCC de x au temps t (resp. pour y). Soit x le signal source, y le signal converti et z le signal cible, alors la distance spectrale normalisée entre la source et la cible pour un signal de N trames est : DSN = Ni=1 d y,z (i) Ni=1 d x,z (i) (4) Cette distance vaut 1 si la voix convertie correspond à la voix source, 0 si elle correspond à la voix cible. La tableau 1 montre une amélioration des résultats fondés sur la conversion combinée. Même si la voix convertie est toujours plus proche de la voix source, elle se rapproche significativement de la voix cible par rapport aux deux autres techniques de conversion. 6.2 Evaluation de la conversion par la vraisemblance Une seconde mesure objective consiste à calculer la log-vraisemblance entre un modèle de la voix source, un modèle de la voix cible et les paramètres extraits de la voix convertie. Cette mesure est définie par l équation suivante : LLK(X) = log(p (X M c )) log(p (X M s )) (5) où P (X M s ) et P (X M c ) sont les probabilités que le signal converti X ait été produit respectivement par la voix source ou par la voix cible. Cette mesure montre également une amélioration significative des résultats pour la conversion combinée des deux méthodes GMM et ALISP (Tableau 1). Ces deux méthodes appliquées individuellement obtiennent des performances équivalentes. 6.3 Evaluation perceptive Outre les mesures objectives précédentes, nous proposons également une évaluation plus subjective mais indispensable car l écoute est également un critère important dans la détection d imposture. L objectif est aussi de mesurer le rendu qualitatif de ces conversions. Pour cela, nous avons demandé à 10 personnes d évaluer sur une échelle de 0 à 5 la qualité de la conversion de morceaux de phrases d environ 30 secondes. Pour chaque échantillon, le signal cible est présenté, puis le signal source et enfin le signal converti. Les 6 niveaux d évaluation (et leur pourcentage de perception respectif) se déclinent ainsi : 0 : impossible de déterminer si la voix correspond à la source ou à la cible, 1 : le signal ne semble pas avoir été converti (ressemble à la source) (0% à 20%), 2 : le signal commence à ressembler à la voix cible (20% à 40%), 3 : qualité de conversion assez bonne, rapprochement de la voix cible perçu (40% à 60%), 4 : perception significative de l effet de conversion (60% à 80%), 5 : conversion très réaliste (80% à 100%).

6 P. Perrot, J. Razik, M. Morel, H. Khemiri et G. Chollet Au regard de cette étude perceptive, la méthode en cascade révèle un niveau de qualité de conversion légèrement supérieur au deux autres méthodes, même si les synthèses proposées en matière d intelligibilité et d audibilité sont encore à améliorer (Tableau 1). Table 1. Ceci est la légende du tableau. Système de conversion GMM Mesure ALISP GMM+ALISP Confiance Distorsion spectrale 0,77 0,78 0,73 ±0,02 Score LLK 0,32 0,34 0,60 ±0,05 Test perceptif 1,5 1,5 2-7 Conclusion Les travaux présentés au sein de cet article propose une nouvelle approche pertinente de la conversion de voix. Celle-ci repose sur une utilisation de la conversion GMM qui déplace l espace acoustique de la voix source vers celle de la voix cible avant de transformer les nouveaux vecteurs par indexation au sein d un dictionnaire de la voix cible. L approche en cascade montre des performances supérieures aux deux méthodes utilisées individuellement (GMM, ALISP) quelques soient les critères choisis : 6% d amélioration pour la distorsion spectrale et 82% pour la vraisemblance. La perception de l intelligibilité n est pas encore parfaite mais la conversion est mieux ressentie par l approche combinée. Références 1. M. Abe, S. Nakamura, K. Shikano, and H. Kuwabara. Voice conversion through vector quantization. In ICASSP, pages , F. Bimbot, G. Chollet, P. Deleglise, and C. Montacie. Temporal decomposition and acoustic-phonetic decoding of speech. In ICASSP, pages , O. Cappé, J. Laroche, and E. Moulines. Regularized estimation of cepstrum envelope from discrete frequency points. In Proc. IEEE ASSP Workshop on applications of signal processing to audio and acoustics, G. Chollet, J. Cernocký, A. Constantinescu, S. Deligne, and F. Bimbot. Toward ALISP : Automatic Language Independent Speech Processing. Springer Verlag, A. Kain and M.W. Maccon. Spectral voice conversion for text to speech synthesis. In ICASSP, pages , P. Perrot, G. Aversano, R. Blouet, M. Charbit, and G. Chollet. Voice forgery using alisp :indexation in a client memory. In ICASSP, pages 17 20, Y. Stylianou. Applying the harmonic plus noise model in concatenative speech synthesis. Transaction SAP, 9(1) :21 29, Y. Stylianou and O. Cappé. Statistical methods for voice quality transformation. In EUROSPEECH, pages , T. Toda, A.W. Black, and K. Tokuda. Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory. Trans Audio, Speech, and Language Processing, 15(8) : , H. Valbret, E. Moulines, and J.P. Tubach. Voice transformation using psola technique. In ICASSP, pages , 1992.