Techniques de conversion de voix appliquées à l imposture



Documents pareils
Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Apprentissage Automatique

Une empreinte audio à base d ALISP appliquée à l identification audio dans un flux radiophonique

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

(Quelle identité par la parole?) Thèse. présentée à la section. Systèmes de Communication. par. Dominique Genoud

Chaine de transmission

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

THÈSE. présentée à l Université d Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Chapitre 2 Les ondes progressives périodiques

REPRÉSENTATIONS ANALYTIQUES AVANCÉES AVEC EANALYSIS

Codage de la parole à bas et très bas débit 1

Quantification Scalaire et Prédictive

Didier Pietquin. Timbre et fréquence : fondamentale et harmoniques

ACOUSTIQUE 3 : ACOUSTIQUE MUSICALE ET PHYSIQUE DES SONS

Contributions à la reconnaissance robuste de la parole

Rapport : Base de données. Anthony Larcher 1

Principe de symétrisation pour la construction d un test adaptatif

Paramétrisation adaptée de transitoires pour la reconnaissance d instruments de musique

Une fréquence peut-elle être instantanée?

Vérification audiovisuelle de l identité

Chapitre I La fonction transmission

Intérêt du découpage en sous-bandes pour l analyse spectrale

SI350 Indexation Audio

Etude et conception d un serveur vocal :

CT-DECT GateCom 3W avec Fonction CT-ASR CT-DECT Bluetooth / tablette tactile et téléphones GSM Geschäftsbericht 09/10 I 1

Extraction de descripteurs musicaux: une approche évolutionniste

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Les techniques de multiplexage

V corr Jacques Ferber. LIRMM - Université Montpellier II 161 rue Ada Montpellier Cedex 5

Transmission d informations sur le réseau électrique

Le plan d action marketing et commercial : De la réflexion marketing à l action commerciale

Mini_guide_Isis.pdf le 23/09/2001 Page 1/14

LES CARACTERISTIQUES DES SUPPORTS DE TRANSMISSION

TP Modulation Démodulation BPSK

Contrôle par commande prédictive d un procédé de cuisson sous infrarouge de peintures en poudre.

Reconnaissance du locuteur

Projet de Traitement du Signal Segmentation d images SAR

Reconnaissance automatique de la parole à l aide de colonies de fourmis

Bandes Critiques et Masquage

Numérisation du signal

Technologies mobiles pour la reconnaissance vocale des langues africaines

Echantillonnage Non uniforme

Traitement numérique de l'image. Raphaël Isdant

Expérience 3 Formats de signalisation binaire

Formula Negator, Outil de négation de formule.

Université du Québec à Chicoutimi THESE. Présentée à l'université du Québec à Chicoutimi Département des Sciences Appliquées

Votre Réseau est-il prêt?

Caractéristiques des ondes

Manuel utilisateur «VisioJeunes»

1 Démarrer L écran Isis La boite à outils Mode principal Mode gadget Mode graphique...

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE

Mesure agnostique de la qualité des images.

Mini_guide_Isis_v6.doc le 10/02/2005 Page 1/15

LA COUCHE PHYSIQUE EST LA COUCHE par laquelle l information est effectivemnt transmise.

nom : Collège Ste Clotilde

Équations non linéaires

Visitez notre page Internet credit-suisse.com/accessibilite ou contactez-nous par téléphone au

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Ordonnance du DFJP sur les instruments de mesure audiométriques

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

ÉTUDE ET DÉVELOPPEMENT D UN SYSTÈME EXPERT BASÉ SUR LES RÉSEAUX DE NEURONES POUR LE DIAGNOSTIC DES DÉFAUTS DE ROULEMENTS

Enregistrement et transformation du son. S. Natkin Novembre 2001

Projet de Master en Informatique: Web WriteIt!

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

ADSL. Étude d une LiveBox. 1. Environnement de la LiveBox TMRIM 2 EME TRIMESTRE LP CHATEAU BLANC CHALETTE/LOING NIVEAU :

M1107 : Initiation à la mesure du signal. T_MesSig

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57


Programmes des classes préparatoires aux Grandes Ecoles

Intensité sonore et niveau d intensité sonore

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Ferhat ABBAS Sétif UFAS - Algérie THESE

3 Approximation de solutions d équations

Les Réseaux sans fils : IEEE F. Nolot

Le téléphone de voiture. professionnel. «Téléphonez en toute simplicité et en toute sécurité» Systèmes PTCarPhone

Étude des Corrélations entre Paramètres Statiques et Dynamiques des Convertisseurs Analogique-Numérique en vue d optimiser leur Flot de Test

ANALYSE ACOUSTIQUE de la VOIX. pour la. DÉTECTION de PERTURBATIONS PSYCHOPHYSIOLOGIQUES. APPLICATION au CONTEXTE AÉRONAUTIQUE

TABLE DES MATIÈRES 1. DÉMARRER ISIS 2 2. SAISIE D UN SCHÉMA 3 & ' " ( ) '*+ ", ##) # " -. /0 " 1 2 " 3. SIMULATION 7 " - 4.


La Voix Sur IP (VoIP)

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Introduction au Data-Mining

Vous souhaitez vos documents de manière à pouvoir y accéder pour, ou non, et ce, depuis le lieu et l ordinateur de votre choix.

Fonctions de deux variables. Mai 2011

Téléphone IP Cisco 7942G

Accédez au test ici

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Chapitre 5 Émetteurs et récepteurs sonores

Toute personne souhaitant maîtriser les techniques liées à la conception de produits multimédia et à la création de sites Web.

UE11 Phonétique appliquée

LABO PROJET : IMPLEMENTATION D UN MODEM ADSL SOUS MATLAB

La sécurité dans un réseau Wi-Fi

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

10ème Congrès Français d'acoustique Lyon, Avril 2010

10ème Congrès Français d'acoustique Lyon, Avril 2010

Transcription:

Techniques de conversion de voix appliquées à l imposture Patrick Perrot 1,2, Joseph Razik 2, Mathieu Morel 2, Houssemeddine Khemiri 2, et Gérard Chollet 2 1 Institut de Recherche Criminelle de la Gendarmerie Nationale, Département Signal-Image-Parole, 1 boulevard Théophile Sueur, 93110 Rosny sous bois, France. 2 CNRS-LTCI-Institut Telecom, Telecom-ParisTech, 37-39 rue Dareau, 75014 Paris, France. prenom.nom@telecom-paristech.fr Résumé L objet de cet article est de présenter une étude comparative à la fois subjective et objective de deux méthodes de conversion de voix et de proposer une nouvelle approche fondée sur une mise en cascade de ces deux techniques. Les critères d évaluation objectifs reposent sur un calcul de distorsion spectrale normalisée et une mesure de vraisemblance alors que les critères subjectifs se concentrent sur une information perceptive. L objectif de notre nouvelle approche est d améliorer le résultat de la conversion d un point de vue perceptif et du point de vue de plusieurs mesures spectrales. Les deux méthodes de base que nous étudions montrent un effet de conversion aux performances semblables. L approche en cascade que nous proposons donne des performances supérieures à ces deux méthodes quelques soient les critères choisis : 6% d amélioration pour la distorsion spectrale et 82% pour la vraisemblance, ainsi qu un léger accroissement de la qualité perceptive. Mots clés Conversion de voix, ALISP, GMM. 1 Introduction Le but de la conversion de voix est de transformer les caractéristiques du signal sonore d un locuteur source vers les caractéristiques d un locuteur cible afin qu un auditeur ou qu un système de reconnaissance automatique ne puisse pas détecter l imposture. La conversion de voix a de nombreuses applications : synthèse, doublage et personnalisation vocale. Les études en conversion de voix permettent également de mettre à l épreuve les systèmes de reconnaissance automatique du locuteur. Différentes méthodes ont été développées au sein de la littérature fondées par exemple sur une quantification vectorielle [1] ou une déformation dynamique du spectre [10]. Toutefois, la plupart de ces approches, bien qu efficace, génère généralement des artefacts dus à des problèmes de phases ou à la conversion des parties non voisées du signal sonore. Nous allons tout d abord nous intéresser à la méthode à base de mélanges de gaussiennes GMM (Gaussian Mixture Model) décrite par Stylianou [8] et améliorée par Kain et Toda [5,9] qui nous a servi de base. Puis nous présenterons la méthode utilisée par Perrot [6] fondée sur l utilisation du codeur-décodeur ALISP (Automatic Language Independent Speech Processing) [2,4]. Enfin, nous réaliserons une combinaison de ces deux approches afin de

P. Perrot, J. Razik, M. Morel, H. Khemiri et G. Chollet proposer une nouvelle technique de conversion indépendante du texte. L évaluation de ces différentes approches s effectuera à la fois de façon subjective par des tests perceptifs, et de façon objective par le calcul de mesures de similarités comme la vraisemblance et la distorsion spectrale normalisée. 2 Principe de la conversion de voix Le processus de conversion de voix se décompose en deux étapes : l apprentissage et la transformation. Durant la phase d apprentissage, une séquence de vecteurs spectraux est extraite d enregistrements parallèles alignés de la voix source et de la voix cible. L objectif de cette phase est de déterminer une fonction de conversion optimale qui permet de transformer les vecteurs sources en vecteurs cibles tout en minimisant l erreur quadratique moyenne entre ces vecteurs. La phase de transformation consiste à appliquer cette fonction de conversion aux paramètres de la voix source prononçant un texte quelconque. La plupart des techniques proposées dans la littérature s appuie sur une transformation de paramètres tels que les MFCC (Mel Frequency Cepstral Coefficient) ou les LSF (Linear Spectral Frequency). Concernant la fonction de transformation, différentes possibilités ont été étudiées : la quantification vectorielle [1], la régression linéaire multivariée LMR (Linear Multivariate Regression) [10], la déformation fréquentielle dynamique DFW (Dynamic Frequency Warping) [10], les GMM à partir de l estimation de l erreur quadratique [8] ou de l estimation de la probabilité conjointe entre source et cible [5,9]. 3 Conversion à base de mélanges de gaussiennes Initialement proposée par Stylianou, Kain et Toda [8,5,9], cette méthode constitue la base de nombreux systèmes de conversion de voix dont celui que nous proposons dans cet article. La paramétrisation des signaux acoustiques des voix source et cible est fondée sur une analyse HNM (Harmonic + Noise Model) [7]. Les paramètres HNM des trames voisées sont les amplitudes complexes des harmoniques et la fréquence fondamentale du signal. Les trames non voisées sont représentées par un bruit blanc filtré. A partir de ces paramètres, les MFCC discrets [3] sont calculés par la résolution d un système linéaire. Soit X = [x 1,..., x n ] la séquence de vecteurs spectraux caractéristiques des paroles prononcées par le locuteur source et Y = [y 1,..., y n ], la séquence correspondant à la même phrase prononcée par le locuteur cible. Afin que les séquences X (source) et Y (cible) aient la même taille n, elles ont été préalablement temporellement alignées par programmation dynamique DTW (Dynamic Time Warping). Soit x un vecteur source et y le vecteur cible correspondant, au lieu de déterminer une fonction de conversion entre les modélisations GMM de la voix source et de la voix cible, un seul modèle GMM de la probabilité de

Techniques de conversion de voix appliquées à l imposture densité conjointe P (x, y) est appris. C est-à-dire, soit z = [x y] le vecteur conjoint : Q P (z) = α q N q (z, µ q, Σ q ) (1) q=1 Où Q est le nombre de gaussiennes et α q, µ q, Σ q les poids et paramètres de la gaussienne q. Ces paramètres sont estimés par l algorithme itératif EM (Expectation Maximization) sur les données d apprentissage. La fonction de conversion F (x) qui minimise l erreur quadratique est alors définie comme l espérance E(y x) : F (x) = E(x y) = N q=1 P (x q)(µ y q + Σq yx (Σq xx ) 1 (x µ x )) (2) Avec P (x q) la probabilité a posteriori que x soit générée par la q ieme gaussienne. Pour l étape de transformation du signal source les paramètres HNM et MFCC discrets sont également extraits. La fonction de conversion F nous permet donc de prédire pour chaque vecteur x de la source, le vecteur y correspondant de la cible via l équation 2. Une fois les vecteurs MFCC discrets sources transformés, ils sont inversés afin de calculer l enveloppe spectrale du signal et ainsi d en estimer l amplitude des harmoniques et la fréquence fondamentale. Toutefois, la phase de ces harmoniques est estimée à partir de l enveloppe de la phase du signal source. Les trames non voisées ne sont pas converties car celles-ci ont une faible influence sur la perception de l identité de la voix. Enfin, une synthèse HNM par interpolation des phases et des amplitudes des harmoniques, ainsi que du pitch entre les trames contiguës est réalisée afin d obtenir le signal converti. 4 Conversion de voix à partir d ALISP ALISP est un codeur-décodeur de voix à très bas débit qui repose sur le principe d indexation de la voix au sein d une mémoire cliente d unités acoustiques [2]. Son principe est de coder, puis de synthétiser, le signal de parole à partir d unités acoustiques élémentaires issues d une décomposition temporelle du signal. Cette décomposition est indépendante de connaissances linguistiques a priori. A partir d un corpus d apprentissage constitué d exemples de la voix à coder, l ensemble des segments résultant de la décomposition temporelle est découpé en 64 classes par quantification vectorielle. Ces 64 classes permettront de définir 64 modèles de Markov cachés HMM (Hiden Markov Model) qui représenteront les unités acoustiques élémentaires constituant le dictionnaire de segments de cette voix. Un nouveau signal de parole pourra ainsi être codé en une séquence d index sur ce dictionnaire et c est cette séquence qui sera transmise à la place du signal lui-même. De plus, chaque segment du dictionnaire est codé par analyse HNM de façon à permettre une concaténation plus fine lors de l étape de synthèse.

P. Perrot, J. Razik, M. Morel, H. Khemiri et G. Chollet L application du principe de codeur-décodeur d ALISP à la conversion de voix nécessite plusieurs étapes. Tout d abord, le dictionnaire et les modèles HMM doivent être créés à partir d un corpus de la voix cible. Après une analyse HNM du signal de la voix source, la sélection des segments les plus proches spectralement de ceux de la voix cible est effectuée par les HMM et le signal est ainsi codé. Lors de la phase de décodage, les données alignées par DTW sont tout d abord concaténées, puis modifiées de façon à se rapprocher le plus possible des informations de prosodie cible. Ces données sont ensuite resynthétisées pour obtenir le signal converti. L impact de cette méthode de conversion sur un système automatique de reconnaissance de locuteur a été étudié dans un précédent article [6]. 5 Conversion combinée Dans cet article, nous proposons de combiner les deux méthodes précédemment décrites afin de prendre avantage de chacune des méthodes. En effet, la méthode ALISP est sensible au spectre du signal à coder afin de générer la meilleure suite d index qui corresponde à la voix cible. Or, en codant directement la voix source avec les paramètres (dictionnaire, HMMs) de la voix cible, la séquence obtenue n est pas assurément la meilleure. Ainsi, en effectuant préalablement une conversion de la voix source vers la voix cible par GMM, le signal résultant est spectralement bien plus proche de la voix cible. Effectuer le codage sur ce signal permettra donc d obtenir un codage-décodage plus précis et un signal convertie de meilleure qualité. 6 Expérimentation et résultats Nous avons évalué les différents systèmes de conversion décrits dans cet article à partir d un même protocole, d une même base de données et selon 3 critères. Pour un scénario d imposture plus réaliste, nous avons extrait 40 minutes d un discours énoncé par un homme politique qui constitue la voix cible. 10 minutes du discours ont été prononcées par trois hommes et une femme, dont 8 minutes pour l apprentissage des GMM (corpus parallèle) et 2 minutes pour les tests. Le dictionnaire ALISP a été construit à partir de 35 minutes du discours de la voix cible. Les phrases de tests sont distinctes de celles utilisées pour les apprentissages. Nous mesurons les performances des trois systèmes étudiés selon 3 critères : la distorsion spectrale normalisée, la vraisemblance et un sondage perceptif. 6.1 Evaluation de la conversion par la distorsion spectrale normalisée La mesure de distorsion spectrale normalisée est un critère couramment utilisé dans le domaine de la conversion de voix pour mesurer l écart entre la voix convertie et la voix cible. La distance spectrale entre les enveloppes de deux signaux x et y pour un instant t est donné par : p d x,y (t) = c x,k (t) c y,k (t) 2 (3) k=1

Techniques de conversion de voix appliquées à l imposture où c x,k (t) est le k ieme coefficient MFCC de x au temps t (resp. pour y). Soit x le signal source, y le signal converti et z le signal cible, alors la distance spectrale normalisée entre la source et la cible pour un signal de N trames est : DSN = Ni=1 d y,z (i) Ni=1 d x,z (i) (4) Cette distance vaut 1 si la voix convertie correspond à la voix source, 0 si elle correspond à la voix cible. La tableau 1 montre une amélioration des résultats fondés sur la conversion combinée. Même si la voix convertie est toujours plus proche de la voix source, elle se rapproche significativement de la voix cible par rapport aux deux autres techniques de conversion. 6.2 Evaluation de la conversion par la vraisemblance Une seconde mesure objective consiste à calculer la log-vraisemblance entre un modèle de la voix source, un modèle de la voix cible et les paramètres extraits de la voix convertie. Cette mesure est définie par l équation suivante : LLK(X) = log(p (X M c )) log(p (X M s )) (5) où P (X M s ) et P (X M c ) sont les probabilités que le signal converti X ait été produit respectivement par la voix source ou par la voix cible. Cette mesure montre également une amélioration significative des résultats pour la conversion combinée des deux méthodes GMM et ALISP (Tableau 1). Ces deux méthodes appliquées individuellement obtiennent des performances équivalentes. 6.3 Evaluation perceptive Outre les mesures objectives précédentes, nous proposons également une évaluation plus subjective mais indispensable car l écoute est également un critère important dans la détection d imposture. L objectif est aussi de mesurer le rendu qualitatif de ces conversions. Pour cela, nous avons demandé à 10 personnes d évaluer sur une échelle de 0 à 5 la qualité de la conversion de morceaux de phrases d environ 30 secondes. Pour chaque échantillon, le signal cible est présenté, puis le signal source et enfin le signal converti. Les 6 niveaux d évaluation (et leur pourcentage de perception respectif) se déclinent ainsi : 0 : impossible de déterminer si la voix correspond à la source ou à la cible, 1 : le signal ne semble pas avoir été converti (ressemble à la source) (0% à 20%), 2 : le signal commence à ressembler à la voix cible (20% à 40%), 3 : qualité de conversion assez bonne, rapprochement de la voix cible perçu (40% à 60%), 4 : perception significative de l effet de conversion (60% à 80%), 5 : conversion très réaliste (80% à 100%).

P. Perrot, J. Razik, M. Morel, H. Khemiri et G. Chollet Au regard de cette étude perceptive, la méthode en cascade révèle un niveau de qualité de conversion légèrement supérieur au deux autres méthodes, même si les synthèses proposées en matière d intelligibilité et d audibilité sont encore à améliorer (Tableau 1). Table 1. Ceci est la légende du tableau. Système de conversion GMM Mesure ALISP GMM+ALISP Confiance Distorsion spectrale 0,77 0,78 0,73 ±0,02 Score LLK 0,32 0,34 0,60 ±0,05 Test perceptif 1,5 1,5 2-7 Conclusion Les travaux présentés au sein de cet article propose une nouvelle approche pertinente de la conversion de voix. Celle-ci repose sur une utilisation de la conversion GMM qui déplace l espace acoustique de la voix source vers celle de la voix cible avant de transformer les nouveaux vecteurs par indexation au sein d un dictionnaire de la voix cible. L approche en cascade montre des performances supérieures aux deux méthodes utilisées individuellement (GMM, ALISP) quelques soient les critères choisis : 6% d amélioration pour la distorsion spectrale et 82% pour la vraisemblance. La perception de l intelligibilité n est pas encore parfaite mais la conversion est mieux ressentie par l approche combinée. Références 1. M. Abe, S. Nakamura, K. Shikano, and H. Kuwabara. Voice conversion through vector quantization. In ICASSP, pages 655 658, 1988. 2. F. Bimbot, G. Chollet, P. Deleglise, and C. Montacie. Temporal decomposition and acoustic-phonetic decoding of speech. In ICASSP, pages 445 448, 1988. 3. O. Cappé, J. Laroche, and E. Moulines. Regularized estimation of cepstrum envelope from discrete frequency points. In Proc. IEEE ASSP Workshop on applications of signal processing to audio and acoustics, 1995. 4. G. Chollet, J. Cernocký, A. Constantinescu, S. Deligne, and F. Bimbot. Toward ALISP : Automatic Language Independent Speech Processing. Springer Verlag, 1998. 5. A. Kain and M.W. Maccon. Spectral voice conversion for text to speech synthesis. In ICASSP, pages 285 288, 1998. 6. P. Perrot, G. Aversano, R. Blouet, M. Charbit, and G. Chollet. Voice forgery using alisp :indexation in a client memory. In ICASSP, pages 17 20, 2005. 7. Y. Stylianou. Applying the harmonic plus noise model in concatenative speech synthesis. Transaction SAP, 9(1) :21 29, 2001. 8. Y. Stylianou and O. Cappé. Statistical methods for voice quality transformation. In EUROSPEECH, pages 447 450, 1995. 9. T. Toda, A.W. Black, and K. Tokuda. Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory. Trans Audio, Speech, and Language Processing, 15(8) :2222 2235, 2007. 10. H. Valbret, E. Moulines, and J.P. Tubach. Voice transformation using psola technique. In ICASSP, pages 145 148, 1992.