Reconnaissance du locuteur Claude Barras! Master, Université Paris-Sud
Plan Introduction Vérification du locuteur Structuration en tours de parole Recherches en cours 2/46
Introduction Plan Introduction Vérification du locuteur Structuration en tours de parole Recherches en cours 3/46
Introduction Les tâches en reconnaissance du locuteur Vérification le locuteur est-il bien celui qu il prétend? target speaker unknown speaker? Speaker verification accepted rejected (impostor) brique de base pour les autres tâches Identification recherche parmi un ensemble de voix de personnes connues Structuration en tours de parole qui parle, quand? 4/46
Introduction Applications Sécurité contrôle d accès (complément d un code, d un badge) accès physique: banques, voitures, entreprises accès distant: consultation de comptes bancaires par téléphone... Police criminelle / identification de suspects? filtrage de voix suspectes (+ validation humaine) fiabilité pour utilisation comme preuve? (position AFCP) Indexation multimédia indexation par locuteur Transcription automatique adaptation des modèles acoustiques à la voix du locuteur 5/46
Introduction Paramètres caractéristiques Paramètres acoustiques anatomie des cordes vocales et du conduit vocal pas mesurable directement comme une biométrie physique analyse spectrale à court terme du timbre résonances dans le conduit vocal modulées par le geste articulatoire (biométrie comportementale) Autres sources d information possibles personnalité, éducation, lieu de naissance... prosodie, prononciation... contenu, sémantique transcription 6/46
Introduction Paramètres caractéristiques Critères pour choisir de bons paramètres pratiques (faciles à mesurer) robustes (au bruit et au temps) sécurisés (discriminants, résistants à la contrefaçon) Qualité des coefficients spectraux? pratiques (modalité orale non intrusive) peu discriminants, peu robustes Variabilité intra-locuteur intrinsèque: contenu linguistique, humeur, effort vocal externe: réverbération, microphone, bruit de fond 7/46
Introduction Modèles de locuteurs Séquence de vecteurs de paramètres acoustiques X = (x 1,..., x t,..., x T ) Modèle par mélange de gaussiennes (GMM) M p(x Θ) = ω i N (x; µ i, Σ i ) apprentissage direct ou adaptation d un modèle générique Adaptation par Maximum a posteriori (MAP) adaptation des vecteurs de moyenne i=1 facteur de pertinence τ ˆµ i = n ie i {x} + τµ i n i + τ 8/46
Vérification du locuteur Plan Introduction Vérification du locuteur Structuration en tours de parole Recherches en cours 9/46
Vérification du locuteur Vérification du locuteur Approche standard GMM-UBM (D. Reynolds, MIT-LL) voix cible signal Paramètres voix de référence Modèle cible Adaptation Modèle de référence accepté + Σ Normalisation score >S rejeté décision par rapport de vraisemblance 10/46
Vérification du locuteur Evaluation en vérification du locuteur Erreurs possibles rejet du bon locuteur ( détection manquée ) acceptation d un imposteur ( fausse alarme ) 0.2 Impostors False acceptance True targets False rejection Threshold 0.15 likelihood 0.1 0.05 0-6 -4-2 0 2 4 6 8 10 score 11/46
Vérification du locuteur Evaluation en vérification du locuteur Compromis entre les 2 types d erreur Réglage du seuil de décision dépendant de la tâche seuil faible: peu de faux rejets, risque d impostures seuil élevé: peu d impostures, risque de rejeter le bon locuteur Mesure de coût somme pondérée des deux probabilités d erreur C = αp rejet + βp imposture pondérations dépendantes de l application recherche du seuil offrant le coût minimum Taux d égale erreur (EER) 12/46
Vérification du locuteur Représentation par courbe DET Courbe DET (Detection Error Tradeoff) compromis entre les deux types d erreur courbe caractérisque quasi-linéaire 100% ROC DET détections manquées coût constant égale erreur détections manquées coût constant égale erreur 0 fausses alarmes 100% fausses alarmes 13/46
Vérification du locuteur Campagnes internationales NIST SRE Campagnes d évaluation en reconnaissance du locuteur organisées par l organisme fédéral américain NIST (bis)annuelles depuis 1996 nombre de participants croissant (10 à 50) taille des données croissante (1 à 100Gb) Importance des évaluations + partage des données, compétition, échanges, visibilité travail de mise en place, réduction de la diversité Particularité des évaluation NIST vérification du locuteur, indépendamment du texte en majorité, sur conversations téléphoniques en anglais exemples : référence, imposteur, cible favorise un faible taux d imposteurs: C = P rejet + 9, 9P imposture 14/46
Vérification du locuteur Système GMM-UBM de base Paramètres acoustiques 15 coefficients cepstraux + leur dérivée + dérivée de l énergie normalisation cepstrale (moyenne et variance) Modèles de référence (UBM) deux modèles GMM (homme/femme) à 1024 gaussiennes apprentissage quelques dizaines (centaines...) de voix différentes Modèle du locuteur-cible adaptation MAP du modèle de référence (moyenne des gaussiennes, soit 30.000 paramètres) Score détection des segments de parole (seuil sur l énergie ou VAD) rapport de vraisemblance avec le modèle de référence seuil de détection optimisé sur l ensemble de développement 15/46
Vérification du locuteur Normalisation des paramètres acoustiques Le canal téléphonique dégrade la qualité de la voix... Approches standard CMS: Cepstral Mean Substraction Compensation d un canal de transmission linéaire et stationnaire Peut aussi atténuer le spectre moyen du locuteur Généralisation Normalisation de la moyenne et de la variance Globale et court-terme (fenêtre glissante) Meilleure compensation d un bruit additif Améliorations Feature warping: gaussianisation marginale Feature mapping: compensation supervisée du canal 16/46
Vérification du locuteur Feature warping Pelecanos & Sridharan, Odyssey 01 transformation non linéaire de la distribution des coefficients cepstraux projette chaque dimension vers une loi normale sur une fenêtre glissante (3 secondes) warping Distribution initiale Distribution gaussienne Gaussianisation (IBM, NIPS 00 et ICASSP 02) optimisation iterative (algorithme EM) 1. transformation linéaire (diagonalisation) 2. gaussianisation marginale court-terme (i.e. feature warping) 17/46
Vérification du locuteur Feature warping 50 Features normalization 40 30 20 Miss probability (in %) 10 5 2 0.5 0.1 none mean mean+variance variance (3 sec) warping (3 sec) 0.1 0.5 2 5 10 20 30 40 50 False Alarms probability (in %) 18/46
Vérification du locuteur Feature mapping Reynolds, NIST SRE 02 and ICASSP 03 Projette les paramètres dépendants du canal dans un espace indépendant du canal Entraine un modèle indépendant du canal CI (groupe toutes les données) Entraine un modèle dépendant du canal CD i par adaptation MAP Pour chaque phrase de test 1. détecte le canal le plus probable CD k 2. projection inverse des paramètres dans l espace CI CD1 CD2 CDn CI y=t(x) 19/46
Vérification du locuteur Feature mapping Fonction de projection pour une trame x, choisit la meilleure Gaussienne i utilise la top-1 Gaussienne de la phase de détection du canal y = (x µ CD k i ) σci i σ CD k i µ CI i approche inverse de la synthèse de modèle de locuteur (SMS) CD1 CD2 CDn CI y=t(x) Cible 20/46
Vérification du locuteur Apport de l information prosodique Prosodie (mélodie, rythme, intensité) contient une information caractéristique du locuteur probablement robuste aux variations du canal acoustique peu ou pas prise en compte dans les paramètres spectraux Approches analyse prosodique locale (F 0, log E) segmentation du contour prosodique (pseudo-)syllabes ou minima d énergie modélisation GMM-UBM ou par N-gram valeurs statistiques de F0 sur le segment paramètres modélisant le contour mélodique discrétisation de la variation de la prosodie Expériences performances individuelles loin de celles du système spectral gain relatif entre 5 et 10% en combinaison de tous les système 21/46
Vérification du locuteur SVM et modèles d adaptation au locuteur Approche GMM-UBM standard calcul de la vraisemblance des paramètres acoustiques du locuteur à reconnaitre pour le modèle du locuteur cible Classifieurs SVM (Support Vector Machines) classifieurs binaires discriminants dans un espace de très grande dimension nécessite des vecteurs de taille fixe permet la comparaison directe de modèles de locuteurs Méthodes d adaptation au locuteur étudiées adaptation MAP adaptation MLLR (Maximum Likelihood Linear Regression) 22/46
Vérification du locuteur Régression linéaire par maximum de vraisemblance Principe de l adaptation MLLR adaptation paramétrique d un modèle transformation affine des vecteurs de moyenne des gaussiennes ˆµ = Aµ + b Application en transcription de parole adaptation de modèles phonétiques génériques regroupement des gaussiennes des modèles en classes de régression une transformation MLLR apprise pour chacune des classes Approche MLLR contrainte (CMLLR) même transformation linéaire A pour la matrice de covariance ˆΣ = AΣA T formulation équivalente dans l espace des paramètres vecteur indépendant du locuteur x t = A 1 ˆx t A 1 b 23/46
Vérification du locuteur Le modèle comme paramètre du classifieur Paramètres issus de l adaptation MAP (Campbell, 2006) super-vecteur de gaussiennes (GSV) modèle de locuteur obtenu par adaptation MAP concaténation des vecteurs de moyenne Paramètres MLLR (Stolcke, 2005) super-vecteur à partir des paramètres A et b de la transformation (C)MLLR concaténation des lignes de la matrice une ou plusieurs transformations combinées 24/46
Vérification du locuteur Utilisation des super-vecteurs Alternative au classifieur SVM Projection du super-vecteur GSV dans des sous-espaces de dimension réduite Principal Component Analysis (PCA) et Linear Discriminant Analysis (LDA) Joint Factor Analyis (Kenny, 2005) Séparation des espaces de variabilité du locuteur et de la session i-vecteurs (Dehak, 2009)) Total Variability Space y = µ + T θ projection vers 300 dimensions distance entre i-vecteurs: within class variance normalization (WCNN) L approche la plus performance actuellement en reconnaissance du locuteur 25/46
Vérification du locuteur Performances et limites Impact considérable des conditions expérimentales durée d enrôlement et de test prompt fixé (mot de passe) ou parole libre environnement calme, communication bruitée sujet collaboratif ou non nombre de locuteurs en identification, types de voix fréquence a priori des imposteurs Limites difficulté théorique d avoir un bon modèle de rejet (connaissance a priori de toute la variabilité possible des voix?) pas de transposition facile des résultats d une condition à une autre certaines voix sont plus faciles à reconnaître que d autres (tests à grande échelle avec des imitateurs?) Déploiement en application réelle combinaison avec d autres modalités d identification 26/46
Structuration en tours de parole Plan Introduction Vérification du locuteur Structuration en tours de parole Recherches en cours 27/46
Structuration en tours de parole Structuration en tours de parole Qui parle, quand? speaker diarization segmentation et regroupement automatique en locuteurs Motivations adapter les modèles acoustiques aux locuteurs pour meilleure une transcription automatique améliorer la lisibilité de la transcription produite indexation en locuteur pour la recherche d information 28/46
Structuration en tours de parole Exemple: flux de mots verbatim mais aujourd hui j insiste là-dessus le mouvement de Médecins sans frontières est un mouvement international européen et en Belgique en Hollande Suisse etc. il y a d autres euh il y a à peu près il y a à peu près plus européen plus européen qu international plus européen qu international tout à fait il faut le dire il y a à peu près dix ans que vous en êtes le chef de file oui euh en en quelques mots parce que j ai beaucoup de questions à vous poser sur votre itinéraire je pense ça éclairera la suite euh en quelques mots euh quelle est la marque que vous vous vous reconnaissez sur Médecins sur frontières eh bien celle de la euh du développement de Médecins sans frontières de la transformation d une idée qui était formidable en une action qui est aujourd hui concrète mesurable reconnue à l échelon mondial 29/46
Structuration en tours de parole Etape 1: découpage en tours de parole mais aujourd hui j insiste là-dessus le mouvement de Médecins sans frontières est un mouvement international européen et en Belgique en Hollande Suisse etc. il y a d autres euh il y a à peu près il y a à peu près plus européen plus européen qu international plus européen qu international tout à fait il faut le dire il y a à peu près dix ans que vous en êtes le chef de file oui euh en en quelques mots parce que j ai beaucoup de questions à vous poser sur votre itinéraire je pense ça éclairera la suite euh en quelques mots euh quelle est la marque que vous vous vous reconnaissez sur Médecins sur frontières eh bien celle de la euh du développement de Médecins sans frontières de la transformation d une idée qui était formidable en une action qui est aujourd hui concrète mesurable reconnue à l échelon mondial 30/46
Structuration en tours de parole Etape 2: regroupement en locuteurs L1 mais aujourd hui j insiste là-dessus le mouvement de Médecins sans frontières est un mouvement international européen et en Belgique en Hollande Suisse etc. il y a d autres L2 euh il y a à peu près il y a à peu près L3 plus européen plus européen qu international L1 plus européen qu international tout à fait L3 il faut le dire L2 il y a à peu près dix ans que vous en êtes le chef de file L1 oui L2 euh en en quelques mots parce que j ai beaucoup de questions à vous poser sur votre itinéraire je pense ça éclairera la suite euh en quelques mots euh quelle est la marque que vous vous vous reconnaissez sur Médecins sur frontières L1 eh bien celle de la euh du développement de Médecins sans frontières de la transformation d une idée qui était formidable en une action qui est aujourd hui concrète mesurable reconnue à l échelon mondial 31/46
Structuration en tours de parole Etape 3: identification des locuteurs connus Rony Brauman mais aujourd hui j insiste là-dessus le mouvement de Médecins sans frontières est un mouvement international européen et en Belgique en Hollande Suisse etc. il y a d autres Alain Duhamel euh il y a à peu près il y a à peu près François-Henri de Virieu plus européen plus européen qu international Rony Brauman plus européen qu international tout à fait François-Henri de Virieu il faut le dire Alain Duhamel il y a à peu près dix ans que vous en êtes le chef de file Rony Brauman oui Alain Duhamel euh en en quelques mots parce que j ai beaucoup de questions à vous poser sur votre itinéraire je pense ça éclairera la suite euh en quelques mots euh quelle est la marque que vous vous vous reconnaissez sur Médecins sur frontières Rony Brauman eh bien celle de la euh du développement de Médecins sans frontières de la transformation d une idée qui était formidable en une action qui est aujourd hui concrète mesurable reconnue à l échelon mondial 32/46
Structuration en tours de parole Approches Architecture analyse acoustique (paramètres d enveloppe spectrale) détection des zones de parole (décodeur à deux modèles) découpage en segments homogènes contenant un seul locuteur regroupement des segments d un même locuteur dans une classe Difficultés pas de connaissance a priori des voix des intervenants... ni même de leur nombre 33/46
Structuration en tours de parole Détection de parole Intérêt utile pour mettre de côté les silences longs les silences courts sont normaux pendant la parole et ne posent pas de problème au système de reconnaissance. nombreux phénomènes acoustiques: musique, bruit de fond... à traiter séparemment Méthodes seuils sur l énergie et les passages par zéro: uniquement pour la détection de silence, mais pas adapté en présence de bruit. approche la plus répandue: classification par maximum de vraisemblance par GMM sur le cepstre du signal 34/46
Structuration en tours de parole Détection de parole (2) Architecture d un détecteur par GMM étiquetage de réference sur une base d apprentissage apprentissage d un GMM pour chaque condition acoustique: 2 modèles (parole/non-parole) ou plus en différenciant les conditions acoustiques (parole, parole+musique, parole+bruit, silence, bruit...) voire des modèles par classe phonétique. segmentation au moyen d un décodage par algorithme de Viterbi heuristiques de durée ou d énergie minimum Performances 1 à 2 % de durée de parole manquée en radio-télé d autant plus difficile que le rapport signal-bruit diminue on préfère éviter de perdre des segments de parole et rejeter ultérieurement des segments de non-parole 35/46
Structuration en tours de parole Segmentation acoustique Détection des changements de locuteur ou de condition acoustique Méthodes changement de locuteur lors des pauses? pas réaliste... modèles a priori des voix des locuteurs? pas toujours connu d avance... métrique sur le signal sans modèle a priori segmentation combinée à la classification Segmentation sans modèle 2 fenêtres glissantes adjacentes w 1 et w 2 durée typique 1 à 5 sec. estimation d un modèle sur chaque fenêtre Gaussienne (matrice de covariance pleine ou diagonale) ou GMM calcul d une distance entre les 2 modèles rapport de vraisemblance, distance Kullback-Leibler, distance BIC... sélection des pics de la fonction distance 36/46
Structuration en tours de parole Classification Méthodes classification agglomérative la plus répandue définition d une mesure de similarité entre classes critère d arret (nombre de classes ou distance maximale) Classification avec le critère BIC 1 Gaussienne à matrice de covariance pleine par classe critère de regroupement BIC = (n i + n j )log Σ n i log Σ i n j log Σ j λp avec la pénalité critère d arret P = 1 2 (d + 1 d(d + 1)) log N 2 BIC >= 0 pénalité BIC locale (N = n i + n j ) ou globale (N = k n k) 37/46
Structuration en tours de parole Segmentation et classification conjointe Speech Activity Detection Chop in small segments Train a GMM for each segment Viterbi segmentation and GMM reestimation GMM clustering less clusters? Viterbi segmentation with energy constraints Bandwidth and gender identification c-std estimation d un GMM sur chaque segment GMM à 8 composants à matrice de covariance diagonale par segment segment Segmentation/classification itérative des GMM fonction objective de log-vraisemblance pénalisée: N log f (s i M ci ) αn βk i=1 avec f (s i M ci ) la vraisemblance s i de la classe c i, N nb de segments, K nb de classes, α > 0 et β > 0 38/46
Structuration en tours de parole Architecture multi-passes de LIMSI Speech Activity Detection Chop in small segments Train a GMM for each segment Viterbi resegmentation Agglomerative BIC clustering Viterbi resegmentation with energy constraints Bandwidth and gender identification c-bic Agglomerative SID clustering c-sid SAD post-filtering p-asr Combinaison de plusieurs niveaux de modélisation pour les locuteurs 1ère phase: beaucoup de segments courts modélisation directe par une Gaussienne à matrice de covariance pleine classification hiérarchique ascendante regroupement des segments à forte similarité 2ème phase: des classes déjà construites modélisation plus riche par un GMM adapté à partir d un modèle générique 39/46
Structuration en tours de parole Architecture multi-passes: BIC Speech Activity Detection Chop in small segments Train a GMM for each segment Viterbi resegmentation Agglomerative BIC clustering Viterbi resegmentation with energy constraints Bandwidth and gender identification c-bic Agglomerative SID clustering c-sid SAD post-filtering p-asr Regroupement BIC (Bayesian Information Criterion) 1 Gaussienne à matrice de covariance pleine par classe c i N (µ i, Σ i ) critère de regroupement BIC = (n i + n j )log Σ i j n i log Σ i n j log Σ j λ 1 2 (d + 1 2 d(d + 1)) log(n i + n j ) avec n i nombre de trames de c i d dimension des vecteurs critère d arret BIC >= 0 40/46
Structuration en tours de parole Architecture multi-passes: CLR Speech Activity Detection Chop in small segments Train a GMM for each segment Viterbi resegmentation Agglomerative BIC clustering Viterbi resegmentation with energy constraints Bandwidth and gender identification c-bic Agglomerative SID clustering c-sid SAD post-filtering p-asr Regroupement CLR architecture GMM-UBM avec adaptation MAP rapport de log-vraisemblance croisé (CLR) clr(c i, c j ) = 1 n i log f (x i M j ) f (x i UBM) + 1 n j log f (x j M i ) f (x j UBM) avec x i les données de la classe c i, M i le modèle de la classe c i, n i nombre de trames de x i seuil de décision δ 41/46
Structuration en tours de parole Evaluation Qualité du regroupement automatique (DER) mise en correspondance bi-univoque optimale entre les classes de l hypothese et les identités de référence fraction du temps qui n est pas attribuée au bon locuteur reference A B hypothesis S1 S2 S3 error SPK FA MS DER = Speaker Error (SPK) + False Alarm Speech (FA) + Missed Speech (MS) Données et campagnes d évaluation Broadcast News anglais système BIC: 15 % d erreur système multi-passes: < 10 % d erreur performances comparables sur le français sensibilité aux réglages de seuils 42/46
Recherches en cours Plan Introduction Vérification du locuteur Structuration en tours de parole Recherches en cours 43/46
Recherches en cours Structuration multi-documents Cadre expérimental classique pas de connaissance a priori sur les locuteurs produit une étiquette par locuteur spécifique au document Objectifs en indexation d archives analyser une collection de documents d une même source produire des étiquettes de locuteurs consistantes Structuration en locuteurs multi-documents 44/46
Recherches en cours détection et suivi multi-pitch 45/46 Annotation et détection de voix superposée Intérêt croissant pour la parole superposée rare en parole préparée et actualité ignorée par les systèmes de transcription fréquente en parole spontanée conversations téléphoniques, réunions, talk-shows Pourquoi détecter la parole superposée? pour la mettre de côté erreurs de transcription automatique pour la transcrire? pas nécessairement un contenu essentiel pour comprendre la nature de l acte de communication Comment la détecter? séparation de source ou localisation en situation multi-canal cas fréquent d enregistrement mono-canal réaliser un décodage de la parole superposée complexe et pas toujours nécessaire analyse des zones harmoniques
Recherches en cours Reconnaissance multimodale des personnes Défi ANR REPERE organisé par la DGA analyse d extraits d émissions télévisées d actualité test à blanc en janvier 2012 Approche multimodale reconnaissance du visage des personnes structuration acoustique des tours de parole nom des intervenants en incrustation dans la vidéo citation du nom des journalistes et des invités Fusion intégration en amont des différentes modalités prise de décision prenant en compte toutes les sources d information 46/46