Identification audio pour la reconnaissance de la parole Matthieu Camus Encadrants au DIADEX LIPADE Marie-José Caraty Claude Montacié Encadrants à Orange Labs Patrice Collen Jean-Bernard Rault
Introduction Identification audio par empreinte Représentation acoustique du signal audio sous forme d empreinte Principe d identification audio par l exemple Applications : indexation audio, identification d extraits de musique Adaptation à la Reconnaissance Automatique de la Parole (RAP) Avantage : faible complexité (rapidité d exécution) Problématique : gestion de la variabilité du signal de parole? Application envisagée : détection de mots-clés Système de reconnaissance de mots isolés [Vasiloglou et al, 2004] Matthieu Camus Identification audio pour la reconnaissance de la parole page 2
Plan Identification audio par empreinte et adaptation à la RAP Principe d un système d identification audio par empreinte Méthodes d identification audio de Philips et de Shazam Adaptation au Décodage Acoustico-Phonétique (DAP) Variabilité du signal de parole et robustesse de sousempreintes Variabilité extrinsèque et variabilité intrinsèque Robustesse de types de sous-empreinte issus de l identification audio et de paramètres MFCCs Perspective et conclusion Matthieu Camus Identification audio pour la reconnaissance de la parole page 3
Principe de l identification audio par empreinte Objectif : déterminer si deux éléments audio différents sont issus du même document Exemple : identifier un morceau de musique au format MP3 à partir d une base d apprentissage de CDs audio [Haitsma et al, 2002] Méthode d association d une signature caractéristique à un signal audio analysé Pas d altération du signal d origine ( watermarking) Extraction de caractéristiques acoustiques conservées dans une base d apprentissage Matthieu Camus Identification audio pour la reconnaissance de la parole page 4
Empreinte audio Caractéristiques idéales d une empreinte audio Unique valeur de représentation différente pour deux signaux audio différents Compacte faible taille en mémoire pour le stockage dans une base d apprentissage Robuste résistance aux dégradations du signal acoustique par traitement audio : compression, filtrage, égalisation, contrôle de la dynamique [Haitsma et al, 2002] (exemple : signal de test issu d une diffusion radiophonique) Recherche d un compromis entre unicité et compacité, qui soit le plus robuste possible Matthieu Camus Identification audio pour la reconnaissance de la parole page 5
Identification d extraits de musique extraits de musique création d'empreinte base d apprentissage métadonnées d identification apprentissage test signal audio de test création d'empreinte extrait identifié comparaison Matthieu Camus Identification audio pour la reconnaissance de la parole page 6
Méthode de Philips Empreinte issue d une analyse spectrale en banc de filtres [Haitsma et al, 2001] Banc de filtres passe-bande sur la plage [300, 2000] Hz selon une échelle perceptuelle (type Bark) Empreintes obtenues à partir de trames de 370 ms avec un taux de recouvrement de 97 % Matthieu Camus Identification audio pour la reconnaissance de la parole page 7
Méthode de Philips : empreinte Représentation compacte d une trame : la sous-empreinte Bit du signe de la double dérivée temps-fréquence de l énergie entre deux trames et deux sous-bandes adjacentes [Haitsma, 2001] T : opérateur de délai pour conserver la trame précédente signal audio analyse en sous-bandes valeur d énergie signe signe binarisation E 0 + - T - + >0 E 1 + - T - + >0 B 0 B 1 calcul du vecteur acoustique calcul de la sous-empreinte Matthieu Camus Identification audio pour la reconnaissance de la parole page 8
index binaire Méthode de Philips : comparaison Empreinte = bloc de sous-empreintes de taille fixe Accès rapide pour l identification (table de hachage) Distance entre empreintes : le Bit Error Rate (BER) issu de la distance locale de Hamming 31 0 31 a) empreinte d origine b) empreinte altérée 0 31 0 0 0.02 0.04 0.06 0.08 0.1 0.12 temps (en s) différence entre a) et b) BER = 0,1 Matthieu Camus Identification audio pour la reconnaissance de la parole page 9
Méthode de Shazam Empreinte issue d une recherche des points à haute amplitude énergétique dans un voisinage [Wang, 2003] Analyse du signal ré-échantillonné à 8000 Hz sur des trames de 64 ms avec un recouvrement de 50 %, en sousbandes de fréquence [Ellis, 2009] Application commerciale pour l identification de morceaux de musique : Shazam [Wang, 2006] Matthieu Camus Identification audio pour la reconnaissance de la parole page 10
fréquence (Hz) Méthode de Shazam : empreinte Recherche de points d intérêt temps (s) Point d intérêt : présence d énergie par rapport au voisinage local Appariement de points d intérêt avec un seuil sur les temps et fréquence Conservation des points appariés contenant les plus grandes valeurs d énergie (environ 5 par seconde) Matthieu Camus Identification audio pour la reconnaissance de la parole page 11
Méthode de Shazam : comparaison Sous-empreinte issue de valeurs quantifiées (e.g. 20 bits) 8 bits pour la fréquence du 1 er point d intérêt 6 bits pour la fréquence du 2 nd point d intérêt 6 bits pour l intervalle temporel entre les deux points d intérêt Identification entre segments de sous-empreintes directement sur les valeurs quantifiées 1. recherche de sous-empreintes identiques dans la base d apprentissage retournant les empreintes candidates 2. comparaison des empreintes candidates avec le segment de test 3. calcul d un histogramme des décalages temporels sur sous-empreintes à fréquence similaire 4. identification valide si la vraisemblance sur l histogramme est supérieure à un seuil Matthieu Camus Identification audio pour la reconnaissance de la parole page 12
Caractéristiques Philips - Shazam Sous-empreinte Caractéristiques Paramétrisation Philips Moyen terme, fort recouvrement Shazam Court terme, recouvrement moyen Extraction Toutes les trames Points d intérêt Mode de calcul Bit du signe de doubles dérivées en tempsfréquence de l énergie Valeurs quantifiées de couples de points d intérêt et leur distance temporelle Matthieu Camus Identification audio pour la reconnaissance de la parole page 13
Identification audio et DAP sous-empreintes et métadonnées d apprentissage phonèmes b D Z u { (le bonjour) comparaison identification des unités linguistiques signal de parole de test extraction de sous-empreintes (le rouge) { u Z Matthieu Camus Identification audio pour la reconnaissance de la parole page 14
Sous-empreintes pour le DAP Adaptation de la méthode de Philips (AP-DAP) Paramétrisation acoustique adaptée au signal de parole (trames de 25 ms toutes les 10 ms sur l intervalle [40 Hz, 3700 Hz]) Simplification du calcul de dérivée temps-fréquence pour favoriser la similarité des sous-empreintes contigües Relâchement de la contrainte d identification : recherche des sousempreintes similaires à N-bits près dans la base d apprentissage (N défini par le seuil sur le BER) Matthieu Camus Identification audio pour la reconnaissance de la parole page 15
Sous-empreintes pour le DAP (2) Sous-empreintes à partir de vecteurs MFCCs (QV et QVS) Paramètres acoustiques MFCCs + C0, dérivées 1 res et 2 ndes Quantification vectorielle non-supervisée (QV) Segmentation par k-moyenne avec répartition équilibrée Calcul de centroïde C avec la distance au vecteur MFCC x Sous-empreinte = index de valeur du centroïde le plus proche du vecteur Quantification vectorielle supervisée non-uniforme (QVS) Apprentissage supervisé : quantification pour chaque phonème Regroupement des centroïdes contigus de même phonème Suppression des centroïdes isolés Matthieu Camus Identification audio pour la reconnaissance de la parole page 16
Principe d identification pour le DAP Empreinte = segment de sous-empreintes de taille variable selon la segmentation phonétique segments de sous-empreintes + phonèmes candidat 1 : phonème D candidat 2 : phonème u sous-empreintes de test appariement de sous-empreintes Choix de la meilleure séquence phonétique (level-building) maximiser la similarité entre segments de sous-empreintes minimiser le nombre de changements de séquences d empreintes Matthieu Camus Identification audio pour la reconnaissance de la parole page 17
Expériences de DAP Expériences sur les corpus TIMIT, NTIMIT et BREF80 Apprentissage et test homogènes (même base de données) Taille commune de sous-empreinte sur 16 bits Comparaison à un système de référence HMM-GMM à 3 états (paramètres MFCCs, monophones, 512 gaussiennes par état) Résultats en terme de taux de reconnaissance (accuracy) Accuracy (%) TIMIT NTIMIT BREF80 HMM-GMM 61,2 43,7 74,4 AP-DAP 17,6 13,0 19,0 QV 26,2 13,6 41,1 QVS 46,2 28,2 55,3 Matthieu Camus Identification audio pour la reconnaissance de la parole page 18
2 Variabilité du signal de parole et robustesse de sous-empreintes Matthieu Camus Identification audio pour la reconnaissance de la parole page 19
Variabilité extrinsèque Perturbation du signal audio lors de sa transmission et de son acquisition Bruits additifs liés à l environnement (bruit extérieur) Bruits convolutifs liés à des effets acoustiques de type écho ou lors du passage par un canal de transmission (canal téléphonique) Enregistrement et restitution lors d une conversion (fonction de transfert du microphone, numérisation) Matthieu Camus Identification audio pour la reconnaissance de la parole page 20
Evaluation de la variabilité extrinsèque Analyse de la robustesse de sous-empreintes issues de la reproduction d un signal de parole dégradé Signal de test obtenu à partir du signal de parole de l apprentissage ayant subi une dégradation audio (enregistrement studio et restitution à travers un réseau téléphonique) Seuil de validation sur la distance entre sous-empreintes robustesse à la dégradation du signal (gestion du critère de similarité entre sous-empreintes) Est-ce que la distance entre une sous-empreinte de test et sa correspondance dans l apprentissage est inférieure au seuil de validation? Matthieu Camus Identification audio pour la reconnaissance de la parole page 21
Robustesse et variabilité extrinsèque apprentissage segment phonétique comparaison < seuil? Mesure de distance entre la sous-empreinte de test et sa correspondance dans l apprentissage test sous-empreinte Prise en compte d un possible décalage temporel Mesure par Précision Extrinsèque PE = NI / NTest NI = nombre de sous-empreintes de test inférieures au seuil NTest = nombre de sous-empreintes de test Matthieu Camus Identification audio pour la reconnaissance de la parole page 22
Variabilité intrinsèque Liée au mode de production de la parole Effets de coarticulation (contexte phonétique, débit de parole) Intra-locuteur Type de parole (lue, spontanée, conversationnelle) Etat émotionnel, stress (effet Lombard), fatigue Inter-locuteur Caractéristiques morphologiques : sexe, âge, taille Origines géographiques, langue Matthieu Camus Identification audio pour la reconnaissance de la parole page 23
Evaluation de la variabilité intrinsèque Analyse de la robustesse de sous-empreintes de test issues d une nouvelle production de signal de parole Signal de test obtenu à partir d un signal de parole différent de celui de l apprentissage (nouvelle prononciation) Seuil de validation sur la distance entre sous-empreintes robustesse à la discrimination phonétique (compromis entre fausse alarme et faux rejet) Les sous-empreintes de l apprentissage, dont la distance avec une sous-empreinte de test est inférieure au seuil, retournent-elles la bonne étiquette phonétique? Matthieu Camus Identification audio pour la reconnaissance de la parole page 24
Robustesse et variabilité intrinsèque apprentissage Mesure de distance entre une sous-empreinte de test et tout l apprentissage comparaison < seuil? sous-empreinte de test test Mesure de Précision Intrinsèque Locale PIL = N / NT N = nombre de bonnes étiquettes phonétiques retournées NT = nombre total d étiquettes phonétiques retournées Précision intrinsèque : moyenne des précisions locales PIL Matthieu Camus Identification audio pour la reconnaissance de la parole page 25
Robustesse de sous-empreintes Bases de données Apprentissage sur un signal de parole propre : TIMIT Tests sur un signal de parole dégradé : NTIMIT, CTIMIT Types de sous-empreinte Paramétrisation : fenêtre de 25 ms calculées toutes les 10 ms AP : Philips (20 bits, sous-bandes sur l intervalle [40, 3700] Hz) AS : Shazam (20 bits, 100 sous-empreintes/seconde en moyenne) MFCC : paramètres MFCCs + C0, dérivées 1 res et 2 ndes QV : quantification vectorielle non-supervisée (12 bits, paramètres MFCCs) Evaluation sur les trames sélectionnées par Shazam (AS) Matthieu Camus Identification audio pour la reconnaissance de la parole page 26
Critère de similarité Limiter le biais sur les mesures de distance AP et AS : distance de Hamming MFCC : distance euclidienne, QV : distance de Bhattacharyya Recherche d un nombre de plus proches voisins dans un espace de recherche donné sous-empreinte de test pour la recherche des plus proches voisins sous-empreintes d apprentissage mesure de distance maximale zone de recherche des plus proches voisins Matthieu Camus Identification audio pour la reconnaissance de la parole page 27
précision extrinsèque (en %) Identification audio Adaptation DAP Variabilités Robustesse Conclusion Variabilité extrinsèque (1) 100 80 60 40 20 apprentissage : TIMIT test : NTIMIT Augmentation de la précision extrinsèque suivant la distance maximale AS : sous-empreintes les plus robustes 0 0 1 2 3 4 5 distance de Hamming maximale AP AS QV MFCC MFCC : bonne résistance aux bruits convolutifs QV : peu robuste et avec une faible évolution selon la distance maximale répartition des centroïdes dans l espace de recherche? Matthieu Camus Identification audio pour la reconnaissance de la parole page 28
précision extrinsèque (en %) Identification audio Adaptation DAP Variabilités Robustesse Conclusion Variabilité extrinsèque (2) 100 80 60 apprentissage : TIMIT test : CTIMIT AS : maintien de la robustesse par rapport au test NTIMIT robuste aux bruits additifs 40 20 0 0 1 2 3 4 5 distance de Hamming maximale AP AS QV MFCC AP : évolution similaire à AS MFCC : forte diminution de la robustesse non-adapté aux bruits additifs QV : très faiblement robuste Matthieu Camus Identification audio pour la reconnaissance de la parole page 29
précision moyenne (en %) Identification audio Adaptation DAP Variabilités Robustesse Conclusion Variabilité extrinsèque/intrinsèque (1) 50 40 30 20 10 apprentissage : TIMIT test : NTIMIT Diminution de la précision moyenne avec augmentation de la distance maximale QV : discrimination à la classification phonétique 0 0 1 2 3 4 5 distance de Hamming maximale AP AS QV MFCC AS et AP : faiblement robuste MFCC : robustesse proche du hasard Matthieu Camus Identification audio pour la reconnaissance de la parole page 30
précision moyenne (en %) Identification audio Adaptation DAP Variabilités Robustesse Conclusion Variabilité extrinsèque/intrinsèque (2) 50 40 30 20 10 apprentissage : TIMIT test : CTIMIT QV : diminution de la robustesse par rapport au test NTIMIT peu robuste aux bruits additifs AS et AP : maintien des performances bonne résistance aux bruits additifs 0 0 1 2 3 4 5 distance de Hamming maximale AP AS QV MFCC AS : la plus robuste sur CTIMIT Matthieu Camus Identification audio pour la reconnaissance de la parole page 31
Variabilités et sous-empreintes Etude des variabilités extrinsèque et intrinsèque Reproduction d un signal dégradé nouvelle production d un signal Paradigmes d évaluation : précisions extrinsèque et moyenne Evolution de la robustesse suivant la distance maximale Partitionnement de l espace différent selon le type de sous-empreinte Résultats contrastés Sous-empreintes MFCC robustes sur NTIMIT (bruit convolutif) Sous-empreintes Shazam meilleures sur CTIMIT (bruit additif) Matthieu Camus Identification audio pour la reconnaissance de la parole page 32
3 Conclusion et perspective Matthieu Camus Identification audio pour la reconnaissance de la parole page 33
Conclusion Principe de l identification audio adapté à la RAP Apprentissage : base de données en mémoire avec sous-empreintes et unités linguistiques associées Test : comparaison de segments de sous-empreintes DAP fonctionnel mais aux performances inférieures à un HMM Variabilités extrinsèque et intrinsèque spécifique à la parole MFCCs quantifiés robustes à la variabilité intrinsèque et bruit convolutif (NTIMIT) adaptation de Shazam robuste aux bruits additifs (CTIMIT) Performance de telles sous-empreintes dans un système de détection de mots-clés? Matthieu Camus Identification audio pour la reconnaissance de la parole page 34
FOM (en %) Détection de mots-clés Système de référence [Rose, 1990] Représentation phonétique par modélisation HMM-GMM Modèles de mots-clés et modèle poubelle avec pénalité 100 80 60 40 20 0 9 11 13 15 17 19 pénalité TIMIT NTIMIT CTIMIT Apprentissage TIMIT, test sur signal de parole propre et dégradé Problème de discrimination lors de l apparition de bruit Adaptation de l identification audio? Matthieu Camus Identification audio pour la reconnaissance de la parole page 35
Détection de mots-clés apprentissage b D Z u { mot 1 mot 2 sous-empreintes transcription phonétique positions de mot-clé comparaison signal de parole de test Matthieu Camus Identification audio pour la reconnaissance de la parole page 36
Merci de votre attention Matthieu Camus Identification audio pour la reconnaissance de la parole page 37