Identification audio pour la reconnaissance de la parole

Documents pareils
Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Chaine de transmission

Apprentissage Automatique

Intérêt du découpage en sous-bandes pour l analyse spectrale

ISO/CEI NORME INTERNATIONALE

Enregistrement et transformation du son. S. Natkin Novembre 2001

Bandes Critiques et Masquage

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Traitement bas-niveau

Les techniques de multiplexage

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Une empreinte audio à base d ALISP appliquée à l identification audio dans un flux radiophonique

Étude des Corrélations entre Paramètres Statiques et Dynamiques des Convertisseurs Analogique-Numérique en vue d optimiser leur Flot de Test

LES DIFFÉRENTS FORMATS AUDIO NUMÉRIQUES

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Transmission de données. A) Principaux éléments intervenant dans la transmission

Systèmes de transmission

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

LES CARACTERISTIQUES DES SUPPORTS DE TRANSMISSION

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

SYSTEME DE PALPAGE A TRANSMISSION RADIO ETUDE DU RECEPTEUR (MI16) DOSSIER DE PRESENTATION. Contenu du dossier :

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

Université de La Rochelle. Réseaux TD n 6

Projet de Master en Informatique: Web WriteIt!

Codage hiérarchique et multirésolution (JPEG 2000) Codage Vidéo. Représentation de la couleur. Codage canal et codes correcteurs d erreur

Numérisation du signal

Mesure agnostique de la qualité des images.

UE11 Phonétique appliquée

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

Information. BASES LITTERAIRES Etre capable de répondre à une question du type «la valeur trouvée respecte t-elle le cahier des charges?

LABO PROJET : IMPLEMENTATION D UN MODEM ADSL SOUS MATLAB

Votre Réseau est-il prêt?

P2: Perception auditive

Extraction de descripteurs musicaux: une approche évolutionniste

Expérience 3 Formats de signalisation binaire

TP Modulation Démodulation BPSK

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

Calcul des indicateurs de sonie : revue des algorithmes et implémentation

Câblage des réseaux WAN.

Analyse des bruits de clavier d ordinateur

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

Chapitre 18 : Transmettre et stocker de l information

Chapitre 2 : communications numériques.

Une fréquence peut-elle être instantanée?

Approche par marquage pour l évaluation de la qualité d image dans les applications multimédias

TeamConnect. SL TeamConnect CU1, Unité centrale SL TeamConnect CB1, Combox CARACTÉRISTIQUES

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Multimedia. Systèmes, Communications et Applications. Ahmed MEHAOUA

On distingue deux grandes catégories de mémoires : mémoire centrale (appelée également mémoire interne)

Systèmes de conférence

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

ManageEngine Netflow Analyser

Rapport : Base de données. Anthony Larcher 1

CLIP. (Calling Line Identification Presentation) Appareil autonome affichant le numéro appelant

1. PRESENTATION DU PROJET

«Le Dolby Digital 5.1 et les tests en champ libre par ordinateur»

Transmission d informations sur le réseau électrique

THÈSE. présentée à l Université d Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT

Paramétrisation adaptée de transitoires pour la reconnaissance d instruments de musique

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

Chapitre I La fonction transmission

Systèmes de communications numériques 2

Capacité étendue d utilisation en réseau

Production de documents audio-numériques

Projet de Traitement du Signal Segmentation d images SAR

Echantillonnage Non uniforme

CT-DECT GateCom 3W avec Fonction CT-ASR CT-DECT Bluetooth / tablette tactile et téléphones GSM Geschäftsbericht 09/10 I 1

Manual de l utilisateur


Codage de la parole à bas et très bas débit 1

La PSBT Optique : Un candidat sérieux pour augmenter le débit sur les installations existantes.

Quantification Scalaire et Prédictive

Scanner acoustique NoiseScanner

Les Réseaux sans fils : IEEE F. Nolot

Projet audio. Analyse des Signaux ELE2700

Introduction au Data-Mining

Mesures en réception télévision

Géométrie discrète Chapitre V

Conservation des documents numériques

Chapitre 2 Les ondes progressives périodiques

Etude et conception d un serveur vocal :

Analyses psychoacoustiques dans ArtemiS SUITE

Régler les paramètres de mesure en choisissant un intervalle de mesure 10µs et 200 mesures.

Université du Québec à Chicoutimi THESE. Présentée à l'université du Québec à Chicoutimi Département des Sciences Appliquées

TD 1 - Transmission en bande de passe

Mesures de temps de propagation de groupe sur convertisseurs de fréquence sans accès aux OL

Ce document a pour but d aider à planifier l achat d équipement en éducation pour les niveaux primaire et secondaire.

EMETTEUR ULB. Architectures & circuits. Ecole ULB GDRO ESISAR - Valence 23-27/10/2006. David MARCHALAND STMicroelectronics 26/10/2006

Architecture des ordinateurs

TELEVISION NUMERIQUE

Les réseaux cellulaires

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Présentation et installation PCE-LOG V4 1-5

Electron S.R.L. - MERLINO - MILAN ITALIE Tel ( ) Fax Web electron@electron.it

Architectures et Protocoles des Réseaux

Optimisation, traitement d image et éclipse de Soleil

Notice d emploi Sonomètre PCE-353

Transcription:

Identification audio pour la reconnaissance de la parole Matthieu Camus Encadrants au DIADEX LIPADE Marie-José Caraty Claude Montacié Encadrants à Orange Labs Patrice Collen Jean-Bernard Rault

Introduction Identification audio par empreinte Représentation acoustique du signal audio sous forme d empreinte Principe d identification audio par l exemple Applications : indexation audio, identification d extraits de musique Adaptation à la Reconnaissance Automatique de la Parole (RAP) Avantage : faible complexité (rapidité d exécution) Problématique : gestion de la variabilité du signal de parole? Application envisagée : détection de mots-clés Système de reconnaissance de mots isolés [Vasiloglou et al, 2004] Matthieu Camus Identification audio pour la reconnaissance de la parole page 2

Plan Identification audio par empreinte et adaptation à la RAP Principe d un système d identification audio par empreinte Méthodes d identification audio de Philips et de Shazam Adaptation au Décodage Acoustico-Phonétique (DAP) Variabilité du signal de parole et robustesse de sousempreintes Variabilité extrinsèque et variabilité intrinsèque Robustesse de types de sous-empreinte issus de l identification audio et de paramètres MFCCs Perspective et conclusion Matthieu Camus Identification audio pour la reconnaissance de la parole page 3

Principe de l identification audio par empreinte Objectif : déterminer si deux éléments audio différents sont issus du même document Exemple : identifier un morceau de musique au format MP3 à partir d une base d apprentissage de CDs audio [Haitsma et al, 2002] Méthode d association d une signature caractéristique à un signal audio analysé Pas d altération du signal d origine ( watermarking) Extraction de caractéristiques acoustiques conservées dans une base d apprentissage Matthieu Camus Identification audio pour la reconnaissance de la parole page 4

Empreinte audio Caractéristiques idéales d une empreinte audio Unique valeur de représentation différente pour deux signaux audio différents Compacte faible taille en mémoire pour le stockage dans une base d apprentissage Robuste résistance aux dégradations du signal acoustique par traitement audio : compression, filtrage, égalisation, contrôle de la dynamique [Haitsma et al, 2002] (exemple : signal de test issu d une diffusion radiophonique) Recherche d un compromis entre unicité et compacité, qui soit le plus robuste possible Matthieu Camus Identification audio pour la reconnaissance de la parole page 5

Identification d extraits de musique extraits de musique création d'empreinte base d apprentissage métadonnées d identification apprentissage test signal audio de test création d'empreinte extrait identifié comparaison Matthieu Camus Identification audio pour la reconnaissance de la parole page 6

Méthode de Philips Empreinte issue d une analyse spectrale en banc de filtres [Haitsma et al, 2001] Banc de filtres passe-bande sur la plage [300, 2000] Hz selon une échelle perceptuelle (type Bark) Empreintes obtenues à partir de trames de 370 ms avec un taux de recouvrement de 97 % Matthieu Camus Identification audio pour la reconnaissance de la parole page 7

Méthode de Philips : empreinte Représentation compacte d une trame : la sous-empreinte Bit du signe de la double dérivée temps-fréquence de l énergie entre deux trames et deux sous-bandes adjacentes [Haitsma, 2001] T : opérateur de délai pour conserver la trame précédente signal audio analyse en sous-bandes valeur d énergie signe signe binarisation E 0 + - T - + >0 E 1 + - T - + >0 B 0 B 1 calcul du vecteur acoustique calcul de la sous-empreinte Matthieu Camus Identification audio pour la reconnaissance de la parole page 8

index binaire Méthode de Philips : comparaison Empreinte = bloc de sous-empreintes de taille fixe Accès rapide pour l identification (table de hachage) Distance entre empreintes : le Bit Error Rate (BER) issu de la distance locale de Hamming 31 0 31 a) empreinte d origine b) empreinte altérée 0 31 0 0 0.02 0.04 0.06 0.08 0.1 0.12 temps (en s) différence entre a) et b) BER = 0,1 Matthieu Camus Identification audio pour la reconnaissance de la parole page 9

Méthode de Shazam Empreinte issue d une recherche des points à haute amplitude énergétique dans un voisinage [Wang, 2003] Analyse du signal ré-échantillonné à 8000 Hz sur des trames de 64 ms avec un recouvrement de 50 %, en sousbandes de fréquence [Ellis, 2009] Application commerciale pour l identification de morceaux de musique : Shazam [Wang, 2006] Matthieu Camus Identification audio pour la reconnaissance de la parole page 10

fréquence (Hz) Méthode de Shazam : empreinte Recherche de points d intérêt temps (s) Point d intérêt : présence d énergie par rapport au voisinage local Appariement de points d intérêt avec un seuil sur les temps et fréquence Conservation des points appariés contenant les plus grandes valeurs d énergie (environ 5 par seconde) Matthieu Camus Identification audio pour la reconnaissance de la parole page 11

Méthode de Shazam : comparaison Sous-empreinte issue de valeurs quantifiées (e.g. 20 bits) 8 bits pour la fréquence du 1 er point d intérêt 6 bits pour la fréquence du 2 nd point d intérêt 6 bits pour l intervalle temporel entre les deux points d intérêt Identification entre segments de sous-empreintes directement sur les valeurs quantifiées 1. recherche de sous-empreintes identiques dans la base d apprentissage retournant les empreintes candidates 2. comparaison des empreintes candidates avec le segment de test 3. calcul d un histogramme des décalages temporels sur sous-empreintes à fréquence similaire 4. identification valide si la vraisemblance sur l histogramme est supérieure à un seuil Matthieu Camus Identification audio pour la reconnaissance de la parole page 12

Caractéristiques Philips - Shazam Sous-empreinte Caractéristiques Paramétrisation Philips Moyen terme, fort recouvrement Shazam Court terme, recouvrement moyen Extraction Toutes les trames Points d intérêt Mode de calcul Bit du signe de doubles dérivées en tempsfréquence de l énergie Valeurs quantifiées de couples de points d intérêt et leur distance temporelle Matthieu Camus Identification audio pour la reconnaissance de la parole page 13

Identification audio et DAP sous-empreintes et métadonnées d apprentissage phonèmes b D Z u { (le bonjour) comparaison identification des unités linguistiques signal de parole de test extraction de sous-empreintes (le rouge) { u Z Matthieu Camus Identification audio pour la reconnaissance de la parole page 14

Sous-empreintes pour le DAP Adaptation de la méthode de Philips (AP-DAP) Paramétrisation acoustique adaptée au signal de parole (trames de 25 ms toutes les 10 ms sur l intervalle [40 Hz, 3700 Hz]) Simplification du calcul de dérivée temps-fréquence pour favoriser la similarité des sous-empreintes contigües Relâchement de la contrainte d identification : recherche des sousempreintes similaires à N-bits près dans la base d apprentissage (N défini par le seuil sur le BER) Matthieu Camus Identification audio pour la reconnaissance de la parole page 15

Sous-empreintes pour le DAP (2) Sous-empreintes à partir de vecteurs MFCCs (QV et QVS) Paramètres acoustiques MFCCs + C0, dérivées 1 res et 2 ndes Quantification vectorielle non-supervisée (QV) Segmentation par k-moyenne avec répartition équilibrée Calcul de centroïde C avec la distance au vecteur MFCC x Sous-empreinte = index de valeur du centroïde le plus proche du vecteur Quantification vectorielle supervisée non-uniforme (QVS) Apprentissage supervisé : quantification pour chaque phonème Regroupement des centroïdes contigus de même phonème Suppression des centroïdes isolés Matthieu Camus Identification audio pour la reconnaissance de la parole page 16

Principe d identification pour le DAP Empreinte = segment de sous-empreintes de taille variable selon la segmentation phonétique segments de sous-empreintes + phonèmes candidat 1 : phonème D candidat 2 : phonème u sous-empreintes de test appariement de sous-empreintes Choix de la meilleure séquence phonétique (level-building) maximiser la similarité entre segments de sous-empreintes minimiser le nombre de changements de séquences d empreintes Matthieu Camus Identification audio pour la reconnaissance de la parole page 17

Expériences de DAP Expériences sur les corpus TIMIT, NTIMIT et BREF80 Apprentissage et test homogènes (même base de données) Taille commune de sous-empreinte sur 16 bits Comparaison à un système de référence HMM-GMM à 3 états (paramètres MFCCs, monophones, 512 gaussiennes par état) Résultats en terme de taux de reconnaissance (accuracy) Accuracy (%) TIMIT NTIMIT BREF80 HMM-GMM 61,2 43,7 74,4 AP-DAP 17,6 13,0 19,0 QV 26,2 13,6 41,1 QVS 46,2 28,2 55,3 Matthieu Camus Identification audio pour la reconnaissance de la parole page 18

2 Variabilité du signal de parole et robustesse de sous-empreintes Matthieu Camus Identification audio pour la reconnaissance de la parole page 19

Variabilité extrinsèque Perturbation du signal audio lors de sa transmission et de son acquisition Bruits additifs liés à l environnement (bruit extérieur) Bruits convolutifs liés à des effets acoustiques de type écho ou lors du passage par un canal de transmission (canal téléphonique) Enregistrement et restitution lors d une conversion (fonction de transfert du microphone, numérisation) Matthieu Camus Identification audio pour la reconnaissance de la parole page 20

Evaluation de la variabilité extrinsèque Analyse de la robustesse de sous-empreintes issues de la reproduction d un signal de parole dégradé Signal de test obtenu à partir du signal de parole de l apprentissage ayant subi une dégradation audio (enregistrement studio et restitution à travers un réseau téléphonique) Seuil de validation sur la distance entre sous-empreintes robustesse à la dégradation du signal (gestion du critère de similarité entre sous-empreintes) Est-ce que la distance entre une sous-empreinte de test et sa correspondance dans l apprentissage est inférieure au seuil de validation? Matthieu Camus Identification audio pour la reconnaissance de la parole page 21

Robustesse et variabilité extrinsèque apprentissage segment phonétique comparaison < seuil? Mesure de distance entre la sous-empreinte de test et sa correspondance dans l apprentissage test sous-empreinte Prise en compte d un possible décalage temporel Mesure par Précision Extrinsèque PE = NI / NTest NI = nombre de sous-empreintes de test inférieures au seuil NTest = nombre de sous-empreintes de test Matthieu Camus Identification audio pour la reconnaissance de la parole page 22

Variabilité intrinsèque Liée au mode de production de la parole Effets de coarticulation (contexte phonétique, débit de parole) Intra-locuteur Type de parole (lue, spontanée, conversationnelle) Etat émotionnel, stress (effet Lombard), fatigue Inter-locuteur Caractéristiques morphologiques : sexe, âge, taille Origines géographiques, langue Matthieu Camus Identification audio pour la reconnaissance de la parole page 23

Evaluation de la variabilité intrinsèque Analyse de la robustesse de sous-empreintes de test issues d une nouvelle production de signal de parole Signal de test obtenu à partir d un signal de parole différent de celui de l apprentissage (nouvelle prononciation) Seuil de validation sur la distance entre sous-empreintes robustesse à la discrimination phonétique (compromis entre fausse alarme et faux rejet) Les sous-empreintes de l apprentissage, dont la distance avec une sous-empreinte de test est inférieure au seuil, retournent-elles la bonne étiquette phonétique? Matthieu Camus Identification audio pour la reconnaissance de la parole page 24

Robustesse et variabilité intrinsèque apprentissage Mesure de distance entre une sous-empreinte de test et tout l apprentissage comparaison < seuil? sous-empreinte de test test Mesure de Précision Intrinsèque Locale PIL = N / NT N = nombre de bonnes étiquettes phonétiques retournées NT = nombre total d étiquettes phonétiques retournées Précision intrinsèque : moyenne des précisions locales PIL Matthieu Camus Identification audio pour la reconnaissance de la parole page 25

Robustesse de sous-empreintes Bases de données Apprentissage sur un signal de parole propre : TIMIT Tests sur un signal de parole dégradé : NTIMIT, CTIMIT Types de sous-empreinte Paramétrisation : fenêtre de 25 ms calculées toutes les 10 ms AP : Philips (20 bits, sous-bandes sur l intervalle [40, 3700] Hz) AS : Shazam (20 bits, 100 sous-empreintes/seconde en moyenne) MFCC : paramètres MFCCs + C0, dérivées 1 res et 2 ndes QV : quantification vectorielle non-supervisée (12 bits, paramètres MFCCs) Evaluation sur les trames sélectionnées par Shazam (AS) Matthieu Camus Identification audio pour la reconnaissance de la parole page 26

Critère de similarité Limiter le biais sur les mesures de distance AP et AS : distance de Hamming MFCC : distance euclidienne, QV : distance de Bhattacharyya Recherche d un nombre de plus proches voisins dans un espace de recherche donné sous-empreinte de test pour la recherche des plus proches voisins sous-empreintes d apprentissage mesure de distance maximale zone de recherche des plus proches voisins Matthieu Camus Identification audio pour la reconnaissance de la parole page 27

précision extrinsèque (en %) Identification audio Adaptation DAP Variabilités Robustesse Conclusion Variabilité extrinsèque (1) 100 80 60 40 20 apprentissage : TIMIT test : NTIMIT Augmentation de la précision extrinsèque suivant la distance maximale AS : sous-empreintes les plus robustes 0 0 1 2 3 4 5 distance de Hamming maximale AP AS QV MFCC MFCC : bonne résistance aux bruits convolutifs QV : peu robuste et avec une faible évolution selon la distance maximale répartition des centroïdes dans l espace de recherche? Matthieu Camus Identification audio pour la reconnaissance de la parole page 28

précision extrinsèque (en %) Identification audio Adaptation DAP Variabilités Robustesse Conclusion Variabilité extrinsèque (2) 100 80 60 apprentissage : TIMIT test : CTIMIT AS : maintien de la robustesse par rapport au test NTIMIT robuste aux bruits additifs 40 20 0 0 1 2 3 4 5 distance de Hamming maximale AP AS QV MFCC AP : évolution similaire à AS MFCC : forte diminution de la robustesse non-adapté aux bruits additifs QV : très faiblement robuste Matthieu Camus Identification audio pour la reconnaissance de la parole page 29

précision moyenne (en %) Identification audio Adaptation DAP Variabilités Robustesse Conclusion Variabilité extrinsèque/intrinsèque (1) 50 40 30 20 10 apprentissage : TIMIT test : NTIMIT Diminution de la précision moyenne avec augmentation de la distance maximale QV : discrimination à la classification phonétique 0 0 1 2 3 4 5 distance de Hamming maximale AP AS QV MFCC AS et AP : faiblement robuste MFCC : robustesse proche du hasard Matthieu Camus Identification audio pour la reconnaissance de la parole page 30

précision moyenne (en %) Identification audio Adaptation DAP Variabilités Robustesse Conclusion Variabilité extrinsèque/intrinsèque (2) 50 40 30 20 10 apprentissage : TIMIT test : CTIMIT QV : diminution de la robustesse par rapport au test NTIMIT peu robuste aux bruits additifs AS et AP : maintien des performances bonne résistance aux bruits additifs 0 0 1 2 3 4 5 distance de Hamming maximale AP AS QV MFCC AS : la plus robuste sur CTIMIT Matthieu Camus Identification audio pour la reconnaissance de la parole page 31

Variabilités et sous-empreintes Etude des variabilités extrinsèque et intrinsèque Reproduction d un signal dégradé nouvelle production d un signal Paradigmes d évaluation : précisions extrinsèque et moyenne Evolution de la robustesse suivant la distance maximale Partitionnement de l espace différent selon le type de sous-empreinte Résultats contrastés Sous-empreintes MFCC robustes sur NTIMIT (bruit convolutif) Sous-empreintes Shazam meilleures sur CTIMIT (bruit additif) Matthieu Camus Identification audio pour la reconnaissance de la parole page 32

3 Conclusion et perspective Matthieu Camus Identification audio pour la reconnaissance de la parole page 33

Conclusion Principe de l identification audio adapté à la RAP Apprentissage : base de données en mémoire avec sous-empreintes et unités linguistiques associées Test : comparaison de segments de sous-empreintes DAP fonctionnel mais aux performances inférieures à un HMM Variabilités extrinsèque et intrinsèque spécifique à la parole MFCCs quantifiés robustes à la variabilité intrinsèque et bruit convolutif (NTIMIT) adaptation de Shazam robuste aux bruits additifs (CTIMIT) Performance de telles sous-empreintes dans un système de détection de mots-clés? Matthieu Camus Identification audio pour la reconnaissance de la parole page 34

FOM (en %) Détection de mots-clés Système de référence [Rose, 1990] Représentation phonétique par modélisation HMM-GMM Modèles de mots-clés et modèle poubelle avec pénalité 100 80 60 40 20 0 9 11 13 15 17 19 pénalité TIMIT NTIMIT CTIMIT Apprentissage TIMIT, test sur signal de parole propre et dégradé Problème de discrimination lors de l apparition de bruit Adaptation de l identification audio? Matthieu Camus Identification audio pour la reconnaissance de la parole page 35

Détection de mots-clés apprentissage b D Z u { mot 1 mot 2 sous-empreintes transcription phonétique positions de mot-clé comparaison signal de parole de test Matthieu Camus Identification audio pour la reconnaissance de la parole page 36

Merci de votre attention Matthieu Camus Identification audio pour la reconnaissance de la parole page 37