Master IAD Module PS. Reconnaissance de la parole (suite): Paramétrisation. Gaël RICHARD Février 2008



Documents pareils
Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Intérêt du découpage en sous-bandes pour l analyse spectrale

Analyses psychoacoustiques dans ArtemiS SUITE

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Chaine de transmission

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Bandes Critiques et Masquage

Systèmes de transmission

Didier Pietquin. Timbre et fréquence : fondamentale et harmoniques

8563A. SPECTRUM ANALYZER 9 khz GHz ANALYSEUR DE SPECTRE

Calcul des indicateurs de sonie : revue des algorithmes et implémentation

Chapitre 2 Les ondes progressives périodiques

Transmission d informations sur le réseau électrique

ACOUSTIQUE 3 : ACOUSTIQUE MUSICALE ET PHYSIQUE DES SONS

Mode d emploi ALTO MONITOR PROCESSEUR D ÉCOUTE. Version 1.0 Juillet 2003 Français

FAG Detector III la solution pour la surveillance et l équilibrage. Information Technique Produit

P2: Perception auditive

-1- SOUNDMAN. Fabrication et distribution. SOUNDMAN e.k. Bornimer Str Berlin (Allemagne) Tél & Fax (+49)

Etude et conception d un serveur vocal :

Son et Mathématiques

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Chapitre I La fonction transmission

CHAPITRE V. Théorie de l échantillonnage et de la quantification

Echantillonnage Non uniforme

THÈSE. présentée à l Université d Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT

Expérience 3 Formats de signalisation binaire

SI350 Indexation Audio

5.2 Théorème/Transformée de Fourier a) Théorème

Enregistrement et transformation du son. S. Natkin Novembre 2001

TD1 Signaux, énergie et puissance, signaux aléatoires

Numérisation du signal

Recherche De Coalescences Binaires Étalonnage Du Détecteur

Cours d Acoustique. Niveaux Sonores Puissance, Pression, Intensité

Scarlett Plug-in Suite

Ordonnance du DFJP sur les instruments de mesure audiométriques

Logiciel d analyse et de gestion du bruit OUIE2000

TP Modulation Démodulation BPSK

Étude des Corrélations entre Paramètres Statiques et Dynamiques des Convertisseurs Analogique-Numérique en vue d optimiser leur Flot de Test

Hélène Lœvenbruck, Christophe Savariaux, Dorothée Lefebvre

Filtres passe-bas. On utilise les filtres passe-bas pour réduire l amplitude des composantes de fréquences supérieures à la celle de la coupure.

Manipulation N 6 : La Transposition de fréquence : Mélangeur micro-ondes

LÕenregistrement Enregistrement analogique et enregistrement numžrique

Quantification Scalaire et Prédictive

Projet de Traitement du Signal Segmentation d images SAR

Mesure agnostique de la qualité des images.

Notions d acoustique contexte réglementaire et solutions de prévention

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

«Tous les sons sont-ils audibles»

Automatique Linéaire 1 Travaux Dirigés 1A ISMIN

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Caractéristiques des ondes

Projet audio. Analyse des Signaux ELE2700


Analyse des bruits de clavier d ordinateur

EMETTEUR ULB. Architectures & circuits. Ecole ULB GDRO ESISAR - Valence 23-27/10/2006. David MARCHALAND STMicroelectronics 26/10/2006

Technique de codage des formes d'ondes

LISACode. Un simulateur opérationnel pour LISA. Antoine PETITEAU LISAFrance - le 16 mai 2006

A. N(p) B + C p. + D p2

M1107 : Initiation à la mesure du signal. T_MesSig

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

DIPLÔME INTERUNIVERSITAIRE D ECHOGRAPHIE. Examen du Tronc Commun sous forme de QCM. Janvier h à 16 h

MESURES D UN ENVIRONNEMENT RADIOELECTRIQUE AVEC UN RECEPTEUR CONVENTIONNEL ETALONNE

CODE DE SÉCURITÉ SAFETY CODE. Publié par: Le Directeur général Date de publication: 1993 Original: français PROTECTION CONTRE LE BRUIT

Chapitre 5 Émetteurs et récepteurs sonores

2 g Net - 36 g emballé 2 tips silicone anallergique small + 2 medium + 2 filtres à membrane. 2 tailles d embouts

Champ électromagnétique?

(Quelle identité par la parole?) Thèse. présentée à la section. Systèmes de Communication. par. Dominique Genoud

TRAVAUX PRATIQUES SCIENTIFIQUES SUR SYSTÈME

10ème Congrès Français d'acoustique Lyon, Avril 2010

Apprentissage Automatique

Paramétrisation adaptée de transitoires pour la reconnaissance d instruments de musique

Géométrie discrète Chapitre V

LABO 5 ET 6 TRAITEMENT DE SIGNAL SOUS SIMULINK

Université du Québec à Chicoutimi THESE. Présentée à l'université du Québec à Chicoutimi Département des Sciences Appliquées

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

MESURES de BRUIT. Chantier A63 Rechargement

Mesures de temps de propagation de groupe sur convertisseurs de fréquence sans accès aux OL

FAG Detector II le collecteur et l analyseur de données portatif. Information Technique Produit

«Le Dolby Digital 5.1 et les tests en champ libre par ordinateur»

ÉVALUATION FORMATIVE. On considère le circuit électrique RC représenté ci-dessous où R et C sont des constantes strictement positives.

Modélisation aléatoire en fiabilité des logiciels

La Perception Auditive

REPRÉSENTATIONS ANALYTIQUES AVANCÉES AVEC EANALYSIS

Compatibilité Électromagnétique

Exemple d acquisition automatique de mesures sur une maquette de contrôle actif de vibrations

NON-LINEARITE ET RESEAUX NEURONAUX

M u r s e n m a ç o n n e r i e

Extraction de descripteurs musicaux: une approche évolutionniste

Scanner acoustique NoiseScanner

Guitar FX Plug-in Suite

BACCALAURÉAT PROFESSIONNEL EPREUVE DE TRAVAUX PRATIQUES DE SCIENCES PHYSIQUES SUJET A.1

Introduction à l informatique temps réel Pierre-Yves Duval (cppm)

Traitement du signal avec Scilab : la transformée de Fourier discrète

Equipement. électronique

Qualité perçue de parole transmise par voie téléphonique large-bande

Information. BASES LITTERAIRES Etre capable de répondre à une question du type «la valeur trouvée respecte t-elle le cahier des charges?

Transcription:

Master IAD Module PS Reconnaissance de la parole (suite): Paramétrisation Gaël RICHARD Février 2008 1

Reconnaissance de la parole Introduction Approches pour la reconnaissance vocale Paramétrisation Distances et mesures de distortion spectrale Alignement Temporel et Programmation dynamique (DTW) Introduction aux modèles de Markov Cachés Base de données pour la reconnaissance Exemples d applications Gaël RICHARD Master IAD - PS Février 2008 2

Paramétrisation Réalisée par un module de traitement du signal (souvent appelé «Front End») Réalise une analyse spectrale du signal généralement effectuée suivant une des méthodes ci-dessous: Par banc de filtres (typiquement 10 à 30 bandes fréquentielles) Par FFT (cas particulier) Approche cepstrale Prédiction linéaire (LPC) Gaël RICHARD Master IAD - PS Février 2008 3

Paramétrisation Méthodes par bancs de filtres Ont été beaucoup utilisées Remplacées actuellement par des méthodes plus spécifiques Méthodes à base de la transformée de Fourier Existence d algorithmes rapides La FFT peut représenter la première étape d une analyse spectrale qui sera ensuite ré-échantillonnée suivant une nouvelle échelle fréquentielle (Echelle Logarithmique, Echelle Bark, Echelle Mel) 3 paramétrisations couramment utilisées: Les paramètres MFCC Les paramètres LPCC Les paramètres PLP Gaël RICHARD Master IAD - PS Février 2008 4

Paramétrisation: paramètres spectraux Paramétrisation spectrale: analyse d un signal audio (d après Laroche) Gaël RICHARD Master IAD - PS Février 2008 5

Paramétrisation Echelle BARK (tableau d après Hartmann97) Est basée sur les bandes critiques telles qu elles sont perçues par l oreille Assez proche d une échelle logarithmique Gaël RICHARD Master IAD - PS Février 2008 6

Echelle BARK Formules analytiques approchant l échelle Bark (d après Hartmann97 avec z en Bark et f en Hertz) Facteurs de correction Gaël RICHARD Master IAD - PS Février 2008 7

Echelle BARK Formules analytiques inverses Facteurs de correction Gaël RICHARD Master IAD - PS Février 2008 8

Vers l échelle MEL Hauteur tonale des sons purs Expérience sur des sons purs: par rapport à un son de référence (1 khz par exemple), on dit que la tonie double si un autre son est perçu comme 2 fois + aigu, etc. Constatation: la tonie est proportionnelle à la fréquence pour les fréquences basses. On identifie 2 échelles De 0 à 500 Hz où 1 Mel = 1 Hz (courbe linéaire) > 500 Hz où la tonie croit de façon logarithmique en fonction de la fréquence Gaël RICHARD Master IAD - PS Février 2008 9

La courbe de Tonie en Mels Gaël RICHARD Master IAD - PS Février 2008 10

Echelle Mel Correspond à une approximation de la sensation psychologique de hauteur d un son (Tonie) Existence de formules analytiques: Exemples: Gamme mel Gamme Hertz Gaël RICHARD Master IAD - PS Février 2008 11

Filtre en échelle Mel Filtrage Mel (d après Rabiner93) S 1 S j Energie dans chaque bande S N Gaël RICHARD Master IAD - PS Février 2008 12

Représentation cepstrale Intérêt Modèle source filtre de la parole Modèle source filtre dans le domaine spectral Cepstre (réél): somme de 2 termes Gaël RICHARD Master IAD - PS Février 2008 13

Représentation cepstrale(d après Furui2001) Exemples: de Spectres à court terme (gauche) et de cepstre c(τ) (droite) τ est homogène à un temps et est appelé quéfrence Gaël RICHARD Master IAD - PS Février 2008 14

Représentation cepstrale Séparation de la contribution du conduit vocal et de la source par liftrage Gaël RICHARD Master IAD - PS Février 2008 15

Représentation cepstrale Contribution de la source Contribution du conduit vocal (hypothèse: filtre causal, stable, minimum de phase) Gaël RICHARD Master IAD - PS Février 2008 16

Représentation cepstrale Contribution du conduit vocal Développement en série Gaël RICHARD Master IAD - PS Février 2008 17

Représentation cepstrale Exemples de liftres (d après Calliope89) Gaël RICHARD Master IAD - PS Février 2008 18

Paramétrisation MFCC «Mel-Frequency Cepstral Coefficients» C est probablement la paramétrisation la plus répandue dans les systèmes actuels Gaël RICHARD Master IAD - PS Février 2008 19

Paramétrisation MFCC Calcul des coefficients MFCC Une implémentation classique: 13 Coefficients (sans C 0 ) Filtres Mels espaces de 150 Mel (largeur de bandes 300 Mels) Utilisation des dérivées premières et secondes Soit des vecteurs de 39 paramètres acoustiques Gaël RICHARD Master IAD - PS Février 2008 20

Lissage cepstral Estimation de l enveloppe par le cepstre: Calcul du cepstre réel C n, puis lifrage basses quéfrences Reconstruction de l enveloppe spectrale d amplitude E =FFT(C n ) Gaël RICHARD Master IAD - PS Février 2008 21

Paramétrisation LPCC Schéma général Gaël RICHARD Master IAD - PS Février 2008 22

Paramétrisation LPCC Préaccentuation Gaël RICHARD Master IAD - PS Février 2008 23

Paramétrisation LPCC Fenêtrage Par exemple fenêtre de Hamming Recouvrement entre fenêtres Gaël RICHARD Master IAD - PS Février 2008 24

Paramétrisation LPCC Analyse LPC (modélisation AR) Plusieurs coefficients peuvent être utilisés: Les coefficients de prédiction: Les coefficients de réflexion (PARCOR): Les coefficients LAR: Gaël RICHARD Master IAD - PS Février 2008 25

Paramétrisation LPCC Conversion des paramètres LPC en coefficients cepstraux (Les paramètres LPCC) On peut écrire (Expansion de Laurent): En dérivant par rapport à Gaël RICHARD Master IAD - PS Février 2008 26

Conversion LPC LPCC Gaël RICHARD Master IAD - PS Février 2008 27

Paramétrisation LPCC Pondération Grande sensibilité des premiers coefficients cepstraux sur la pente spectrale générale Sensibilité au bruit des coefficients élevés Utilisation d une pondération pour minimiser cette sensibilité: Exemple de fenêtres Gaël RICHARD Master IAD - PS Février 2008 28

Paramétrisation LPCC Calcul des dérivées temporelles et secondes: Un simple moyennage aux différences donne des estimations bruitées Utilisation d un plus grand horizon temporel: est une constante de normalisation Gaël RICHARD Master IAD - PS Février 2008 29

Les paramètres LPCC Vecteur de paramètres acoustiques (LPCC) Gaël RICHARD Master IAD - PS Février 2008 30

Les paramètres PLP (d après Hermansky90) PLP = Perceptual Linear Prediction Schéma général Gaël RICHARD Master IAD - PS Février 2008 31

Les paramètres PLP (d après Hermansky90) Analyse échelle Bark (légèrement différente) : le spectre est recalculé en utilisant la transformation : Convolution entre le spectre et les filtres de gain Gaël RICHARD Master IAD - PS Février 2008 32

Les paramètres PLP (d après Hermansky90) Banc de filtres en bandes critiques Gaël RICHARD Master IAD - PS Février 2008 33

Les paramètres PLP (d après Hermansky90) Préaccentuation perceptuelle consiste à prendre en compte les variations de sensibilité de l'oreille avec la fréquence Réalisée en pré-accentuant le spectre de puissance précédemment calculé à l'aide de la fonction qui simule la sensibilité de l'oreille à - 40 db : La courbe de sensibilité de l oreille est approximée par (pour les fréquences inférieures à 5000 Hz): Gaël RICHARD Master IAD - PS Février 2008 34

Les paramètres PLP (d après Hermansky90) Compression (Intensity/loudness conversion) C'est ici une approximation de la loi de Stevens et elle simule la relation non-linéaire entre l'intensité d'un son et la sensation de puissance sonore correspondante. On peut ensuite en déduire des coefficients cepstraux PLP en suivant la même approche que pour les coefficients LPCC. Gaël RICHARD Master IAD - PS Février 2008 35

Comparaison PLP MFCC (Hönig et al 05) Gaël RICHARD Master IAD - PS Février 2008 36

Comparaison PLP MFCC (Hönig et al 05) Comparaison des pré-accentuations: A gauche: Préaccentuation perceptuelle pour les PLP (la courbe en pointillée intégrant un facteur correctif pour les fréquences au dessus de 5 khz); A droite : La courbe de préaccentuation traditionnelle pour les MFCC est donnée à droite Gaël RICHARD Master IAD - PS Février 2008 37

Comparaison PLP MFCC (Hönig et al 05) Comparaison des bancs de filtres: En haut: Banc de filtres Bark pour les PLP En bas: Banc de filtres MEL pour les MFCC Gaël RICHARD Master IAD - PS Février 2008 38

Distances et Mesures de distorsion spectrale Essentielles en reconnaissance Les distances dépendent bien sur de la paramétrisation Existence d un nombre important de techniques Distances Log-spectrales Distances cepstrales Distance d Itakura-Saito Etc Gaël RICHARD Master IAD - PS Février 2008 39

Distance : aspects mathématiques ssi Gaël RICHARD Master IAD - PS Février 2008 40

Distance : aspects perceptuels Prendre en compte certains aspects perceptuels dans les distances. Par exemple, certains changements spectraux ne changent pas le phonème perçu Changement de pente spectrale Filtrage passe-bas ou passe-haut (dans certaines mesures ) Filtrage «Notch» Gaël RICHARD Master IAD - PS Février 2008 41

Distance : aspects perceptuels Par contre certains changements spectraux auront un impact direct sur le son perçu Déplacement de formants Changement de la largeur de bande des formants Distances perceptuelles JND «Just Noticeable Distance» (Déplacements de formants, changement de largeur de bande.) Finalement assez peu utilisées en pratique Gaël RICHARD Master IAD - PS Février 2008 42

Distances Log-spectrales Appropriées d un point de vue perceptuel Norme L p entre Gaël RICHARD Master IAD - PS Février 2008 43

Distances Log-spectrales Spectres d amplitudes et le module de leur différence logarithmique (d après Rabiner93) Gaël RICHARD Master IAD - PS Février 2008 44

Distances Log-spectrales Utilisation de la norme Lp sur les modèles tout pôle d une prédiction linéaire Gaël RICHARD Master IAD - PS Février 2008 45

Distances cepstrales Distance sur les coefficients cepstraux En pratique Avec pondération Gaël RICHARD Master IAD - PS Février 2008 46

Mesures de distorsion et rapport de vraisemblance Mesure d Itakura-Saïto Où les erreurs de prédiction sont données par: Gaël RICHARD Master IAD - PS Février 2008 47

Mesures dérivées de la mesure d Itakura-Saïto La distance d Itakura Ou encore «rapport de vraisemblance» Gaël RICHARD Master IAD - PS Février 2008 48

Distances cepstrales intégrant les dérivées Dérivées premières Dérivées Secondes Distance globale ; Gaël RICHARD Master IAD - PS Février 2008 49