Master IAD Module PS Reconnaissance de la parole (suite): Paramétrisation Gaël RICHARD Février 2008 1
Reconnaissance de la parole Introduction Approches pour la reconnaissance vocale Paramétrisation Distances et mesures de distortion spectrale Alignement Temporel et Programmation dynamique (DTW) Introduction aux modèles de Markov Cachés Base de données pour la reconnaissance Exemples d applications Gaël RICHARD Master IAD - PS Février 2008 2
Paramétrisation Réalisée par un module de traitement du signal (souvent appelé «Front End») Réalise une analyse spectrale du signal généralement effectuée suivant une des méthodes ci-dessous: Par banc de filtres (typiquement 10 à 30 bandes fréquentielles) Par FFT (cas particulier) Approche cepstrale Prédiction linéaire (LPC) Gaël RICHARD Master IAD - PS Février 2008 3
Paramétrisation Méthodes par bancs de filtres Ont été beaucoup utilisées Remplacées actuellement par des méthodes plus spécifiques Méthodes à base de la transformée de Fourier Existence d algorithmes rapides La FFT peut représenter la première étape d une analyse spectrale qui sera ensuite ré-échantillonnée suivant une nouvelle échelle fréquentielle (Echelle Logarithmique, Echelle Bark, Echelle Mel) 3 paramétrisations couramment utilisées: Les paramètres MFCC Les paramètres LPCC Les paramètres PLP Gaël RICHARD Master IAD - PS Février 2008 4
Paramétrisation: paramètres spectraux Paramétrisation spectrale: analyse d un signal audio (d après Laroche) Gaël RICHARD Master IAD - PS Février 2008 5
Paramétrisation Echelle BARK (tableau d après Hartmann97) Est basée sur les bandes critiques telles qu elles sont perçues par l oreille Assez proche d une échelle logarithmique Gaël RICHARD Master IAD - PS Février 2008 6
Echelle BARK Formules analytiques approchant l échelle Bark (d après Hartmann97 avec z en Bark et f en Hertz) Facteurs de correction Gaël RICHARD Master IAD - PS Février 2008 7
Echelle BARK Formules analytiques inverses Facteurs de correction Gaël RICHARD Master IAD - PS Février 2008 8
Vers l échelle MEL Hauteur tonale des sons purs Expérience sur des sons purs: par rapport à un son de référence (1 khz par exemple), on dit que la tonie double si un autre son est perçu comme 2 fois + aigu, etc. Constatation: la tonie est proportionnelle à la fréquence pour les fréquences basses. On identifie 2 échelles De 0 à 500 Hz où 1 Mel = 1 Hz (courbe linéaire) > 500 Hz où la tonie croit de façon logarithmique en fonction de la fréquence Gaël RICHARD Master IAD - PS Février 2008 9
La courbe de Tonie en Mels Gaël RICHARD Master IAD - PS Février 2008 10
Echelle Mel Correspond à une approximation de la sensation psychologique de hauteur d un son (Tonie) Existence de formules analytiques: Exemples: Gamme mel Gamme Hertz Gaël RICHARD Master IAD - PS Février 2008 11
Filtre en échelle Mel Filtrage Mel (d après Rabiner93) S 1 S j Energie dans chaque bande S N Gaël RICHARD Master IAD - PS Février 2008 12
Représentation cepstrale Intérêt Modèle source filtre de la parole Modèle source filtre dans le domaine spectral Cepstre (réél): somme de 2 termes Gaël RICHARD Master IAD - PS Février 2008 13
Représentation cepstrale(d après Furui2001) Exemples: de Spectres à court terme (gauche) et de cepstre c(τ) (droite) τ est homogène à un temps et est appelé quéfrence Gaël RICHARD Master IAD - PS Février 2008 14
Représentation cepstrale Séparation de la contribution du conduit vocal et de la source par liftrage Gaël RICHARD Master IAD - PS Février 2008 15
Représentation cepstrale Contribution de la source Contribution du conduit vocal (hypothèse: filtre causal, stable, minimum de phase) Gaël RICHARD Master IAD - PS Février 2008 16
Représentation cepstrale Contribution du conduit vocal Développement en série Gaël RICHARD Master IAD - PS Février 2008 17
Représentation cepstrale Exemples de liftres (d après Calliope89) Gaël RICHARD Master IAD - PS Février 2008 18
Paramétrisation MFCC «Mel-Frequency Cepstral Coefficients» C est probablement la paramétrisation la plus répandue dans les systèmes actuels Gaël RICHARD Master IAD - PS Février 2008 19
Paramétrisation MFCC Calcul des coefficients MFCC Une implémentation classique: 13 Coefficients (sans C 0 ) Filtres Mels espaces de 150 Mel (largeur de bandes 300 Mels) Utilisation des dérivées premières et secondes Soit des vecteurs de 39 paramètres acoustiques Gaël RICHARD Master IAD - PS Février 2008 20
Lissage cepstral Estimation de l enveloppe par le cepstre: Calcul du cepstre réel C n, puis lifrage basses quéfrences Reconstruction de l enveloppe spectrale d amplitude E =FFT(C n ) Gaël RICHARD Master IAD - PS Février 2008 21
Paramétrisation LPCC Schéma général Gaël RICHARD Master IAD - PS Février 2008 22
Paramétrisation LPCC Préaccentuation Gaël RICHARD Master IAD - PS Février 2008 23
Paramétrisation LPCC Fenêtrage Par exemple fenêtre de Hamming Recouvrement entre fenêtres Gaël RICHARD Master IAD - PS Février 2008 24
Paramétrisation LPCC Analyse LPC (modélisation AR) Plusieurs coefficients peuvent être utilisés: Les coefficients de prédiction: Les coefficients de réflexion (PARCOR): Les coefficients LAR: Gaël RICHARD Master IAD - PS Février 2008 25
Paramétrisation LPCC Conversion des paramètres LPC en coefficients cepstraux (Les paramètres LPCC) On peut écrire (Expansion de Laurent): En dérivant par rapport à Gaël RICHARD Master IAD - PS Février 2008 26
Conversion LPC LPCC Gaël RICHARD Master IAD - PS Février 2008 27
Paramétrisation LPCC Pondération Grande sensibilité des premiers coefficients cepstraux sur la pente spectrale générale Sensibilité au bruit des coefficients élevés Utilisation d une pondération pour minimiser cette sensibilité: Exemple de fenêtres Gaël RICHARD Master IAD - PS Février 2008 28
Paramétrisation LPCC Calcul des dérivées temporelles et secondes: Un simple moyennage aux différences donne des estimations bruitées Utilisation d un plus grand horizon temporel: est une constante de normalisation Gaël RICHARD Master IAD - PS Février 2008 29
Les paramètres LPCC Vecteur de paramètres acoustiques (LPCC) Gaël RICHARD Master IAD - PS Février 2008 30
Les paramètres PLP (d après Hermansky90) PLP = Perceptual Linear Prediction Schéma général Gaël RICHARD Master IAD - PS Février 2008 31
Les paramètres PLP (d après Hermansky90) Analyse échelle Bark (légèrement différente) : le spectre est recalculé en utilisant la transformation : Convolution entre le spectre et les filtres de gain Gaël RICHARD Master IAD - PS Février 2008 32
Les paramètres PLP (d après Hermansky90) Banc de filtres en bandes critiques Gaël RICHARD Master IAD - PS Février 2008 33
Les paramètres PLP (d après Hermansky90) Préaccentuation perceptuelle consiste à prendre en compte les variations de sensibilité de l'oreille avec la fréquence Réalisée en pré-accentuant le spectre de puissance précédemment calculé à l'aide de la fonction qui simule la sensibilité de l'oreille à - 40 db : La courbe de sensibilité de l oreille est approximée par (pour les fréquences inférieures à 5000 Hz): Gaël RICHARD Master IAD - PS Février 2008 34
Les paramètres PLP (d après Hermansky90) Compression (Intensity/loudness conversion) C'est ici une approximation de la loi de Stevens et elle simule la relation non-linéaire entre l'intensité d'un son et la sensation de puissance sonore correspondante. On peut ensuite en déduire des coefficients cepstraux PLP en suivant la même approche que pour les coefficients LPCC. Gaël RICHARD Master IAD - PS Février 2008 35
Comparaison PLP MFCC (Hönig et al 05) Gaël RICHARD Master IAD - PS Février 2008 36
Comparaison PLP MFCC (Hönig et al 05) Comparaison des pré-accentuations: A gauche: Préaccentuation perceptuelle pour les PLP (la courbe en pointillée intégrant un facteur correctif pour les fréquences au dessus de 5 khz); A droite : La courbe de préaccentuation traditionnelle pour les MFCC est donnée à droite Gaël RICHARD Master IAD - PS Février 2008 37
Comparaison PLP MFCC (Hönig et al 05) Comparaison des bancs de filtres: En haut: Banc de filtres Bark pour les PLP En bas: Banc de filtres MEL pour les MFCC Gaël RICHARD Master IAD - PS Février 2008 38
Distances et Mesures de distorsion spectrale Essentielles en reconnaissance Les distances dépendent bien sur de la paramétrisation Existence d un nombre important de techniques Distances Log-spectrales Distances cepstrales Distance d Itakura-Saito Etc Gaël RICHARD Master IAD - PS Février 2008 39
Distance : aspects mathématiques ssi Gaël RICHARD Master IAD - PS Février 2008 40
Distance : aspects perceptuels Prendre en compte certains aspects perceptuels dans les distances. Par exemple, certains changements spectraux ne changent pas le phonème perçu Changement de pente spectrale Filtrage passe-bas ou passe-haut (dans certaines mesures ) Filtrage «Notch» Gaël RICHARD Master IAD - PS Février 2008 41
Distance : aspects perceptuels Par contre certains changements spectraux auront un impact direct sur le son perçu Déplacement de formants Changement de la largeur de bande des formants Distances perceptuelles JND «Just Noticeable Distance» (Déplacements de formants, changement de largeur de bande.) Finalement assez peu utilisées en pratique Gaël RICHARD Master IAD - PS Février 2008 42
Distances Log-spectrales Appropriées d un point de vue perceptuel Norme L p entre Gaël RICHARD Master IAD - PS Février 2008 43
Distances Log-spectrales Spectres d amplitudes et le module de leur différence logarithmique (d après Rabiner93) Gaël RICHARD Master IAD - PS Février 2008 44
Distances Log-spectrales Utilisation de la norme Lp sur les modèles tout pôle d une prédiction linéaire Gaël RICHARD Master IAD - PS Février 2008 45
Distances cepstrales Distance sur les coefficients cepstraux En pratique Avec pondération Gaël RICHARD Master IAD - PS Février 2008 46
Mesures de distorsion et rapport de vraisemblance Mesure d Itakura-Saïto Où les erreurs de prédiction sont données par: Gaël RICHARD Master IAD - PS Février 2008 47
Mesures dérivées de la mesure d Itakura-Saïto La distance d Itakura Ou encore «rapport de vraisemblance» Gaël RICHARD Master IAD - PS Février 2008 48
Distances cepstrales intégrant les dérivées Dérivées premières Dérivées Secondes Distance globale ; Gaël RICHARD Master IAD - PS Février 2008 49