Master IAD Module PS IV. Reconnaissance de la parole Gaël RICHARD Février 2008 1
Contenu Introduction aux technologies vocales Production et Perception de la parole Modélisation articulatoire Synthèse de la parole Reconnaissance de la parole Gaël RICHARD IAD - PS Fev. 2008 2
Reconnaissance de la parole Introduction Approches pour la reconnaissance vocale Paramétrisation Distances et mesure de distortion spectrale Alignement Temporel et Programmation dynamique (DTW) Introduction aux modèles de Markov Cachés Base de données pour la reconnaissance Exemples d applications Gaël RICHARD IAD - PS Fev. 2008 3
Reconnaissance de la parole La reconnaissance de la parole consiste à Transcrire en texte un message vocal (identifie la séquence de mots la plus probable) S apparente aux domaines de la compréhension: Identifier une action/requête Inclut les applications de dialogue naturel S apparente aux domaines de l Identification/Vérification du locuteur Identification: retrouver l identité d une personne parmi N Vérification: dire si oui ou non le locuteur correspond à l identité prétendue Gaël RICHARD IAD - PS Fev. 2008 4
Reconnaissance de la parole : Quelques applications Dépendant du locuteur, petits vocabulaires Applications de contrôle/commande (ex. téléphone portable...) Indépendant du locuteur, petits vocabulaires Applications de contrôle/commande (ex. téléphone portable...) Applications de téléservices simples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée vocale Téléservices plus complexes (cotes de la bourse, météo, réservation de billets, etc ) Indexation audio Tri d appels: «How May I Help You» Gaël RICHARD IAD - PS Fev. 2008 5
Reconnaissance: petit historique Depuis le début des années 70 A partir du milieu des années 70 Début des années 80 Depuis dix ans Méthodes basées sur les connaissances (knowledge-based, décodage acoustico-phonétique) Reconnaissance de mots isolés, utilisation de la programmation dynamique (DTW) Modèles de Markov Cachés (HMM) Parole continue, grands vocabulaires, techniques d'adaptation, et plus récemment dialogue naturel Gaël RICHARD IAD - PS Fev. 2008 6
Reconnaissance de la parole Niveau acoustique (niveau phonétique) Niveau Lexical signal suite de phonèmes, syllabes, Mots, suite de mots, hypothèses de mots Compréhension de la parole (dialogue) Niveau sémantique concepts (intentions) Gaël RICHARD IAD - PS Fev. 2008 7
Complexité de la tâche de reconnaissance Problèmes de variabilité Variabilité intra-locuteur Variabilité inter-locuteur Particulièrement sensible au niveau temporel Co-articulation (y compris aux frontières de mots) Influence des conditions d enregistrements Téléphone, PC,.. Utilisation mobile (rue, voiture, bureau, ) / Fixe.. Influence du style d élocution Parole lue, Parole spontanée Gaël RICHARD IAD - PS Fev. 2008 8
Variabilité: quelques exemples (extraits d exemples d un prototype d annuaire automatique, IBM-France) Caractéristiques vocales du locuteur expression, humeur... enfant femme homme accents rire Variabilité phonologiques: inter-locuteur ( ) intra-loc ( éric ), contextuel stop Bruits extérieurs bonjour (seul) bruit (seul) bonjour + bruit conversation vent? Spontanéité hésitations prononciations scénario reprises Gaël RICHARD IAD - PS Fev. 2008 9
Variabilité intra-locuteur Gaël RICHARD IAD - PS Fev. 2008 10
Variabilité inter-locuteurs Gaël RICHARD IAD - PS Fev. 2008 11
Environnements difficiles: résumé Bruits d environnements Bruits stationnaires (bruit de fond ), bruit non-stationnaires (bruit de porte, sonneries de téléphone, etc ) Déformations acoustiques Distorsions non-linéaires (qualité et dynamique variables des microphones), réverbération, etc.. Largeur de bande du signal de parole Variation d élocution Effet Lombard Stress physique/émotionnel Vitesse d élocution Hésitations Bruits de bouche. Gaël RICHARD IAD - PS Fev. 2008 12
Les approches en reconnaissance de la parole 3 principaux types d approches Les approches basées sur les connaissances Les approches statistiques de reconnaissance des formes Les approches d intelligence artificielle Gaël RICHARD IAD - PS Fev. 2008 13
Approches basées sur les connaissances Parfois appelées approches acoustico-phonétiques Approche basée sur les connaissances phonétiques Fait l hypothèse qu il existe un nombre finis d unités phonétiques distinctes par langue parlée Que ces unités sont grossièrement caractérisées par un ensemble de propriétés visibles (ou analysables) par exemple à l aide de la représentation spectrale Que les variabilités intra et inter locuteurs peuvent être décrites par des règles simples Gaël RICHARD IAD - PS Fev. 2008 14
Approches basées sur les connaissances Schéma bloc d un système de reconnaissance basée sur les connaissance (d après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal prcessing series. Prentice Hall,1993.) Gaël RICHARD IAD - PS Fev. 2008 15
Approches basées sur les connaissances Bilan de cette approche Nombreux intérêts Permet de générer des systèmes à vocabulaire illimité Approche générique et peut être appliquée à d autres langues (même si un travail important d analyse devra être fait) Permet d affiner les connaissances sur la parole (production/perception). Gaël RICHARD IAD - PS Fev. 2008 16
Approches basées sur les connaissances Bilan de cette approche Mais de nombreux problèmes pratiques existent. Parmi ces problèmes on peut citer: La nécessité d'avoir des connaissances approfondies des propriétés acoustiques des unités phonétiques et cette connaissance est, bien évidemment,incomplète. Le choix des caractéristiques est fait principalement sur des considérations ad hoc et est généralement le fruit de l'intuition => choix non-optimal Il n'existe pas de méthodes automatiques pour régler les différents paramètres du système (i.e. ajuster les seuils de décision, etc.) sur des données labellisées de parole. Perspectives intéressantes mais nécessite n encore des efforts importants de recherche Gaël RICHARD IAD - PS Fev. 2008 17
Approches d intelligence artificielle Approche hybride: incorporation de connaissances à partir d une grande variété de sources de connaissances Connaissances acoustiques: utilisation de connaissances spectrales, présence/absence de traits distinctifs Connaissances lexicales: utilisation d un lexique Connaissances syntaxiques: utilisation d un modèle de langage Connaissances sémantiques: utilisation d un modèle sémantique Connaissances pragmatiques: Résolution des ambiguités de sens Gaël RICHARD IAD - PS Fev. 2008 18
Illustration des sources de connaissances «Va me chercher un livre dans le frigidaire» Syntaxe correcte mais sémantique inconsistante «Les cadets ont écrasé les poussins» Interprétation pragmatique différente suivant le contexte (sportif, ferme, ) «voiture la contente est bleue» Syntaxe incorrecte, sémantique inconsistante «La musique aboutit les mœurs» Syntaxe correcte, Sémantique inconsistante Gaël RICHARD IAD - PS Fev. 2008 19
Approches d intelligence artificielle 3 approches principales: (d après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 ) Approche «bottom-up» Gaël RICHARD IAD - PS Fev. 2008 20
Approches d intelligence artificielle 3 approches principales (2/3):(d après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 ) Approche «top-down» Gaël RICHARD IAD - PS Fev. 2008 21
Approches d intelligence artificielle 3 approches principales (3/3) (d après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 ) Approche «tableau noir» Gaël RICHARD IAD - PS Fev. 2008 22
Approches statistiques 2 phases principales L apprentissage des unités élémentaires Les unités peuvent être un son, un mot, une phrase, etc Concept de base: un nombre suffisamment grand de chaque unité est inclus dans l ensemble d apprentissage. Suppose que l apprentissage est capable de caractériser les propriétés acoustiques de chaque unité La reconnaissance Reconnaissance des unités par «comparaison» Gaël RICHARD IAD - PS Fev. 2008 23
Approches statistiques Schéma bloc d un système reconnaissance par une approche statistique (d après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 ) Gaël RICHARD IAD - PS Fev. 2008 24
Approches statistiques Approches les plus répandues actuellement en reconnaissance Quelques raisons de ce succès: Simplicité de mise en œuvre Méthodes accessibles Bases mathématiques rigoureuses Robustesse et invariance de l approche Aux différents vocabulaires, utilisateurs, unités choisies. À l environnement, aux conditions de transmission Performances: les résultats obtenus sur des bases de données ont maintes fois la puissance de cette approche Gaël RICHARD IAD - PS Fev. 2008 25
Approches statistiques Importance du choix de : La paramétrisation acoustique Des modèles et de la classification utilisés Quelques remarques: Les performances sont dépendantes des données Qualité, spécificité, taille Peu de connaissances directement liées au signal de parole sont utilisées relativement insensible au choix des mots du vocabulaire, de la tâche, de la syntaxe, Contraintes en coût calcul peuvent devenir importantes Gaël RICHARD IAD - PS Fev. 2008 26
Structure générale Modèles acoustiques Analyse Décodage séquence de mots reconnue signal de parole Modèles linguistiques Gaël RICHARD IAD - PS Fev. 2008 27
Trois types d architecture (1/3) Architecture locale utilisateur Modèles acoustiques Analyse Décodage séquence de mots reconnue reconnaissance intégrée (téléphone mobile, assistant personnel, PC) Modèles linguistiques Gaël RICHARD IAD - PS Fev. 2008 28
Trois types d architecture (2/3) Architecture distribuée utilisateur Modèles acoustiques Décodage distant (serveur) Analyse Calcul en local et transmission des paramètres (codés) (téléphone mobile) Décodage Modèles linguistiques séquence de mots reconnue Gaël RICHARD IAD - PS Fev. 2008 29
Trois types d architecture (3/3) Architecture distante utilisateur Modèles acoustiques Analyse Décodage séquence de mots reconnue transmission du signal de parole via canal téléphonique, voix sur IP,... Modèles linguistiques Analyse et Décodage distants (serveur) Gaël RICHARD IAD - PS Fev. 2008 30