Master IAD Module PS. IV. Reconnaissance de la parole. Gaël RICHARD Février 2008

Documents pareils

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Apprentissage Automatique

N SIMON Anne-Catherine

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Le modèle standard, SPE (1/8)

Portail Vocal d Entreprise

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

UE11 Phonétique appliquée

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Modélisation du comportement habituel de la personne en smarthome

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

Quels sont les indices observés chez les enfants présentant un trouble de traitement auditif?

L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

Document d aide au suivi scolaire

Demande d admission au Centre pédagogique Lucien-Guilbault Secteur primaire

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

En tant que producteur de technologies applicatives, nous vous proposons un large panel de solutions vocales :

Roger pour la maison et la vie sociale. Combler le manque de compréhension

Etude et conception d un serveur vocal :

FORMATION : POSTURE COACH, LES METIERS D ACCOMPAGNEMENT

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

Projet de Master en Informatique: Web WriteIt!

Speexx Basic Anglais, Français, Allemand, Italien, Espagnol,

L enseignement/apprentissage de la prononciation des langues assisté par ordinateur : le cas du français langue étrangère.

ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT

Conférence et partage avec NetMeeting

Commerce International. à référentiel commun européen

Indications pour une progression au CM1 et au CM2

Page 1 de 7 Tel BR2460F Rev Fax

Livret personnel de compétences

PLAN D ÉTUDES. école fondamentale

Métiers d études, recherche & développement dans l industrie

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

Call Center Virtuel & Managé

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

find your space Oreillettes Bluetooth de Plantronics Des solutions mains libres pour tous

Interactions sonores et vocales dans l habitat

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

I/ CONSEILS PRATIQUES

LES INTERFACES HOMME-MACHINE

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

données en connaissance et en actions?

PROJET D'ANIMATION ATELIER DE DESSIN ANIME ASSISTE PAR ORDINATEUR - ATELIER TOON -

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Optimisez les performances de vos aides auditives. Accessoires sans fil Phonak

Ministère des Affaires étrangères et européennes. Direction de la politique culturelle et du français. Regards VII

Pearson - Fle 2013 Collection Tendances

OpenScape Business. La solution de communications unifiées tout-en-un pour les PME

Essentiel Nouvelles fonctionnalités binax

FORCE DE VENTE : une approche commerciale efficace

1. Qu est-ce que la conscience phonologique?

Bienvenue à la formation

Programmation de services en téléphonie sur IP

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

La Solution de Sécurité Easy Series La sécurité simplifiée

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

GUIDE RAPIDE FONCTION MAINS LIBRES AVEC RECONNAISSANCE VOCALE

Electron S.R.L. SERIE B46 - SYSTEMES DIDACTIQUES DE TELEPHONIE

Attestation de maîtrise des connaissances et compétences au cours moyen deuxième année

Application en classe de la progression des apprentissages en musique 1 er cycle du secondaire

Catalogue DIF. Formations linguistiques

EXAMEN CRITIQUE D UN DOSSIER TECHNIQUE

Voix et Téléphonie sur IP : Architectures et plateformes

QoS et Multimédia SIR / RTS. Introduction / Architecture des applications multimédia communicantes

Analyse dialectométrique des parlers berbères de Kabylie

Voix parlée, voix lyrique. Vocabulaire

La VOIP :Les protocoles H.323 et SIP

Initiation à LabView : Les exemples d applications :

Les réseaux cellulaires vers la 3G

ECOLE SAINTE ANNE PROJET PEDAGOGIQUE ECOLE PRIMAIRE CATHOLIQUE HORS CONTRAT

mission. Le premier poste du programme de travail du DREV vise la qualification, la quantification et le suivi

Programmes des classes préparatoires aux Grandes Ecoles

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

L apprentissage automatique

Algorithmique avec Algobox

Reconnaissance du locuteur

LA PNL. Programmation Neuro Linguistique

AXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES

La Solution Télématique Innovante pour la voiture basée sur Microsoft Auto

4.2 Unités d enseignement du M1

Efficace et ciblée : La surveillance des signaux de télévision numérique (2)

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

BES WEBDEVELOPER ACTIVITÉ RÔLE

LANGUE : UF1 - NIVEAU ELEMENTAIRE

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Architecture matérielle des systèmes informatiques

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

ELOECM Conference2015

CTIconnect PRO. Guide Rapide

Transcription:

Master IAD Module PS IV. Reconnaissance de la parole Gaël RICHARD Février 2008 1

Contenu Introduction aux technologies vocales Production et Perception de la parole Modélisation articulatoire Synthèse de la parole Reconnaissance de la parole Gaël RICHARD IAD - PS Fev. 2008 2

Reconnaissance de la parole Introduction Approches pour la reconnaissance vocale Paramétrisation Distances et mesure de distortion spectrale Alignement Temporel et Programmation dynamique (DTW) Introduction aux modèles de Markov Cachés Base de données pour la reconnaissance Exemples d applications Gaël RICHARD IAD - PS Fev. 2008 3

Reconnaissance de la parole La reconnaissance de la parole consiste à Transcrire en texte un message vocal (identifie la séquence de mots la plus probable) S apparente aux domaines de la compréhension: Identifier une action/requête Inclut les applications de dialogue naturel S apparente aux domaines de l Identification/Vérification du locuteur Identification: retrouver l identité d une personne parmi N Vérification: dire si oui ou non le locuteur correspond à l identité prétendue Gaël RICHARD IAD - PS Fev. 2008 4

Reconnaissance de la parole : Quelques applications Dépendant du locuteur, petits vocabulaires Applications de contrôle/commande (ex. téléphone portable...) Indépendant du locuteur, petits vocabulaires Applications de contrôle/commande (ex. téléphone portable...) Applications de téléservices simples (ex. remplacement des DTMF..) Indépendant du locuteurs, grands vocabulaires, Langage naturel Dictée vocale Téléservices plus complexes (cotes de la bourse, météo, réservation de billets, etc ) Indexation audio Tri d appels: «How May I Help You» Gaël RICHARD IAD - PS Fev. 2008 5

Reconnaissance: petit historique Depuis le début des années 70 A partir du milieu des années 70 Début des années 80 Depuis dix ans Méthodes basées sur les connaissances (knowledge-based, décodage acoustico-phonétique) Reconnaissance de mots isolés, utilisation de la programmation dynamique (DTW) Modèles de Markov Cachés (HMM) Parole continue, grands vocabulaires, techniques d'adaptation, et plus récemment dialogue naturel Gaël RICHARD IAD - PS Fev. 2008 6

Reconnaissance de la parole Niveau acoustique (niveau phonétique) Niveau Lexical signal suite de phonèmes, syllabes, Mots, suite de mots, hypothèses de mots Compréhension de la parole (dialogue) Niveau sémantique concepts (intentions) Gaël RICHARD IAD - PS Fev. 2008 7

Complexité de la tâche de reconnaissance Problèmes de variabilité Variabilité intra-locuteur Variabilité inter-locuteur Particulièrement sensible au niveau temporel Co-articulation (y compris aux frontières de mots) Influence des conditions d enregistrements Téléphone, PC,.. Utilisation mobile (rue, voiture, bureau, ) / Fixe.. Influence du style d élocution Parole lue, Parole spontanée Gaël RICHARD IAD - PS Fev. 2008 8

Variabilité: quelques exemples (extraits d exemples d un prototype d annuaire automatique, IBM-France) Caractéristiques vocales du locuteur expression, humeur... enfant femme homme accents rire Variabilité phonologiques: inter-locuteur ( ) intra-loc ( éric ), contextuel stop Bruits extérieurs bonjour (seul) bruit (seul) bonjour + bruit conversation vent? Spontanéité hésitations prononciations scénario reprises Gaël RICHARD IAD - PS Fev. 2008 9

Variabilité intra-locuteur Gaël RICHARD IAD - PS Fev. 2008 10

Variabilité inter-locuteurs Gaël RICHARD IAD - PS Fev. 2008 11

Environnements difficiles: résumé Bruits d environnements Bruits stationnaires (bruit de fond ), bruit non-stationnaires (bruit de porte, sonneries de téléphone, etc ) Déformations acoustiques Distorsions non-linéaires (qualité et dynamique variables des microphones), réverbération, etc.. Largeur de bande du signal de parole Variation d élocution Effet Lombard Stress physique/émotionnel Vitesse d élocution Hésitations Bruits de bouche. Gaël RICHARD IAD - PS Fev. 2008 12

Les approches en reconnaissance de la parole 3 principaux types d approches Les approches basées sur les connaissances Les approches statistiques de reconnaissance des formes Les approches d intelligence artificielle Gaël RICHARD IAD - PS Fev. 2008 13

Approches basées sur les connaissances Parfois appelées approches acoustico-phonétiques Approche basée sur les connaissances phonétiques Fait l hypothèse qu il existe un nombre finis d unités phonétiques distinctes par langue parlée Que ces unités sont grossièrement caractérisées par un ensemble de propriétés visibles (ou analysables) par exemple à l aide de la représentation spectrale Que les variabilités intra et inter locuteurs peuvent être décrites par des règles simples Gaël RICHARD IAD - PS Fev. 2008 14

Approches basées sur les connaissances Schéma bloc d un système de reconnaissance basée sur les connaissance (d après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal prcessing series. Prentice Hall,1993.) Gaël RICHARD IAD - PS Fev. 2008 15

Approches basées sur les connaissances Bilan de cette approche Nombreux intérêts Permet de générer des systèmes à vocabulaire illimité Approche générique et peut être appliquée à d autres langues (même si un travail important d analyse devra être fait) Permet d affiner les connaissances sur la parole (production/perception). Gaël RICHARD IAD - PS Fev. 2008 16

Approches basées sur les connaissances Bilan de cette approche Mais de nombreux problèmes pratiques existent. Parmi ces problèmes on peut citer: La nécessité d'avoir des connaissances approfondies des propriétés acoustiques des unités phonétiques et cette connaissance est, bien évidemment,incomplète. Le choix des caractéristiques est fait principalement sur des considérations ad hoc et est généralement le fruit de l'intuition => choix non-optimal Il n'existe pas de méthodes automatiques pour régler les différents paramètres du système (i.e. ajuster les seuils de décision, etc.) sur des données labellisées de parole. Perspectives intéressantes mais nécessite n encore des efforts importants de recherche Gaël RICHARD IAD - PS Fev. 2008 17

Approches d intelligence artificielle Approche hybride: incorporation de connaissances à partir d une grande variété de sources de connaissances Connaissances acoustiques: utilisation de connaissances spectrales, présence/absence de traits distinctifs Connaissances lexicales: utilisation d un lexique Connaissances syntaxiques: utilisation d un modèle de langage Connaissances sémantiques: utilisation d un modèle sémantique Connaissances pragmatiques: Résolution des ambiguités de sens Gaël RICHARD IAD - PS Fev. 2008 18

Illustration des sources de connaissances «Va me chercher un livre dans le frigidaire» Syntaxe correcte mais sémantique inconsistante «Les cadets ont écrasé les poussins» Interprétation pragmatique différente suivant le contexte (sportif, ferme, ) «voiture la contente est bleue» Syntaxe incorrecte, sémantique inconsistante «La musique aboutit les mœurs» Syntaxe correcte, Sémantique inconsistante Gaël RICHARD IAD - PS Fev. 2008 19

Approches d intelligence artificielle 3 approches principales: (d après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 ) Approche «bottom-up» Gaël RICHARD IAD - PS Fev. 2008 20

Approches d intelligence artificielle 3 approches principales (2/3):(d après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 ) Approche «top-down» Gaël RICHARD IAD - PS Fev. 2008 21

Approches d intelligence artificielle 3 approches principales (3/3) (d après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 ) Approche «tableau noir» Gaël RICHARD IAD - PS Fev. 2008 22

Approches statistiques 2 phases principales L apprentissage des unités élémentaires Les unités peuvent être un son, un mot, une phrase, etc Concept de base: un nombre suffisamment grand de chaque unité est inclus dans l ensemble d apprentissage. Suppose que l apprentissage est capable de caractériser les propriétés acoustiques de chaque unité La reconnaissance Reconnaissance des unités par «comparaison» Gaël RICHARD IAD - PS Fev. 2008 23

Approches statistiques Schéma bloc d un système reconnaissance par une approche statistique (d après L. Rabiner & B. Juang. Fundamentals of Speech recognition. Signal processing series. Prentice Hall,1993 ) Gaël RICHARD IAD - PS Fev. 2008 24

Approches statistiques Approches les plus répandues actuellement en reconnaissance Quelques raisons de ce succès: Simplicité de mise en œuvre Méthodes accessibles Bases mathématiques rigoureuses Robustesse et invariance de l approche Aux différents vocabulaires, utilisateurs, unités choisies. À l environnement, aux conditions de transmission Performances: les résultats obtenus sur des bases de données ont maintes fois la puissance de cette approche Gaël RICHARD IAD - PS Fev. 2008 25

Approches statistiques Importance du choix de : La paramétrisation acoustique Des modèles et de la classification utilisés Quelques remarques: Les performances sont dépendantes des données Qualité, spécificité, taille Peu de connaissances directement liées au signal de parole sont utilisées relativement insensible au choix des mots du vocabulaire, de la tâche, de la syntaxe, Contraintes en coût calcul peuvent devenir importantes Gaël RICHARD IAD - PS Fev. 2008 26

Structure générale Modèles acoustiques Analyse Décodage séquence de mots reconnue signal de parole Modèles linguistiques Gaël RICHARD IAD - PS Fev. 2008 27

Trois types d architecture (1/3) Architecture locale utilisateur Modèles acoustiques Analyse Décodage séquence de mots reconnue reconnaissance intégrée (téléphone mobile, assistant personnel, PC) Modèles linguistiques Gaël RICHARD IAD - PS Fev. 2008 28

Trois types d architecture (2/3) Architecture distribuée utilisateur Modèles acoustiques Décodage distant (serveur) Analyse Calcul en local et transmission des paramètres (codés) (téléphone mobile) Décodage Modèles linguistiques séquence de mots reconnue Gaël RICHARD IAD - PS Fev. 2008 29

Trois types d architecture (3/3) Architecture distante utilisateur Modèles acoustiques Analyse Décodage séquence de mots reconnue transmission du signal de parole via canal téléphonique, voix sur IP,... Modèles linguistiques Analyse et Décodage distants (serveur) Gaël RICHARD IAD - PS Fev. 2008 30