La reconnaissance vocale

Documents pareils
Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Apprentissage Automatique

Etude et conception d un serveur vocal :

Les techniques de multiplexage

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Chaine de transmission

Enregistrement et transformation du son. S. Natkin Novembre 2001

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

THÈSE. présentée à l Université d Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT

Intérêt du découpage en sous-bandes pour l analyse spectrale

Technique de codage des formes d'ondes

Transmission d informations sur le réseau électrique

L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s

Transmission de données. A) Principaux éléments intervenant dans la transmission

Analyse des bruits de clavier d ordinateur

Les Réseaux sans fils : IEEE F. Nolot

CLIP. (Calling Line Identification Presentation) Appareil autonome affichant le numéro appelant

UE11 Phonétique appliquée

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

Votre Réseau est-il prêt?

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

10ème Congrès Français d'acoustique Lyon, Avril 2010

Expérience 3 Formats de signalisation binaire

ISO/CEI NORME INTERNATIONALE

Scanner acoustique NoiseScanner

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

ANALYSE ACOUSTIQUE de la VOIX. pour la. DÉTECTION de PERTURBATIONS PSYCHOPHYSIOLOGIQUES. APPLICATION au CONTEXTE AÉRONAUTIQUE

Chapitre 2 Les ondes progressives périodiques

Chapitre I La fonction transmission

Téléinformatique. Chapitre V : La couche liaison de données dans Internet. ESEN Université De La Manouba

Traitement bas-niveau

ADSL. Étude d une LiveBox. 1. Environnement de la LiveBox TMRIM 2 EME TRIMESTRE LP CHATEAU BLANC CHALETTE/LOING NIVEAU :

Extraction de descripteurs musicaux: une approche évolutionniste

Géométrie discrète Chapitre V

Son et Mathématiques

Numérisation du signal

La structure du mobile GSM

LES CARACTERISTIQUES DES SUPPORTS DE TRANSMISSION

ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT

Systèmes de communications numériques 2

Calcul des indicateurs de sonie : revue des algorithmes et implémentation

LES LANGUES EN DANGER : UN DÉFI POUR LES TECHNOLOGIES DE LA LANGUE

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

Projet de Traitement du Signal Segmentation d images SAR

Bandes Critiques et Masquage

Tutoriels. 01 Utiliser Praat. 02 Transcrire sous Praat en utilisant les conventions VALIBEL. Sylviane Bachy. Rédaction octobre 2005

Université de La Rochelle. Réseaux TD n 6

Dragon Naturally Speaking 13

Information. BASES LITTERAIRES Etre capable de répondre à une question du type «la valeur trouvée respecte t-elle le cahier des charges?

Projet audio. Analyse des Signaux ELE2700

Le modèle standard, SPE (1/8)

Université du Québec à Chicoutimi THESE. Présentée à l'université du Québec à Chicoutimi Département des Sciences Appliquées

En tant que producteur de technologies applicatives, nous vous proposons un large panel de solutions vocales :

TD1 Signaux, énergie et puissance, signaux aléatoires

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

LABO PROJET : IMPLEMENTATION D UN MODEM ADSL SOUS MATLAB

Ministère des Affaires étrangères et européennes. Direction de la politique culturelle et du français. Regards VII

Démarches d urbanisation : réorganiser le Système d Information en structurant ses fonctions dans des blocs fonctionnels communicants.

Analyses psychoacoustiques dans ArtemiS SUITE

Codage de la parole à bas et très bas débit 1

Multichronomètre SA10 Présentation générale

TeamConnect. SL TeamConnect CU1, Unité centrale SL TeamConnect CB1, Combox CARACTÉRISTIQUES

CLASSE VIRTUELLE UTILISATION DE CENTRA

SONS. Dossier pédagogique. Enseignants Niveau lycée

Cours n 12. Technologies WAN 2nd partie

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

M1107 : Initiation à la mesure du signal. T_MesSig

1. PRESENTATION DU PROJET

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

Une fréquence peut-elle être instantanée?

Urbanisation des Systèmes d Information Architecture d Entreprise. 04 Architecture du SI : identifier et décrire les services, structurer le SI

USB TableMike de SpeechWare

Qualité perçue de parole transmise par voie téléphonique large-bande

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

La Convergence des outils de veille et des sources

Chapitre 5 Émetteurs et récepteurs sonores

CHAP 07-COURS Emetteurs et récepteurs sonores

Quels apprentissages info-documentaires au collège?

Chapitre 13 Numérisation de l information

P2: Perception auditive

GUIDE DE PRODUCTION DES STEMS

INTERPRÉTATION ET ANOMALIES DE LA PROSPECTION À RÉSONANCE MAGNÉTIQUE (MRS)

Extrait des Exploitations Pédagogiques

Document d aide au suivi scolaire

LES INTERFACES HOMME-MACHINE

Paramétrisation adaptée de transitoires pour la reconnaissance d instruments de musique

Cours / Formation pour débutant en informatique, bureautique, Internet etc... (pour débutants)

2 g Net - 36 g emballé 2 tips silicone anallergique small + 2 medium + 2 filtres à membrane. 2 tailles d embouts

LABO 5 ET 6 TRAITEMENT DE SIGNAL SOUS SIMULINK

Production de documents audio-numériques

Ce document a pour but d aider à planifier l achat d équipement en éducation pour les niveaux primaire et secondaire.

1. Qu est-ce que la conscience phonologique?


«Le Dolby Digital 5.1 et les tests en champ libre par ordinateur»

Ordonnance du DFJP sur les instruments de mesure audiométriques

Ecole Préparatoire SNV Université d Oran Semestre /2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z.

Transcription:

La reconnaissance vocale Théodore APAPOULLE Thibault CHATIRON 1

Plan Introduction Définition Applications de reconnaissance vocale Problématiques liées à la reconnaissance vocale Principe de fonctionnement Robustesse des systèmes de reconnaissance vocale Conclusion 2

Traitement automatique de la parole Ensemble de 6 grands thèmes: Codage et compression de la parole Synthèse de la parole Reconnaissance et vérification du locuteur Identification de la langue Détermination de l état émotionnel d un locuteur Reconnaissance de la parole 3

La reconnaissance vocale Domaine recouvrant tous les aspects liés à l interprétation, par la machine, du langage humain. Domaine de la science ayant toujours eu un grand attrait auprès des chercheurs comme auprès du grand public Exemples Piloter son installation domestique à la voix Ne plus avoir à taper pendant des heures sur un clavier pour rédiger un rapport 4

Applications de la reconnaissance vocale Trois grands types de systèmes : Les systèmes de commandes vocales Les systèmes de dictée automatique Les systèmes de compréhension. Exemples : Aide à la navigation à bord de voiture Aide au handicap Saisie de données 5

La parole humaine Flux continu constitué d'une suite de mots, eux mêmes étant constitués d'un enchainement de phonèmes et de bruits articulatoires. Phonème : Unité distinctive de prononciation dans une langue. Exemple : /ε / et / ε: / dans père et paire Parole humaine: Très variable puisqu'un même phonème possède de nombreux paramètres qui sont en fonction du locuteur. Intensité de la voix hauteur de la voix type de son émis par le locuteur (chuchotement, chant, parole) émotion dans la voix du locuteur 6

Problématiques Plusieurs problèmes font que le reconnaissance de la parole est un domaine difficile Une grande variabilité de la parole Variabilité intralocuteur : voix chantée, criée, murmurée, enrhumée, enrouée, sous stress, bégaiement... Variabilité interlocuteur : timbres différents, voix masculines, féminines, voix d'enfants Continuité et coarticulation La production d un son est fortement influencée par le son qui le précède et qui le suit en raison de l anticipation du geste articulatoire. 7

Architecture d un système de reconnaissance vocale 8

Analyse acoustique du signal parole 9

Conversion analogique/numérique Onde acoustique de parole captée par le microphone Transformation de l onde acoustique de parole en un signal électrique. Filtrage pour éliminer tous les composants du signal en dehors de la bande passante [ 50 Hz - 8 khz ] Conversion analogique-numérique du signal : Echantillonnage : la fréquence d'échantillonnage doit donc au moins 8 khz pour la parole de qualité téléphonique et de 16 à 20 khz pour la parole de bonne qualité Quantification. 10

Préaccentuation Le signal échantillonné est pré-accentué : Ressortir les hautes fréquences avec un filtre numérique à réponse impulsionnelle finie de premier ordre Hautes fréquences moins énergétiques que les basses fréquences 11

Segmentation Méthodes du traitement de signal utilisées dans l analyse du signal opèrent sur des signaux stationnaires Parole: un signal non stationnaire. Solution : Analyse de ce signal effectuée sur des trames successives de parole, de durée relativement courte sur lesquelles le signal peut en général être considéré comme quasi stationnaire Découpage du signal pré accentué en trames de N échantillons de parole. En général N est fixé de telle manière à ce que chaque trame corresponde à environ 20 à 30 ms de parole. 12

Fenêtrage La segmentation du signal en trames produit des discontinuités aux frontières des trames (Lobes secondaires). Réduction de ces effets en multipliant les échantillons de la trame par une fenêtre de pondération telle que la fenêtre de Hamming 13

Analyse à court terme Analyse à court terme : chaque trame fenêtrée du signal est ensuite convertie en un vecteur acoustique constitué d un ensemble réduit de paramètres Différentes méthodes coexistent pour la transformation d'une trame fenêtrée de signal en un vecteur acoustique Méthodes non paramétriques Méthodes paramétriques Méthodes avec modèles de perception 14

Analyse à court terme Les méthodes paramétriques qui se basent sur un modèle de production Codage par prédiction linéaire LPC (Linear Prediction Coding) LPCC (Linear Prediction Cepstral Coefficients). Les méthodes non paramétriques le taux de passage par zéro, la fréquence fondamental (pitch), la transformée de Fourier discrète, l'énergie du signal, les sorties d'un banc de filtres numériques la transformée en ondelettes. Les méthodes fondées sur un modèle de perception MFCC (Mel Frequency Cepstral Coefficients) PLP(Perceptual Linear Prediction) 15

Analyse à court terme Les méthodes les plus couramment utilisées: MFCC PLP LPCC 16

Méthode MFCC Exploiter les propriétés du système auditif humain par la transformation de l'échelle linéaire des fréquences en échelle Mel 17

Méthode de reconnaissance vocale Décodage acoustico-phonétique Extraire les paramètres choisis pour représenter le signal Décoder le signal d entrée 18

Les techniques (1/2) Approche globale : le mot Fournir une image acoustique de chaque mots à identifier Limite : petits vocabulaires nombre restreint de locuteurs 19

Les techniques (2/2) Approche analytique : la structure des mots Identifier les composantes élémentaires (phonèmes, syllabes,...) => unités de base Meilleure approche : Pour reconnaître de grands vocabulaires, il suffit d'enregistrer dans la mémoire de la machine les principales caractéristiques des unités de base. 20

Les phases (1/2) La phase d'apprentissage : un locuteur prononce l'ensemble du vocabulaire, souvent plusieurs fois, pour créer en machine le dictionnaire de références acoustiques. Pour l approche analytique, l'ordinateur demande à l'utilisateur d'énoncer des phrases souvent dépourvues de toute signification, mais qui présentent l'intérêt de comporter des successions de phonèmes bien particuliers. 21

Les phases (2/2) La phase de reconnaissance : un locuteur prononce un mot du vocabulaire. Ensuite la reconnaissance du mot est un problème typique de reconnaissance de formes. Tout système de reconnaissance des formes comporte toujours les trois parties suivantes: Un capteur permettant d'appréhender le phénomène physique considéré (microphone), Paramétrisation des formes (analyseur spectral), Décision de classer une forme inconnue dans l'une des catégories possibles 22

Reconnaissance du mot Signal vocal comparé aux mots du dictionnaire de référence L'algorithme de reconnaissance permet de choisir le mot le plus ressemblant, en calculant le taux de similitude entre le mot prononcé et les diverses références. Les modèles de Markov à états cachés (Hidden Markov Model) Modèle acoustique Résultats : Donne la probabilité de correspondance à phonème Associer le phonème le plus probable à la tranche Le programme va comparer le mot prononcé par le locuteur avec ceux qui sont en mémoire depuis l apprentissage Trouver le signal le plus ressemblant. 23

L étape de reconnaissance Analyser le signal inconnu sous la forme d une suite de vecteurs acoustiques Comparer la suite inconnue à des exemples préalablement enregistrés. Le mot «reconnu» sera alors celui dont la suite de vecteurs acoustiques colle le mieux à celle du mot inconnu. 24

Principe HMM Soit A un signal acoustique, le processus de reconnaissance peut être décrit comme le calcul de la probabilité P(W A) qu une suite de mots (ou phrase) W corresponde au signal acoustique A, et la détermination de la suite de mots qui maximise cette probabilité. - P(W), probabilité de la suite de mots W - P(A W), probabilité du signal acoustique A, étant donné la suite W, - P(A), probabilité du signal acoustique. => Nécessaire de considérer P(A W) (modèle acoustique) et P(W) (modèle linguistique). 25

Modèle linguistique Travail sur la syntaxe et la sémantique propre à la langue Probabilité qu une suite de mots existe dans la langue Introduction de la notion d approximation avec N-grams Algorithme N-grams Agrégation en 2 ou 3 mots avec une probabilité associée Approximation de probabilités de séquences plus longues Calcul des probabilités sur ces séquences plutôt que sur des mots Probabilité d obtenir un mot connaissant les mots précédents 26

Modèle acoustique + linguistique 27

Robustesse Le système est-il capable de fonctionner dans des conditions difficiles? Bruits d'environnement (dans une rue, etc ) Déformation de la voix par l environnement (réverbérations, échos, etc ) Qualité du matériel utilisé (micro, carte son etc ) Bande passante fréquentielle limitée (fréquence limitée d une ligne téléphonique) Elocution inhabituelle ou altérée (stress, émotions, fatigue, etc ) Certains systèmes peuvent être plus robustes que d'autres à l'une ou l'autre de ces perturbations, mais en règle générale, les systèmes de reconnaissance de la parole sont encore sensibles à ces perturbations. 28

Conclusion Aujourd hui : Systèmes fonctionnels basés sur une approche statistique Logiciels de reconnaissance du langage continu Tailles de vocabulaire allant à 60 000 mots, Dictée à la vitesse de 120 à 160 mots par minute Succès de reconnaissance supérieur à 95%. Avenir : Améliorer les modèles acoustiques Améliorer les modèles linguistiques : techniques statistiques et réseaux neuronaux. Rendre les modèles indépendants du locuteur 29

Réference Reconnaissance automatique de la parole : Du signal à son intépretation par Jean paul Haton, Christophe Cerisara, Dominique Fohr, Yves Laprie, Kamel Smaili 30