Sources d information : lexicale. Sources d information : phonotactique. Sources d information : prosodie (2/3) Sources d information : prosodie (1/3)



Documents pareils
Apprentissage Automatique

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

N SIMON Anne-Catherine

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Modélisation du comportement habituel de la personne en smarthome

Reconnaissance du locuteur

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Mesure agnostique de la qualité des images.

Projet de Master en Informatique: Web WriteIt!

De la caractérisation à l identification des langues

Analyse dialectométrique des parlers berbères de Kabylie

Thèse. Mathieu RAMONA

UE11 Phonétique appliquée

Etude et conception d un serveur vocal :

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Laboratoire 4 Développement d un système intelligent

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

Le modèle standard, SPE (1/8)

Extraction de descripteurs musicaux: une approche évolutionniste

Contributions à la reconnaissance robuste de la parole

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Vérification audiovisuelle de l identité

THÈSE. présentée à l Université d Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Internet et Multimédia Exercices: flux multimédia

Reconnaissance automatique de la parole à l aide de colonies de fourmis

Introduction au Data-Mining

Technologies mobiles pour la reconnaissance vocale des langues africaines

Introduction au datamining

L enseignement/apprentissage de la prononciation des langues assisté par ordinateur : le cas du français langue étrangère.

Modélisation aléatoire en fiabilité des logiciels

Convention de transcription CIEL-F

En vue de l'obtention du

Tutoriel Prosogram. 1. Installation. Tutoriel prosogram

Université du Québec à Chicoutimi THESE. Présentée à l'université du Québec à Chicoutimi Département des Sciences Appliquées

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Paramétrisation adaptée de transitoires pour la reconnaissance d instruments de musique

Indexation de documents audio : Cas des grands volumes de données

Portail Vocal d Entreprise

CarrotAge, un logiciel pour la fouille de données agricoles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Identification de nouveaux membres dans des familles d'interleukines

Analyse,, Conception des Systèmes Informatiques

SI350 Indexation Audio

ISO/CEI NORME INTERNATIONALE

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Intérêt du découpage en sous-bandes pour l analyse spectrale

Trois approches du GREYC pour la classification de textes

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Optimisez les performances de vos aides auditives. Accessoires sans fil Phonak

Extraction de mots-clefs dans des vidéos Web par Analyse Latente de Dirichlet

MCMC et approximations en champ moyen pour les modèles de Markov

Précision d un résultat et calculs d incertitudes

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Master Informatique Aix-Marseille Université

LES REFERENTIELS DES TROIS BACCALAUREATS PROFESSIONNELS DU TERTIAIRE COMMERCIAL VENTE COMMERCE SERVICES

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Plan de la présentation

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Utilisation du TNI en classe d anglais. PROJET INNOVANT présenté par la SECTION D ANGLAIS du Lycée Jean-Paul de Rocca Serra, Porto-Vecchio

De la mesure à l analyse des risques

Établissement des taux d actualisation fondés sur la meilleure estimation aux fins des évaluations de provisionnement sur base de continuité

(Quelle identité par la parole?) Thèse. présentée à la section. Systèmes de Communication. par. Dominique Genoud

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur

P2: Perception auditive

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Probabilités III Introduction à l évaluation d options

Interactions sonores et vocales dans l habitat

TRAVAUX DE RECHERCHE DANS LE

4.2 Unités d enseignement du M1

Quantification Scalaire et Prédictive

COR-E : un modèle pour la simulation d agents affectifs fondé sur la théorie COR

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

sentée e et soutenue publiquement pour le Doctorat de l Universitl

[FORMAT AGRANDI DE LA POLITIQUE D ACCESSIBILITÉ POUR LES PERSONNES HANDICAPÉES]

Master Informatique Spécialité Développement et Applications sur Plateformes Mobiles

Détection des deux roues motorisés par télémétrie laser à balayage

Analyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1

SEMINAIRES & ATELIERS EN TÉLÉCOMMUNICATIONS RESEAUX

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Validation probabiliste d un Système de Prévision d Ensemble

ANALYSE ACOUSTIQUE de la VOIX. pour la. DÉTECTION de PERTURBATIONS PSYCHOPHYSIOLOGIQUES. APPLICATION au CONTEXTE AÉRONAUTIQUE

La classification automatique de données quantitatives

Enregistrement et transformation du son. S. Natkin Novembre 2001

ANALYSE STATISTIQUE PRÉDICTIVE

Application d un algorithme de traduction statistique à la normalisation de textos

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Transcription:

Organisation de la présentation Reconnaissance automatique des langues RMITS 28 http://www.irit.fr/~jerome.farinas/rmits28/ Jérôme Farinas jerome.farinas@irit.fr Équipe SAMOVA (Structuration, Analyse et Modélisation de la Vidéo et de l Audio) I. Analyse du media o Problématique IAL o Sources d information Acoustique Phonotactique Lexicale Prosodique II. Modélisation o Sans prise en compte de l enchaînement temporel o Stochastique o nchaînement temporel III. Fusion d informations o Approche probabiliste o Approche arithmétique o PPRLM o Autres formalismes o Campagnes d évaluation IV. Synthèse 2 Partie I Problématique IAL Identification Automatique de la Langue (Language Identification) Analyse du média Définition : détecter la langue parlée à partir de quelques secondes d un échantillon sonore Objectif : aiguiller vers un système de reconnaissance de la parole multilingue, aiguiller vers standardiste parlant la langue pour un numéro urgence (ex : 9), central téléphonique hôtelier, bornes interactives multilingues, indexation multimédia, renseignement militaire, etc. Contraintes : nombre limité de langue connues ou bien pas de limite (rejet), décision rapide (dès les premières secondes) 3 4 Sources d information Différentes sources d informations sont exploitables pour l IAL : Acoustiques : les sons et leur fréquences d apparition varient d une langue à l autre Phonotactiques : les enchaînements entre les sons et leur fréquence d apparition caractérisent les langues Lexicales : les mots sont souvent propres aux langues. Source d information peu intéressante si l on veut pouvoir rajouter une langue au système sans connaissances a priori. Prosodiques : le rythme et l intonation varient d une langue à l autre. Sources d information : acoustique L inventaire des sons varient d une langue à l autre (UPSID [Vallée 94]) Même si une langue partage les mêmes sons avec une autre, il est fort peu probable que leur fréquence d apparition soit identique. Nécessite des décodeurs acoustico-phonétiques ou bien une segmentation au niveau phonétique ou infra phonétique 5 6

Sources d information : phonotactique L enchaînement des sons est particulier aux langues Certains enchaînements ne se retrouvent pas dans d autres langues Leur fréquence d apparition est également unique Sources d information : lexicale Chaque langue possède son propre lexique. Difficulté : la frontière entre les mots n est pas facile à trouver quand on ne connaît pas la langue. Utiliser l inventaire des mots d une langue impose de disposer d importantes ressources lexicales, qui ne sont pas forcément faciles à obtenir (langues rares ou bien langues ne disposant pas de transcriptions textuelles). Si l on veut pouvoir rajouter une langue facilement à un système, cette source d information n est pas privilégiée car elle demande des ressources coûteuses ou bien demandant l utilisation d expertises. Quelques travaux ont été réalisés en utilisant partiellement cette ressource ([Hieronymous 96], [Adda 98]) 7 8 Sources d information : prosodie (/3) Sources d information : prosodie (2/3) rythme mélodie intonation accentuation Définition de la prosodie (acoustique) = F + + durée emphase focalisation modalité émotions stress colère (perceptuel) = hauteur + intensité + longueur (structure prosodique) = intonation + accentuation + rythme 9 Sources d information : prosodie (3/3) Langues accentuelles - Anglais - Néerlandais - Polonais - Langues syllabiques - spagnol - Italien - Français - Catalan - Langues moraïques - japonais Organisation de la présentation I. Analyse du media o Problématique IAL o Sources d information o Acoustique o Phonotactique o Lexicale o Prosodique II. Modélisation o Sans prise en compte de l enchaînement temporel o Stochastique o nchaînement temporel III. Fusion d informations o Approche probabiliste o Approche arithmétique o PPRLM o Autres formalismes o Campagnes d évaluation IV. Synthèse 2

Partie II Modélisations Modélisations sans prise en compte de l enchaînement temporel - Loi simple de probabilité - Mélange de gaussiennes - Machines à vecteur support Modélisation Modélisations en prenant en compte l enchaînement temporel - Modèles de Markov Cachés Modélisations de suites temporelles - N-gram - N-multigram 3 4 Loi de probabilité Soit un ensemble de langues à identifier : L = {L, L2 Ln t O une observation. P(L/O) n utilisant la règle de Bayes : P(L/O)=P(O/L) / P(L) n supposant les langues équiprobables il reste à définir : P(O/L) Mélanges de lois Gaussiennes n utilisant l indépendance temporelle des observations : L*=argmax(P(O/L)) L 5 6 HMM SVM Il s agit ici de définit la frontière entre deux classes, il s agit d une modélisation discriminative et non générative (comme les GMM). But : trouver un hyperplan de séparation optimal Marge : distance du point le plus proche à l hyperplan 7 8

N-gram Un cas d étude : prosodie (/4) y Quelles modélisations sur quels paramètres? y N-gram = sous séquence de n éléments Pr(wi w,...,wi ) = Pr(wi wi (n ),wi (n 2),...,wi ) y x : trigrammes (n=3) Pr(wi w,...,wi ) = Pr(wi wi 2,wi ) y Apprentissage : comptabiliser les séquences. y Modélisation alternative : n-multigrammes (faire varier la taille des séquences). 9 2 Fréquence (khz) Un cas d étude : prosodie (2/4) 8 4 Amplitude l a m.2 R t R.4 e b.6 o n.8. Temps (s) y xtraction de paramètres - Segmentation du signal (algo. Divergence Forward-Backward [André- - Obrecht 988]) Détection d activité vocale Classification consonne-voyelle Calcul de caractéristiques Rythme Intonation 22 Fréquence (khz) Un cas d étude : prosodie (3/4) Un cas d étude : prosodie (4/4) 8 y Problème ramené à un problème de modélisation statistique y Un GMM pour chaque paramètre y Nombre de gaussiennes fixées lors de l apprentissage 4 Amplitude l a m.2 R.4 t R e b o.6.8. Temps (s) Rythme : - Durée C - Durée V - Complexité C n 5 ms 5 ms 3 Intonation : - Skewness(F) - Kurtosis(F) - Place de l accent,25,4 2ms 23 24

Organisation de la présentation Partie III I. Analyse du media o Problématique IAL o Sources d information Acoustique Phonotactique Lexicale Prosodique II. Modélisation o Sans prise en compte de l enchaînement temporel o Stochastique o nchaînement temporel III. Fusion d informations o Approche probabiliste o Approche arithmétique o PPRLM o Autres formalismes o Campagnes d évaluation IV. Synthèse Fusion d information 25 26 Fusion d information Approche probabiliste (/2) Décomposition du problème en sous problèmes [Hazen&Zue] O = { o o... o 2 T Décodeur Phonetic Grandes Decoder classes S = { s s 2... st F = { f f 2... ft Vocalic Yoyelles system Occlusives system Ψ = { ψ ψ... ψ 2 T Fricatives system Language Modèle Modeling Multigramme Pr( O Ψ i, L i ) Rhythm Modèle Modeling Rythme Pr( Ψ i L i) Intonation Modèle Intonation Modeling Pr( F il i) Pr( Si L i) Decision Décision 27 28 Approche probabiliste (2/2) Décomposition du problème en sous problèmes [Hazen&Zue] a : vecteur acoustique, f : vecteur prosodique C : séquence phonétique S : segmentation associée - Modèle acoustico-phonétique : - Modèle prosodique : - Modèle phonétique de langage : Hypothèses d indépendance simplificatrices : Approche arithmétique xploiter les performances de chaque système pour combiner les sources d information Longueur fichier Modèle de langage Modèle acoustique Modèle de durée Modèle F Système global s 6,6% 48,8% 34,7% 2,4% 65,4% [Hazen NIST 94] > 3 s 72,7% 52,9% 43,3% 2,3% 7,% Pondération des résultats pour le système complet. 29 3

PPRLM Parallel Phone Recognition followed by Language Modeling [Zissman] Autres formalismes Modéliser l espace des scores par modèles génératifs Théorie des possibilités - Le fait d avoir l opinion possibiliste de N experts sur la langue peut-être vue comme un événements dont on souhaite connaître la possibilité - Prise en compte d indices de confiance d experts et de classe Théorie des fonctions de croyance - Utilisation de degrés de croyances pour représenter l incertitude sur un événement cf. [Gutierrez 25] 3 32 Campagnes d évaluation (/3) Campagnes d évaluation (2/3) NIST Language Recognition (http://www.nist.gov/speech/) - 996-23 - 25-27 Corpus fournis par le LDC (OGI-MLTS, CALLFRIND, SWITCHBOARD) - Grandes quantités pour l apprentissage - Sélection de conditions d enregistrement différents - Plus de 2 langues ou dialectes 33 Système MIT : fusion de 3 systèmes (classifieur Gaussien) : - PPRLM : Parallel Phone Recognition and Language Modeling - GMM : Gaussian Mixture Modeling - SVM : Support Vector Machine PPRLM, évolution depuis 996 : - 38 MFCC (ajout des coefs. d accélération) - Cepstral Mean Normalisation - Ajout 3-gram + filtrage modèles de silence - Perte rapidité : 2.2 RT -> 5 RT GMM - Shifted Delta Cepstra (SDC) - Modèles dépendants du genre SVM - SDC - Produit info complémentaire au GMM et PPRLM 34 Campagnes d évaluation (3/3) Synthèse (/2) Résultats MIT 23 Analyse - Observer le média pour en connaître sa spécificité, sa structure. - Réaliser un état de l art (en parole ne pas négliger les théories linguistiques) - Définir l unité de travail Modélisation - Choisir une modélisation adaptée en fonction de l analyse du média - Conserver les caractéristiques temporelles quand cela est nécessaire Fusion - Conserver le maximum d informations quand elles sont disponibles (indices de confiance, experts). 35 36

Synthèse (2/2) Appliqué à un problème d identification automatique des langues : Analyse - 4 niveaux participant à la discrimination des langues : acoustique, phonotactique, lexique, prosodie - Prosodie : intonation et rythme, extraction de paramètres correspondants (F et durée, mesures statistiques correspondantes), choix d unités temporelles plus adaptées (syllabe) Modélisation - GMM ou SVM pour les modélisations acoustiques - GMM, HMM ou n-gram pour la modélisation prosodique Fusion - Prise en compte des performances des différents niveaux de modélisation Attention aux protocoles d évaluation! Bibliographie F. Pellegrino, «Une approche phonétique en identification des langues : la modélisation acoustique des systèmes vocaliques», Thèse de doctorat, Université Paul Sabatier, Toulouse, France, décembre 998 J. Farinas, «Une modélisation automatique du rythme pour l identification automatique des langues», Thèse de doctorat, Université Paul Sabatier, Toulouse, France, novembre 22 J. Gutierrez, «Fusion d informations en Identification Automatique des Langues», Thèse de doctorat, Université Paul Sabatier, Toulouse, France, juillet 25 Y. K. Muthusamy et al., «A Comparison of Approaches to Automatic Language Identification Using Telephone Speech», dans 3rd uropean Conference on Speech Communication and Technology, tome 2, p. 37-3, Berlin, Allemagne, septembre 993 NIST Language Recognition valuation, http://www.nist.gov/speech/tests/lang/ A. Di Cristo, «Interpréter la prosodie», 23 e JP, Aussois, France, juin 2 37 38