Projet de Master en Informatique: Web WriteIt!

Documents pareils

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

Java pour le Web. Cours Java - F. Michel

Programmation de services en téléphonie sur IP

Dafoe Présentation de la plate-forme UIMA

Application de lecture de carte SESAM-Vitale Jeebop

Technologies mobiles pour la reconnaissance vocale des langues africaines

LA RECONNAISSANCE VOCALE INTEGREE

Introduction aux «Services Web»

Avant-propos 1. Avant-propos Organisation du guide À qui s'adresse ce guide?...4

10. Base de données et Web. OlivierCuré

Institut Supérieure Aux Etudes Technologiques De Nabeul. Département Informatique

Modélisation du comportement habituel de la personne en smarthome

Oracle Learning Library Tutoriel Database 12c Installer le logiciel Oracle Database et créer une Database

Reconnaissance automatique de la parole à l aide de colonies de fourmis

Application Web et J2EE

Livre Blanc WebSphere Transcoding Publisher

Web Tier : déploiement de servlets

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Hébergement de site web Damien Nouvel

Jahia. Guillaume Monnette École Ingénieurs 2000 Marne-La-Vallée IR3

Module BD et sites WEB

Cours Master Recherche RI 7 Extraction et Intégration d'information du Web «Services Web»

Contributions à la reconnaissance robuste de la parole

4. SERVICES WEB REST 46

Le numéro 1 des standards téléphoniques à commande vocale

Refonte front-office / back-office - Architecture & Conception -

et Groupe Eyrolles, 2006, ISBN :

Auto-évaluation Aperçu de l architecture Java EE

Ingénieur Développement Nouvelles Technologies

Moderniser. le système d information et le portefeuille applicatif.

TP réseau Android. Bidouilles Tomcat. a) Installer tomcat : il suffit de dézipper l'archive apache-tomcat windowsx64.zip.

MobiTicket: une application mobile de ventes aux enchères de billets de spectacles

JADE : Java Agent DEvelopment framework. Laboratoire IBISC & Départ. GEII Université & IUT d Evry nadia.abchiche@ibisc.univ-evry.

Mineure Architectures Orientées Services SOA Exécution de processus. Mineure SOA. Exécution de processus

TP JEE Développement Web en Java. Dans ce TP nous commencerons la programmation JEE par le premier niveau d une application JEE : l application web.

Laurent JOLIN. Compétences. Expériences professionnelles. Architecte technique. 15, rue Jean Favier Toulouse

M2 SIAW - Exemples de stages réalisés. Gabriella Salzano - Document de travail - 28/1/2015

Exécution de processus

Tolérance aux Fautes des Grappes d Applications J2EE. Applications Internet dynamiques

Développement des Systèmes d Information

Exécution de processus

Hébergement de sites Web

Programme «Analyste Programmeur» Diplôme d état : «Développeur Informatique» Homologué au niveau III (Bac+2) (JO N 176 du 1 août 2003) (34 semaines)

Architectures web/bases de données

Messagerie asynchrone et Services Web

Modem et réseau local

CATALOGUE DES FORMATIONS LANGUES

Jeudi 17 février Nicolas Darcheville Vincent Goessens

PROSOP : un système de gestion de bases de données prosopographiques

SITES WEB GRATUITS D APPRENTISSAGE EN ANGLAIS ET EN D AUTRES LANGUES

les techniques d'extraction, les formulaires et intégration dans un site WEB

ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT

Technologies Web. Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya. Université Pierre et Marie Curie

VM Card. Manuel des paramètres des fonctions étendues pour le Web. Manuel utilisateur

Applications Section candidats

PloneLabs un gestionnaire de contenu pour les laboratoires

Comparatif CMS. Laurent BAUREN S Bérenger VIDAL Julie NOVI Tautu IENFA

Architectures Web Services RESTful

UE11 Phonétique appliquée

Mise en place d un service de voix sur IP

DotNet. Plan. Les outils de développement

Le cadre des Web Services Partie 1 : Introduction

COMPRENDRE L ARCHITECTURE DES WEB SERVICES REST. Amosse EDOUARD, Doctorant

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Programme national de Certification des compétences. Cursus de formation Certifiante

Programmation Web. Madalina Croitoru IUT Montpellier

Formations Techniques : Infrastructures Janvier - Mars 2009

INGÉNIEUR - DÉVELOPPEUR SENIOR PHP. 28 ans - 8 ans d'expérience

Catalogue des Formations Techniques

En vue de l'obtention du

LANGAGUE JAVA. Public Développeurs souhaitant étendre leur panel de langages de programmation

Famille IBM WebSphere Application Server

Découverte de Microsoft Office 2010 et de Microsoft Exchange Server 2010

Expert technique J2EE

Configuration Interface for MEssage ROuting

INGÉNIEUR LOGICIEL JAVAEE / GROOVY 8 ANS D EXPÉRIENCE

M Études et développement informatique

Cours Bases de données

Environnements de Développement

Serveur d'application Client HTML/JS. Apache Thrift Bootcamp

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Liste des Technologies

REPUBLIQUE TUNISIENNE MINISTERE DES TECHNOLOGIES DE LA COMMUNICATION

COORDONNÉES PROFESSIONNELLES PARCOURS PROFESSIONNEL FORMATION

Introduction à. Oracle Application Express

Apprentissage Automatique

1.2 - Définition Web 2.0 ( wikipedia )

Architecture Orientée Service, JSON et API REST

TP1 : Initiation à Java et Eclipse

contact@nqicorp.com - Web :

Programmation en Java IUT GEII (MC-II1) 1

Extensions à la formation. Laurent Pérochon, avril 2008, RMT Modelia, modélisation conceptuelle, formation UML, INRA Castanet Tolosan

Digitalisation de l Industrie Bancaire

Documentation EdgeSight. Citrix XenApp 5.0

Petite définition : Présentation :

2011 Hakim Benameurlaine 1

µrv : Realité Virtuelle

Transcription:

Projet de Master en Informatique: Web WriteIt! Web WriteIt! Baris Ulucinar Supervisé par le Prof. Rolf Ingold, Dr. Jean Hennebert, Andreas Humm et Robert Van Kommer Avril 2007

Table des matières 2 1. Introduction 2. Reconnaissance automatique de la parole 3. Architecture 4. Entraînement 5. Tests de performance 6. Interfaces côté client 7. Conclusion

3 Introduction

Introduction 4! Transcription de la Parole Hello word! Hello word! Hello word! Reçoit fichier audio et choix Envoie la transcription sous forme html ou xml Envoie de fichier audio wave & choix grammaire type de fichier de sortie nbest Reçoit la trascription

Introduction/buts 5! Création d!interface Web pour la transcription d!un fichier audio, en utilisant Sphinx 4.! Entraînement de modèles acoustiques «"home made"», avec BREF, en utilisant SphinxTrain.! Tests de performance! «"Home Made"»! «"French_F0"» Lium

Introduction/Terminologie/AM 6! Modèles acoustiques, HMM!s Le Modèle acoustique (AM) représente le HMM!s pour un phonème HMM pour le phonème W HMM pour le mot ONE

Introduction/Terminologie/LM 7! Modèles de langages, Grammaires Ce que l'utilisateur peut dire pour interagir avec le système Liste de mots Grammaires à état fini Grammaires stochastiques

Introduction/Terminologie/Dictionnaire 8! Dictionnaire! Liste de mots et leurs prononciations! 2 types:! Dictionnaire standart pour les mots! 2 transcriptions phonétiques pour le mot ONE:! ONE HH W AH N! ONE(2) W AH N! «"Filler"» Dictionary! Pour les tags, comme le silence, les bruits! <s> SIL! </s> SIL! <sil> SIL! [euh] ee ee

9 Reconnaissance automatique de la parole

RAP/Principe de base 10! Reconnaisse Automatique de la parole

RAP/Classification des systèmes 11

RAP/Applications 12! Domaines d!applications

13 Architecture

Architecture 14

Architecture/Sphinx 4 15! Sphinx 4 Système de reconnaissance vocale écrit en Java. Créé conjointement par Carnegie Mellon University, SUN Microsystems Laboratories, Hewlett-Packard!s Cambridge Research Lab et Mitsubishi Electric Research Labs. Utilise des HMMs continus Fournit une grande flexibilitée, exactitude et vitesse Flexibilitée: ok Exactitude: ~ Vitesse: ~

Architecture/Sphinx 4 16! Sphinx 4

Architecture/Sphinx 4/Architecture/1_2 17! Architecture

Architecture/Sphinx 4/Architecture/2_2 18! Architecture plus détaillée

Architecture/SLMT 19! CMU-Cambridge Statistical Language Modeling Tookit v2! Pour créer des grammaires stochastiques! Liste de mots, et leur fréquence

Architecture/SphinxTrain 20! SphinxTrain Outil pour produire des modèles acoustiques continues(sphinx 3) ou semi-continues(sphinx 2) Dans Sphinx 4 des modèles acoustiques Sphinx 3 peuvent être utilisé Contient plusieurs script PERL + executables Sphinx 4 un fichier de propriété de modéle: model.props description = Home Made French acoustic models created using the BREF database in DIVA,... isbinary = true featuretype = 1s_c_d_dd vectorlength = 39 sparseform = false numberfftpoints = 512 numberfilters = 40 gaussians = 8 minimumfrequency = 133.33334 maximumfrequency = 6855.4976 samplerate = 16000.0

Architecture/SphinxTrain/Sphinx 4 21! SphinxTrain + Sphinx 4 Classes: edu.cmu.sphinx.model.acoustic.sphinx3.modelloader edu.cmu.sphinx.model.acoustic.sphinx3.model bref.sphinxconfigurationfile.xml... <property name="properties_file" value="/pathto/model.props" /> <property name="data_location" value="/pathto/model_parameters/bref.cd_cont_1000_8" /> <property name="model_definition" value="/pathto/model_architecture/bref.1000.mdef" />...  <component name="sphinx3loader" type="edu.cmu.sphinx.model.acoustic.sphinx3.modelloader"> <property name="logmath" value="logmath"/> <property name="unitmanager" value="unitmanager"/> <property name="propertiesfile" value="${properties_file}" /> <property name="datalocation" value="${data_location}"/> <property name="modeldefinition" value="${model_definition}" /> </component> <component name="french" type="edu.cmu.sphinx.model.acoustic.sphinx3.model"> <property name="loader" value="sphinx3loader"/> <property name="unitmanager" value="unitmanager"/> </component>

Entraînement 22

Entraînement/BREF 23! Base de données de signaux acoustiques! Créée par LIMSI en 1993! Pour développer & évaluer des systèmes RAP continue en français! Corpus établit à partir d!article de journaux lus! Problème:! La situation géo-politique, noms propres ont beaucoup changé depuis 1993

Entraînement/SphinxTrain&BREF 24 Données Acoustiques «BREF» Entrée make_feates.pl RunAll.pl sphinx_train.cfg Sortie means mixture_weights transition_matrices bref_train.fileids bref_train.transcription bref.dic bref.filler bref.phone SphinxTrain Scripts PERL variances bref.1000.mdef

25 Tests de Performance

Tests de Performance 26! Accuracy! H: nombre de mots! J: nombre de mots justes! S: nombre d!erreurs de substitution! la r'evision de la <<>> la vision de la! I: nombre d!erreurs d!insertion! lui accordent <<>> ne lui accordent que! D: nombre d!erreurs de suppression! lui accordent que <<>> lui accordent! Word error rate WER = H - S - I - D (1 - ) H * 100% Accuracy = ( J / H )* 100%

Tests de Performance/BMR 27! BatchModeRecognizer de Sphinx 4 Modèle de language Modèles acoustiques Dictionnaires Fichiers audio fichier.config.sphinx4.xml batchfile.batch build.xml ANT

Tests de Performance/LIUM 28! Modèles acoustiques, de langage et dictionnaires du LIUM! 100 heures de données! 85 h pour l!entraînement! 8 h pour le développement! 10 h pour les tests! Problème de non-reconnaissance des accents par Sphinx! Accuracy = 67,687%! WER = 37,163%

Tests de Performance/Home Made 29! Modèles acoustiques «"Home Made"».! Modèles de langage et dictionnaires du LIUM.! Entraîné avec SphinxTrain+BREF! ~55,62 heures de données acoustiques.! Accuracy= 77,933%! WER = 24,795%

30 Tests de Performance/Conclusion " Pourquoi cette différence entre les 2 tests? ^ Base de donnée de BREF enregistré dans studio insonorisé, avec un bon microphone, ^ Base de donnée de LIUM enregistrement depuis plusieurs chaînes de radio française " Erreurs typiques ^ Homophonie Il voulait ils voulaient deux de et est ^ Des s et e manquants: chantée, souliers, etc. ^ Erreur de frappe, grammaire dans la transcription ^ Fichier audio de mauvaise qualité

31 Interfaces côté client

Interfaces côté client/www/uc! Cas d!utilisation/outputtype?=html 32 Client Serveur «.html!» index Page de Bienvenue Interface-web «.html!» PrepareWaveUpload outputtype = html «servlet!» PrepareWaveUpload «servlet!» ProcessWaveUpload fichier non valide «.html!» ProcessWaveRecognize XHR fichier valide «servlet!» ProcessWaveRecognize «.html!» PrepareShowResults appel généré par velocity

Interfaces côté client/www/uc! Cas d!utilisation/outputtype?=xml 33 Client Serveur «.html!» index Page de Bienvenue Interface-web «.html!» PrepareWaveUpload outputtype = XML «servlet!» PrepareWaveUpload «servlet!» ProcessWaveUpload fichier non valide fichier valide «.xml!» WwiReco «servlet!» ProcessWaveRecognizeToXML appel généré par velocity

Interfaces côté client/www/uc! Captures d!écran 34

Interfaces côté client/swing/uc! Java Swing 35 Client Serveur «java swing gui!» WwiGui outputtype = XML «servlet!» ProcessWaveUpload fichier valide «servlet!» ProcessWaveRecognizeToXML «.xml!» WwiReco appel généré par velocity

Interfaces côté client/swing! Java Swing 36

Conclusion! Applications Open Source! Entraînement de modèles acoustiques! Très capricieux! Il faut! beaucoup d expérience & de temps! machine puissante! de bonne source de données! Machine puissante! Quantitée de données acoustiques! Petite au début! Agrandir pas à pas! Modèles acoustiques «home made»! Accuracy = 77,933%! WER = 24,795%! Interface web! Performance dépend de la machine Serveur! Allège le travail du client, c est le Serveur qui travaille 37

Fin / Questions? 38! Je vous remercie pour votre attention.! Avez-vous des questions?

Bibliographie! Web WriteIt! Wiki: http://diuf.unifr.ch/diva/web/wiki/! Web WriteIt! Home Page: http://diuflx77-vm04.unifr.ch:8080/diva-webwriteit/! W Walker, P Lamere, P Kwok, B Raj, R Singh, E Gouvea, P Wolf and J Woelfel. A Flexible Open Source Framework for Speech Recognition, SUN MICROSYSTEMS INC., 2004! CMU Sphinx 4: http://cmusphinx.sourceforge.net/sphinx4/! J-L Gauvain and L F Lamel, Speaker-Independent Phone Recognition Using BREF, DARPA Speech and Language Workshop, Arden House, 1992! Cours Traitement de la Parole, Jean Hennebert, http://diuf.unifr.ch/courses/05-06/traitparole/! A Chan, E Gouvea, R Singh, R Mosur, R Rosenfield, Y Sun and D Huggins-Daines, Hieroglpyhs: Building Speech Applications Using Sphinx and Related Resources, 2004! C Becchetti, L P Ricotti, Speech recognition, John Wiley and Sons, 1999! W Walker, P Lamere, P Kwok, B Raj, R Singh, E Gouvea, P Wolf and J Woelfel, Sphinx-4: A Flexible Open Source Framework for Speech, Proceedings of the I.E.E.E. International Conference on Image Processing, S. M. INC., 2004! P. Lamere, P Kwok, W Walker, E gouvea, R Singh, B Raj and P Wolf, Design of the CMU Sphinx-4 Decoder, SUN MICROSYSTEMS INC., Carnegie Mellon University and Mitsubishi Electric Research Lab., 2006 39