MARF : Modular Audio Recognition Framework

Documents pareils

Laboratoire 4 Développement d un système intelligent

CURRICULUM VITAE. Informations Personnelles

Efficient Object Versioning for Object- Oriented Languages From Model to Language Integration

Projet de Master en Informatique: Web WriteIt!

Annexe 8. Documents et URL de référence

Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal

Pascal Forget 2310, Avenue Notre-Dame Québec, (Québec) Canada, G2E 3G5 Tél. (418) Fax (418)

Propriétés du Document EMA. Résumé

Développements algorithmiques au LIAMA et àamap en vue de l'analyse d'une scène forestière

Sécurisation du stockage de données sur le Cloud Michel Kheirallah

Dafoe Présentation de la plate-forme UIMA

Maîtrise énergétique des centres de données

Application de K-means à la définition du nombre de VM optimal dans un cloud

Nathalie REY DIPLOMES UNIVERSITAIRES

Thèmes de recherche. Projets en cours

Completed Projects / Projets terminés

Karine Côté, Ph.D. Professeure adjointe

SMU MEDITERRANEAN. SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002)

Informatique / Computer Science

Codes attribués par l'abes pour identifier les bouquets en vue de l'exemplarisation automatique

Innovation, Entreprise & Société / Innovation, Enterprise and Society

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Singapore Schools Green Mark Scheme on Indoor Air Quality

Architecture distribuée

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Informatique / Computer Science

Eclipse Process Framework et Telelogic Harmony/ITSW

Editing and managing Systems engineering processes at Snecma

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

WIPO LIST OF NEUTRALS BIOGRAPHICAL DATA

ALI HASSOUNE Mustafa. Université des Sciences et de la Technologie d Oran USTOMB : Décembre 2011 à ce jour

DR. MATHIEU LAJANTE. Maître de Conférences en Marketing. Fonctions. Formations universitaires. Responsabilités administratives

Modélisation du comportement habituel de la personne en smarthome

Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

Une architecture conceptuelle pour le déploiement d applications à grande échelle

pythonocc: une plateforme de développement agile d applications CAO.

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

DÉLÉGATION DES COMPÉTITIONS EN INFORMATIQUE DE L ÉTS PLAN DE PARTENARIAT

Architectures Ouvertes pour l Adaptation des Logiciels

Ne cherchez plus, soyez informés! Robert van Kommer

Celine BARREDY, PhD Associate Professor of Management Sciences

Cours de Java. Sciences-U Lyon. Java - Introduction Java - Fondamentaux Java Avancé.

Évaluation des logiciels et autres réalisations

Dr. Prosper Bernard Tel: // portable

A / BIOGRAPHY : Doctorat en Sciences Economiques et de Gestion (Ph.D.), Louvain School of Management Université catholique de Louvain

Jean-Philippe DANGLADE

Vers l'orchestration de grilles de PC par les mécanismes de publicationsouscription

Les usages des réseaux sociaux numériques en entreprise : des registres privés, et professionnels... individualisés. Karine Roudaut, Nicolas Jullien

Forge. Présentation ( )

Jean-Daniel Cryans École de technologie supérieure, Montréal septembre 2009

Laboratoire d Automatique et Productique Université de Batna, Algérie

T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5

Anticiper et prédire les sinistres avec une approche Big Data

Principes. 2A-SI 3 Prog. réseau et systèmes distribués 3. 3 Programmation en CORBA. Programmation en Corba. Stéphane Vialle

Méthodologie d amélioration du développement logiciel chez ABB

Présentations personnelles. filière IL

Session de transfert Atelier 3 Présentation du nouveau KF en construction. Christian Perreault, Université Laval

Analyse des logiciels d application spécialisée pour le courtage en épargne collective

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Frank LASCK. Courriel : f.lasch@montpellier-bs.com Fonction : Professeur. Biographie

Equilibrage de charge (Load

DSL. Domain Specific Language. À l'aide des technologies Eclipse Modeling. Goulwen Le Fur Le 23 novembre 2012

Mise en oeuvre de tests unitaires dans un contexte de programmation extrème répartie

Intégration de l interface graphique de Ptidej dans Eclipse

Curriculum Vitae. Karel HEURTEFEUX. Education

Contrôle stochastique d allocation de ressources dans le «cloud computing»

Curriculum Vitae 1 er février 2008

High Performance by Exploiting Information Locality through Reverse Computing. Mouad Bahi

Santé mentale au travail Enjeu Clinique ou de Leadership? Maladie ou blessure?

Big Data, gros trafic et consommation

Génération de code binaire pour application multimedia : une approche au vol

sont appliquées à des fonds documentaires, sont destinées à fournir des informations pertinentes sur la structure globale plutôt que sur le contenu.

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Conseils, inscription et accompagnement pour vos études en Australie

Protection et amélioration de la sécurité des systèmes d'exploitation

Containers : Outils magiques pour les Devops? OpenNebula et son écosystème pour une infrastructure cloud agile

Préparer un état de l art

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Ré-ordonnancement adaptatif de messages dans un réseau ad hoc de véhicules

LGI et l appel FP7-SEC-2013

CURRICULUM VITAE. CHAMP DE SPÉCIALISATION Économie financière. Économétrie financière. Économétrie.

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur

Viser une démarche de recherche organisée

DEA ès Sciences de Gestion. DES en Sciences Economiques. Ingénieur diplômé de l'ecole Polytechnique de Paris.

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

CURRENT UNIVERSITY EDUCATION SYSTEM IN SPAIN AND EUROPE

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Copyright protected. Use is for Single Users only via a VHP Approved License. For information and printed versions please see

Les Entretiens Jacques Cartier. Session 1 : De la naissance du connectivisme à la satisfaction des besoins éducatifs

Professeur superviseur ALAIN APRIL

Note. Membres de la collectivité canadienne de la physique subatomique. Chef d équipe, physique et astronomie

Notice biographique Repères biographiques communs. Nom : NURCAN Prénom : SELMIN Section : 27. Centre de Recherche en Informatique (CRI)

Les Bases de Données et l Objet Introduction

Transcription:

: Modular Audio Recognition Framework Département d Informatique et Génie Logiciel Faculté de Génie et Informatique Université Concordia, Montréal, Québec, Canada mokhov@cse.concordia.ca ACFAS 2010

Introduction Résumé Le pipeline classique Applications de Résultats de SpeakerIdentApp du, qui? Résultats de SpeakerIdentApp du, sexe? Résultats de SpeakerIdentApp du, accént? Références

Résumé Le pipeline classique Applications de Introduction I Le Modular Audio Recognition Framework () [13, 1, 5, 4, 12] concu en 2002, est une plateforme de recherche open-source et une collection de composants avec des algorithmes pour le traitement de la voix, le son, la parole, et l écriture et de langues naturelles (TALN) statistique [7].

Résumé Le pipeline classique Applications de Introduction II a été crée en Java et organisé sous forme de modules extensible qui facilite l addition de nouvelles algorithmes. peut être utilisé comme une bibliothèque dans un application ou comme une base de support à l apprentisage et en extension.

Résumé Le pipeline classique Applications de Introduction III a aussi été publié dans les plusieurs articles de conférence avec les detailles scientifiques dedant. De la documentation détaillée et la référence d API en format javadoc sont disponibles étant donné que le projet tente d être bien-documenté. et ses applications sont déployés sous une licence BSD.

Résumé Le pipeline classique Applications de Etapes 1. Chargement de donnes (fichiers) 2. Preprocesseurs 3. Extract de characteristiques 4. Classifieurs (entrainment et classification)

Résumé Le pipeline classique Applications de Le pipeline classique

Résumé Le pipeline classique Applications de Applications de Les applications suivantes sont fournies pour montrer les utilisations possibles du framework. Les exemples d applications incluses démontrent les aspects généraux de appliqués dans plusieurs domaines au-delà de l audio et de TALN, tel que : le génie logiciel [3], les calcules distribué [2, 10, 11] et autonomique [16, 9, 15], le traitement multimédia, l analyse forensique de fichiers [8], la programmation intensionnelle [6], la reconnaissance des auteurs, des langues, des sexes, de l âge [4, 5], ainsi que la reconnaissance des formes en générale.

Résultats de SpeakerIdentApp du, qui? Résultats de SpeakerIdentApp du, sexe? Résultats de SpeakerIdentApp du, accént? Résultats de SpeakerIdentApp du, qui? Personnes parlantes (Qui?) Configuration Bon Mal Taux de precision% -silence -bandstop -aggr -cos 29 3 90.62 -silence -bandstop -fft -cos 29 3 90.62 -bandstop -fft -cos 28 4 87.50 -silence -noise -bandstop -fft -cos 28 4 87.50 -silence -low -aggr -cos 28 4 87.50 -silence -noise -norm -aggr -cos 28 4 87.50 -silence -low -fft -cos 28 4 87.50 -silence -noise -norm -fft -cos 28 4 87.50 -silence -noise -low -aggr -cos 28 4 87.50 -silence -noise -low -fft -cos 28 4 87.50 -bandstop -aggr -cos 28 4 87.50 -norm -fft -cos 28 4 87.50 -silence -raw -aggr -cos 28 4 87.50 -silence -noise -raw -aggr -cos 28 4 87.50 -norm -aggr -cos 28 4 87.50 -silence -noise -bandstop -aggr -cos 28 4 87.50 -silence -norm -fft -cos 27 5 84.38 -silence -norm -aggr -cos 27 5 84.38 -low -fft -cos 27 5 84.38 -noise -bandstop -aggr -cos 27 5 84.38

Résultats de SpeakerIdentApp du, qui? Résultats de SpeakerIdentApp du, sexe? Résultats de SpeakerIdentApp du, accént? Résultats de SpeakerIdentApp du, sexe? Personnes parlantes (Sexe?) Configuration Bon Mal Taux de precision 2ieme bon 2ieme mal 2ieme taux% -noise -high -aggr -mink 26 6 81.25 32 0 100 -silence -noise -band -aggr -cheb 26 6 81.25 32 0 100 -silence -noise -band -lpc -cos 26 6 81.25 31 1 96.88 -silence -noise -band -fft -cheb 26 6 81.25 32 0 100 -noise -bandstop -fft -diff 26 6 81.25 32 0 100 -noise -bandstop -fft -cheb 26 6 81.25 32 0 100 -silence -band -lpc -cos 25 7 78.12 31 1 96.88 -silence -noise -bandstop -fft -diff 25 7 78.12 32 0 100 -noise -endp -lpc -eucl 25 7 78.12 31 1 96.88 -silence -noise -band -aggr -eucl 25 7 78.12 32 0 100 -silence -noise -endp -lpc -cheb 25 7 78.12 32 0 100 -noise -endp -lpc -diff 25 7 78.12 32 0 100 -silence -noise -band -fft -eucl 25 7 78.12 32 0 100 -silence -noise -band -aggr -diff 25 7 78.12 32 0 100 -silence -noise -bandstop -fft -cheb 25 7 78.12 32 0 100 -silence -noise -band -fft -diff 25 7 78.12 32 0 100 -noise -bandstop -aggr -cheb 25 7 78.12 32 0 100 -noise -band -aggr -cheb 24 8 75 32 0 100 -noise -high -fft -eucl 24 8 75 31 1 96.88 -noise -high -lpc -cos 24 8 75 30 2 93.75

Résultats de SpeakerIdentApp du, qui? Résultats de SpeakerIdentApp du, sexe? Résultats de SpeakerIdentApp du, accént? Résultats de SpeakerIdentApp du, accént? Personnes parlantes (Accént?) Configuration Bon Mal Taux de precision 2ieme bon 2ieme mal 2ieme taux% -silence -endp -lpc -cheb 24 8 75 26 6 81.25 -bandstop -fft -cos 23 9 71.88 27 5 84.38 -low -aggr -cos 23 9 71.88 26 6 81.25 -noise -norm -aggr -cos 23 9 71.88 26 6 81.25 -noise -low -aggr -cos 23 9 71.88 26 6 81.25 -noise -bandstop -aggr -cos 22 10 68.75 27 5 84.38 -noise -low -fft -cos 22 10 68.75 26 6 81.25 -noise -bandstop -fft -cos 22 10 68.75 27 5 84.38 -norm -aggr -cos 22 10 68.75 26 6 81.25 -endp -lpc -cheb 21 11 65.62 24 8 75 -silence -noise -low -aggr -cos 21 11 65.62 25 7 78.12 -low -fft -cos 21 11 65.62 27 5 84.38 -noise -norm -fft -cos 21 11 65.62 27 5 84.38 -silence -bandstop -aggr -cos 20 12 62.5 25 7 78.12 -silence -low -aggr -cos 20 12 62.5 25 7 78.12 -silence -noise -norm -aggr -cos 20 12 62.5 25 7 78.12 -silence -bandstop -fft -cos 20 12 62.5 25 7 78.12 -silence -low -fft -cos 20 12 62.5 25 7 78.12 -silence -noise -norm -fft -cos 20 12 62.5 25 7 78.12 -silence -noise -low -fft -cos 20 12 62.5 25 7 78.12

Références Les résultats de note approche sont encourageants et s appliquent au plusieures domaines. A la connaissance de l auteur, il n y a pas d un autre framework comme pour la rechereche comparative des algorithmes et leurs combinaisons pour la reconnaissance de formes et TALN. Le project le plus proche open-source est CMU Sphinx [14] qui vous offre la reconnaisance du parole, mais il est trop compliqué pour les experimentations que peut faire. De plus, Sphinx n offre pas de modules TALN. Donc, la simplicité et généralité de sont les meilleures avantages. Un désavantage de en particulier, c est aussi l approche framework necessité de changement de framework et tous les modules qui on en depend si on ajout un nouvelle fonction ou tache de reconnaissance.

Références Conférences TALN 2010 et DEFT 2010 du 19 au 23 juillet 2010 ici a Montréal, à la Polytechnique. L atelier DEFT 2010 http://www.groupes.polymtl.ca/taln2010/deft.php (Atelier d évaluation en fouille de textes sur l identification de la période et du lieu de publication d articles de presse francophone.) Démonstration du prévue dans le cadre de la conférence jointe TALN 2010 http://www.groupes.polymtl.ca/taln2010/appel_taln_ demos.php Amélioration du framework. Publication de nouveaux résultats aux articles journaux.

Références Nous tenons à remercier chaleureusement tous ceux et celles qui ont contribué de près ou de loin à la réalisation de ce travail, ils se reconnaîtront. A vous tous pour avoir assister à cette presentation. Co-créateurs origineaux du : Stephen Sinclair, Ian Clément, Dimitrios Nicolacopoulos, et Contributeurs du R&D Group. Miao Song, Dr. Ching Y. Suen, Dr. Sabine Bergler, Dr. Leila Kosseim, Dr. Joey Paquet, Dr. Mourad Debbabi, Dr. Lingyu Wang, Dr. Amr M. Youssef, Dr.Emil Vassev, Ai-Thanh Nguyen, Michelle Khalifé. CRSNG et la Faculté de Génie et Informatique, Université Concordia.

Références Merci :-)

Références Références I [1] Serguei Mokhov, Ian Clement, Stephen Sinclair, and Dimitrios Nicolacopoulos. Modular Audio Recognition Framework. Department of Computer Science and Software Engineering, Concordia University, Montreal, Canada, 2002 2003. Project report, http://marf.sf.net, last viewed April 2012. [2]. On design and implementation of distributed modular audio recognition framework : Requirements and specification design document. [online], August 2006. Project report, http://arxiv.org/abs/0905.2459, last viewed April 2012. [3]. Introducing : a modular audio recognition framework and its applications for scientific and software engineering research. In Advances in Computer and Information Sciences and Engineering, pages 473 478, University of Bridgeport, U.S.A., December 2007. Springer Netherlands. ISBN 978-1-4020-8740-0. doi : 10.1007/978-1-4020-8741-7. Proceedings of CISSE/SCSS 07. [4]. Choosing best algorithm combinations for speech processing tasks in machine learning using. In Sabine Bergler, editor, Proceedings of the 21st Canadian AI 08, LNAI 5032, pages 216 221, Berlin Heidelberg, May 2008. Springer-Verlag. doi : 10.1007/978-3-540-68825-9\ 21.

Références Références II [5]. Study of best algorithm combinations for speech processing tasks in machine learning using median vs. mean clusters in. In Bipin C. Desai, editor, Proceedings of C3S2E 08, pages 29 43, Montreal, Quebec, Canada, May 2008. ACM. ISBN 978-1-60558-101-9. doi : 10.1145/1370256.1370262. [6]. Towards syntax and semantics of hierarchical contexts in multimedia processing applications using L. In Proceedings of the 32nd Annual IEEE International Computer Software and Applications Conference (COMPSAC), pages 1288 1294, Turku, Finland, July 2008. IEEE Computer Society. doi : 10.1109/COMPSAC.2008.206. [7]. Evolution of and its NLP framework. In Proceedings of C3S2E 10, pages 118 122. ACM, May 2010. ISBN 978-1-60558-901-5. doi : 10.1145/1822327.1822344. [8] and Mourad Debbabi. File type analysis using signal processing techniques and machine learning vs. file unix utility for forensic analysis. In Oliver Goebel, Sandra Frings, Detlef Guenther, Jens Nedon, and Dirk Schadt, editors, Proceedings of the IT Incident Management and IT Forensics (IMF 08), LNI140, pages 73 85. GI, September 2008. ISBN 978-3-88579-234-5.

Références Références III [9] and Emil Vassev. Autonomic specification of self-protection for Distributed with ASSL. In Proceedings of C3S2E 09, pages 175 183, New York, NY, USA, May 2009. ACM. ISBN 978-1-60558-401-0. doi : 10.1145/1557626.1557655. [10], Lee Wei Huynh, and Jian Li. Managing distributed with SNMP. Concordia Institute for Information Systems Engineering, Concordia University, Montreal, Canada, April 2007. Project report. Hosted at http://marf.sf.net and http://arxiv.org/abs/0906.0065, last viewed February 2011. [11], Lee Wei Huynh, and Jian Li. Managing distributed s nodes with SNMP. In Proceedings of PDPTA 2008, volume II, pages 948 954, Las Vegas, USA, July 2008. CSREA Press. ISBN 1-60132-082-5. [12], Miao Song, and Ching Y. Suen. Writer identification using inexpensive signal processing techniques. In Tarek Sobh and Khaled Elleithy, editors, Innovations in Computing Sciences and Software Engineering ; Proceedings of CISSE 09, pages 437 441. Springer, December 2009. doi : 10.1007/978-90-481-9112-3\ 74. ISBN : 978-90-481-9111-6, online at : http://arxiv.org/abs/0912.5502.

Références Références IV [13] The Research and Development Group. The Modular Audio Recognition Framework and its Applications. [online], 2002 2012. http://marf.sf.net and http://arxiv.org/abs/0905.1235, last viewed April 2012. [14] The Sphinx Group at Carnegie Mellon. The CMU Sphinx group open source speech recognition engines. [online], 2007 2012. http://cmusphinx.sourceforge.net. [15] Emil Vassev and. Self-optimization property in autonomic specification of Distributed with ASSL. In Boris Shishkov, Jose Cordeiro, and Alpesh Ranchordas, editors, Proceedings of ICSOFT 09, volume 1, pages 331 335, Sofia, Bulgaria, July 2009. INSTICC Press. ISBN 978-989-674-009-2. doi : 10.5220/0002257303310335. [16] Emil Vassev and. Towards autonomic specification of Distributed with ASSL : Self-healing. In Proceedings of SERA 2010 (selected papers), volume 296 of SCI, pages 1 15. Springer, 2010. ISBN 978-3-642-13272-8. doi : 10.1007/978-3-642-13273-5\ 1.