Construction d un corpus robuste de différents dialectes arabes

Documents pareils
Apprentissage Automatique

Liste des Participants

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

La mobilité des étudiants du Moyen-Orient

Comment enregistrer simplement toute musique restituée par votre PC

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Programme CNRS-ERC- IREMAM- CERI. When Authoritarianism Fails in the Arab World (WAFAW) APPEL A CANDIDATURES

Le Moyen-Orient et le pétrole. pp32-39

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Revue de presse du lundi 26 février 2007

Passeport en cours de validité avec copie des pages relatives à l'identité, validité et visa d'entrée en France.

Le Moyen-Orient depuis `1990: carte `1

CURRICULUM VITAE. Lieu d Exercice : Faculté des sciences Economique et Des Sciences de Gestion Université D Oran Es-Sénia Algérie

Les relations commerciales entre les pays méditerranéens

Perspectives économiques régionales du Moyen-Orient et de l Afrique du Nord

Investissement étranger à la Bourse de Casablanca

L Union des Femmes Investisseurs Arabes est une entité dépendant de la Ligue Arabe.

UE11 Phonétique appliquée

10 Février Moyen-Orient: les alliances en temps de troubles

Question 2 Le Proche et le Moyen-Orient, un foyer de conflits depuis la fin de la Première Guerre mondiale

DUO : Smart Noise Monitor. Station de surveillance. Brand of ACOEM

Service de la Gestion des Archives et de la Documentation. Direction des Ressources Humaines, des Moyens Généraux et des Systémes d information

Bourses d excellence pour les masters orientés vers la recherche

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Base de données sur l'économie mondiale Alix de Saint Vaulry *

Extrait d'acte de naissance de moins de trois mois traduit en français.

Outils informatiques de manipulation de la vidéo et du son : une introduction

Le recyclage des médicaments en question

Intelligence and Terrorism Information Center at the Israel Intelligence Heritage & Commemoration Center (IICC)

CERTIFICATION PMP PROJECT MANAGEMENT PROFESSIONAL DU PROJECT MANAGEMENT INSTITUTE (PMI-USA)

LA SCENE MEDIATIQUE AU MOYEN-ORIENT

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Texte n DGI 2009/36 NOTE COMMUNE N 17/2009

Pays pétroliers et gaziers du Maghreb et du Moyen-Orient

N SIMON Anne-Catherine

TOGO CELLULAIRE LE GUIDE DU MC+

19, Rue du Lac El Biban - Lac Les Berges du Lac Tél.: contact@haica.tn

Cours / Formation pour débutant en informatique, bureautique, Internet etc... (pour débutants)

Fiche récapitulative 2013/14 Sommaire des réformes Doing Business au Moyen-Orient et en Afrique du Nord 1

Moyen-Orient et Afrique du Nord : définir la voie à suivre

CURSUS MUSIQUES TRADITIONNELLES

Une méthode d apprentissage pour la composition de services web

STAGE CONVENTIONNE AFDAS, SOUTENU PAR LA REGION BRETAGNE

LE PMI, LEVIER DE DEVELOPPEMENT DES PÔLES DE COMPETITIVITE

Le monitoring des médias

TEMPUS MA-TEMPUS-SMGR

Collaboration innovante pour la création d un outil de gestion de production pour le cinéma et l audiovisuel

Les Ateliers Info Tonic

«Les Arabes sont musulmans, les musulmans sont arabes.»

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Le poids et la taille des fichiers

Faculté des Sciences Economiques et de Gestion de Nabeul. Université de Carthage. Master de Recherche Finance des Entreprises et des Marchés

UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE MBA OPTION MIS. MIAGe METHODES INFORMATIQUES APPLIQUEES A LA GESTION

2 ième AG de MAGMET Article de presse 2 ième AG of MAGMET Press article

Catalogue. Fichiers. Commandez aujourd hui SOLUTIONS GLOBALES D E-MARKETING DE CONQUÊTE. commercial@effidata.com

Leçon n 11 : «Géopolitique du monde actuel»

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

LIVRET DU CANDIDAT LES DEUX OPTIONS FACULTATIVES DANSE AU BACCALAURÉAT

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

I L import : A Domiciliation du titre d importation : 1 Le titre d importation : Aux termes de l'article préliminaire de l'instruction 01 de l'o.c.

Chokri BEN AMAR, maître de conférences, directeur des études de l'enis & Anis FOURATI, expert en Sécurité Informatique (Société SDS à Sfax)

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Programme

Règlement intérieur du Conseil d administration

Ordonnance du DFJP sur les instruments de mesure audiométriques

COMMUNICATION FINANCIÈRE DU 19 MAI 2014

Convention de transcription CIEL-F

Contrat d application pour l amélioration de la compétitivité logistique IMPORT-EXPORT

Projet IGGI. Infrastructure pour Grappe, Grille et Intranet. Fabrice Dupros. CASCIMODOT - Novembre Systèmes et Technologies de l Information

Compte-rendu de Hamma B., La préposition en français

Les ateliers EPN 2015/2016

Pr. Khalid Satori, Pr. Hassan Satori 12 Système de reconnaissance automatique de dialectes marocains et analyse de formants pour le diagnostic de

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Program

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

ANNEXE 4 CHARTE DE CONCEPTION DES SERVICES SMS+ / MMS+

THEMATIQUE J : COMMUNICATION DIGITALE 1

IPv6: from experimentation to services

Etudier l informatique

UNIVERSITE D ENTREPRISE

mission. Le premier poste du programme de travail du DREV vise la qualification, la quantification et le suivi

Introduction aux systèmes temps réel

MSH INTERNATIONAL pour le compte de l ASFE

Thème 2: Grandes puissances et conflits dans le monde depuis 1945

Projet de Master en Informatique: Web WriteIt!

Qualité de la conception de tests logiciels : plate-forme de conception et processus de test

Partie II Approche théorique

Indexation de documents audio : Cas des grands volumes de données

Afin de valider votre inscription merci de bien veiller à :

Les réseaux haut débit dans la région MENA : pour une accélération de l Internet haut débit

LA TURQUIE VUE DU MONDE ARABE : ENTRE ATTRACTION ET MEFIANCE

RAPPORT FINAL Résultats

Liste des cours BAC+3 BAC+5 en Publicité & Relations Publiques

Média Kit visites/mois (Avril 2011) média kit 1

Extensions à la formation. Laurent Pérochon, avril 2008, RMT Modelia, modélisation conceptuelle, formation UML, INRA Castanet Tolosan

Transcription:

Construction d un corpus robuste de différents dialectes arabes Mohamed BELGACEM Laboratoire LIDILEM, Grenoble, France Laboratoire UTIC, Tunisie Tél. : ++33 (0) 6 33 88 18 98 Courriel : mohamed.belgacem@e.u-grenoble3.fr ABSTRACT This article is part of the project "Oréodule": a systemboard real-time recognition, translation and speech synthesis Arabic. The object of our interest in this article is the presentation of a body of voice called Arabic. We detail the steps of establishing this body and the difficulties encountered during its development. We also integrated the practical results obtained during each phase (Record sizes, the total volume of our corpus, etc.). 1. INTRODUCTION Notre article s intègre dans le cadre du projet intitulé "Oréodule" : un système embarqué temps réel de reconnaissance, de traduction et de synthèse de la parole arabe. L objet de notre intérêt dans cet article est la présentation d un corpus vocal de la parole arabe. Nous détaillerons les étapes de constitution de ce corpus et les difficultés rencontrées lors de son élaboration. Nous intègrerons également les différents résultats pratiques obtenus lors de chaque phase (tailles des enregistrements, volume total du notre corpus, etc.). 2. PROBLÉMATIQUE L'existence des dialectes de la langue constitue un défi pour le Traitement Automatique des Langues (TAL) en général, car il ajoute une autre série de variation de dimensions à partir d'une norme connue. Le problème est particulièrement intéressant, en arabe et ses différents dialectes. Toute approche réaliste et pratique du traitement de l'arabe doit rendre compte de l'usage dialectal, car il oiprésent. Pour mettre en évidence les différents phénomènes dialectaux pour la parole arabe et d essayer de construire un système de reconnaissance automatique de dialecte arabe en utilisant les modèles GMM (Modèle de Mixture des Gaussiens). Pour aborder ce sujet il nous faut comme premier partie un corpus vocal. Or, le nombre limité des travaux dans ce domaine et l inexistence de corpus vocal arabe commercialisé nous oblige à construire un tel corpus. 3. CONSTRUCTION DU CORPUS 3.1. Récupération et Enregistrement des Données vocales de la Parole Arabe Concernant le recueil de données vocales en grande quantité pour la construction de notre corpus de la parole arabe avec ses différents dialectes, une approche intéressante consiste à «Télécharger» et «Enregistrer» un grand nombre d émissions [Wai 04]. Les enregistrements de journaux radio- ou télédiffusés présentent un contenu varié : le signal acoustique peut correspondre à de la parole, de la musique ou du bruit, mais également à des mélanges de parole, de musique et de bruit. Ensuite il y a, pour la parole proprement dite, une grande diversité de locuteurs (Tunisien, Algérien, Marocain, Egyptien, Libanais, Syrien, Irakien, Yamin, Pays de Golf ) et de thèmes abordés (journaux, séries, débats politiques, sportif, éducation, social ). Plusieurs personnes peuvent intervenir sur un sujet donné successivement, voire simultanément. La qualité acoustique de l'enregistrement (fidélité) peut varier de manière considérable au cours du temps. La durée de tels enregistrements peut varier de quelques dizaines de secondes, minutes à plusieurs heures. Pour l'instant nous nous intéressons plus particulièrement aux nouvelles (journal, flash, revue de presse, incluant météo et bourse, économie, politique, faits de société...) dans le document sonore. Toute autre forme d'enregistrement (publicités, jeux, fictions...) ne sera pas transcrite. Actes des VIIIèmes RJC Parole, Avignon, 16 au 18 novembre 2009. 1

En suivant cette approche, nous avons enregistré l équivalent de 10 heures de parole arabe de bonne qualité de différents dialectes à partir de 10 chaines TV et radios arabe. Table 1: Statistiques de notre Corpus Vocal de la Parole Arabe Adulte Enfant Masc Fém Durée Tunisien 100% - 50% 50% ~ 90 Algérien 90% 10% 55% 45% ~ 90 musique, parole, non parole ). Pour aller plus vite et pour bien préciser toutes les informations de nos locuteurs. Nous avons utilisé un système de segmentation automatique en locuteurs Ce système est récupérer de l équipe GETALP du laboratoire d informatique de Grenoble [Vau 02]. Derrière cette segmentation automatique, on a fait une vérification manuelle pour améliorer les résultats et affectes à chaque locuteur les informations nécessaires (Nom, sexe, origine, dialecte, enregistrement en studio ou téléphonique, parole, non parole, music, publicité ). Marocain 90% 10% 50% 50% ~ 90 Egyptien 95% 5% 40% 60% ~ 92 Palestinien 85% 15% 45% 55% ~ 60 Libanais 95% 5% 50% 50% ~ 56 Syrien Golfe * 100% - 70% 30% ~ 160 Somalien Soudanien Non- Arabe* 100% - 100% - ~ 21 - - - - ~ 35 Figure 1 : Extrait d une segmentation automatique et puis vérifier manuellement à l aide de Transcriber. Golf * : Ce groupe contient plusieurs pays (Irak, Koweiit, Arabie saoudite, Bahrein, Qatar, Yimen, Oman...). Non- Arabe* : Anglais, Français, Iranien, Israélien 3.2. Fitrages et Segmentation automatique selon les Locuteurs Pour segmenter le signal de parole, il suffit de se placer à chaque position temporelle correspondant à un changement acoustique (changement de locuteur, silence, 3.2. Transcriptions de notre fichier wav à l aide de Transcriber Nous décrivons dans ce qui suit un ensemble de conventions pour structurer, annoter et transcrire des enregistrements de journaux radio- ou télédiffusés. Ces conventions doivent permettre de structurer les enregistrements au niveau du contenu thématique, des locuteurs et de la qualité acoustique. Les informations produites à ce sujet sont nommées annotations. La parole de chaque locuteur doit aussi être transcrite orthographiquement. C'est la transcription proprement

dite. La transcription est ici la partie la plus importante et donc sur laquelle le maximum d'attention doit être porté. Les différentes étapes du travail de transcription sont : la segmentation de la bande son, l'identification des tours de paroles et des locuteurs, l'identification des sections thématiques, la transcription orthographique, et la vérification. Ces étapes peuvent être menées en parallèle ou au contraire appliquées séquentiellement sur de longues portions du signal, suivant le choix du transcripteur. Dans notre cas on a réussit de faire que 37% de transcription de notre corpus (3heures et demie de transcription). Les émissions transcrites sont mélanges des dialectes arabes puisque ce sont des débats politiques. Table 2: Pourcentage de transcription de chaque dialecte Dialecte Tu AL MA EG LIB YA GO IR SYR Trans % 5 6.5 7 4 5.5 3 5 1 Figure 2 : Extrait de la transcription à l aide de Transcriber.

Figure 3 : Construction du corpus vocal pour la parole Arabe 5. CONCLUSION Lors de l élaboration du corpus, nous avons rencontré plusieurs difficultés. La majorité de ces contraintes est survenue lors de l étape de segmentation et de transcription. Heureusement ces problèmes n ont pas influé énormément sur les résultats de notre système de reconnaissance automatique de dialecte, lui-même basé sur ce corpus. RÉFÉRENCES [Vau 02] D. Vaufreydaz, Modélisation statistique du langage à partir d'internet pour la reconnaissance automatique de la parole continue, Thèse de doctorat de l Université J.Fourier - Grenoble I, France, 226 pages, Janvier 2002. [Wai 04] A. Waibel, T. Schultz, S. Vogel, C. Fügen, M. Honal, M. Kolss, J. Reichert, S. Stüker, Towards Language Portability in Statistical Machine Translation, Special Session on Multilinguality in Speech Processing, ICASSP 04, Montreal, Canada, May 2004. Sites Web arabophones : http://www.aljazeera.net http://www.tunisie.com/nouvelles