Outil de transcription phonétique à partir du texte Arabe



Documents pareils
Contribution à la réalisation d un synthétiseur de la parole pour la langue Arabe

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

1. Qu est-ce que la conscience phonologique?

N SIMON Anne-Catherine

UE11 Phonétique appliquée

Le modèle standard, SPE (1/8)

1 Introduction au codage

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Nom de l application

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Codage d information. Codage d information : -Définition-

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

Une version javascript sera disponible directement dans le cours prochainement.

Mathcad Ces capacités font de Mathcad l outil de calcul technique le plus utilisé au monde.

Document d aide au suivi scolaire

Évaluation de G-LexAr pour la traduction automatique statistique

Cours Informatique 1. Monsieur SADOUNI Salheddine

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

اد ر ادر : Livret scolaire ا ا :.. ا ا :.. ذاھ اا ف إ! أ : -1 ا%ف!' & ا%$ : + %*م ھ رأي ا. '& و/&. ا*

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Logiciel de Base. I. Représentation des nombres

Feuille couverture de tâche du cadre du CLAO

Portail Vocal d Entreprise

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Les textos Slt koman sa C pa C?

AVEC LE NOM D ALLAH LE BIENFAISANT, LE MISÉRICORDIEUX

Informatique Générale

Convention de transcription CIEL-F

Le codage informatique

Forthcoming Database

Classification Automatique de messages : une approche hybride

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Projet Matlab : un logiciel de cryptage

Formation des enseignants. Le tensiomètre. Objet technique modélisable issu de l environnement des élèves

Représentation d un entier en base b

Initiation au binaire

Programmation de services en téléphonie sur IP

Introduction à MATLAB R

Démonstration d utilisation De NesmaCom

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

L enseignement/apprentissage de la prononciation des langues assisté par ordinateur : le cas du français langue étrangère.

Apprentissage Automatique

UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE MBA OPTION MIS. MIAGe METHODES INFORMATIQUES APPLIQUEES A LA GESTION

Optimisez les performances de vos aides auditives. Accessoires sans fil Phonak

ALFA INSTALLATION LECTEUR MESSAGES SMS SERVICE

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

Les écoles professionnelles offrent aux personnes en formation les cours remplissant les objectifs évaluateurs suivants :

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

Modalités d inscription, de progression et de validation en licence et master : de l UFR ALLSH

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Comment assurer la présence d une langue dans le cyberespace?

Etude et conception d un serveur vocal :

LA BATTERIE DU PORTABLE

Chapitre 2. Eléments pour comprendre un énoncé

Tutoriels. 01 Utiliser Praat. 02 Transcrire sous Praat en utilisant les conventions VALIBEL. Sylviane Bachy. Rédaction octobre 2005

Projet de Veille Technologique

Une méthode d apprentissage pour la composition de services web

ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE

Chapitre 1 Qu est-ce qu une expression régulière?

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Demande d admission au Centre pédagogique Lucien-Guilbault Secteur primaire

ECRIRE. Linguistyle. typographie 2 Lisibilité 3 Ecrire 4 Exercices. typographie. R e a l v i r t u e. 1 Anatomie du mot. Comprendre Comprendre

Prévention, observation et repérage des difficultés en lecture

Épreuve collaborative

Formula Negator, Outil de négation de formule.

En tant que producteur de technologies applicatives, nous vous proposons un large panel de solutions vocales :

- Couches - Éléments - Domaines - ArchiMate et les techniques du BABOK

IFT2255 : Génie logiciel

Un environnement de déploiement automatique pour les applications à base de composants

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Une proposition de séquence relative à l étude des sons /an/, /on/ et de leurs graphies. Cadre général

La phonétisation de "plus", "tous" et de certains nombres : une analyse phono-syntaxique

Algorithme. Table des matières

THOT - Extraction de données et de schémas d un SGBD

Université de Lorraine Licence AES LIVRET DE STAGE LICENCE

AVERTISSEMENT. D'autre part, toute contrefaçon, plagiat, reproduction encourt une poursuite pénale. LIENS

1. Productions orales en continu après travail individuel

PACKZ System Requirements. Version: Version: Copyright 2015, PACKZ Software GmbH. 1

1 Autres signes orthographiques. Trait d union. On met le trait d union entre le pronom personnel et le mot même :

GUIDE RAPIDE FONCTION MAINS LIBRES AVEC RECONNAISSANCE VOCALE

White Paper - Livre Blanc

ADAPT: un modèle de transcodage des nombres. Une application des systèmes de production au développement

Cours Bases de données

Évaluation et implémentation des langages

INSCRIPTION MASTER / MASTER S APPLICATION

Rappels Entrées -Sorties

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Accueillir un sourd en entreprise

Capacité étendue d utilisation en réseau

Information. BASES LITTERAIRES Etre capable de répondre à une question du type «la valeur trouvée respecte t-elle le cahier des charges?

UN PROCEDE DE SUPERVISION ET TELESURVEILLANCE A DISTANCE : UN OUTIL PEDAGOGIQUE FAVORISANT L INITIATION AU TRAVAIL DE GROUPE

IN Cours 1. 1 Informatique, calculateurs. 2 Un premier programme en C

Stage Ingénieur en développement logiciel/modélisation 3D

Transcription:

Outil de transcription phonétique à partir du texte Arabe Fayçal Imedjdouben 1 Amrane Houacine 2 1 Faculté d'electronique et d'informatique Université des Sciences et de la Technologie Houari Boumediene Alger f.imedjdouben@hotmail.fr 2 Faculté d'electronique et d'informatique Université des Sciences et de la Technologie Houari Boumediene Alger ahouacine@usthb.dz RÉSUMÉ. Nous présentons ici un outil de transcription phonétique dédié à la langue arabe. Celuici est basé sur une représentation selon la norme Unicode et est intégré sous l environnement MATLAB. La transcription phonétique constitue une étape fondamentale pour la réalisation d une synthèse à partir du texte. Le système de transcription est basé sur des règles de phonétisation et constitue un outil adapté pour la didactique et l étude de la langue arabe. ABSTRACT. We present a tool dedicated to the arabic phonetic transcription. It is based on the standard Unicode representation and is integrated within the MATLAB environment. The phonetic transcription is a fundamental step in building any text to speech (TTS) system. The transcription is based on phonetic rules and constitutes a suitable tool for arabic language study. MOTS-CLÉS : Langue arabe, transcription phonétique, synthèse de la parole. KEYWORDS: Arabic language, phonetic transcription, text to speech.

2 1. Introduction La transcription phonétique consiste à représenter chaque graphème du texte d entrée à une suite de symboles phonétiques qui seront exploités pour la production du signal acoustique. La connaissance de la langue arabe constitue une grande partie du travail pour la réalisation d un outil de transcription phonétique. En effet, la transcription ne peut se faire sans un travail d analyse, de compréhension et de modélisation de la langue. Beaucoup de travaux ont été réalisés pour les langues telles que l anglais, le français, etc. Par contre peu de travaux sont dédiés à la transcription de la langue arabe, nous citons les travaux de Zemirli [5], Saidane [3], Al-ghamdi [1] et Ghazali [2]. Nous développons ici un outil simple de phonétisation de la langue arabe sous l environnement MATLAB pour faciliter les travaux de synthèse en langue arabe. La norme Unicode est adoptée pour la représentation de langue arabe pour assurer la portabilité du système. 2. Etude de la langue arabe L alphabet de la langue arabe se compose de 28 lettres qui sont toutes des consonnes و ا ( longues (figure 1), bien que trois d'entre elles s'emploient aussi comme des voyelles Nous considérons pour notre part que l alphabet arabe compte 28 consonnes et 6.(ي voyelles (3 courtes et 3 longues «و ا («ي et quelques réalisations vocaliques ( ). Figure 1. L alphabet de la langue arabe. La langue arabe s écrit et se lit de droite à gauche. Les lettres arabes changent de forme de présentation selon leur position dans le mot (tableau 1).

Outil de transcription phonétique à partir du texte arabe 3 A la fin du mot, d une lettre non joignable A la fin du mot, d une lettre joignable Au milieu du mot Au début du mot غ غ غ غ Tableau 1. Les différentes variations de la lettre غ dans un mot. Un mot arabe s écrit avec des consonnes et des voyelles. Les voyelles sont ajoutées au dessus ou au dessous des consonnes. L absence des voyelles génère une certaine ambiguïté à deux niveaux : Sens du mot. Difficulté à identifier sa fonction dans la phrase. Sept des lettres arabes s attachent uniquement aux lettres précédentes, mais pas aux. ا د ذ ر ز و لا : suivantes lettres suivantes. Ces lettres sont les (عمل : (exemple ou attachée (نزل : (exemple Il existe deux sortes de finales : séparée Les voyelles longues ou lettres de prolongation sont les suivantes : Alif «ا» pour la prolongation de la consonne ayant comme voyelle courte (ر ا : (exemple fatha Waw «و» pour la prolongation de la consonne ayant comme voyelle courte (رو : (exemple damma Ya «ي» pour la prolongation de la consonne ayant comme voyelle courte (ري : (exemple kasra (آ ن : (exemple Le sekun indique que la consonne n est pas munie de voyelle Le chadda indique le redoublement de la consonne, bien qu elle soit écrite (م د : (exemple seulement une fois Le chadda s emploi uniquement dans les voyelles ( ) mais jamais avec le sekun. Le doublement de voyelle s appelle tanwin : : an : in : un Les lettres lunaires initiales d un nom n assimilent pas l article qui les précède et par ا ب ج ح خ ع غ ف ق ك م ه و ي : sont conséquent ne reçoivent pas le chadda. Ce Exemple : ا ل ق م ر la lettre ل est prononcée. Les lettres solaires initiales d un nom assimilent l article qui les précède et reçoivent ت ث د ذ ر ز س ش ص ض ط ظ ل ن : sont ainsi le chadda. Ce Exemple : ا ل شم س la lettre ل est muette. Les caractères de la langue arabe n appartiennent pas au code ASCII, d où la nécessité d utiliser un autre code qui prend en charge la langue arabe, ce code est

4 l Unicode, ce dernier permet de coder tous les caractères utilisés par la langue arabe en mode 16 bits (tableau 2). Tableau 2. Standard Unicode pour les caractères arabes. 3. Implémentation du système Notre système de transcription phonétique est implémenté sous l environnement MATLAB (langage de développement informatique particulièrement dédié aux applications scientifiques). Ce dernier fournit un environnement de programmation basé essentiellement sur le calcul matriciel, avec des fonctionnalités mathématiques et graphiques étendues. La lecture du texte arabe se fait en mode 16 bits (en système Hexadécimal) à cause de la norme Unicode, l avantage de l utilisation de cette norme est la lecture directe du texte arabe sans avoir besoin de configurer la machine en langue arabe, ceci assure la portabilité du système de phonétisation. Le schéma représentatif du système de phonétisation automatique est illustré dans la figure 2. La démarche que nous avons adoptée pour la réalisation du système de phonétisation automatique se décompose en deux phases de traitements linguistiques : La première phase consiste à traiter les ponctuations, les espaces,, de façon à ce que le texte prétraité ne comporte aucune ambiguïté pour les traitements linguistiques ultérieurs. La deuxième phase consiste en la phonétisation du texte prétraité en utilisant deux méthodes différentes. La première méthode est fondée sur l utilisation d un lexique qui contient une liste de mots d exceptions et des abréviations, en introduisant directement la phonétisation correspondante aux mots sans passer par la base de règles de transcription phonétique, ce qui assure plus de rapidité dans le traitement. La deuxième méthode consiste à traiter le reste du texte en utilisant une base de règles de transcription phonétique. Cette dernière utilise la norme Unicode pour le test des graphèmes de la langue arabe. Les règles établies (90 règles) traitent l ensemble des

Outil de transcription phonétique à partir du texte arabe 5 réalisations graphiques de la langue et sont au nombre de 44 graphèmes (tableau 2) pour enfin obtenir 37 phonèmes (28 consonnes, 6 voyelles, 3 réalisations vocaliques). La structure des règles élaborées est de la forme suivante : chaque graphème est remplacé par un ou plusieurs phonèmes selon son contexte gauche, son contexte droit, ou les deux à la fois. Nous obtenons ainsi le résultat phonétique du texte sans passer par une table de conversion graphème-phonème (la phonétique est incorporée dans chaque règle de la base de règle). Nous présentons ci-dessous un exemple d application d une règle de transcription : Ph : résultat phonétique. C : caractère testé. CD : contexte droit du caractère testé. Règle élaborée: [Ph] = C + CD Cette règle indique qu un caractère C, suivi par un caractère CD, aura pour transcription ' و ' + ' ' = [u:] phonétique Ph, soit l exemple suivant : Cet exemple indique que la voyelle courte damma ' ' (représentée en Unicode par '64F'), suivie de la lettre waw ' و ' (représentée en Unicode par '648'), aura pour transcription phonétique le phonème [u:] selon la notation SAMPA. Texte orthographique Prétraitements du texte Oui Traitement des ponctuations, espaces, sauts de lignes Détection des exceptions Non Transcription phonétique Traitement des exceptions Lexique Texte phonétique Transcription orthographique-phonétique Figure 2. Architecture du système de phonétisation automatique. Règles de transcription

6 L interface graphique (figure 3) que nous avons développée dispose de deux possibilités pour la transcription phonétique, l une par édition du texte directement, l autre à partir d un fichier. Le résultat du traitement est alors affiché en code SAMPA et également sous forme correspondante à la translitération en langue française. L interface permet aussi à l utilisateur d obtenir des statistiques associées au texte considéré pour des études sur les aspects linguistiques et acoustiques, ainsi que des informations concernant la correspondance graphème-phonème de la langue arabe suivant la notation SAMPA et selon la translitération en langue française. Figure 3. Interface graphique de notre outil de phonétisation automatique. 4. Résultats Le système de transcription phonétique à partir du texte arabe a été testé sur une base de vingt phrases, en langue arabe, phonétiquement équilibrées [4]. Nous avons procédé à la comparaison des résultats obtenus par ce système avec ceux fournis par Saidane [4]. Les résultats de la transcription phonétique sont identiques (tableau 3). La présentation des résultats statistiques est illustrée dans les tableaux 4 et 5. Ces derniers nous fournissent des informations utiles concernant le texte à transcrire (nombre de mots, fréquence de chaque graphème du texte, type de syllabes «C/CV/CVV» constituant le texte, ainsi que leur fréquence, ).

Outil de transcription phonétique à partir du texte arabe 7 N Phrase arabe Transcription phonétique SAMPA Translitération en langue française 1 ط ف ح الك ي ل t`afaxa_l-kaj-lu Tafa7a lkaylu 2 أ ي ن الم س اف ر ون?aj-na_l-musa:firu:na ayna lmusaafiruuna 3 أ ذ ه ب ب ا م ان?aD-habu_bi?ama:nin adhhabu bi amaanin 4 ه ل ل ذ ع ت ه ب ق و ل hal_ladah-tahu_biqaw-lin hal ladha3tahu biqawlin 5 آ ن ه ن ا kun_huna: kun hunaa 6 آ ن ت ق د و ة ل ه م kun-tu_qud-watan_lahum kuntu qudwatan lahum 7 لا ل م ي س ت م ت ع ب ث م ر ه ا la:_lam_jas-tam-tih_bitam-riha: laa lam yastamti3 bithamrihaa 8 ل م ي ك ت م ه lam_jak-tum-hu lam yaktumhu 9 ل و لا أ ن م ر ض ن ا ل خ س ر وا law_la:_?an_marid`-na:_laxasiru: law laa an maridnaa lakhasiruu 10 ق اد الج ي ش qa:da_l-zaj-sa qaada ljaycha 11 س ي و ذ يه م ز م ان ن ا saju?-di:him_zama:nuna: sayu dhiihim zamaanunaa 12 ب ع ث ت ن ذ ير ا bahat-ta_nadi:ran ba3athta nadhiiran 13 آ ان ف ي ظ ل م ات و ل م ي ر ح ل ka:na_fi:_d`uluma:tin_wa_lam_jar-xal kaana fii Zulumaatin wa lam yar7al 14 ي ق ام ر ون ب الم ال juqa:miru:na_bil-ma:li yuqaamiruuna bilmaali 15 آ ان ص اي م ا ka:na_s`a:?iman kaana Saa iman 16 إس ت غ ف ر ل ذ ن ب ك?is-taG-fir_liDan-bika istaghfir lidhanbika 17 أ خ ذ إج از ة?axaDa_?iZa:zatan akhadha ijaazatan 18 ل م ي ك ن ش ر س ا lam_jakun_sarisan lam yakun charisan 19 ل ن ي ن ت ف ع lan_jan-tafiha lan yantafi3a 20 م ا ل ب س ث و ب ا ma:_labisa_taw-ban maa labisa thawban Tableau 3. Résultats de la transcription phonétique pour la liste des 20 phrases. Syllabe C/CV/CVV Syllabe C Syllabe CA Syllabe CU Syllabe CI Syllabe CAA Syllabe CUU Syllabe CII Hamza 0 0 0 0 irréalisable irréalisable irréalisable Madda irréalisable irréalisable irréalisable irréalisable 0 irréalisable irréalisable Alif hamza majeur 0 5 0 irréalisable 0 0 irréalisable waw hamza 1 0 0 irréalisable 0 0 irréalisable Alif hamza mineur irréalisable irréalisable irréalisable 0 irréalisable irréalisable 0 Ya hamza 0 0 0 1 0 0 0 Alif 0 2 0 0 0 0 0 Ba 0 2 1 6 0 0 0 Ta marbutah irréalisable 2 0 0 irréalisable irréalisable irréalisable Ta 0 5 2 2 0 0 0 Tha 1 2 0 0 0 0 0 Djim 0 1 0 0 1 0 0 7a 0 2 0 0 0 0 0 kha 0 2 0 0 0 0 0 Del 1 1 0 0 0 0 0 Dhel 1 3 0 0 0 0 2 Tableau 4. Un extrait des statistiques des syllabes pour les 20 phrases.

8 Fréquence Pourcentage Mots 53 inexistant Consonnes 207 55.2% Voyelles courtes 100 26.6667% Voyelles longues 22 5.8667% Autres réalisations vocaliques 46 12.2667% Fatha 79 21.0667% Damma 21 5.6% Kasra 22 5.8667% Fathatan 6 1.6% Dammatan 0 0,00% kasratan 3 0.8% Chadda 0 0,00% Sekun 37 9.8667% Hamza 0 0,00% Madda 0 0,00% Tableau 5. Un extrait des statistiques des graphèmes pour les 20 phrases. 5. Conclusion Nous avons présenté ici un système opérationnel de transcription phonétique dédié à la langue arabe. Du fait de sa simplicité et de la convivialité de son interface, il constitue un outil adapté pour la didactique et la recherche sur la langue arabe. 6. Bibliographie [1] Al-ghamdi M., Elshafei M., Al-muhtaseb H., (2002). Arabic Text-To-Speech: Speech Units, Supported by King Abdulaziz City for Science and Technology, 2002. [2] Ghazali S., Habaili H., Zrigui M., Correspondance graphème-phonème pour la synthèse de la parole arabe à partir du texte, IRSIT Congrès dialogue homme machine, Tunis 1990. [3] Saidane T., Zrigui M., Ben ahmed M., La Transcription Orthographique- Phonétique de la Langue Arabe, RÉCITAL, Fès, 19-22 avril 2004. [4] Saidane T., Zrigui M., Ben ahmed M., Un système de synthèse de la parole arabe par concaténation de polyphèmes : Les résultats de l utilisation d un lissage linéaire, 3 rd International Conférence: Sciences of Electronic, Tunis 2005. [5] Zemirli Z., Khabet S., Un analyseur morphosyntaxique destiné à la synthèse vocale de textes arabes voyellés, JEP-TALN, Traitement Automatique de l Arabe, Fès, 2004.