Traitement automatique de la langue arabe



Documents pareils
N SIMON Anne-Catherine

Apprentissage Automatique

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

UE11 Phonétique appliquée

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Contribution à la réalisation d un synthétiseur de la parole pour la langue Arabe

1. Productions orales en continu après travail individuel

Document d aide au suivi scolaire

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

1. Qu est-ce que la conscience phonologique?

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Phonologie, Master LFA Professeur : André THIBAULT

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Tableau des contenus

Convention de transcription CIEL-F

Évaluation de G-LexAr pour la traduction automatique statistique

mes m est mets/met mais mets

École : Maternelle. Livret de suivi de l élève. Nom : Prénom : Date de naissance : Année d entrée à l école maternelle :

Avant-propos Le problème de la spécificité du texte dramatique... 7 Genres du dramatique et descriptions linguistiques Conclusion...

Livret personnel de compétences

Transmission d informations sur le réseau électrique

ACTIVITÉS DE COMMUNICATION LANGAGIÈRE ET STRATÉGIES

Le modèle standard, SPE (1/8)

«L impact de l interculturel sur la négociation» construire des intérêts matériels ou des enjeux quantifiables

L accompagnement pour piano

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Accueillir un sourd en entreprise

Français langue étrangère Savoir-faire - Actes de paroles - Supports d apprentissage -Tâches

Baccalauréat professionnel vente (prospection - négociation - suivi de clientèle) RÉFÉRENTIEL DE CERTIFICATION

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

Portail Vocal d Entreprise

Homophones grammaticaux de catégories différentes. s y si ci

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Application en classe de la progression des apprentissages en musique 1 er cycle du secondaire

L enseignement/apprentissage de la prononciation des langues assisté par ordinateur : le cas du français langue étrangère.

PLAN D ÉTUDES. école fondamentale

Demande d admission au Centre pédagogique Lucien-Guilbault Secteur primaire

Fiche de synthèse sur la PNL (Programmation Neurolinguistique)

Feuille couverture de tâche du cadre du CLAO

Zazie : Être et avoir

LES DIFFÉRENTS FORMATS AUDIO NUMÉRIQUES

Qualité perçue de parole transmise par voie téléphonique large-bande

Installation Client (licence réseau) de IBM SPSS Modeler 14.2

Le verbe avoir (to have) infinitif = avoir. j ai nous avons tu as vous avez. Exemples: J ai une copine à Montréal.

PROJET ALGORITHMIQUE ET PROGRAMMATION II

Le poids et la taille des fichiers

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

Projet de Master en Informatique: Web WriteIt!

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

LIVRET PERSONNEL DE COMPÉTENCES

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Organisation de la fin d année du Master 2 de stratégie de communication globale

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Etude et conception d un serveur vocal :

I/ CONSEILS PRATIQUES

Laboratoire 4 Développement d un système intelligent

L ORAL OBJET OU MOYEN D APPRENTISSAGE?

LIVRE BLANC Décembre 2014

Représentation d un entier en base b

MON LIVRET DE COMPETENCES EN LANGUE (Socle commun) Niveau A1/A2 / B1

Utiliser un tableau de données

Comment assurer la présence d une langue dans le cyberespace?

Chaine de transmission

En tant que producteur de technologies applicatives, nous vous proposons un large panel de solutions vocales :

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

Nom de l application

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

FRENCH Language (Advanced Level III)

LES LANGUES EN DANGER : UN DÉFI POUR LES TECHNOLOGIES DE LA LANGUE

Thèmes et situations : Renseignements et orientation. Fiche pédagogique

Consignes pour les travaux d actualité Premier quadrimestre

AVERTISSEMENT. D'autre part, toute contrefaçon, plagiat, reproduction encourt une poursuite pénale. LIENS

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Utilisation du SIG dans une entreprise industrielle pour l analyse et la prise de décision

Coup d oeil sur. Le langage. Votre bébé apprend à parler

Les apports de l informatique. Aux autres disciplines

Catalogue DIF. Formations linguistiques

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Une approche de désambiguïsation morpho_lexicale évaluée sur l analyseur morphologique Alkhalil*

Définitions. Numéro à préciser. (Durée : )

S3CP. Socle commun de connaissances et de compétences professionnelles

eduscol Ressources pour la voie professionnelle Français Ressources pour les classes préparatoires au baccalauréat professionnel

1 Introduction au codage

NOM : Prénom : Date de naissance : Ecole : CM2 Palier 2

Bases de données documentaires et distribuées Cours NFE04

Relation entre deux variables : estimation de la corrélation linéaire

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Ministère des Affaires étrangères et européennes. Direction de la politique culturelle et du français. Regards VII

Formula Negator, Outil de négation de formule.

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

3. Les METHODES AUDIO-VISUELLES : la méthodologie SGAV ou une approche structuro-globale de la langue

Transcription:

Traitement automatique de la langue arabe 1 Dr. Mounir ZRIGUI Mounir.zrigui@fsm.rnu.tn Unité de recherche RIADI, faculté des Sciences de Monastir, Tunisie Le 09-11 - 2007

I- Caractéristiques de la langue arabe écrite I.1. Particularités - L alphabet de la langue arabe compte 28 consonnes - L'arabe s écrit et se lit de droite à gauche - Les lettres changent de forme de présentation selon leur position Variation de la lettre ع 2

I- Caractéristiques de la langue arabe écrite I.2. Particularités (suite) - Un mot arabe s écrit avec des consonnes et des voyelles. Les voyelles sont ajoutées au dessus ou au-dessous des lettres Mot sans voyelles 1ère interprétation 2ème interprétation 3ème interprétation آ ت ب آ ت ب آ ت ب آتب Il a écrit Il a été écrit Des livres Interprétation du mot آتب Sans voyelles 3

I- Caractéristiques de la langue arabe écrite I.3. Particularités (suite) - La langue arabe comprend trois catégories de mots: verbes, noms et particules - Les verbes et les noms sont le plus souvent dérivés d une - racine à trois consonnes - Une famille de mots peut être générée à partir d une seule racine à l'aide de différents schèmes C1 C2 C3 0 V1 0 V2 0 C1 V1 C2 V2 C3 Racine Schème Mot 4 Mécanisme de dérivation en arabe

I- Caractéristiques de la langue arabe écrite I.3. Particularités (suite) Exemple de dérivation de la racine آتب ktb 5 حمل Schèmes de dérivés du mot

I- Caractéristiques de la langue arabe écrite I.4. Structure d un mot arabe - La représentation suivante schématise une structure possible d un mot. Sens de la lecture et l écriture Enclitique Suffixe Corps schématique Préfixe Proclitique - Les proclitiques, les préfixes, les suffixes et les enclitiques sont des morphèmes qui expriment des informations et des traits grammaticaux sur les 6

I- Caractéristiques de la langue arabe écrite I.5. Structure d un mot arabe (suite) أ ت ت ذ آر ون ن ا - Ce mot exprime la phrase en français : "Est ce que vous vous souvenez de nous? Proclitique أ : conjonction d interrogation Préfixe ت : préfixe verbal du temps de l inaccompli..تفع لschème : selon le ذا ر : dérivé de la racine ت ذ ا ر Corps schématique Suffixe ون : suffixe verbal exprimant le pluriel Enclitique ن ا : pronom suffixe complément du nom 7

I- Caractéristiques de la langue arabe écrite I.6. Structure d un mot arabe (suite) Le mot ou «unité graphique» une forme. = suite de formes collées : forme agglutinée. و ب قول ه = وبقوله WaBiKaWLiHi = Hi KaWLi Bi Wa «et par sa parole» àlui parole par et 8

I- Caractéristiques de la langue arabe écrite I.7. Problèmes du traitement automatique de l'arabe - L absence des voyelles génère une certaine ambiguïté à deux niveaux: * Sens du mot; * Difficulté à identifier sa fonction dans la phrase 9 Effet du mot non voyellé العلم sur les extraits.

I- Caractéristiques de la langue arabe écrite I.8. Problèmes du traitement automatique de l'arabe - L ambiguïté vient du mot العلم la science ou drapeau alors que voyellé on aura الع ل م pour la science et الع ل م pour le drapeau - Cette ambiguïté pourrait, dans certains cas, être levée soit par une analyse plus profonde de la phrase ou des statistiques (par exemple il est plus probable d'avoir العلم الوطني le drapeau national que la science nationale). 10

I- Caractéristiques de la langue arabe écrite Sémantique 1-La racine jbr ب ر) (ج : a la sens de la force quelque soit l ordre de ces lettres dans la racine ;en fait le regroupement de ces lettres marque le sens de l obligation et de la violence.,forcer" ----------------"obliger جبر tour" ---------------"la برج --------------"renforcer,soutenir" رجب 2-La racine njd ج د) (ن : ces trois lettres rassemblées dans n importe quel ordre dans la racine, ont la sens de la force. de " ---------------"aider, être au secours نجد ---------------"mobiliser" جن د bataille" ---------------"la النجد militaires" ---------------"les جند 11

I- Caractéristiques de la langue arabe écrite Les dérivés verbaux فعل افتعل انفعل افعل أفعل فاعل فع ل استفعل تفاعل تفع ل 12

I- Caractéristiques de la langue arabe écrite Les dérivés nominaux 13

I- Caractéristiques de la langue arabe écrite Les dictionnaires Les conditions de structure morphématique ( CSM ) Comme son nom l indique, les conditions de structures morphématiques (CSM) sont des conditions qui permettent de délimiter l ensemble des matrices phonologiques( MP ) possibles pour former les racines admissibles pour la langue arabe. On distingue 2 types de CSM : Les restrictions combinatoires. Les restrictions séquentielles. 14

I- Caractéristiques de la langue arabe écrite Les dictionnaires 1 - Les restrictions combinatoires C est l ensemble des CSM qui lient les spécifications des différents traits à l intérieur d un même segment de la matrice phonologique. Comme exemples des restrictions combinatoires, nous citons les suivantes : CSM 1 : tous les phonèmes sont [-aspirés] CSM 2 : tous les phonèmes vocaliques sont [-nas] CSM 3 : tous les phonèmes qui sont [+nas] sont aussi [-syll] 15

I- Caractéristiques de la langue arabe écrite Les dictionnaires 1 - Les restrictions combinatoires CSM1 distingue la langue arabe classique des nombreuses langues naturelles qui opposent phonèmes aspirés et non aspirés. C est l existence de telles restrictions valables pour tous les phonèmes de l arabe classique qui ont permis de ne faire figurer que 14 traits dans la matrice phonologique parmi les traits possibles définis par la théorie linguistique. CSM2 exclue les voyelles nasales de l inventaire des phonèmes de l arabe classique. CSM3 exclue les consonnes [+syll]. 16

I- Caractéristiques de la langue arabe écrite Les dictionnaires 2 - Les restrictions séquentielles Se sont des restrictions qui lient les spécifications de traits appartenant à des segments successifs d une même matrice, ce qui implique que n importe quelle séquence de phonèmes de l arabe classique n est pas un morphème-racine. ) ظبظ ( ou ) دخخ ( : Exemples CSM 4 : +[Ci][Ci] CSM 5 : +[+cont,+voix][-syll][+cont,+voix]+ 17

I- Caractéristiques de la langue arabe écrite Les dictionnaires 2 - Les restrictions séquentielles CSM4 exclut de l ensemble des morphèmes-racines possibles de l arabe classique toute séquence de phonèmes formée de deux segments identiques en 1ére et 2éme consonnes radicales. CSM5 interdit des consonnes identiques qui sont [+cont,+voix] en 1ére et 3éme consonnes radicales. 18

I- Caractéristiques de la langue arabe écrite Les dictionnaires 3 - Conclusion les ( CSM ) permettent : De distinguer les allomorphes possibles de l arabe classique. Un allomorphe est un segment de la matrice phonologique et qui n enfreint aucune des CSM de l arabe. les allomorphes sont les racines admissibles en arabe. De prédire certaines spécifications à partir d autres en liant entre elles certaines spécifications de traits dans la matrice phonologique. 19

I- Caractéristiques de la langue arabe écrite Les dictionnaires 3 - Conclusion D alléger considérablement l acquisition de nouveaux mots à ajouter au lexique arabe. Dans notre travail on va s intéresser aux conditions (CSM4) et (CSM5) pour générer toutes le racines admissibles de la langue arabe. Les conditions CSM1, CSM2 et CSM3 sont bien vérifiées par les 28 consonnes de l arabe. 20

I- Caractéristiques de la langue arabe écrite Les dictionnaires 3 Les dictionnaires générés Le premier dictionnaire est théorique. il contient toutes les racines trilitères théoriquement possibles pour l arabe standard qui sont au nombre de (28)^3 ( 28 étant le nombre des consonnes de l arabe). 21

I- Caractéristiques de la langue arabe écrite Les dictionnaires 3 Les dictionnaires générés Le deuxième dictionnaire : c est le dictionnaire des racines trilitères admissibles. C'est-à-dire les racines qui n enfreignent aucune des conditions de structures morphématiques (CSM) Le troisième dictionnaire : c est le dictionnaire des racines trilitères attestées ; c'est-à-dire utilisées dans la langue arabe et qui sont tirées des tableaux de répartitions construits à ) نبلا ل حاحصلايرهوجلا). partir du grand dictionnaire arabe Quatrième dictionnaire : c est le dictionnaire des racines admissibles par la langue arabe mais non attestées. Ces racines peuvent être utilisées pour enrichir la langue arabe par d autres mots nouveaux. 22

I- Caractéristiques de la langue arabe écrite Les dictionnaires 4 un extrait d enregistrement en Xml de notre système 23

II- Traitement de l oral L alphabet arabe comporte : *28 consonnes. * 6 voyelles de l arabe standard ( 3 longues et 3 courtes ). * quelques autres réalisations vocaliques (gémination, silence). 24

II- Traitement de l oral La langue arabe Les 28 consonnes arabes ont été divisées en deux groupes : * 14 consonnes solaires qui assimilent le ل de l article. * 14 consonnes lunaires qui n assimilent pas le ل de l article. La durée d une voyelle longue est environ double de celle d une voyelle courte. 25

II- Traitement de l oral La transcription graphème-phonèmes Des graphèmes qui ont plusieurs réalisations phonétiques le w «و»de ب وم»»et م و ز»» correspondant a deux sons différents ayant la même graphie. Des phonèmes qui ont plusieurs réalisations graphimiques. Le noun dans «ي ق يم ون»et أ ن ز ل» dans» n a pas la même représentation graphimique. Des graphèmes qui ne sont pas pris en compte. Le Alif dans «ق ام وا» ne correspondre pas à un son ( silence). Une absence totale de correspondance graphème-».. ه اذ ا «écrit» de vrai être ه ذ ا «mot phonème. Le 26

II- Traitement de l oral Formalisation des règles Une règle grammaticale, se lit de droite à gauche et doit s écrire de la façon suivante : [ Résultat ] = { CG( contexte gauche) }+ { C ( caractère) }+{ CD(contexte droit)} # est un signe de début de phrase ; $ est un signe de fin de phrase ; est une extrémité de mot ; C est une consonne. V est une voyelle ; CS est une consonne solaire ; CL est une consonne lunaire. 27

II- Traitement de l oral L élaboration des règles de transcription {' '}+{'ا [aa]={' Lorsque le ا est précédé par la voyelle, on obtient le phonème de la voyelle longue [aa] quelque soit ce qui suit. ل م ا : Exemple '} {' + {'ي'} + [ii]={cl} '} {' + {'ي'} + [ii]={cs} Lorsque le ي est précédé par la voyelle et qu il est suivi par une consonne, on obtient le phonème de la voyelle longue [ii]. Lorsque le ي est précédé par la voyelle et qu il est en fin de mot, on obtient le phonème de la voyelle longue [ii]. ق ل يلا et ل م س ن ي : Exemple 28

II- Traitement de l oral L élaboration des règles de transcription [CC]={ }+{C} Lorsqu une consonne est suivie par la (gémination), elle est.و د : Exemple doublée, on obtient alors le phonème [CC]. #+{ال}+{ CS }={أ}+{ {CS ال}+{ CL}={CL }+{ل}+{ {CL }+{CL} Lorsque le ال est en début de phrase et qu il est suivi par une. ل consonne solaire, il est équivalent à la non présence du Lorsque le ال est entre deux consonnes lunaires, il est.أ équivalent à la non présence du.الس م يع et م ن ع الا آ ل : Exemple 29

II- Traitement de l oral L implémentation de la transcription le processus de la transcription a été implémenté comme suit : Texte 5 passages 1 seul passage Archives Règles Graphèmes Phonèmes 30

II- Traitement de l oral L implémentation de la transcription Notre système utilise un ensemble de 139 règles. Il comporte aussi une table de correspondance de 49 enregistrements qui comprend les différents caractères de l alphabet arabe et les quelques symboles utilisés. La base de données des règles de transcription ne cesse de s enrichir en vue d un meilleur résultat. 31

II- Traitement de l oral Le système de la syllabation et choix des unités acoustiques La synthèse par concaténation d unités acoustiques de tailles variables. Après étude, nous avons adopté un système de synthèse par concaténation dont les unités acoustiques sont de trois types: les triphones, les diphones et les phonèmes. Ceci nous a permis d apporter plus de souplesse et surtout une meilleure qualité à notre module acoustique. 32

II- Traitement de l oral Les règles de syllabation: [CVV] ={V}+{V}+{C} [CV]={C}+{V}+{C} [CC]={C}+{C}+{C} [C]={V}+{C}+{C} [VV]={V}+{V} [V]={V} Si une consonne est suivie de deux voyelles alors les trois graphèmes constituent l unité acoustique. Si une consonne est suivie d une voyelle puis d une consonne alors les deux premiers graphèmes constituent l unité acoustique. Si nous avons une succession de trois consonnes alors les deux premiers graphèmes constituent l unité acoustique. Si nous avons deux consonnes suivies par une voyelle alors seul le premier graphème constitue l unité acoustique. Si nous avons une succession de deux voyelles alors les deux constituent l unité acoustique. Si nous avons une voyelle isolée alors elle constitue l unité acoustique. 33

II- Traitement de l oral Le dictionnaire de polyphones Il est à noter que l ordre d application de ces règles ainsi établies est très important pour une bonne syllabation et donc une meilleur concaténation sonore. Pour constituer un dictionnaire d unités acoustiques il faut disposer de toutes les combinaisons réalisables. Le module de concaténation a besoin de la totalité des unités acoustiques sous la forme d enregistrements sonores. Ces enregistrements constituent le dictionnaire de notre système. Le dictionnaire ainsi établi contient 196 unités acoustiques ( 28 phonèmes de type C, 84 diphones de type CV et 84 triphones de type CVV), suffisantes pour la réalisation des différentes occurrences possibles. 34

II- Traitement de l oral Les unités acoustiques Type Nombre d UA Observations [CVV ] [CV] [CC] 84 = 28 x 3 84 = 28 x 3 784 = 28 x 28 - - Irréalisable : ce diphone est issu d une succession de trois consonnes impossible en langue arabe. [C] 28 - [VV] 9 = 3 x 3 [V] 3 Irréalisable : on ne peut avoir deux voyelles différentes consécutives en langue arabe. Irréalisable : on ne peut pas commencer un mot par une voyelle en langue arabe. La réalisation des différentes occurrences possibles de la langue arabe nécessite donc 196 (84 + 84 + 28) unités acoustiques. 35

II- Traitement de l oral Les opérations d enregistrement Pour notre système nous avons utilisé des fichiers WAV en format PCM échantillonné à 44.1 khz en mode 16 bits et en stéréo soit à 172 kbits/s. Nous avons utilisé un matériel standard pour pouvoir juger de la dépendance matériel standard pour pouvoir juger de la dépendance matériel- qualité, mais aussi dans l optique d un système peu contraignant visant un maximum d utilisateurs. 36

II- Traitement de l oral Les opérations d enregistrement Le dictionnaire d unités acoustiques ainsi établi a une taille de 9 MØ ( en moyenne un phonème prend 20 KØ, un diphone 40 KØ et un triphone 60 KØ). La qualité du résultat final de la synthèse dépend directement de la qualité des enregistrements effectués. 37

II- Traitement de l oral Les opérations d enregistrement Quelques précautions ont été prévues : * L utilisation d un seul locuteur par dictionnaire et la limitation des séances d enregistrement : pour l homogénéité du timbre. * la prononciation sur un ton monocorde et par petites périodes a fin d éviter l effet de liste au cours de l enregistrement. * la minimisation du risque de perte d information lors de la phase de numérisation (choix de la bonne fréquence d échantillonnage). 38

II- Traitement de l oral Le dictionnaire de polyphones Les étapes de réalisation peuvent se résumer en ce qui suit : * la saisie du corpus de mots et d expressions ; * l enregistrement sonore des expressions ; * la segmentation des enregistrements sonores obtenus en phonèmes, diphones et triphones ; * le test du dictionnaire obtenu; Pour l extraction de la totalité des polyphones nous avons utilisé les enregistrements et prés de 137 phrases et expressions utilisant le vocabulaire arabe usuel. 39

II- Traitement de l oral Syllabation et codage des enregistrements Lors de l élaboration du dictionnaire d unités acoustiques, nous avons rencontré plusieurs difficultés de nature à ralentir le travail et surtout à influer énormément sur la qualité de la voix synthétisée en aval. La majorité de ces contraintes survient lors de l étape de segmentation. Nous citons en exemple les points suivants : 40

II- Traitement de l oral Syllabation et codage des enregistrements L unité acoustique à extraire doit être au milieu d un mot, afin d éviter les variations incontrôlées d intonation du début et de fin du mot. Des lettres comme ( ذ ظ ض خ ح ه ف )sont prononcées au moyen d une forte expiration, la qualité du microphone peut être influer sur le résultat. Des lettres comme غ et ر posent des problèmes de naturel lors des essais de synthèse à cause de leur nature de prononciation. La voix féminine est plus nette que celle du locuteur masculin, ce qui influe sur la qualité de la parole produite. La qualité de synthèse ne dépend pas que de la nature de la voix d origine mais principalement de la qualité de la segmentation. 41

II- Traitement de l oral Les résultats des tests Afin d évaluer notre système de synthèse de la parole, nous avons établi une procédure de test basée sur l écoute et l identification de phrases synthétisées. Le corpus de test : 20 phrases. Nous les avons fait écouter à 8 personnes (4 femmes et 4 hommes) ce qui a permis une évaluation statistique réaliste du résultat. Nous avons alors pu conclure à un pourcentage d identification de plus de 80% dés la première écoute, ce taux passe de 91% pour la troisième phase. Par ailleurs nous avons remarqué qu une phase d adaptation de 2 à 3 phrases a été nécessaire pour avoir une stabilisation des taux de reconnaissance. 42

II- Traitement de l oral Quelques produits de synthèse de la parole arabe 43 Auteur/Système Méthode Commentaires PARADIS. Psola ARAbic DI-syllable concatenation based System. 2000. Maroc. Mansour Al-Ghamdi, Moustafa Elshafei et Husni-Al-Muhtaseb. 2002. Arabie Saoudite. ARABTALK. Research and Development International (RDI). 2003. Égypte & Angleterre. SAKHR TTS 3.0. 2005. Kuweit. Synthèse par concaténation. Vocabulaire illimité. Synthèse par concaténation. Vocabulaire illimité. Synthèse par concaténation. Vocabulaire illimité. Synthèse par concaténation de diphones, de syllabes et d unités plus longues. Vocabulaire illimité. Utilise la synthèse par TD-PSOLA. Pas de système finalisé connu. Pas de système finalisé connu. Utilise les réseaux de neurones pour le traitement de la prosodie et les HMM pour le lissage. Concaténation de diphones. Système commercialisé.

Bibliographie 1) Revue LNCS (2005): Arabic Speech Synthesis Using a Concatenation of Polyphones; Saidane Tahar, Zrigui Mounir and Ben Ahmed Mohamed; Lecture Notes in Computer Science, vol. 3501, pp 406-411, Springer-verlag, Germany 2) Revue LNAI (2006): The results of a syllabication algorithm for an Arabic speech synthesis system; Zrigui Mounir, Saidane Tahar and Ben Ahmed Mohamed; Lecture Notes in Artificial Intelligence. 3) Extraction du sens à partir d un corpus textuel arabe : A. Zouaghi, M.Zrigui, M.Ben Ahmed, SETIT 2004, 15-20 Mars 2004, Tunisie. 4) Un Etiqueteur sémantique des énoncés en langue arabe, RECTICAL 2005, Dourdan, France: A. Zouaghi, M.Zrigui, M.Ben Ahmed. 44

PROJET OREILLODULE Présentation du projet «OREILLODULE» MOUNIR ZRIGUI mounir.zrigui@fsm.rnu.tn 45 M. ZRIGUI

OBJECTIF - DEMARCHE Le but du projet OREILLODULE : Mettre ensemble les moyens de plusieurs centres d excellence dans des domaines complémentaires pour la réalisation d un OREODULE pour l horizon 2011. 46 M. ZRIGUI

Une petite oreillette. Résumé Assistera deux individus communicants en langues différentes. Système temps réel de reconnaissance, de traduction et de synthèse de la parole. Système intégré mobile. 47 M. ZRIGUI

Principes de la communication en langues différentes Reconnaissance Traduction Synthèse 48 M. ZRIGUI

CONF-REUNION 49 M. ZRIGUI

Tourisme Agence tunisienne متى تصل الطاي رة الطاي رة تصل الساعة العاشرة Agence française Quand arrive l avion? L avion arrive à 10 H آم عدد الا شخاص في الوفد الوفد يتكون من 100 شخص Combien de personnes dans l arrivage L arrivage comporte 100 personnes 50 M. ZRIGUI

TELEPHONIE Interlocuteur Langue X Carte d acquisition téléphonique PUCE OREODULE LIAISON TELEPHONIQUE PUCE OREODULE Carte d acquisition téléphonique Insertion de la puce oreillodule Traduction automatique Choix entre : otraduction de la parole reçue otraduction de la parole émise Interlocuteur Langue 51 Y M. ZRIGUI

Dictionnaire RECONNAISSANCE / SYNTHESE PAROLE Parole Continue Segmentation Reconnaissance Texte 52 M. ZRIGUI

La communication mobile REC-SYNT PAROLE MOYEN DE CALCUL INTEGRES TAO ETUDE MEDICALE Nécessité d un consortium pluridisciplinaire Plusieurs étapes d intégration. 53 M. ZRIGUI

Les SOCS : sur la même puce en 2011 Intégrer calcul, mémoire, récepteur RF et synthétiseur. Plusieurs centaines de processeur en parallèle. Plusieurs Giga Octet de mémoire. Basse consommation. 54 M. ZRIGUI

POURQUOI PAS? 55 M. ZRIGUI

CONSORTIUM RIADI ( MONASTIR ) TIMA ( GRENOBLE ) LIDILEM ( Grenoble) INSERM ( PARIS ) 56 M. ZRIGUI

Les étapes du projet WORKSHOP Démarrage 2008 Début des travaux 2007 57 OREODULE I Machine de 10 Kg 2007 M. ZRIGUI OREODULE III Prothèse de 10gr 2011 OREODULE II Portable de 2 Kg 2009

TROIS GENERATIONS MACHINE PORTABLE PROTHESE 58 M. ZRIGUI

CONCLUSION OREODULE : prothèse de 10 gr permettant le dialogue en langues hétérogènes PROJET : pluridisciplinaire TAO, Médical, RSP, SOC DEMARCHE : combinaison de démarche pragmatique et recherche fondamentale. RETOMBEES : sociales, économiques, scientifiques. 59 M. ZRIGUI

Les difficultés s pour la TAO mobile Réalise la reconnaissance / Synthèse de la parole en temps réel La TAO en temps réel Définir une prothèse adapté à la TAO mobile Intégration d une grande puissance de calcul et de mémorisation pour la communication en langage X temps réel mobile 60 M. ZRIGUI