Traitement automatique de la langue arabe 1 Dr. Mounir ZRIGUI Mounir.zrigui@fsm.rnu.tn Unité de recherche RIADI, faculté des Sciences de Monastir, Tunisie Le 09-11 - 2007
I- Caractéristiques de la langue arabe écrite I.1. Particularités - L alphabet de la langue arabe compte 28 consonnes - L'arabe s écrit et se lit de droite à gauche - Les lettres changent de forme de présentation selon leur position Variation de la lettre ع 2
I- Caractéristiques de la langue arabe écrite I.2. Particularités (suite) - Un mot arabe s écrit avec des consonnes et des voyelles. Les voyelles sont ajoutées au dessus ou au-dessous des lettres Mot sans voyelles 1ère interprétation 2ème interprétation 3ème interprétation آ ت ب آ ت ب آ ت ب آتب Il a écrit Il a été écrit Des livres Interprétation du mot آتب Sans voyelles 3
I- Caractéristiques de la langue arabe écrite I.3. Particularités (suite) - La langue arabe comprend trois catégories de mots: verbes, noms et particules - Les verbes et les noms sont le plus souvent dérivés d une - racine à trois consonnes - Une famille de mots peut être générée à partir d une seule racine à l'aide de différents schèmes C1 C2 C3 0 V1 0 V2 0 C1 V1 C2 V2 C3 Racine Schème Mot 4 Mécanisme de dérivation en arabe
I- Caractéristiques de la langue arabe écrite I.3. Particularités (suite) Exemple de dérivation de la racine آتب ktb 5 حمل Schèmes de dérivés du mot
I- Caractéristiques de la langue arabe écrite I.4. Structure d un mot arabe - La représentation suivante schématise une structure possible d un mot. Sens de la lecture et l écriture Enclitique Suffixe Corps schématique Préfixe Proclitique - Les proclitiques, les préfixes, les suffixes et les enclitiques sont des morphèmes qui expriment des informations et des traits grammaticaux sur les 6
I- Caractéristiques de la langue arabe écrite I.5. Structure d un mot arabe (suite) أ ت ت ذ آر ون ن ا - Ce mot exprime la phrase en français : "Est ce que vous vous souvenez de nous? Proclitique أ : conjonction d interrogation Préfixe ت : préfixe verbal du temps de l inaccompli..تفع لschème : selon le ذا ر : dérivé de la racine ت ذ ا ر Corps schématique Suffixe ون : suffixe verbal exprimant le pluriel Enclitique ن ا : pronom suffixe complément du nom 7
I- Caractéristiques de la langue arabe écrite I.6. Structure d un mot arabe (suite) Le mot ou «unité graphique» une forme. = suite de formes collées : forme agglutinée. و ب قول ه = وبقوله WaBiKaWLiHi = Hi KaWLi Bi Wa «et par sa parole» àlui parole par et 8
I- Caractéristiques de la langue arabe écrite I.7. Problèmes du traitement automatique de l'arabe - L absence des voyelles génère une certaine ambiguïté à deux niveaux: * Sens du mot; * Difficulté à identifier sa fonction dans la phrase 9 Effet du mot non voyellé العلم sur les extraits.
I- Caractéristiques de la langue arabe écrite I.8. Problèmes du traitement automatique de l'arabe - L ambiguïté vient du mot العلم la science ou drapeau alors que voyellé on aura الع ل م pour la science et الع ل م pour le drapeau - Cette ambiguïté pourrait, dans certains cas, être levée soit par une analyse plus profonde de la phrase ou des statistiques (par exemple il est plus probable d'avoir العلم الوطني le drapeau national que la science nationale). 10
I- Caractéristiques de la langue arabe écrite Sémantique 1-La racine jbr ب ر) (ج : a la sens de la force quelque soit l ordre de ces lettres dans la racine ;en fait le regroupement de ces lettres marque le sens de l obligation et de la violence.,forcer" ----------------"obliger جبر tour" ---------------"la برج --------------"renforcer,soutenir" رجب 2-La racine njd ج د) (ن : ces trois lettres rassemblées dans n importe quel ordre dans la racine, ont la sens de la force. de " ---------------"aider, être au secours نجد ---------------"mobiliser" جن د bataille" ---------------"la النجد militaires" ---------------"les جند 11
I- Caractéristiques de la langue arabe écrite Les dérivés verbaux فعل افتعل انفعل افعل أفعل فاعل فع ل استفعل تفاعل تفع ل 12
I- Caractéristiques de la langue arabe écrite Les dérivés nominaux 13
I- Caractéristiques de la langue arabe écrite Les dictionnaires Les conditions de structure morphématique ( CSM ) Comme son nom l indique, les conditions de structures morphématiques (CSM) sont des conditions qui permettent de délimiter l ensemble des matrices phonologiques( MP ) possibles pour former les racines admissibles pour la langue arabe. On distingue 2 types de CSM : Les restrictions combinatoires. Les restrictions séquentielles. 14
I- Caractéristiques de la langue arabe écrite Les dictionnaires 1 - Les restrictions combinatoires C est l ensemble des CSM qui lient les spécifications des différents traits à l intérieur d un même segment de la matrice phonologique. Comme exemples des restrictions combinatoires, nous citons les suivantes : CSM 1 : tous les phonèmes sont [-aspirés] CSM 2 : tous les phonèmes vocaliques sont [-nas] CSM 3 : tous les phonèmes qui sont [+nas] sont aussi [-syll] 15
I- Caractéristiques de la langue arabe écrite Les dictionnaires 1 - Les restrictions combinatoires CSM1 distingue la langue arabe classique des nombreuses langues naturelles qui opposent phonèmes aspirés et non aspirés. C est l existence de telles restrictions valables pour tous les phonèmes de l arabe classique qui ont permis de ne faire figurer que 14 traits dans la matrice phonologique parmi les traits possibles définis par la théorie linguistique. CSM2 exclue les voyelles nasales de l inventaire des phonèmes de l arabe classique. CSM3 exclue les consonnes [+syll]. 16
I- Caractéristiques de la langue arabe écrite Les dictionnaires 2 - Les restrictions séquentielles Se sont des restrictions qui lient les spécifications de traits appartenant à des segments successifs d une même matrice, ce qui implique que n importe quelle séquence de phonèmes de l arabe classique n est pas un morphème-racine. ) ظبظ ( ou ) دخخ ( : Exemples CSM 4 : +[Ci][Ci] CSM 5 : +[+cont,+voix][-syll][+cont,+voix]+ 17
I- Caractéristiques de la langue arabe écrite Les dictionnaires 2 - Les restrictions séquentielles CSM4 exclut de l ensemble des morphèmes-racines possibles de l arabe classique toute séquence de phonèmes formée de deux segments identiques en 1ére et 2éme consonnes radicales. CSM5 interdit des consonnes identiques qui sont [+cont,+voix] en 1ére et 3éme consonnes radicales. 18
I- Caractéristiques de la langue arabe écrite Les dictionnaires 3 - Conclusion les ( CSM ) permettent : De distinguer les allomorphes possibles de l arabe classique. Un allomorphe est un segment de la matrice phonologique et qui n enfreint aucune des CSM de l arabe. les allomorphes sont les racines admissibles en arabe. De prédire certaines spécifications à partir d autres en liant entre elles certaines spécifications de traits dans la matrice phonologique. 19
I- Caractéristiques de la langue arabe écrite Les dictionnaires 3 - Conclusion D alléger considérablement l acquisition de nouveaux mots à ajouter au lexique arabe. Dans notre travail on va s intéresser aux conditions (CSM4) et (CSM5) pour générer toutes le racines admissibles de la langue arabe. Les conditions CSM1, CSM2 et CSM3 sont bien vérifiées par les 28 consonnes de l arabe. 20
I- Caractéristiques de la langue arabe écrite Les dictionnaires 3 Les dictionnaires générés Le premier dictionnaire est théorique. il contient toutes les racines trilitères théoriquement possibles pour l arabe standard qui sont au nombre de (28)^3 ( 28 étant le nombre des consonnes de l arabe). 21
I- Caractéristiques de la langue arabe écrite Les dictionnaires 3 Les dictionnaires générés Le deuxième dictionnaire : c est le dictionnaire des racines trilitères admissibles. C'est-à-dire les racines qui n enfreignent aucune des conditions de structures morphématiques (CSM) Le troisième dictionnaire : c est le dictionnaire des racines trilitères attestées ; c'est-à-dire utilisées dans la langue arabe et qui sont tirées des tableaux de répartitions construits à ) نبلا ل حاحصلايرهوجلا). partir du grand dictionnaire arabe Quatrième dictionnaire : c est le dictionnaire des racines admissibles par la langue arabe mais non attestées. Ces racines peuvent être utilisées pour enrichir la langue arabe par d autres mots nouveaux. 22
I- Caractéristiques de la langue arabe écrite Les dictionnaires 4 un extrait d enregistrement en Xml de notre système 23
II- Traitement de l oral L alphabet arabe comporte : *28 consonnes. * 6 voyelles de l arabe standard ( 3 longues et 3 courtes ). * quelques autres réalisations vocaliques (gémination, silence). 24
II- Traitement de l oral La langue arabe Les 28 consonnes arabes ont été divisées en deux groupes : * 14 consonnes solaires qui assimilent le ل de l article. * 14 consonnes lunaires qui n assimilent pas le ل de l article. La durée d une voyelle longue est environ double de celle d une voyelle courte. 25
II- Traitement de l oral La transcription graphème-phonèmes Des graphèmes qui ont plusieurs réalisations phonétiques le w «و»de ب وم»»et م و ز»» correspondant a deux sons différents ayant la même graphie. Des phonèmes qui ont plusieurs réalisations graphimiques. Le noun dans «ي ق يم ون»et أ ن ز ل» dans» n a pas la même représentation graphimique. Des graphèmes qui ne sont pas pris en compte. Le Alif dans «ق ام وا» ne correspondre pas à un son ( silence). Une absence totale de correspondance graphème-».. ه اذ ا «écrit» de vrai être ه ذ ا «mot phonème. Le 26
II- Traitement de l oral Formalisation des règles Une règle grammaticale, se lit de droite à gauche et doit s écrire de la façon suivante : [ Résultat ] = { CG( contexte gauche) }+ { C ( caractère) }+{ CD(contexte droit)} # est un signe de début de phrase ; $ est un signe de fin de phrase ; est une extrémité de mot ; C est une consonne. V est une voyelle ; CS est une consonne solaire ; CL est une consonne lunaire. 27
II- Traitement de l oral L élaboration des règles de transcription {' '}+{'ا [aa]={' Lorsque le ا est précédé par la voyelle, on obtient le phonème de la voyelle longue [aa] quelque soit ce qui suit. ل م ا : Exemple '} {' + {'ي'} + [ii]={cl} '} {' + {'ي'} + [ii]={cs} Lorsque le ي est précédé par la voyelle et qu il est suivi par une consonne, on obtient le phonème de la voyelle longue [ii]. Lorsque le ي est précédé par la voyelle et qu il est en fin de mot, on obtient le phonème de la voyelle longue [ii]. ق ل يلا et ل م س ن ي : Exemple 28
II- Traitement de l oral L élaboration des règles de transcription [CC]={ }+{C} Lorsqu une consonne est suivie par la (gémination), elle est.و د : Exemple doublée, on obtient alors le phonème [CC]. #+{ال}+{ CS }={أ}+{ {CS ال}+{ CL}={CL }+{ل}+{ {CL }+{CL} Lorsque le ال est en début de phrase et qu il est suivi par une. ل consonne solaire, il est équivalent à la non présence du Lorsque le ال est entre deux consonnes lunaires, il est.أ équivalent à la non présence du.الس م يع et م ن ع الا آ ل : Exemple 29
II- Traitement de l oral L implémentation de la transcription le processus de la transcription a été implémenté comme suit : Texte 5 passages 1 seul passage Archives Règles Graphèmes Phonèmes 30
II- Traitement de l oral L implémentation de la transcription Notre système utilise un ensemble de 139 règles. Il comporte aussi une table de correspondance de 49 enregistrements qui comprend les différents caractères de l alphabet arabe et les quelques symboles utilisés. La base de données des règles de transcription ne cesse de s enrichir en vue d un meilleur résultat. 31
II- Traitement de l oral Le système de la syllabation et choix des unités acoustiques La synthèse par concaténation d unités acoustiques de tailles variables. Après étude, nous avons adopté un système de synthèse par concaténation dont les unités acoustiques sont de trois types: les triphones, les diphones et les phonèmes. Ceci nous a permis d apporter plus de souplesse et surtout une meilleure qualité à notre module acoustique. 32
II- Traitement de l oral Les règles de syllabation: [CVV] ={V}+{V}+{C} [CV]={C}+{V}+{C} [CC]={C}+{C}+{C} [C]={V}+{C}+{C} [VV]={V}+{V} [V]={V} Si une consonne est suivie de deux voyelles alors les trois graphèmes constituent l unité acoustique. Si une consonne est suivie d une voyelle puis d une consonne alors les deux premiers graphèmes constituent l unité acoustique. Si nous avons une succession de trois consonnes alors les deux premiers graphèmes constituent l unité acoustique. Si nous avons deux consonnes suivies par une voyelle alors seul le premier graphème constitue l unité acoustique. Si nous avons une succession de deux voyelles alors les deux constituent l unité acoustique. Si nous avons une voyelle isolée alors elle constitue l unité acoustique. 33
II- Traitement de l oral Le dictionnaire de polyphones Il est à noter que l ordre d application de ces règles ainsi établies est très important pour une bonne syllabation et donc une meilleur concaténation sonore. Pour constituer un dictionnaire d unités acoustiques il faut disposer de toutes les combinaisons réalisables. Le module de concaténation a besoin de la totalité des unités acoustiques sous la forme d enregistrements sonores. Ces enregistrements constituent le dictionnaire de notre système. Le dictionnaire ainsi établi contient 196 unités acoustiques ( 28 phonèmes de type C, 84 diphones de type CV et 84 triphones de type CVV), suffisantes pour la réalisation des différentes occurrences possibles. 34
II- Traitement de l oral Les unités acoustiques Type Nombre d UA Observations [CVV ] [CV] [CC] 84 = 28 x 3 84 = 28 x 3 784 = 28 x 28 - - Irréalisable : ce diphone est issu d une succession de trois consonnes impossible en langue arabe. [C] 28 - [VV] 9 = 3 x 3 [V] 3 Irréalisable : on ne peut avoir deux voyelles différentes consécutives en langue arabe. Irréalisable : on ne peut pas commencer un mot par une voyelle en langue arabe. La réalisation des différentes occurrences possibles de la langue arabe nécessite donc 196 (84 + 84 + 28) unités acoustiques. 35
II- Traitement de l oral Les opérations d enregistrement Pour notre système nous avons utilisé des fichiers WAV en format PCM échantillonné à 44.1 khz en mode 16 bits et en stéréo soit à 172 kbits/s. Nous avons utilisé un matériel standard pour pouvoir juger de la dépendance matériel standard pour pouvoir juger de la dépendance matériel- qualité, mais aussi dans l optique d un système peu contraignant visant un maximum d utilisateurs. 36
II- Traitement de l oral Les opérations d enregistrement Le dictionnaire d unités acoustiques ainsi établi a une taille de 9 MØ ( en moyenne un phonème prend 20 KØ, un diphone 40 KØ et un triphone 60 KØ). La qualité du résultat final de la synthèse dépend directement de la qualité des enregistrements effectués. 37
II- Traitement de l oral Les opérations d enregistrement Quelques précautions ont été prévues : * L utilisation d un seul locuteur par dictionnaire et la limitation des séances d enregistrement : pour l homogénéité du timbre. * la prononciation sur un ton monocorde et par petites périodes a fin d éviter l effet de liste au cours de l enregistrement. * la minimisation du risque de perte d information lors de la phase de numérisation (choix de la bonne fréquence d échantillonnage). 38
II- Traitement de l oral Le dictionnaire de polyphones Les étapes de réalisation peuvent se résumer en ce qui suit : * la saisie du corpus de mots et d expressions ; * l enregistrement sonore des expressions ; * la segmentation des enregistrements sonores obtenus en phonèmes, diphones et triphones ; * le test du dictionnaire obtenu; Pour l extraction de la totalité des polyphones nous avons utilisé les enregistrements et prés de 137 phrases et expressions utilisant le vocabulaire arabe usuel. 39
II- Traitement de l oral Syllabation et codage des enregistrements Lors de l élaboration du dictionnaire d unités acoustiques, nous avons rencontré plusieurs difficultés de nature à ralentir le travail et surtout à influer énormément sur la qualité de la voix synthétisée en aval. La majorité de ces contraintes survient lors de l étape de segmentation. Nous citons en exemple les points suivants : 40
II- Traitement de l oral Syllabation et codage des enregistrements L unité acoustique à extraire doit être au milieu d un mot, afin d éviter les variations incontrôlées d intonation du début et de fin du mot. Des lettres comme ( ذ ظ ض خ ح ه ف )sont prononcées au moyen d une forte expiration, la qualité du microphone peut être influer sur le résultat. Des lettres comme غ et ر posent des problèmes de naturel lors des essais de synthèse à cause de leur nature de prononciation. La voix féminine est plus nette que celle du locuteur masculin, ce qui influe sur la qualité de la parole produite. La qualité de synthèse ne dépend pas que de la nature de la voix d origine mais principalement de la qualité de la segmentation. 41
II- Traitement de l oral Les résultats des tests Afin d évaluer notre système de synthèse de la parole, nous avons établi une procédure de test basée sur l écoute et l identification de phrases synthétisées. Le corpus de test : 20 phrases. Nous les avons fait écouter à 8 personnes (4 femmes et 4 hommes) ce qui a permis une évaluation statistique réaliste du résultat. Nous avons alors pu conclure à un pourcentage d identification de plus de 80% dés la première écoute, ce taux passe de 91% pour la troisième phase. Par ailleurs nous avons remarqué qu une phase d adaptation de 2 à 3 phrases a été nécessaire pour avoir une stabilisation des taux de reconnaissance. 42
II- Traitement de l oral Quelques produits de synthèse de la parole arabe 43 Auteur/Système Méthode Commentaires PARADIS. Psola ARAbic DI-syllable concatenation based System. 2000. Maroc. Mansour Al-Ghamdi, Moustafa Elshafei et Husni-Al-Muhtaseb. 2002. Arabie Saoudite. ARABTALK. Research and Development International (RDI). 2003. Égypte & Angleterre. SAKHR TTS 3.0. 2005. Kuweit. Synthèse par concaténation. Vocabulaire illimité. Synthèse par concaténation. Vocabulaire illimité. Synthèse par concaténation. Vocabulaire illimité. Synthèse par concaténation de diphones, de syllabes et d unités plus longues. Vocabulaire illimité. Utilise la synthèse par TD-PSOLA. Pas de système finalisé connu. Pas de système finalisé connu. Utilise les réseaux de neurones pour le traitement de la prosodie et les HMM pour le lissage. Concaténation de diphones. Système commercialisé.
Bibliographie 1) Revue LNCS (2005): Arabic Speech Synthesis Using a Concatenation of Polyphones; Saidane Tahar, Zrigui Mounir and Ben Ahmed Mohamed; Lecture Notes in Computer Science, vol. 3501, pp 406-411, Springer-verlag, Germany 2) Revue LNAI (2006): The results of a syllabication algorithm for an Arabic speech synthesis system; Zrigui Mounir, Saidane Tahar and Ben Ahmed Mohamed; Lecture Notes in Artificial Intelligence. 3) Extraction du sens à partir d un corpus textuel arabe : A. Zouaghi, M.Zrigui, M.Ben Ahmed, SETIT 2004, 15-20 Mars 2004, Tunisie. 4) Un Etiqueteur sémantique des énoncés en langue arabe, RECTICAL 2005, Dourdan, France: A. Zouaghi, M.Zrigui, M.Ben Ahmed. 44
PROJET OREILLODULE Présentation du projet «OREILLODULE» MOUNIR ZRIGUI mounir.zrigui@fsm.rnu.tn 45 M. ZRIGUI
OBJECTIF - DEMARCHE Le but du projet OREILLODULE : Mettre ensemble les moyens de plusieurs centres d excellence dans des domaines complémentaires pour la réalisation d un OREODULE pour l horizon 2011. 46 M. ZRIGUI
Une petite oreillette. Résumé Assistera deux individus communicants en langues différentes. Système temps réel de reconnaissance, de traduction et de synthèse de la parole. Système intégré mobile. 47 M. ZRIGUI
Principes de la communication en langues différentes Reconnaissance Traduction Synthèse 48 M. ZRIGUI
CONF-REUNION 49 M. ZRIGUI
Tourisme Agence tunisienne متى تصل الطاي رة الطاي رة تصل الساعة العاشرة Agence française Quand arrive l avion? L avion arrive à 10 H آم عدد الا شخاص في الوفد الوفد يتكون من 100 شخص Combien de personnes dans l arrivage L arrivage comporte 100 personnes 50 M. ZRIGUI
TELEPHONIE Interlocuteur Langue X Carte d acquisition téléphonique PUCE OREODULE LIAISON TELEPHONIQUE PUCE OREODULE Carte d acquisition téléphonique Insertion de la puce oreillodule Traduction automatique Choix entre : otraduction de la parole reçue otraduction de la parole émise Interlocuteur Langue 51 Y M. ZRIGUI
Dictionnaire RECONNAISSANCE / SYNTHESE PAROLE Parole Continue Segmentation Reconnaissance Texte 52 M. ZRIGUI
La communication mobile REC-SYNT PAROLE MOYEN DE CALCUL INTEGRES TAO ETUDE MEDICALE Nécessité d un consortium pluridisciplinaire Plusieurs étapes d intégration. 53 M. ZRIGUI
Les SOCS : sur la même puce en 2011 Intégrer calcul, mémoire, récepteur RF et synthétiseur. Plusieurs centaines de processeur en parallèle. Plusieurs Giga Octet de mémoire. Basse consommation. 54 M. ZRIGUI
POURQUOI PAS? 55 M. ZRIGUI
CONSORTIUM RIADI ( MONASTIR ) TIMA ( GRENOBLE ) LIDILEM ( Grenoble) INSERM ( PARIS ) 56 M. ZRIGUI
Les étapes du projet WORKSHOP Démarrage 2008 Début des travaux 2007 57 OREODULE I Machine de 10 Kg 2007 M. ZRIGUI OREODULE III Prothèse de 10gr 2011 OREODULE II Portable de 2 Kg 2009
TROIS GENERATIONS MACHINE PORTABLE PROTHESE 58 M. ZRIGUI
CONCLUSION OREODULE : prothèse de 10 gr permettant le dialogue en langues hétérogènes PROJET : pluridisciplinaire TAO, Médical, RSP, SOC DEMARCHE : combinaison de démarche pragmatique et recherche fondamentale. RETOMBEES : sociales, économiques, scientifiques. 59 M. ZRIGUI
Les difficultés s pour la TAO mobile Réalise la reconnaissance / Synthèse de la parole en temps réel La TAO en temps réel Définir une prothèse adapté à la TAO mobile Intégration d une grande puissance de calcul et de mémorisation pour la communication en langage X temps réel mobile 60 M. ZRIGUI