SETIT 2005 3 rd International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 27-31, 2005 TUNISIA Un système de synthèse de la parole arabe par concaténation de polyphèmes : Les résultats de l utilisation d un lissage linéaire Tahar SAIDANE, Mounir ZRIGUI, Mohamed BEN AHMED Centre de production de Sousse, Société Tunisienne d Electricité et du Gaz, Tunisie saidane.tahar@planet.tn Labaoratoire RIADI, Unité Monastir Faculté des Sciences de Monastir, Tunisie mounir.zrigui@fsm.rnu.tn Labaoratoire RIADI, Ecole Nationale des Sciences de l informatique, Tunis, Tunisie Mohamed.BenAhmed@riadi.rnu.tn Résumé: Notre article s intègre dans le cadre du projet intitulé "Oréodule" : un système embarqué temps réel de reconnaissance, de traduction et de synthèse de la parole. L objet de notre intérêt dans cet article est la présentation de notre système de synthèse hybride de la parole arabe et plus précisément du volet du traitement acoustique. Nous présenterons, dans ce papier, les différents modules de notre système de synthèse hybride par concaténation de polyphème. En effet, nous exposerons les différents choix techniques retenues pour chaque traitement. Nous détaillerons les règles de transcription et leurs effets sur le traitement linguistique, les règles de syllabation et leurs impacts sur le coût (temps et difficulté) de réalisation du module acoustique et nous poursuivrons par l exposé de nos choix au niveau du module de concaténation. Nous décrirons le module de lissage, un traitement acoustique, post concaténation, nécessaire à l amélioration de qualité de la voix synthétisée. Nous intègrerons également les différents résultats pratiques obtenus lors de chaque phase (nombre de polyphones, tailles des enregistrements, volume totale du dictionnaire, etc.). En fin, nous présenterons les résultat, de l étude statistique de compréhension, réalisé sur un corpus de 20 phrases. Mots clés: Synthèse de la parole arabe, Phonèmes, Diphones, Triphones, Unités acoustiques, Dictionnaire de polyphones. 1 Introduction Notre étude porte sur la conception et la réalisation d un système de synthèse de la parole arabe qui donne la voix la plus naturelle possible tout en tenant compte des particularités de la langue. Cet objectif a nécessité l étude de toutes les étapes de la synthèse de la parole et le choix des solutions les plus adaptées à chaque tâche. Le résultat de ces études nous a guidé vers un système de synthèse hybride utilisant la concaténation d unités acoustiques de tailles variables tout en utilisant des règles établies. Cet article présentera les modules de ce système de synthèse à savoir le transcripteur, le module de syllabation, le dictionnaire d unités acoustiques et le module de concaténation muni de son système de lissage. Les étapes de constitution et les caractéristiques, de chaque module, seront également détaillées. 2 Le système hybride de synthèse de la parole Les constituants du système de synthèse de la parole : Grammaire Texte Graphique transcript. Traitement linguistique Texte Phonétique Etiqueté Unités acoustiques Traitement acoustique Corpus Parole
Figure 1 Schéma de principe de notre système de synthèse de la parole. Ce schéma est divisé en deux grandes parties : une partie linguistique (transcription) et une partie acoustique (concaténation). 2.1 La transcription La partie linguistique ou symbolique du système de synthèse de la parole permet, à partir d un texte écrit (graphique), de générer un texte phonétique étiqueté (allophones). Nous présenterons ici la transcription graphème phonème suivi de quelquesunes des règles utilisées pour la réalisation de notre système de traitement phonétique. Ces règles sont, pour notre système, stockées dans une base de données et sont parcourues plusieurs fois lors de la transcription. 2.1.1 Le module de transcription La transcription constitue un composant nécessaire et une étape primordiale pour l élaboration d un système de synthèse de la parole à partir du texte. Une des premières recherches à effectuer avant toute autre démarche consiste à formaliser au mieux les problèmes posés par la langue arabe. Nous pouvons alors mettre en évidence les règles de transcription les plus générales, les exceptions, etc. Avec de tels éléments d analyse, nous avons proposé un système qui a été vérifié à l aide d un corpus bien choisi. En ce qui suit la description de quelques règles élaborées et incorporées dans la base des règles : {و +{ [uu]={cs}+{} 1. {و +{ [uu]={cl}+{} 2. Lorsque وle est précédé par la voyelle et qu il est suivi par une consonne, on obtient le phonème de la د ون, ح وت : Exemple voyelle longue [uu]. {و}+{ V } [w]= 3. Lorsque وle est voyellé, on obtient le phonème [w]. ي و د ع, و ق ف : Exemple {ي +{ [ii]={cl}+{} 4. {ي +{ [ii]={cs}+{} 5. Lorsque يle est précédé par la voyelle et qu il est suivi par une consonne, on obtient le phonème de la ق ل يلا, آ ب ير : Exemple voyelle longue [ii]. 6. [CC]={ }+{C} Lorsqu une consonne est suivie par la, elle est doublée, on obtient alors le phonème [CC]. Exemple : و د, ر وج #+{ال}+{ CS }={أ}+{ CS }.7.8 { V}+{C }+{ال}+{ V}+{C}={CS }+{أ}+{ CS } Lorsque le ال est en début de phrase ou qu il est précédé par une consonne voyellé et qu il est suivi par une consonne solaire, il est équivalent à la non الس م يع, ذ ه ب الر ج ل : Exemple. ل présence du 9. ال}+{ V}+{CL}={CL }+{ل}+{ CL } }+{CL} 10. ال}+{ V}+{CS}={CL }+{ل}+{ CL } }+{CS} Lorsque le ال est entre suivi par une consonne. أ lunaire, il est équivalent à la non présence du م ن ع الا آ ل, أ آ ل الا آ ل : Exemple 2.2 Le système de syllabation proposé Les méthodes de synthèse directe agissent directement sur le signal afin de produire de la parole tel que la concaténation de formes d ondes. Celle-ci se limite à concaténer un certain nombre de segments à partir d éléments temporels stockés pour chaque phonème. Le résultat de cette concaténation mène à la reconstitution phonème par phonème, ensuite à l association entre ces phonèmes pour former un mot. L avantage de cette méthode réside dans sa simplicité. Toutefois, cette technique ne permet pas de prendre en compte les phénomènes de coarticulation traduits par l influence d un phonème sur un autre voisin. L intelligibilité de la parole se trouve ainsi limitée. Ph1Ph2Ph3Ph4Ph5Ph6. Ph1 Ph2 + Ph3 + Ph4Ph5Ph6. concatén. Figure 2 Schéma de principe du système de syllabation. Nous avons alors conclu qu il n est pas viable de faire de la synthèse par simple concaténation de phonèmes car précisément, ce sont les transitions entre les phonèmes qui transportent l information pertinente. L option retenue est alors une application de règles de syllabation établie par nos soins et propre à notre système. 2.2.1 Choix des unités acoustiques Dans notre système de synthèse par concaténation, les unités acoustiques sont de trois types : les triphones, les diphones et les phonèmes. Ceci nous a permis d apporter plus de souplesse et surtout une meilleure qualité à notre module acoustique. Par ailleurs nous avons pu limiter considérablement le nombre d unités acoustiques. On a établi un ensemble de règles de concaténation à partir desquelles les différentes occurrences de trois phonèmes pouvait se transformer en : un triphone, un diphone suivi d un phonème, un phonème suivi d un diphone, ou éventuellement trois phonèmes. L entrée du module de sélection est une séquence de phonèmes, l algorithme converge alors vers une suite optimale d unités acoustiques à concaténer. La sélection dynamique des unités se traduit alors par la recherche de la séquence optimale de représentants, visant à minimiser les discontinuités au point de concaténation. sabaadu.lxaj.ri sa baa Du.l xa j. ri ص ب اح الخ ي ر Figure 3 Exemple de syllabation La problématique de la sélection des unités a été formalisée en utilisant des règles. Ces règles de syllabation peuvent se résumer en ce qui suit : 1. [CVV] ={V}+{V}+{C} : lorsqu une consonne est suivie de deux voyelles les trois graphèmes constituent une unité acoustique de notre système.
2. [CV]={C}+{V}+{C} : lorsqu une consonne est suivie d une voyelle puis d une consonne les deux premiers graphèmes constituent une unité acoustique de notre système. 3. [CC]={C}+{C}+{C} : lorsque nous avons une succession de trois consonnes les deux premiers graphèmes constituent une unité acoustique de notre système. 4. [C]={V}+{C}+{C} : lorsque nous avons deux consonnes suivies par une voyelle seul le premier graphème constitue une unité acoustique de notre système. 5. [VV]={V}+{V} : lorsque nous avons une succession de deux voyelles, les deux constituent une unité acoustique de notre système. 6. [V]={V} : lorsque nous avons une voyelle isolée elle constitue une unité acoustique de notre système. Ph 1 Ph 2 Ph 3 Ph 1 Ph 2 Ph 3 concatén. Ph R1 Ph R2 Ph R3 Figure 4 Utilisation des règles de syllabation Il est à noter que l ordre d application de ces règles ainsi établies est très important pour une bonne syllabation et donc une meilleure concaténation sonore. C est à partir de ces résultats que nous avons recueilli les échantillons sonores susceptibles de nous aider à la constitution de la base d enregistrement nécessaire à notre synthèse vocale. Le dictionnaire ainsi établi contient 196 unités acoustiques suffisantes pour la réalisation des différentes occurrences possibles. Néanmoins, la pratique et l étude de la langue arabe ont permis de dégager d autres unités dues principalement aux contraintes de la langue. Pour l extraction de la totalité des polyphones nous avons utilisé les enregistrements de près de 137 phrases et expressions utilisant le vocabulaire arabe usuel. Nous avons par la suite relevé la fréquence d utilisation des différents polyphones dans ces expressions afin de se donner le maximum de possibilités pour une bonne extraction des unités. Pour notre système nous avons utilisé des fichiers WAV en format PCM échantillonné à 44.1 khz en mode 16 bits et en stéréo soit à 172 kbits/s. Nous avons utilisé, lors de nos enregistrements, un matériel standard pour pouvoir juger de la dépendance matériel qualité, mais aussi dans l optique d un système peu contraignant visant un maximum d utilisateurs. 3. La concaténation Pour pouvoir concaténer deux fichiers, représentant les deux unités acoustiques, nous allons essayer d analyser les caractéristiques (fréquence d échantillonnage, résolution, format, etc.) et le passage d un signal temporel à de tels fichiers (numérisation). La concaténation de deux unités successives se fait dans un fichier résultat qui se verra ajouter une unité acoustique à chaque nouvelle étape (passage d une syllabe à une autre), pour contenir à la fin du traitement la phrase à synthétiser. Figure 5 Structure d un fichier audio Wav. Pour obtenir une qualité de son comparable à celle d un disque compact nous avons voulu utiliser le format Wav avec un échantillonnage à 44100 Hz et une résolution de 16 bits. 3.1 Le lissage La simple concaténation d unités de parole extraites de contextes différents ne produit en général pas une parole de bonne qualité. Pour notre système nous avons voulu commencer par un traitement temporel pour mesurer l effet d un post traitement sur la qualité de la parole obtenue. Après l analyse des différentes unités acoustiques de l arabe il s avère que celles-ci présentent une atténuation aux niveaux de leurs extrémités. L idée retenue consiste alors à procéder, lors de la concaténation, à une accentuation aux niveaux d un certain nombre de valeurs d extrémités avant le collage en bout à bout. Ce traitement touchera évidement la fin de la première unité et le début de la suivante. Un signal numérique de la parole étant : Un signal numérique de la parole étant : s(t) : signal numérisé de la parole (échantillonné). sn = s(nt) : la valeur du signal à l instant nt. δ(t) : impulsion de Dirac. La concaténation de deux unités sera : L idée consiste à leur à isoler X valeurs du premier signal et Y valeurs du second : Ces valeurs subiront alors une atténuation proportionnelle définie par : Le résultat se présentera sous la forme : Ceci a été réalisé pour un nombre de points représentants 10 % de la durée du signal de l unité acoustique et en introduisant un temps de silence de 10 millièmes de seconde. Les résultats obtenus sont montrés en ce qui suit :
Figure 6 Effet du lissage temporel sur la forme d onde au niveau des points de discontinuités. En introduisant un temps de silence de 10 millièmes de seconde on obtient une meilleure intelligibilité du résultat. Figure 7 Introduction d une pause au niveau des points de discontinuités. 4. Résultats Afin d évaluer notre système de synthèse de la parole, nous avons établi une procédure de test basée sur l écoute et l identification de phrases synthétisées. Pour ce faire nous avons utilisé un corpus de référence. Ce corpus est un ensemble de vingt listes de dix phrases arabes phonétiquement équilibrées chacune. De ce corpus nous avons extrait 20 phrases, soit 53 mots, 211 unités acoustiques dont 73 différentes ce qui constitue 37.2 % de la totalité des unités acoustiques qu utilise notre système. Nous les avons fait écouter à 8 personnes (4 femmes et 4 hommes) ce qui a permis une évaluation statistique réaliste du résultat. Chaque phrase est écoutée trois fois, à chaque passage le sujet doit orthographier ce qu il entend. En ce qui suit le résumé de ces résultas : آ ن ت ق د و ة ل ه م 6 7 ي س ت م ت ع ل م لا ب ث م ر ه ا kun.tu.qud.wata n.lahum. laa.lam..jas.tam.ti..bipamariha a 93,8 97,5 100 lam..jak.tum.hu 58,8 84,4 93,8 ل م ي ك ت م ه 8 9 ل و لا أ ن م ر ض ن ا ل خ س ر وا law..laa.ean..m arií.naa.laxasir uu 76,3 93,8 95,0 qaadaalgaj.ca 83,8 90,0 100 ق اد الج ي ش 10 س ي و ذ يه م ز م ان ن ا 11 ب ع ث ت ن ذ ير ا 12 13 آ ان ف ي ظ ل م ات و ل م ي ر ح ل ي ق ام ر ون ب الم ال 14 sajue.yiihim..za maanunaa ba ap.ta.nayiira n kaana.fii.íulum aatin.wa.lam..ja r. al. juqaamiruuna.b ilmaali 51,3 73,1 85,6 97,5 98,3 98,3 kaana.ßaaiman آ ان ص اي م ا 15 أ س ت غ ف ر ل ذ ن ب ك 16 أ خ ذ أ ج از ة 17 ل م ي ك ن ش ر س ا 18 is.taƒ.fir..liyan. bika eaxaya.eigaazat an lam..jakun..cari san 99,2 100 100 95,8 95,8 95,8 lan..jan.tafi a 90,8 92,5 95,8 ل ن ي ن ت ف ع 19 م ا ل ب س ث و ب ا 20 maa.labisa.paw. ban 75,8 88,3 91,7 Average % 81.2 88 90.9 Tableau 1 Les résultats d écoute et d évaluation du corpus de phrases Figure 8 Les résultats de la 1ère phase de test Rate of identification % Sentences Phonetic 1 st 2 nd 3 rd ˇafa a.lkaj.lu 20,0 37,5 37,5 ط ف ح الك ي ل 1 أ ي ن الم س اف ر ون 2 أ ذ ه ب ب ا م ان 3 ه ل ل ذ ع ت ه ب ق و ل 4 eaj.na.lmusaafir uuna eay.habu.bieam aanin hal..laya.tahu. biqaw.lin 93,8 98,8 98,8 67,5 81,3 87,5 25,0 31,3 42,5 kun..hunaa 96,3 97,5 97,5 آ ن ه ن ا 5 Figure 9 Les résultats de la 2ème phase de test
Figure 10 Les résultats de la 3ème phase de test Nous avons alors pu conclure à un pourcentage d identification de plus de 80 % dès la première écoute, ce taux passe à plus de 91% pour la troisième phase. Par ailleurs nous avons remarqué qu une phase d adaptation de 2 à 3 phrases a été nécessaire pour avoir une stabilisation des taux de reconnaissance. De ces relevés nous avons aussi constaté : que les mots non courants sont difficilement identifiables (exp : ل ذ ع ت ه phrase n 4), que quelques caractères sont plus difficiles que d autres pour l identification (exp ذ: phrase n 3, 4 et 11). 5. Conclusion La comparaison des résultats obtenue par rapport à l existant demeure difficile. Les travaux sur les systèmes de synthèse de la parole arabe sont peu nombreux et les résultas d évaluation ne font pas l objet d articles publiés. Néanmoins nous avons relevé que notre système est basé sur une analyse linguistique qui nous permis de se restreindre à 3 types de syllabes seulement (CVV, CV et C) contrairement aux autres travaux préconisant cinq voir 6 types de syllabes différents (CV, CVV, CVC, CVVC et CVCC). Nous n utilisons que 196 unités acoustiques pour synthétiser n importe quelle occurrence de l arabe standard alors que le minimum jusque là était de 310 unités. Références Abina N., Guerti M. (1996). Influence de la fatigue vocale sur les paramètres prosodiques de certains phonèmes arabe et français. Ecole Nationale Polytechnique Alger. JTEA96. Bimbot F. (1988). Synthèse de la parole : des segments aux règles, avec utilisation de la décomposition temporelle. Ecole Nationale Supérieure des Télécommunications. Paris. Bouaissi, L. Redjeb. (1992).Contribution à la synthèse de la parole arabe. Djoudi M. (1991). Utilisation des techniques d intelligence artificielle pour le décodage phonétique de l arabe standard. CRIN INRIA Lorraine France. Maghrebin symposium on programming and system, Alger. Donovan R.E. (1996). Trainable Speech synthesis. Camridge university engineering departement. Duleim M. Al-Qahtani. (2001). Epenthesis and Deletion of Arabic Sonorant Consonants. Jubail Industrial College Ghazali S., Habaili H., Zrigui M. (1990). Correspondance graphème-phonème pour la synthèse de la parole arabe à partir du texte, IRSIT. Congrès dialogue homme machine Tunis. Guerti M. (1998). Le principe de la synthèse de la parole. Ecole Nationale Polytechniques Alger. JTEA98. Guerti M. (1983). Contribution à la synthèse de la parole par diphones en arabe standard, Institut de Linguistique et de Phonétique. Alger. Lemmety S. (2000). Review of speech synthesis technology, Helsinki University of Technology. Thèse. Moudenc T., Emerard F. (2003). Synthèse vocale et handicap, Annales de télécommunications. pp 928-934. Mansour Al-Ghamdi, Moustafa Elshafei and Husni-Al-Muhtaseb. (2002). Arabic Text-To-Speech: Speech Units. Supported by King Abdulaziz City for Science and Technology Project Number AT-18-12 Mansour M. Alghmadi. (2000). KACST Arabic Phonetics Database. Computer & Electronics Research Institute, King Abdulaziz City for Science and Technology, Riyadh. Moulines E., Cappe O. (1996). Synthèse de la parole à partir du texte, Techniques de l ingénieur.h1960 pp 7. Saidane T., Ahmed HADDAD, Zrigui M., Pr Ben Ahmed M. (2004). Réalisation d un système hybride de synthèse de la parole arabe utilisant un dictionnaire de polyphones. JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, Maroc. Saidane T., Zrigui M., Pr Ben Ahmed M. (2004). La Transcription Orthographique-Phonétique de la Langue Arabe. RÉCITAL 2004, Fès, Maroc. Saidane T., Zrigui M., Ben Ahmed M. (2004). Constitution d un dictionnaire de polyphones pour un système de synthèse de la parole arabe. SETIT 2004. Tunisie. Saidane T., Zrigui M., Ben Ahmed M. (2003). Modèle hybride de synthèse de la parole arabe. SETIT 2003. Tunisie. Saidane T., Zrigui M., Pr Ben Ahmed M. (2002). La Transcription Orthographique-Phonétique de la Langue Arabe. Tahar 2ème Conférence internationale JTEA. Zrigui M., Ghazali S., Ben miled Z., Jemni M. (1990). Synthèse de l'arabe standard à partir du texte par TD PSOLA, 18ème journée d étude sur la parole. Belgique. Zrigui M., Mili A, Jemni M. (1991). Vers un système automatique de synthèse de la parole arabe, Maghrebin symposium on programming and system, Alger. pp 180-197.