Web Arabic corpus: Construction d un large corpus arabe annoté morpho-syntaxiquement à partir du Web

Transcription

1 Web Arabic corpus: Construction d un large corpus arabe annoté morpho-syntaxiquement à partir du Web Dhaou Ghoul Laboratoire STIH, Université Sorbonne Paris4, 1 rue Victor cousin Paris Dhaou.ghoul@gmail.com RÉSUMÉ. Dans ce papier, nous présentons une méthodologie de construction d un large corpus annoté grammaticalement à partir du Web. Notre objectif est d avoir une grande ressource pour la langue arabe qui permette aux chercheurs dans le domaine du traitement automatique de la langue de réaliser des applications en TAL. Pour ce faire, tout d abord nous avons pris les données textuelles réalisées au cours de notre recherche dans le cadre de notre projet de thèse. Ensuite, nous avons appliqué l analyseur morphosyntaxique «Tree Tagger» pour annoter ces données automatiquement dans le but d avoir à disposition un large corpus annoté. ABSTRACT. In this paper, we present a methodology to build a large grammatically annotated corpus from the Web. Our goal is to have a great resource for the Arabic language that allows researchers in the field of automatic language processing to create applications in NLP. To achieve this, first we took the textual data made during our research as part of our thesis project. Then we applied the morphosyntactic analyzer Tree Tagger to automatically annotate data in order have available a large annotated corpus. MOTS CLÉS : TAL, corpus, langue arabe, Tree Tagger, Web, précision, apprentissage. KEYWORDS: NLP, corpora, Arabic language, Tree Tagger, Web, precision, learning. 1. Introduction La construction des corpus électroniques annotés morpho-syntaxiquement reste une tâche indispensable pour réaliser des systèmes de TAL robustes. De nos jours, plusieurs corpus annotés sont disponibles gratuitement pour la langue anglaise et française (Candito et Seddah, 2012). Pour la langue arabe et malgré les différents travaux effectués dans le domaine du traitement automatique, il reste toujours compliqué de trouver assez de ressources gratuites à propos de cette langue. Dans le cadre de notre projet de thèse (Mogador), nous avons décidé de créer notre propre corpus à partir du web. Ceci, dans le but de repérer les différents tokens 1 en arabe littéraire, et de créer une grammaire pour chaque token. Avec le développement de l internet et de ses services, le web est devenu une grande source de documents dans différentes langues et différents domaines. Cette source alliée à des supports de stockage permet la construction rapide de corpus (Meftouh et al, 2007). Dans ce papier, nous présentons les différents processus qui sont utiles à la construction d un vaste corpus étiqueté à partir du Web dans le but d améliorer les différentes applications de TAL pour l arabe (analyseur morphosyntaxique, extraction d informations, traduction automatique ). 1 Les mots qui n appartiennent pas au lexique arabe et n obéissent pas à la dérivation morphologique de l arabe.

2 Ce papier est organisé de la manière suivante : la section 2 présente quelques corpus ou travaux qui ont été effectués dans ce domaine, la section 3 présente la méthode de l annotation de notre corpus (catégories grammaticales) et la section 4 décrit l évaluation de l annotation de notre corpus. Les conclusions de ce travail feront l objet de la section Etat de l art: La plupart des chercheurs travaillant dans le domaine du traitement automatique de la langue arabe ont choisi de construire leurs propres ressources pour réaliser leurs applications. Dans cette section, nous allons présenter deux ressources électroniques déjà réalisées pour la langue arabe : Le corpus coranique arabe 2 (Kais et Habash, 2010) est une ressource linguistique en ligne annotée avec différentes couches d annotation y compris: la segmentation morphologique, l étiquetage morphosyntaxique et l analyse syntaxique en se basant sur la grammaire de dépendance القرأن الكريم) (إعراب et une ontologie sémantique. Le coran contient mots répartis sur 114 chapitres, chaque chapitre contient une séquence des versets numérotés. L annotation de ce corpus est basée sur Buckwalter Arabic Morphological Analyzer ou BAMA (Buckwalter, 2002) qui utilise un jeu d étiquettes contient 55 étiquettes. KALIMAT (El-Haj et Koulali, 2013) est une collection de articles à partir du journal Omani Alwatan 3 qui a été effectué par (Abbas et al, 2011). Ce corpus contient mots repartis sur six domaines (Culture, Economie, religion, Sports, International, Local). L annotation se fait grâce à Stanford PosTagger (Toutanova et all, 2003) en se basant sur un jeu d étiquettes contenant 33 étiquettes. 3. Construction du corpus : différents processus La réalisation de notre corpus porte sur l extraction de différents articles à partir d un site web. Le site que nous avons choisi est le site du journal électronique «Alwatan» (الوطن) en 2004 (Ghoul, 2014). Notre corpus est constitué de phrases (nombre approximatif car en arabe on n utilise pas souvent les ponctuations ce qui rend très difficile le comptage des phrases dans un texte) et mots (dont mots différents) distribués sur quatre domaines : culture, économie, religion et sports, de la manière suivante : Domaine Nb articles Nb phrases Nb mots / Nb mots différents Nb tokens (mots-outils) Culture / Economie / Religion / Sports / Total / Table 1. Statistiques de notre corpus

3 Notons que nous avons translitéré les textes sous la forme de Buckwalter 4 (Buckwalter, 2002) pour éviter les problèmes de codage arabe et pour faciliter le nettoyage automatique de notre corpus Segmentation du corpus: La première phase de l annotation morphosyntaxique d un corpus est la segmentation en morphèmes. Pour la langue arabe la segmentation est une tâche loin d être facile en raison de l agglutination. Au cours de notre recherche, nous avons essayé de réaliser un algorithme de segmentation en nous basant sur des règles qui traitent dans la majorité des cas la forme correcte d un mot en arabe. Notre algorithme a été implémenté en Perl (Ghoul,2013). Le principe de cette méthode est basé sur un corpus segmenté manuellement. En effet, nous avons effectué une segmentation grossière au niveau des espaces et des signes de ponctuation. Ensuite, on compare chaque mot avec la forme déjà segmentée. La segmentation est considérée valide si le mot est trouvé dans le corpus. Sinon, on parcourt le mot dans le but d extraire les prés-bases et les post-bases afin d obtenir la forme correcte du mot en arabe. Par contre, avec cette méthode, nous avons constaté qu il reste des ambiguïtés de découpage pour certains mots qui peuvent se découper de plusieurs façons différentes. On prend l exemple du mot «ألم» qui peut se découper soit en : لم+أ conjonction d interrogation+ particule de négation, soit en ألم : nom masculin singulier (douleur). Après avoir segmenté notre corpus, nous allons appliquer un outil d annotation afin d obtenir un corpus étiqueté. Ce travail sera l objet de la section suivante Annotation du corpus : Le jeu d étiquettes : La plupart des chercheurs ne sont pas d accord sur ce le choix du jeu d étiquettes. Quelques études ont été déjà faites sur la taille du jeu d étiquettes et son influence sur les performances des analyseurs. Les résultats obtenus annoncent que la taille réduite donne des bonnes performances pour les analyseurs syntaxiques mais qu on n y trouve pas plus d informations sur la langue et qu on reste dans la généralité. Notre objectif dans ce travail est de réaliser un corpus qui contienne le maximum des informations pour être utilisable dans les différentes applications en TAL et en particulier pour repérer les tokens ou jetons de la langue arabe. C est pourquoi, nous avons décidé de créer notre propre jeu d étiquettes en collaboration avec des spécialistes en linguistique arabe. Notre jeu d étiquettes contient 61 catégories syntaxiques (voir annexe). Dans ce jeu d étiquette, nous avons essayé de donner plus d informations sur l unité lexicale et surtout les tokens afin de diminuer le taux d ambiguïté Processus d annotation : L annotation d un vaste corpus manuellement est coûteuse. En effet, nous avons essayé de trouver un mécanisme ou une méthodologie moins coûteuse surtout au niveau du temps. Notre méthodologie d annotation se compose de deux étapes : D abord, nous avons annoté manuellement grâce à un expert en linguistique arabe une partie importante de notre corpus (300 phrases) qui a été utilisée pour l apprentissage du modèle. Ensuite nous avons utilisé l outil «Tree Tagger» (Schmid, 1995) pour entraîner et annoter automatiquement le reste de notre corpus. En effet, notre choix de cet étiqueteur se justifie par sa performance sur plusieurs langues (anglais, français, allemand, ) et en plus il est gratuit et facile à utiliser sur l Unix. Pour la langue française, (Stein, 2007) a entraîné cet analyseur sur un corpus d apprentissage contenant mots et l a évalué en utilisant un corpus contenant 4

4 mots. Il rapporte un taux de précision de 92.7% d étiquetage. Notre corpus d apprentissage contient mots repartis sur 2855 phrases (il faut compter environ une minute pour annoter un mot manuellement). Comme nous avons indiqué ci-dessus, l annotation automatique de notre corpus est effectuée par Tree Tagger. Cet outil utilise deux programmes : train-tree-tagger et tree-tagger. Pour générer le modèle du langage nous avons utilisé le premier programme (train-tree-tagger) qui prend en entrée trois paramètres : notre corpus d apprentissage, jeu d étiquettes et un lexique de la langue en question. Notons que nous avons utilisé le lexique qui a été réalisé par (Ghoul, 2013). Après avoir obtenu un modèle du langage, nous avons exécuté le deuxième programme (tree-tagger) qui prend en entrée le reste de notre corpus à annoter et le modèle généré par le premier programme afin de produire notre corpus annoté syntaxiquement. 4. Evaluation de l annotation et discussion : L évaluation de notre annotation est basée sur le calcul de l accord inter-annotateurs. Pour réaliser ce calcul, nous avons tout d abord pris une partie de notre corpus d une façon aléatoire (100 phrases au début, 100 phrases au milieu et 100 à la fin) que nous avons appelé «corpus d évaluation». Ce dernier contient 8135 mots repartis sur 300 phrases. Ensuite, deux linguistes arabes A1 et A2 ont annoté manuellement ce corpus. Enfin, à partir de leurs annotations, nous avons calculé l accord inter-annotateurs AI entre A1 et A2. Après avoir comparé notre corpus d évaluation avec les deux annotations d A1 et A2, nous avons trouvé les résultats suivants : 285 phrases bien annotées par rapport à A1 et 280 par rapport à A2, 15 phrases mal annotées par rapport à A1 et 20 par rapport à A2. A1 et A2 ont été d accord sur 275 phrases bien annotées soit AI= 0.91%.Notons que nous avons calculé la performance de l annotation automatique par «Tree Tagger» sur le même échantillon des données afin d obtenir une précision P=89%. Le taux d accord AI et de précision P nous permettrons plus ou moins (taille de corpus d évaluation n est pas volumineuse) de valider la qualité de l annotation de notre corpus (Web Arabic Corpus). Pour confirmer la qualité de notre corpus, nous allons par la suite augmenter la taille de corpus d évaluation et l annoter par A1 et A2. 5. Conclusion : L objectif de notre travail, est de construire un vaste corpus annoté grammaticalement pour la langue arabe nommé Web Arabic corpus. Pour ce faire, nous avons utilisé le Web comme ressource de données textuelles. Après avoir récolté, nos données et l avoir nettoyées nous avons appliqué «Tree Tagger» pour annoter notre corpus automatiquement en nous basant sur un jeu d étiquettes validées par un linguiste arabe. Références Abbas M, Smaili K and Berkani D Evaluation of Topic Identification Methods on Arabic Corpora, Journal of Digital Information Management,vol. 9, N 5. Pages Candito M and Seddah D Le corpus Sequoia: annotation syntaxique et exploitation pour l adaptation d analyseur par pont lexical, In 19 e conférence sur le Traitement Automatique des Langues Naturelles, Grenoble, France. Ghoul D Développement de ressources pour l entrainement et l utilisation de l étiqueteur morphosyntaxique TreeTagger sur l arabe, RECITAL 13, Conférence TALN- Recital, Sables d olonnes France, Juin 2013.

5 Ghoul D Construction d un corpus arabe à partir du Web dans le but d identifier les mots-outils ou tokens, JADT 14. Journées internationales d analyse statistiques des données textuelles, INALCO, Paris France, 3-6 Juin Koulali R and Meziane A A contribution to Arabic Named Entity Recognition, In ICT and Knowledge Engineering, ICT Knowledge Engineering. Pages Dukes K and Habash N Morphological Annotation of Quranic Arabic, Language Ressources and Evaluation Conference (LREC), Valetta, Malta. Pages Meftouh K, Smaïli K and Laskri M T Constitution d un corpus de la langue arabe à partir du Web, CITALA 07, Colloque international du traitement automatique de la langue arabe, Iera, Rabat, Morocco, juin Schmid H Improvements in Part-of-Speech-Tagging with in application to German, Proceeding of the ACL SIGDAT-Workshop. Dublin, Ireland. Stein A Part of Speech Tagging and lemmatization of old French, Tim Buckwalter Buckwalter Arabic Morphological Analyzer version 1.0, Linguistic Data Consortium, University of Pennsylvania. Toutanova K, Klein D, Manning C D and Singer Y Feature-Rich Part-Of-Speech Tagging With a Cyclic Dependency Network, In Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology Volume 1, NAACL 03. Pages Annexe Jeux d étiquettes : DET: Déterminant, PRP: Préposition, PRMS: Pronom relatif masculin singulier, PRMP : Pronom relatif masculin pluriel, PRFS : Pronom relatif féminin singulier, PRFP : Pronom relatif féminin pluriel, PRMD : Pronom relatif masculin duel, PRFD : Pronom relatif féminin duel, PPIMS : Pronom personnel isolé masculin singulier, PPIFS : Pronom personnel isolé féminin singulier, PPIMP : Pronom personnel isolé masculin pluriel, PPIFP : Pronom personnel isolé féminin pluriel, PPIMD : Pronom personnel isolé masculin duel, PPIFD : Pronom personnel isolé féminin duel, PPAMS : Pronom personnel attaché masculin singulier, PPAFS : Pronom personnel attaché féminin singulier, PPAMP : Pronom personnel attaché masculin pluriel, PPAFP : Pronom personnel attaché féminin pluriel, PPAMD : Pronom personnel attaché masculin duel, PPAFD : Pronom personnel attaché féminin duel, PDMS : Pronom démonstratif masculin singulier, PDFS : Pronom démonstratif féminin singulier, PDMP : Pronom démonstratif masculin pluriel, PDFP : pronom démonstratif féminin pluriel, PDMD : Pronom démonstratif masculin duel, PDFD ; Pronom démonstratif féminin duel, CC : Conjonction de coordination, CS : Conjonction de subordination, ADJE : Adjectif élatif, ADJR : Adjectif relationnel, ADVT : Adverbe du temps, VACC : Verbe à l accompli, VIN : Verbe à l inaccompli, VI : Verbe à l impératif, VOT : Verbe opérateur du temps, CCOR : Conjonction de corroboration, PN : Particule de négation, PREP : Particule de réponse, PMOD : Particule de modification (harf istedraak), NMS : Nom masculin singulier, NFS : Nom féminin singulier, NMP : Nom masculin pluriel, NFP : Nom féminin pluriel, NCA : Nom calendaire, NL : Nom de lieu, NPM : Nom propre masculin, NPF : Nom propre féminin, ADJ : Adjectif, IN :Interjection, CIN : Conjonction d interrogation, CH : Chiffre, ME : Mot étranger : PC : Particule de comparaison, PRES : Particule de restriction, DETD : Déterminant distributif, CCON : Conjonction conditionnel, Particule accusatif, CRE : Conjonction de reprise, PCER : Particule de certitude, PONC : Ponctuation, SENT : Fin de phrase.