ACTES DU COLLOQUE. Colloque pour les Étudiants Chercheurs en Traitement Automatique du Langage naturel et ses applications.

Transcription

1 ACTES DU COLLOQUE Colloque pour les Étudiants Chercheurs en Traitement Automatique du Langage naturel et ses applications Organisé par Le groupe de recherche ANLP-RG (Arabic natural Language Processing Group) du Laboratoire MIRACL (Multimedia, InfoRmation Systems and Advanced Computing Laboratory) du 23 au 25 Mars 2015 à l hôtel Royal Kenz Thalasso & Spa, Sousse, Tunisie Avec la participation

2 2

3 Préface Après la réussite de sa première édition, le groupe de recherche ANLP (ANLP-RG : Arabic Natural Language Research Group) du laboratoire MIRACL organise la deuxième édition de la conférence CEC-TAL CEC-TAL est une conférence internationale réservée aux étudiants des cycles supérieurs (master ou doctorat) ainsi qu aux jeunes chercheurs travaillant sur le traitement automatique du langage naturel. Cette conférence intéresse particulièrement les étudiants en informatique, en linguistique, sciences cognitives, sciences de l'éducation et tout autre domaine pertinent au TALN. L'objectif de cette conférence est de rassembler des chercheurs de disciplines connexes (développement de ressources linguistiques, Analyse et génération, traitement automatique du langage naturel, application du TAL) et des spécialistes du monde industriel et des entreprises qui déploient des méthodes d'extraction et de gestion des connaissances, afin de communiquer des travaux de qualité, d'échanger et de fertiliser des idées nouvelles. CEC-TAL a pour vocation d offrir aux jeunes chercheurs en Traitement Automatique des Langues l occasion de présenter leurs travaux et de comparer leurs approches. Cette conférence a un comité de programme, constitué de professeurs, de chercheurs en TALN 3

4 Comités Comité d'organisation Lamia HADRICH BELGUITH (FSEGS) Fatiha SADAT (UQAM) Maher JAOUA (FSEGS) Mohamed Mahdi BOUDABOUS (ENIG) Amine BAYOUDHI (FSEGS) Marwa GRAJA BOUDABOUS (ISIMA) Iskander KESKES (ISGG) Comité du programme Abdelmajid Ben Hamadou Lamia Hadrich Belguith Chafik Aloulou Bilel Gargouri Maher Jaoua Faiez Gargouri Mariem Ellouze Khemakhem Wajdi Zaghouani Fatiha Sadat Rim Faiz Farah Benamara Zitoune Hatem Ghorbel Kais Haddar Youness Bahou Mohamed Hedi Maaloul Karim Bouzouba Mona Diab Imed Zitouni Thierry Hamon Azzedine Mazroui Philippe Blache Paolo Rosso Khaled Shaalan Almoataz Bellah Elsaid Mohame Mhiri Aida Khemakhem Souha Mezghanni Héla Fehri MIRACL Lab., University of Sfax - Tunisia ANLP-RG, MIRACL Lab., University of Sfax - Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia MIRACL Lab., University of Sfax - Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia MIRACL Lab., University of Sfax -Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia Carnegie Mellon University - Qatar GDAC Lab., Université of Québec - Montréal LARODEC Lab., IHEC, University of Carthage - Tunisia IRIT Lab., University of Paul Sabatier - Toulouse ISIC Lab., University of Applied Sciences-Switzerland MIRACL Lab., University of Sfax - Tunisia MIRACL Lab., University of Kairouan - Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia LARIE Lab., Mohammed Vth University-Morocco CCLS center, Columbia University Microsoft, USA LIMSI-CNRS & Université Paris 13, France University Mohammed First, Oujda Morocco LPL Lab., CNRS & University of Aix-Marseille NLE Lab, Universitat Politècnica de València, Spain The British University in Dubai, UAE Cairo University - Egypt FSS, University of Sfax - Tunisia MIRACL Lab., University of Sfax - Tunisia IHEC, University of Sfax - Tunisia ISG, University of Gabes - Tunisia 4

5 Sommaire Construction d une cascade de transducteurs pour la reconnaissance des dates à partir d un corpus Wikipédia. Fatma Ben Mesmia, Nathalie Friburger, Kais Haddar and Denis Maurel... 8 Web Arabic corpus : Construction d un large corpus arabe annoté grammaticalement à partir du Web. Ghoul Dhaou 12 La construction automatique d'un lexique d'opinion pour la langue arabe. Abidi Karima and Guiassa Yamina Tlili 17 Acquisition de connaissances multilingues, un espace sémantique comme langage pivot. Boucham Souhila and Aliane Hassina 22 Analyse syntaxique statistique de la langue arabe. Amira Barhoumi, Chafik Aloulou, Lamia Hadrich Belghith and Imed Zitouni.. 31 Intégration du profil utilisateur dans la reformulation des requêtes, la recherche des documents et le ré-ordonnancement des résultats : cas de la langue Arabe. Safi Houssem, Jaoua Maher and Belguith Hadrich Lamia 40 Construction d un Wordnet standard pour l arabe tunisien. Nadia Karmani Ep Ben Moussa and Adel M. Alimi Patents editor in order to automatically construct terminological databases. Chihebeddine Ammar and Kais Haddar A Thesaurus-based ontology generation. Mounira Chkiwa, Anis Jedidi and Faiez Gargouri Automatisation de l encodage des lexiques arabes en TEI. Hajer Maraoui and Kais Haddar Using finite-state transducers to build lexical resources for Unitex Arabic package. Noureddine Doumi, Ahmed Lehireche, Denis Maurel and Maamar Khater. 83 Development of Arabic particles lexicon using the LMF framework. Driss Namly, Karim Bouzoubaa, Youssef Tahir and Hakima Khamar 94 5

6 Programme Lundi 23 Mars h00-16h30 Accueil et Inscription 16h30-17h00 Ouverture de CEC-TAL h00-18h30 Session de présentation courte - Chair : Salma Jamoussi (ISIMS) 1. Fatma Ben Mesmia, Nathalie Friburger, Kais Haddar and Denis Maurel. "Construction d une cascade de transducteurs pour la reconnaissance des dates à partir d un corpus Wikipédia". 2. Ghoul Dhaou. "Web Arabic corpus : Construction d un large corpus arabe annoté grammaticalement à partir du Web". 3. Mohammed Saidi, Leila Falek, Bachir Boudraa and Hocine Teffahi. "Synthèse de la parole à très Bas Débit". 4. Abidi Karima and Guiassa Yamina Tlili. "La construction automatique d'un lexique d'opinion pour la langue arabe". 19h Dîner Mardi 24 Mars h30-10h00 Conférencier invité - Chair : Abdelmajid Ben Hamadou (ISIMS) Houda Bouamor (Carnegie Mellon University, Qatar) 10h00-10h30 10h30-12h30 Pause Café Session orale 1 Chair : Mariem Ellouze (ESC) Présentation 1 : Boucham Souhila and Aliane Hassina. "Acquisition de connaissances multilingues, un espace sémantique comme langage pivot". Présentation 2 : Amira Barhoumi, Chafik Aloulou, Lamia Hadrich Belghith and Imed Zitouni. "Analyse syntaxique statistique de la langue arabe". Présentation 3 :Safi Houssem, Jaoua Maher and Belguith Hadrich Lamia. "Intégration du profil utilisateur dans la reformulation des requêtes, la recherche des documents et le ré-ordonnancement des résultats : cas de la langue Arabe". Présentation 4 : Nadia Karmani Ep Ben Moussa and Adel M. Alimi. "Construction d un Wordnet standard pour l arabe tunisien". 13h00-15h00 15h00-16h00 Déjeuner Session orale 2 Chair : Chafik Aloulou (FSEGS) 6

7 Présentation 1 :Chihebeddine Ammar and Kais Haddar. "Patents editor in order to automatically construct terminological databases". Présentation 2 : Mounira Chkiwa, Anis Jedidi and Faiez Gargouri. "A Thesaurus-based ontology generation". 16h00-18h30 19h Programme Social : sortie guidée par train touristique et visite de la Medina. Dîner Mercredi 25 Mars h30-10h00 Conférencier invité - Chair : Lamia Belguith (FSEGS) Salma Jamoussi (Université de Sfax, Tunisie) - Thématique : L'apprentissage profond pour le TALN 10h00-10h30 10h30-12h00 Pause Café Session orale 3 Chair : Houda Bouamor (CMU) Présentation 1 : Hajer Maraoui and Kais Haddar. "Automatisation de l encodage des lexiques arabes en TEI". Présentation 2 :Noureddine Doumi, Ahmed Lehireche, Denis Maurel and Maamar Khater. "Using finite-state transducers to build lexical resources for Unitex Arabic package". Présentation 3 :Driss Namly, Karim Bouzoubaa, Youssef Tahir and Hakima Khamar. "Development of Arabic particles lexicon using the LMF framework" 12h00-13h00 Prix de la meilleure présentation et Clôture de CEC-TAL h00-15h00 15h00-18h00 Déjeuner Programme Social : sortie sur bateau 7

8 Construction d une cascade de transducteurs pour la reconnaissance des dates à partir d un corpus Wikipédia Fatma Ben Mesmia*, Nathalie Friburger **, Kais Haddar* et Denis Maurel** *Université de Sfax, Laboratoire MIRACL, Multimedia, InfoRmation Systems and Advanced Computing Laboratory fatmabm@ymail.com, Kais.Haddar@fss.rnu.tn ** Université François-Rabelais de Tours, Laboratoire d Informatique {nathalie.friburger, denis.maurel}@univ-tours.fr RÉSUMÉ.Les dates sont souvent des sources d information et peuvent aussi être incluses dans des entités nommées représentant les lieux et les évènements. Leur reconnaissance doit être intégrée dans le processus de reconnaissance des entités nommées arabes. En conséquence, dans le présent article, nous élaborons une cascade de transducteurs reconnaissant les entités nommées arabes de type Date à partir d un corpus extrait de Wikipédia. L implémentation de cette cascade est établie en utilisant l outil CasSysdisponible sous la plateforme linguistique libre Unitex. ABSTRACT.The dates often are sources of informationand can beincluded in named entities representing the locations and events. Their recognition mustbe integrated in the process of recognition of Arab named entities.consequently, in the presentpaper,we develop a cascade of transducers recognizing Arabic named entities withthe type Date from a corpus extracted of Wikipedia. The implementation of this cascade is established by using the tool CasSysavailable under the Unitex free linguistic platform. MOTS-CLÉS :Cascade de transducteurs, Wikipédia, REN, Unitex, CasSys. KEYWORDS: Cascade of transducers, Wikipedia, NER, Unitex, CasSys. 1. Introduction La reconnaissance des entités nommées (REN) constitue une piste de recherche encore très innovante. Elle n est pas une tâche facile car elle dépend en large partie d un nombre important de ressources à exploiter. Autrement dit, la complexité de la REN peut être justifiée par l incomplétude de ces ressources.le critère d exhaustivité est donc impossible. En contrepartie, le Web devient très exploité dans nos jours. Il fournit un nombre très intéressant des ressources libres sur lequel elles sont publiées. Parmi celles qui sont plus utilisées, citons Wikipédia.En ce sens, la Wikipédia arabe est considérée comme étant une ressource de connaissances pouvant illustrer des phénomènes linguistiques informatisés. Son exploitation offre l opportunité pour la valorisation del entité nommée arabe (ENA) de type Date. Les dates apparaissent dans différents textes (date de naissance, évènement ). Cependant, l extraction des dates peut rencontrer plusieurs problèmes (en particulier l'existence de différentes écritures régionales). C'est dans ce contexte que s inscrit le présent article. Notre objectif est donc de proposer une démarche baséeune cascade de transducteurs reconnaissant les ENA de type Date. Pour ce faire, nous devons, d une part, identifier un ensemble de mots déclencheurs permettant le repérage d ENA et, d autre part, construire un ensemble de transducteurs agissant sur un corpus avec un ordre prédéfini. La cascade proposée doit résoudre les problèmes d ambiguïté. Cet article s articule autour de quatre sections. La première section permet de présenter les approches existantes pour la REN. La deuxième section est dédiée à la description de la catégorisation des dates à partir de Wikipédia. La troisième section est consacrée à détailler la démarche proposée qui va être expérimentée à l aide du système CasSys de la plateforme 8

9 linguistique libre Unitex. Cette expérimentation est présentée et évaluée dans la section quatre. 2. Etat de l art sur les systèmes de reconnaissance des entités nommées Les approches de REN existantes sontde trois types : symbolique, statistique et hybrides. Les facteurs de distinction entre les trois approches citées sont leur acquisition et leur manipulation, ce n est pas la nature des informations qui sera étudiées.l approche symbolique s appuie spécialement sur l'utilisation de grammaires formelles construites à la main par un linguiste (Friburger et Maurel, 2004 ; Maurel et al., 2011). Elle se fonde sur des règles exploitant des marqueurs lexicaux, des dictionnaires, etc. Parmi les travaux basés sur cette approche, citons :le système NERA développé par (Shaalan et Raza, 2009) reposant sur l utilisation d un ensemble de dictionnaires d EN et sur une grammaire sous forme d'expressions régulières ; le module de repérage des EN à base de règles pour la langue arabe développé par (Zaghouani et al., 2010) en exploitant une première étape de prétraitement lexical qui prépare le texte pour son analyse linguistique ; le système de reconnaissance d ENA pour le domaine de sportdéveloppé par (Fehri, 2012) à travers un ensemble de dictionnaires, des patrons syntaxiques etle formalisme de transducteurs sur la plateforme linguistique Nooj.L approche statistiqueutilise des techniques statistiques sur de larges corpus de textes où les entités-cibles ont été étiquetées. Elle utilise aussi un algorithme d apprentissage permettant d élaborer automatiquement une base de connaissances.en se basant sur l'approche statistique, une technique d apprentissage SVM a été conçue par (Benajiba et al., 2008) pour mettre en œuvre un système de reconnaissance d entités nommées en exploitant les particularités de la langue arabe.l approche hybride utiliseà la fois des règles écrites manuellement et des règles extraites grâce à des algorithmes d'apprentissage et à des arbres de décisions.dans ce contexte, se situe le travail de (Shaalan et Oudah. 2014). 3. Catégorisation des dates à partir de Wikipédia La catégorisation des ENA de type Date que nous proposons est basée sur l étude effectuée sur le corpus Wikipédia d étude constitué de 17 fichiers textes.de ce corpus, nous avons pu identifier trois formes de dates. Première forme d ENA de type Date. La première formeest composée par l année uniquement. Cette formecontient un terme déclencheur qui peut la précéder et/ou la suivre.par exemple, dans «عام 1434 ھ» (année 1934 hégirienne) le mot عام joue le rôle d un mot déclencheur permettant d identifier le nombre 1434 comme étant une année, tandis que le mot ajoute un degré de certitude sur le nombre identifié. C est un indice que l année désignée ھ est hégirienne.«في 2004» (en 2004)présente un deuxième exempled apparition respectant la في première forme déjà mentionnée. L élément brillant est donc l année. Le mot déclencheur peut créer une ambiguïté sémantique dans la langue arabe. Il peut être suivi par un nombre désignant l année (2004) ou suivie d une suite de caractères indiquant une date. Comme par exemple القرن 21 في (en 21ème siècle) ou في الربیع (auprintemps). Deuxième forme de type Date.La deuxième forme décrit le contexte d apparition d une date dont le mois est un élément central. Cette date est incomplète car elle est composée à son tour de deux formes. Nous trouvons soit le nom et/ou le nombre du jour et le mois, soit le mois et l année.d après l étude de corpus, nous constatons que certainesdates peuvent être détectées ثورة ex., selon leur contexte d apparition,lorsqu'elles sont intégrées dans des événements (par / ملعب 14 جانفي برادس ex,. 14/ La révolution du 14 janvier) ou dans des noms de lieux (par جانفي Stade 14 janvier de Rades). Quant aux mois hégiriens,ilsapparaissent généralement dans les évènements religieux (par ex,. یوم العید 1 شوال / L aïd 1 er chawal). Les dates peuvent avoir des 9

10 écritures différentes dans les pays arabes. Par exemple, dans les pays orientaux, les mois syriaques et musulmans sont les plus utilisés. Par contre, les mois grégoriens sont utilisés d une façon fréquente dans les pays magrébins. Au sein de cette union, il existe une différence aux niveaux des appellations des mois. En Tunisie, comme en Algérie,le mois d août en arabe». غشت «est», tandis qu au Maroc, son appellation أوت «est Troisième forme de type Date. La troisième formeà reconnaitre dans le corpus d étude concerne une date complète, telle qu elle composée par le nom et/ou le nombre du jour, le mois, یوم الا حد 26 أكتوبر l année.«2014» (Dimanche 26 octobre 2014)illustre une forme possible d une date complète figurant dans le corpus d étude. 4. Démarche proposée pour la reconnaissance des entités nommée de type Date La démarche que nous proposonsest composée par deux étapes : l identification des ressources nécessaires pouvant cerner les entités nommées à reconnaitre et la création des transducteurs dont chacun possède son propre rôle Identification des ressources nécessaires Les ressources nécessaires sont les dictionnaires, les mots déclencheurs, les règles d extraction. Un dictionnaire doit être crééstockant les noms de la semaine et les noms du mois selon les différents calendriers.les règles d extraction des dates sont identifiées grâce aux mots déclencheurs. Par exemple, les mots déclencheurs حتى,ثورة et reconnaissentلیلة respectivement les formes suivantes : <NB><mois><NB>, عام< NB > <mois><nb> et <NB><mois><NB> Cascade de transducteurs proposée La cascade de transducteurs proposée englobe trois transducteurs principaux. Ces transducteursdoivent être classés selon les trois formes identifiées. Cette décomposition est faite pour éviter les problèmes de chevauchement de certains chemins, d une part, et les problèmes d ambigüité, d autre part.donnons l exemple du premier transducteur reconnaissant une date complète (figure 1). Figure 1. Exemple d'un transducteur reconnaissant une date complète 5. Expérimentation et évaluation La cascade de transducteurs proposée est implémentéesous la plateforme linguistique Unitex. La figure 2 ci-dessous montre la forme de la cascade qui est générée grâce à l outil CasSys. L expérimentationeffectuée montre que chaque graphe ajoute ses propres annotationsà l aide du mode «Merge». Ce mode permet d avoir, en sortie, une ENA reconnue entourée par une balise définie au sein des transducteurs. 10

11 Figure 2. Cascade de transducteurs reconnaissant les dates Dans le but d effectuer une évaluation nous avons appliqué la cascade implémentée sur le corpus de test. Le corpus est composé de 50 fichiers textes dont sa construction rassemble à celle du corpus d étude. Le résultat obtenu dépend en grande partie des mots déclencheurs établis précédemment. Echantillons traités Entités de type Date trouvées Entités détectées parerreur Tableau 1. Tableau récapitulatif des résultats obtenus Nous avons évalué manuellement la qualité de notre travail sur le corpus de test. Les résultats sont satisfaisants (Tableau 1) car les transducteurs ont pu couvrir la majorité des ENA y figurant.avec une précision de 0,96 et un rappel de 0,95.Nous constatons donc que la méthode proposée est efficace. 6. Conclusion et perspectives Dans le présent article, nous avons construit un ensemble de transducteurset généré une cascade permettant la reconnaissance des ENA de type Date. La génération de cette cascade est réalisée à l aide du système CasSys, intégré dans la plateforme linguistique Unitex. Le fonctionnement de la cascade de transducteurs a nécessité la construction d un dictionnaire et une liste des mots déclencheurs. Dans un futur immédiat, nous tentons decouvrir les autres types (les noms de personnes, les évènements, les noms de lieux, etc.) afin de générer une cascade de transducteurs reconnaissant toutes les ENA. Nous continuons à travailler avec la ressource libre Wikipédia arabeenprofitant de sa richesse pour enrichir nos corpus. 7. Références Benajiba Y. et Rosso P Arabic Named Entity Recognition using Conditional Random Fields, In Proceedings of Workshop on HLT and NLP within the Arabic World, LREC. Friburger N. et Maurel D. 2004, Finite-state transducer cascade to extract named entities in texts, Theoretical Computer Science, volume 313 : Fehri H Reconnaissance automatique des entités nommées arabes et leur traduction vers le français, thèse de doctorat, Université de Sfax. Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I. et Nouvel D Cascades de transducteurs autour de la reconnaissance des entités nommées, Traitement automatique des langues, 52(1) : Shaalan K. et Raza H NERA : Named entity recognition for Arabic, Journal of the American Society for Information Science and Technology, 60(9) : Khaled Shaalan et Mai Oudah A hybrid approach to Arabic named entity recognition. Journal of Information Science, 40(1) : Zaghouani W., Pouliquen B., Ebrahim M. et Steinberger R Adapting a resource-light highly multilingual named entity recognition system to arabic, Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC 10)

12 Web Arabic corpus: Construction d un large corpus arabe annoté morpho-syntaxiquement à partir du Web Dhaou Ghoul Laboratoire STIH, Université Sorbonne Paris4, 1 rue Victor cousin Paris Dhaou.ghoul@gmail.com RÉSUMÉ.Dans ce papier,nous présentons une méthodologie de construction d un large corpus annoté grammaticalement à partir du Web. Notre objectif est d avoir une grande ressource pour la langue arabe qui permette aux chercheurs dans le domaine du traitement automatique de la langue de réaliser des applications en TAL. Pour ce faire, tout d abord nous avonspris les données textuelles réalisées au cours de notre recherche dans le cadre de notre projet de thèse. Ensuite, nous avons appliqué l analyseur morphosyntaxique «Tree Tagger» pour annoter ces données automatiquement dans le but d avoir à disposition un large corpus annoté. ABSTRACT. In this paper, we present a methodology to build a large grammatically annotated corpus from the Web. Our goal is to have a great resource for the Arabic language that allows researchers in the field of automatic language processing to create applications in NLP. To achieve this, first we took the textual data made during our research as part of our thesis project. Then we applied the morphosyntactic analyzer Tree Tagger to automatically annotate data in order have available a large annotated corpus. MOTS CLÉS :TAL, corpus, langue arabe, Tree Tagger, Web, précision, apprentissage. KEYWORDS: NLP, corpora, Arabic language, Tree Tagger, Web, precision, learning. 1. Introduction La construction des corpus électroniques annotés morpho-syntaxiquement reste une tâche indispensable pour réaliser des systèmes de TAL robustes. Denos jours, plusieurs corpus annotés sont disponibles gratuitement pour la langue anglaise et française (Candito et Seddah, 2012). Pour la langue arabe et malgré les différents travaux effectués dans le domaine du traitement automatique, il reste toujours compliqué de trouver assez de ressources gratuites à propos de cette langue. Dans le cadre de notre projet de thèse (Mogador), nous avons décidé de créer notre propre corpus à partir du web. Ceci, dans le but de repérer les différents tokens 1 en arabe littéraire, et de créer une grammaire pour chaque token. Avec le développement de l internet et de ses services, le web est devenu une grande source de documents dans différentes langues et différents domaines. Cette source alliée à des supports de stockage permet la construction rapide de corpus (Meftouh et al, 2007). Dans ce papier, nous présentons les différents processus qui sont utilesà la construction d unvaste corpus étiqueté à partir du Web dans le but d améliorer les différentes applications de TAL pour l arabe (analyseur morphosyntaxique, extraction d informations, traduction automatique ). Ce papier est organisé de la manière suivante : la section 2 présente quelques corpus ou travaux qui ont été effectués dans ce domaine, la section 3 présente la méthode de 1 Les mots qui n appartiennent pas au lexique arabe et n obéissent pas à la dérivation morphologique de l arabe. 12

13 l annotation de notre corpus (catégories grammaticales) et la section 4 décrit l évaluation de l annotation de notre corpus. Les conclusions de ce travail feront l objet de la section Etat de l art: La plupart des chercheurs travaillant dans le domaine du traitement automatique de la langue arabe ont choisi de construire leurs propres ressources pour réaliser leurs applications. Dans cette section, nous allons présenter deux ressources électroniques déjà réalisées pour la langue arabe : Le corpus coranique arabe 2 (Kais et Habash, 2010) est une ressource linguistique en ligne annotée avec différentes couches d annotation y compris: la segmentation morphologique, l étiquetage morphosyntaxique et l analyse syntaxique en se basant sur la grammaire de dépendance القرأن الكریم) (إعراب et une ontologie sémantique. Le coran contient mots répartis sur 114 chapitres, chaque chapitre contient une séquence des versets numérotés. L annotation de ce corpus est basée sur Buckwalter Arabic Morphological Analyzer ou BAMA (Buckwalter, 2002) qui utilise un jeu d étiquettes contient 55 étiquettes. KALIMAT (El-Haj et Koulali, 2013) est une collection de articles à partir du journal Omani Alwatan 3 qui a été effectué par (Abbas et al, 2011). Ce corpus contient mots repartis sur six domaines (Culture, Economie, religion, Sports, International, Local). L annotation se fait grâce à Stanford PosTagger (Toutanova et all, 2003) en se basant sur un jeu d étiquettes contenant 33 étiquettes. 3. Construction du corpus : différents processus La réalisation de notre corpus porte sur l extraction de différents articles à partir d un site web. Le site que nous avons choisi est le site du journal électronique «Alwatan» (الوطن) en 2004 (Ghoul, 2014). Notre corpus est constitué de phrases (nombre approximatif car en arabe on n utilise pas souvent les ponctuations ce qui rend très difficile le comptage des phrases dans un texte) et mots (dont mots différents) distribués sur quatre domaines : culture, économie, religion et sports, de la manière suivante : Domaine Nb articles Nb phrases Nb mots / Nb mots différents Nb tokens (mots-outils) Culture / Economie / Religion / Sports / Total / Table 1. Statistiques de notre corpus 13

14 Notons que nous avons translitéré les textes sous la forme de Buckwalter 4 (Buckwalter, 2002) pour éviter les problèmes de codage arabe et pour faciliter le nettoyage automatique de notre corpus Segmentation du corpus: La première phase de l annotation morphosyntaxique d un corpus est la segmentation en morphèmes. Pour la langue arabe la segmentation est une tâche loin d être facile en raison de l agglutination. Au cours de notre recherche, nous avons essayé de réaliser un algorithme de segmentation en nous basant sur des règles qui traitent dans la majorité des cas la forme correcte d un mot en arabe. Notre algorithme a été implémenté en Perl (Ghoul,2013). Le principe de cette méthode est basé sur un corpus segmenté manuellement. En effet, nous avons effectué une segmentation grossière au niveau des espaces et des signes de ponctuation. Ensuite, on compare chaque mot avec la forme déjà segmentée. La segmentation est considérée valide si le mot est trouvé dans le corpus. Sinon, on parcourt le mot dans le but d extraire les prés-bases et les post-bases afin d obtenir la forme correcte du mot en arabe. Par contre, avec cette méthode, nous avons constaté qu il reste des ambiguïtés de découpage pour certains mots qui peuvent se découper de plusieurs façons différentes. On prend l exemple du mot «ألم» qui peut se découper soit en : لم+أ conjonction d interrogation+ particule de négation, soit en ألم : nom masculin singulier (douleur). Après avoir segmenté notre corpus, nous allons appliquer un outil d annotation afin d obtenir un corpus étiqueté. Ce travail sera l objet de la section suivante Annotation du corpus : Le jeu d étiquettes : La plupart des chercheurs ne sont pas d accord sur ce le choix du jeu d étiquettes. Quelques études ont été déjà faites sur la taille du jeu d étiquettes et son influence sur les performances des analyseurs. Les résultats obtenus annoncent que la taille réduite donne des bonnes performances pour les analyseurs syntaxiques mais qu on n y trouve pas plus d informations sur la langue et qu on reste dans la généralité. Notre objectif dans ce travail est de réaliser un corpus qui contienne le maximum des informations pour être utilisable dans les différentes applications en TAL et en particulier pour repérer les tokens ou jetons de la langue arabe. C est pourquoi, nous avons décidé de créer notre propre jeu d étiquettes en collaboration avec des spécialistes en linguistique arabe. Notre jeu d étiquettes contient 61 catégories syntaxiques (voir annexe). Dans ce jeu d étiquette, nous avons essayé de donner plus d informations sur l unité lexicale et surtout les tokens afin de diminuer le taux d ambiguïté Processus d annotation : L annotation d un vaste corpus manuellement est coûteuse. En effet, nous avons essayé de trouver un mécanisme ou une méthodologie moins coûteuse surtout au niveau du temps. Notre méthodologie d annotation se compose de deux étapes : D abord, nous avons annoté manuellement grâce à un expert en linguistique arabe une partie importante de notre corpus (300 phrases) qui a été utilisée pour l apprentissage du modèle. Ensuite nous avons utilisé l outil «Tree Tagger» (Schmid, 1995) pour entraîner et annoter automatiquement le reste de notre corpus. En effet, notre choix de cet étiqueteur se justifie par sa performance sur plusieurs langues (anglais, français, allemand, ) et en plus il est gratuit et facile à utiliser sur l Unix. Pour la langue française, (Stein, 2007) a entraîné cet analyseur sur un corpus

Montrer encore