ACTES DU COLLOQUE. Colloque pour les Étudiants Chercheurs en Traitement Automatique du Langage naturel et ses applications.

Dimension: px
Commencer à balayer dès la page:

Download "ACTES DU COLLOQUE. Colloque pour les Étudiants Chercheurs en Traitement Automatique du Langage naturel et ses applications."

Transcription

1 ACTES DU COLLOQUE Colloque pour les Étudiants Chercheurs en Traitement Automatique du Langage naturel et ses applications Organisé par Le groupe de recherche ANLP-RG (Arabic natural Language Processing Group) du Laboratoire MIRACL (Multimedia, InfoRmation Systems and Advanced Computing Laboratory) du 23 au 25 Mars 2015 à l hôtel Royal Kenz Thalasso & Spa, Sousse, Tunisie Avec la participation

2 2

3 Préface Après la réussite de sa première édition, le groupe de recherche ANLP (ANLP-RG : Arabic Natural Language Research Group) du laboratoire MIRACL organise la deuxième édition de la conférence CEC-TAL CEC-TAL est une conférence internationale réservée aux étudiants des cycles supérieurs (master ou doctorat) ainsi qu aux jeunes chercheurs travaillant sur le traitement automatique du langage naturel. Cette conférence intéresse particulièrement les étudiants en informatique, en linguistique, sciences cognitives, sciences de l'éducation et tout autre domaine pertinent au TALN. L'objectif de cette conférence est de rassembler des chercheurs de disciplines connexes (développement de ressources linguistiques, Analyse et génération, traitement automatique du langage naturel, application du TAL) et des spécialistes du monde industriel et des entreprises qui déploient des méthodes d'extraction et de gestion des connaissances, afin de communiquer des travaux de qualité, d'échanger et de fertiliser des idées nouvelles. CEC-TAL a pour vocation d offrir aux jeunes chercheurs en Traitement Automatique des Langues l occasion de présenter leurs travaux et de comparer leurs approches. Cette conférence a un comité de programme, constitué de professeurs, de chercheurs en TALN 3

4 Comités Comité d'organisation Lamia HADRICH BELGUITH (FSEGS) Fatiha SADAT (UQAM) Maher JAOUA (FSEGS) Mohamed Mahdi BOUDABOUS (ENIG) Amine BAYOUDHI (FSEGS) Marwa GRAJA BOUDABOUS (ISIMA) Iskander KESKES (ISGG) Comité du programme Abdelmajid Ben Hamadou Lamia Hadrich Belguith Chafik Aloulou Bilel Gargouri Maher Jaoua Faiez Gargouri Mariem Ellouze Khemakhem Wajdi Zaghouani Fatiha Sadat Rim Faiz Farah Benamara Zitoune Hatem Ghorbel Kais Haddar Youness Bahou Mohamed Hedi Maaloul Karim Bouzouba Mona Diab Imed Zitouni Thierry Hamon Azzedine Mazroui Philippe Blache Paolo Rosso Khaled Shaalan Almoataz Bellah Elsaid Mohame Mhiri Aida Khemakhem Souha Mezghanni Héla Fehri MIRACL Lab., University of Sfax - Tunisia ANLP-RG, MIRACL Lab., University of Sfax - Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia MIRACL Lab., University of Sfax - Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia MIRACL Lab., University of Sfax -Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia Carnegie Mellon University - Qatar GDAC Lab., Université of Québec - Montréal LARODEC Lab., IHEC, University of Carthage - Tunisia IRIT Lab., University of Paul Sabatier - Toulouse ISIC Lab., University of Applied Sciences-Switzerland MIRACL Lab., University of Sfax - Tunisia MIRACL Lab., University of Kairouan - Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia LARIE Lab., Mohammed Vth University-Morocco CCLS center, Columbia University Microsoft, USA LIMSI-CNRS & Université Paris 13, France University Mohammed First, Oujda Morocco LPL Lab., CNRS & University of Aix-Marseille NLE Lab, Universitat Politècnica de València, Spain The British University in Dubai, UAE Cairo University - Egypt FSS, University of Sfax - Tunisia MIRACL Lab., University of Sfax - Tunisia IHEC, University of Sfax - Tunisia ISG, University of Gabes - Tunisia 4

5 Sommaire Construction d une cascade de transducteurs pour la reconnaissance des dates à partir d un corpus Wikipédia. Fatma Ben Mesmia, Nathalie Friburger, Kais Haddar and Denis Maurel... 8 Web Arabic corpus : Construction d un large corpus arabe annoté grammaticalement à partir du Web. Ghoul Dhaou 12 La construction automatique d'un lexique d'opinion pour la langue arabe. Abidi Karima and Guiassa Yamina Tlili 17 Acquisition de connaissances multilingues, un espace sémantique comme langage pivot. Boucham Souhila and Aliane Hassina 22 Analyse syntaxique statistique de la langue arabe. Amira Barhoumi, Chafik Aloulou, Lamia Hadrich Belghith and Imed Zitouni.. 31 Intégration du profil utilisateur dans la reformulation des requêtes, la recherche des documents et le ré-ordonnancement des résultats : cas de la langue Arabe. Safi Houssem, Jaoua Maher and Belguith Hadrich Lamia 40 Construction d un Wordnet standard pour l arabe tunisien. Nadia Karmani Ep Ben Moussa and Adel M. Alimi Patents editor in order to automatically construct terminological databases. Chihebeddine Ammar and Kais Haddar A Thesaurus-based ontology generation. Mounira Chkiwa, Anis Jedidi and Faiez Gargouri Automatisation de l encodage des lexiques arabes en TEI. Hajer Maraoui and Kais Haddar Using finite-state transducers to build lexical resources for Unitex Arabic package. Noureddine Doumi, Ahmed Lehireche, Denis Maurel and Maamar Khater. 83 Development of Arabic particles lexicon using the LMF framework. Driss Namly, Karim Bouzoubaa, Youssef Tahir and Hakima Khamar 94 5

6 Programme Lundi 23 Mars h00-16h30 Accueil et Inscription 16h30-17h00 Ouverture de CEC-TAL h00-18h30 Session de présentation courte - Chair : Salma Jamoussi (ISIMS) 1. Fatma Ben Mesmia, Nathalie Friburger, Kais Haddar and Denis Maurel. "Construction d une cascade de transducteurs pour la reconnaissance des dates à partir d un corpus Wikipédia". 2. Ghoul Dhaou. "Web Arabic corpus : Construction d un large corpus arabe annoté grammaticalement à partir du Web". 3. Mohammed Saidi, Leila Falek, Bachir Boudraa and Hocine Teffahi. "Synthèse de la parole à très Bas Débit". 4. Abidi Karima and Guiassa Yamina Tlili. "La construction automatique d'un lexique d'opinion pour la langue arabe". 19h Dîner Mardi 24 Mars h30-10h00 Conférencier invité - Chair : Abdelmajid Ben Hamadou (ISIMS) Houda Bouamor (Carnegie Mellon University, Qatar) 10h00-10h30 10h30-12h30 Pause Café Session orale 1 Chair : Mariem Ellouze (ESC) Présentation 1 : Boucham Souhila and Aliane Hassina. "Acquisition de connaissances multilingues, un espace sémantique comme langage pivot". Présentation 2 : Amira Barhoumi, Chafik Aloulou, Lamia Hadrich Belghith and Imed Zitouni. "Analyse syntaxique statistique de la langue arabe". Présentation 3 :Safi Houssem, Jaoua Maher and Belguith Hadrich Lamia. "Intégration du profil utilisateur dans la reformulation des requêtes, la recherche des documents et le ré-ordonnancement des résultats : cas de la langue Arabe". Présentation 4 : Nadia Karmani Ep Ben Moussa and Adel M. Alimi. "Construction d un Wordnet standard pour l arabe tunisien". 13h00-15h00 15h00-16h00 Déjeuner Session orale 2 Chair : Chafik Aloulou (FSEGS) 6

7 Présentation 1 :Chihebeddine Ammar and Kais Haddar. "Patents editor in order to automatically construct terminological databases". Présentation 2 : Mounira Chkiwa, Anis Jedidi and Faiez Gargouri. "A Thesaurus-based ontology generation". 16h00-18h30 19h Programme Social : sortie guidée par train touristique et visite de la Medina. Dîner Mercredi 25 Mars h30-10h00 Conférencier invité - Chair : Lamia Belguith (FSEGS) Salma Jamoussi (Université de Sfax, Tunisie) - Thématique : L'apprentissage profond pour le TALN 10h00-10h30 10h30-12h00 Pause Café Session orale 3 Chair : Houda Bouamor (CMU) Présentation 1 : Hajer Maraoui and Kais Haddar. "Automatisation de l encodage des lexiques arabes en TEI". Présentation 2 :Noureddine Doumi, Ahmed Lehireche, Denis Maurel and Maamar Khater. "Using finite-state transducers to build lexical resources for Unitex Arabic package". Présentation 3 :Driss Namly, Karim Bouzoubaa, Youssef Tahir and Hakima Khamar. "Development of Arabic particles lexicon using the LMF framework" 12h00-13h00 Prix de la meilleure présentation et Clôture de CEC-TAL h00-15h00 15h00-18h00 Déjeuner Programme Social : sortie sur bateau 7

8 Construction d une cascade de transducteurs pour la reconnaissance des dates à partir d un corpus Wikipédia Fatma Ben Mesmia*, Nathalie Friburger **, Kais Haddar* et Denis Maurel** *Université de Sfax, Laboratoire MIRACL, Multimedia, InfoRmation Systems and Advanced Computing Laboratory ** Université François-Rabelais de Tours, Laboratoire d Informatique {nathalie.friburger, RÉSUMÉ.Les dates sont souvent des sources d information et peuvent aussi être incluses dans des entités nommées représentant les lieux et les évènements. Leur reconnaissance doit être intégrée dans le processus de reconnaissance des entités nommées arabes. En conséquence, dans le présent article, nous élaborons une cascade de transducteurs reconnaissant les entités nommées arabes de type Date à partir d un corpus extrait de Wikipédia. L implémentation de cette cascade est établie en utilisant l outil CasSysdisponible sous la plateforme linguistique libre Unitex. ABSTRACT.The dates often are sources of informationand can beincluded in named entities representing the locations and events. Their recognition mustbe integrated in the process of recognition of Arab named entities.consequently, in the presentpaper,we develop a cascade of transducers recognizing Arabic named entities withthe type Date from a corpus extracted of Wikipedia. The implementation of this cascade is established by using the tool CasSysavailable under the Unitex free linguistic platform. MOTS-CLÉS :Cascade de transducteurs, Wikipédia, REN, Unitex, CasSys. KEYWORDS: Cascade of transducers, Wikipedia, NER, Unitex, CasSys. 1. Introduction La reconnaissance des entités nommées (REN) constitue une piste de recherche encore très innovante. Elle n est pas une tâche facile car elle dépend en large partie d un nombre important de ressources à exploiter. Autrement dit, la complexité de la REN peut être justifiée par l incomplétude de ces ressources.le critère d exhaustivité est donc impossible. En contrepartie, le Web devient très exploité dans nos jours. Il fournit un nombre très intéressant des ressources libres sur lequel elles sont publiées. Parmi celles qui sont plus utilisées, citons Wikipédia.En ce sens, la Wikipédia arabe est considérée comme étant une ressource de connaissances pouvant illustrer des phénomènes linguistiques informatisés. Son exploitation offre l opportunité pour la valorisation del entité nommée arabe (ENA) de type Date. Les dates apparaissent dans différents textes (date de naissance, évènement ). Cependant, l extraction des dates peut rencontrer plusieurs problèmes (en particulier l'existence de différentes écritures régionales). C'est dans ce contexte que s inscrit le présent article. Notre objectif est donc de proposer une démarche baséeune cascade de transducteurs reconnaissant les ENA de type Date. Pour ce faire, nous devons, d une part, identifier un ensemble de mots déclencheurs permettant le repérage d ENA et, d autre part, construire un ensemble de transducteurs agissant sur un corpus avec un ordre prédéfini. La cascade proposée doit résoudre les problèmes d ambiguïté. Cet article s articule autour de quatre sections. La première section permet de présenter les approches existantes pour la REN. La deuxième section est dédiée à la description de la catégorisation des dates à partir de Wikipédia. La troisième section est consacrée à détailler la démarche proposée qui va être expérimentée à l aide du système CasSys de la plateforme 8

9 linguistique libre Unitex. Cette expérimentation est présentée et évaluée dans la section quatre. 2. Etat de l art sur les systèmes de reconnaissance des entités nommées Les approches de REN existantes sontde trois types : symbolique, statistique et hybrides. Les facteurs de distinction entre les trois approches citées sont leur acquisition et leur manipulation, ce n est pas la nature des informations qui sera étudiées.l approche symbolique s appuie spécialement sur l'utilisation de grammaires formelles construites à la main par un linguiste (Friburger et Maurel, 2004 ; Maurel et al., 2011). Elle se fonde sur des règles exploitant des marqueurs lexicaux, des dictionnaires, etc. Parmi les travaux basés sur cette approche, citons :le système NERA développé par (Shaalan et Raza, 2009) reposant sur l utilisation d un ensemble de dictionnaires d EN et sur une grammaire sous forme d'expressions régulières ; le module de repérage des EN à base de règles pour la langue arabe développé par (Zaghouani et al., 2010) en exploitant une première étape de prétraitement lexical qui prépare le texte pour son analyse linguistique ; le système de reconnaissance d ENA pour le domaine de sportdéveloppé par (Fehri, 2012) à travers un ensemble de dictionnaires, des patrons syntaxiques etle formalisme de transducteurs sur la plateforme linguistique Nooj.L approche statistiqueutilise des techniques statistiques sur de larges corpus de textes où les entités-cibles ont été étiquetées. Elle utilise aussi un algorithme d apprentissage permettant d élaborer automatiquement une base de connaissances.en se basant sur l'approche statistique, une technique d apprentissage SVM a été conçue par (Benajiba et al., 2008) pour mettre en œuvre un système de reconnaissance d entités nommées en exploitant les particularités de la langue arabe.l approche hybride utiliseà la fois des règles écrites manuellement et des règles extraites grâce à des algorithmes d'apprentissage et à des arbres de décisions.dans ce contexte, se situe le travail de (Shaalan et Oudah. 2014). 3. Catégorisation des dates à partir de Wikipédia La catégorisation des ENA de type Date que nous proposons est basée sur l étude effectuée sur le corpus Wikipédia d étude constitué de 17 fichiers textes.de ce corpus, nous avons pu identifier trois formes de dates. Première forme d ENA de type Date. La première formeest composée par l année uniquement. Cette formecontient un terme déclencheur qui peut la précéder et/ou la suivre.par exemple, dans «عام 1434 ھ» (année 1934 hégirienne) le mot عام joue le rôle d un mot déclencheur permettant d identifier le nombre 1434 comme étant une année, tandis que le mot ajoute un degré de certitude sur le nombre identifié. C est un indice que l année désignée ھ est hégirienne.«في 2004» (en 2004)présente un deuxième exempled apparition respectant la في première forme déjà mentionnée. L élément brillant est donc l année. Le mot déclencheur peut créer une ambiguïté sémantique dans la langue arabe. Il peut être suivi par un nombre désignant l année (2004) ou suivie d une suite de caractères indiquant une date. Comme par exemple القرن 21 في (en 21ème siècle) ou في الربیع (auprintemps). Deuxième forme de type Date.La deuxième forme décrit le contexte d apparition d une date dont le mois est un élément central. Cette date est incomplète car elle est composée à son tour de deux formes. Nous trouvons soit le nom et/ou le nombre du jour et le mois, soit le mois et l année.d après l étude de corpus, nous constatons que certainesdates peuvent être détectées ثورة ex., selon leur contexte d apparition,lorsqu'elles sont intégrées dans des événements (par / ملعب 14 جانفي برادس ex,. 14/ La révolution du 14 janvier) ou dans des noms de lieux (par جانفي Stade 14 janvier de Rades). Quant aux mois hégiriens,ilsapparaissent généralement dans les évènements religieux (par ex,. یوم العید 1 شوال / L aïd 1 er chawal). Les dates peuvent avoir des 9

10 écritures différentes dans les pays arabes. Par exemple, dans les pays orientaux, les mois syriaques et musulmans sont les plus utilisés. Par contre, les mois grégoriens sont utilisés d une façon fréquente dans les pays magrébins. Au sein de cette union, il existe une différence aux niveaux des appellations des mois. En Tunisie, comme en Algérie,le mois d août en arabe». غشت «est», tandis qu au Maroc, son appellation أوت «est Troisième forme de type Date. La troisième formeà reconnaitre dans le corpus d étude concerne une date complète, telle qu elle composée par le nom et/ou le nombre du jour, le mois, یوم الا حد 26 أكتوبر l année.«2014» (Dimanche 26 octobre 2014)illustre une forme possible d une date complète figurant dans le corpus d étude. 4. Démarche proposée pour la reconnaissance des entités nommée de type Date La démarche que nous proposonsest composée par deux étapes : l identification des ressources nécessaires pouvant cerner les entités nommées à reconnaitre et la création des transducteurs dont chacun possède son propre rôle Identification des ressources nécessaires Les ressources nécessaires sont les dictionnaires, les mots déclencheurs, les règles d extraction. Un dictionnaire doit être crééstockant les noms de la semaine et les noms du mois selon les différents calendriers.les règles d extraction des dates sont identifiées grâce aux mots déclencheurs. Par exemple, les mots déclencheurs حتى,ثورة et reconnaissentلیلة respectivement les formes suivantes : <NB><mois><NB>, عام< NB > <mois><nb> et <NB><mois><NB> Cascade de transducteurs proposée La cascade de transducteurs proposée englobe trois transducteurs principaux. Ces transducteursdoivent être classés selon les trois formes identifiées. Cette décomposition est faite pour éviter les problèmes de chevauchement de certains chemins, d une part, et les problèmes d ambigüité, d autre part.donnons l exemple du premier transducteur reconnaissant une date complète (figure 1). Figure 1. Exemple d'un transducteur reconnaissant une date complète 5. Expérimentation et évaluation La cascade de transducteurs proposée est implémentéesous la plateforme linguistique Unitex. La figure 2 ci-dessous montre la forme de la cascade qui est générée grâce à l outil CasSys. L expérimentationeffectuée montre que chaque graphe ajoute ses propres annotationsà l aide du mode «Merge». Ce mode permet d avoir, en sortie, une ENA reconnue entourée par une balise définie au sein des transducteurs. 10

11 Figure 2. Cascade de transducteurs reconnaissant les dates Dans le but d effectuer une évaluation nous avons appliqué la cascade implémentée sur le corpus de test. Le corpus est composé de 50 fichiers textes dont sa construction rassemble à celle du corpus d étude. Le résultat obtenu dépend en grande partie des mots déclencheurs établis précédemment. Echantillons traités Entités de type Date trouvées Entités détectées parerreur Tableau 1. Tableau récapitulatif des résultats obtenus Nous avons évalué manuellement la qualité de notre travail sur le corpus de test. Les résultats sont satisfaisants (Tableau 1) car les transducteurs ont pu couvrir la majorité des ENA y figurant.avec une précision de 0,96 et un rappel de 0,95.Nous constatons donc que la méthode proposée est efficace. 6. Conclusion et perspectives Dans le présent article, nous avons construit un ensemble de transducteurset généré une cascade permettant la reconnaissance des ENA de type Date. La génération de cette cascade est réalisée à l aide du système CasSys, intégré dans la plateforme linguistique Unitex. Le fonctionnement de la cascade de transducteurs a nécessité la construction d un dictionnaire et une liste des mots déclencheurs. Dans un futur immédiat, nous tentons decouvrir les autres types (les noms de personnes, les évènements, les noms de lieux, etc.) afin de générer une cascade de transducteurs reconnaissant toutes les ENA. Nous continuons à travailler avec la ressource libre Wikipédia arabeenprofitant de sa richesse pour enrichir nos corpus. 7. Références Benajiba Y. et Rosso P Arabic Named Entity Recognition using Conditional Random Fields, In Proceedings of Workshop on HLT and NLP within the Arabic World, LREC. Friburger N. et Maurel D. 2004, Finite-state transducer cascade to extract named entities in texts, Theoretical Computer Science, volume 313 : Fehri H Reconnaissance automatique des entités nommées arabes et leur traduction vers le français, thèse de doctorat, Université de Sfax. Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I. et Nouvel D Cascades de transducteurs autour de la reconnaissance des entités nommées, Traitement automatique des langues, 52(1) : Shaalan K. et Raza H NERA : Named entity recognition for Arabic, Journal of the American Society for Information Science and Technology, 60(9) : Khaled Shaalan et Mai Oudah A hybrid approach to Arabic named entity recognition. Journal of Information Science, 40(1) : Zaghouani W., Pouliquen B., Ebrahim M. et Steinberger R Adapting a resource-light highly multilingual named entity recognition system to arabic, Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC 10)

12 Web Arabic corpus: Construction d un large corpus arabe annoté morpho-syntaxiquement à partir du Web Dhaou Ghoul Laboratoire STIH, Université Sorbonne Paris4, 1 rue Victor cousin Paris RÉSUMÉ.Dans ce papier,nous présentons une méthodologie de construction d un large corpus annoté grammaticalement à partir du Web. Notre objectif est d avoir une grande ressource pour la langue arabe qui permette aux chercheurs dans le domaine du traitement automatique de la langue de réaliser des applications en TAL. Pour ce faire, tout d abord nous avonspris les données textuelles réalisées au cours de notre recherche dans le cadre de notre projet de thèse. Ensuite, nous avons appliqué l analyseur morphosyntaxique «Tree Tagger» pour annoter ces données automatiquement dans le but d avoir à disposition un large corpus annoté. ABSTRACT. In this paper, we present a methodology to build a large grammatically annotated corpus from the Web. Our goal is to have a great resource for the Arabic language that allows researchers in the field of automatic language processing to create applications in NLP. To achieve this, first we took the textual data made during our research as part of our thesis project. Then we applied the morphosyntactic analyzer Tree Tagger to automatically annotate data in order have available a large annotated corpus. MOTS CLÉS :TAL, corpus, langue arabe, Tree Tagger, Web, précision, apprentissage. KEYWORDS: NLP, corpora, Arabic language, Tree Tagger, Web, precision, learning. 1. Introduction La construction des corpus électroniques annotés morpho-syntaxiquement reste une tâche indispensable pour réaliser des systèmes de TAL robustes. Denos jours, plusieurs corpus annotés sont disponibles gratuitement pour la langue anglaise et française (Candito et Seddah, 2012). Pour la langue arabe et malgré les différents travaux effectués dans le domaine du traitement automatique, il reste toujours compliqué de trouver assez de ressources gratuites à propos de cette langue. Dans le cadre de notre projet de thèse (Mogador), nous avons décidé de créer notre propre corpus à partir du web. Ceci, dans le but de repérer les différents tokens 1 en arabe littéraire, et de créer une grammaire pour chaque token. Avec le développement de l internet et de ses services, le web est devenu une grande source de documents dans différentes langues et différents domaines. Cette source alliée à des supports de stockage permet la construction rapide de corpus (Meftouh et al, 2007). Dans ce papier, nous présentons les différents processus qui sont utilesà la construction d unvaste corpus étiqueté à partir du Web dans le but d améliorer les différentes applications de TAL pour l arabe (analyseur morphosyntaxique, extraction d informations, traduction automatique ). Ce papier est organisé de la manière suivante : la section 2 présente quelques corpus ou travaux qui ont été effectués dans ce domaine, la section 3 présente la méthode de 1 Les mots qui n appartiennent pas au lexique arabe et n obéissent pas à la dérivation morphologique de l arabe. 12

13 l annotation de notre corpus (catégories grammaticales) et la section 4 décrit l évaluation de l annotation de notre corpus. Les conclusions de ce travail feront l objet de la section Etat de l art: La plupart des chercheurs travaillant dans le domaine du traitement automatique de la langue arabe ont choisi de construire leurs propres ressources pour réaliser leurs applications. Dans cette section, nous allons présenter deux ressources électroniques déjà réalisées pour la langue arabe : Le corpus coranique arabe 2 (Kais et Habash, 2010) est une ressource linguistique en ligne annotée avec différentes couches d annotation y compris: la segmentation morphologique, l étiquetage morphosyntaxique et l analyse syntaxique en se basant sur la grammaire de dépendance القرأن الكریم) (إعراب et une ontologie sémantique. Le coran contient mots répartis sur 114 chapitres, chaque chapitre contient une séquence des versets numérotés. L annotation de ce corpus est basée sur Buckwalter Arabic Morphological Analyzer ou BAMA (Buckwalter, 2002) qui utilise un jeu d étiquettes contient 55 étiquettes. KALIMAT (El-Haj et Koulali, 2013) est une collection de articles à partir du journal Omani Alwatan 3 qui a été effectué par (Abbas et al, 2011). Ce corpus contient mots repartis sur six domaines (Culture, Economie, religion, Sports, International, Local). L annotation se fait grâce à Stanford PosTagger (Toutanova et all, 2003) en se basant sur un jeu d étiquettes contenant 33 étiquettes. 3. Construction du corpus : différents processus La réalisation de notre corpus porte sur l extraction de différents articles à partir d un site web. Le site que nous avons choisi est le site du journal électronique «Alwatan» (الوطن) en 2004 (Ghoul, 2014). Notre corpus est constitué de phrases (nombre approximatif car en arabe on n utilise pas souvent les ponctuations ce qui rend très difficile le comptage des phrases dans un texte) et mots (dont mots différents) distribués sur quatre domaines : culture, économie, religion et sports, de la manière suivante : Domaine Nb articles Nb phrases Nb mots / Nb mots différents Nb tokens (mots-outils) Culture / Economie / Religion / Sports / Total / Table 1. Statistiques de notre corpus 13

14 Notons que nous avons translitéré les textes sous la forme de Buckwalter 4 (Buckwalter, 2002) pour éviter les problèmes de codage arabe et pour faciliter le nettoyage automatique de notre corpus Segmentation du corpus: La première phase de l annotation morphosyntaxique d un corpus est la segmentation en morphèmes. Pour la langue arabe la segmentation est une tâche loin d être facile en raison de l agglutination. Au cours de notre recherche, nous avons essayé de réaliser un algorithme de segmentation en nous basant sur des règles qui traitent dans la majorité des cas la forme correcte d un mot en arabe. Notre algorithme a été implémenté en Perl (Ghoul,2013). Le principe de cette méthode est basé sur un corpus segmenté manuellement. En effet, nous avons effectué une segmentation grossière au niveau des espaces et des signes de ponctuation. Ensuite, on compare chaque mot avec la forme déjà segmentée. La segmentation est considérée valide si le mot est trouvé dans le corpus. Sinon, on parcourt le mot dans le but d extraire les prés-bases et les post-bases afin d obtenir la forme correcte du mot en arabe. Par contre, avec cette méthode, nous avons constaté qu il reste des ambiguïtés de découpage pour certains mots qui peuvent se découper de plusieurs façons différentes. On prend l exemple du mot «ألم» qui peut se découper soit en : لم+أ conjonction d interrogation+ particule de négation, soit en ألم : nom masculin singulier (douleur). Après avoir segmenté notre corpus, nous allons appliquer un outil d annotation afin d obtenir un corpus étiqueté. Ce travail sera l objet de la section suivante Annotation du corpus : Le jeu d étiquettes : La plupart des chercheurs ne sont pas d accord sur ce le choix du jeu d étiquettes. Quelques études ont été déjà faites sur la taille du jeu d étiquettes et son influence sur les performances des analyseurs. Les résultats obtenus annoncent que la taille réduite donne des bonnes performances pour les analyseurs syntaxiques mais qu on n y trouve pas plus d informations sur la langue et qu on reste dans la généralité. Notre objectif dans ce travail est de réaliser un corpus qui contienne le maximum des informations pour être utilisable dans les différentes applications en TAL et en particulier pour repérer les tokens ou jetons de la langue arabe. C est pourquoi, nous avons décidé de créer notre propre jeu d étiquettes en collaboration avec des spécialistes en linguistique arabe. Notre jeu d étiquettes contient 61 catégories syntaxiques (voir annexe). Dans ce jeu d étiquette, nous avons essayé de donner plus d informations sur l unité lexicale et surtout les tokens afin de diminuer le taux d ambiguïté Processus d annotation : L annotation d un vaste corpus manuellement est coûteuse. En effet, nous avons essayé de trouver un mécanisme ou une méthodologie moins coûteuse surtout au niveau du temps. Notre méthodologie d annotation se compose de deux étapes : D abord, nous avons annoté manuellement grâce à un expert en linguistique arabe une partie importante de notre corpus (300 phrases) qui a été utilisée pour l apprentissage du modèle. Ensuite nous avons utilisé l outil «Tree Tagger» (Schmid, 1995) pour entraîner et annoter automatiquement le reste de notre corpus. En effet, notre choix de cet étiqueteur se justifie par sa performance sur plusieurs langues (anglais, français, allemand, ) et en plus il est gratuit et facile à utiliser sur l Unix. Pour la langue française, (Stein, 2007) a entraîné cet analyseur sur un corpus 4 14

Construction d un corpus arabe à partir du Web dans le but d identifier les mots-outils ou tokens

Construction d un corpus arabe à partir du Web dans le but d identifier les mots-outils ou tokens Construction d un corpus arabe à partir du Web dans le but d identifier les mots-outils ou tokens Dhaou Ghoul 1 1 STIH dhaou.ghoul@gmail.com Abstract In this paper, we present a method to build a large

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Acquisition terminologique pour identifier les mots clés d articles scientifiques

Acquisition terminologique pour identifier les mots clés d articles scientifiques Actes du huitième défi fouille de texte, DEFT2012, Grenoble, France, 8 juin 2012. Pages 29-35. Proceedings of the Eight DEFT Workshop, DEFT2012, Grenoble, France, 8th July 2012. Pages 29-35. Acquisition

Plus en détail

Vers un lexique arabe pour l analyse des opinions et des sentiments

Vers un lexique arabe pour l analyse des opinions et des sentiments Vers un lexique arabe pour l analyse des opinions et des sentiments Amine Bayoudhi, Houssem Koubaa, Lamia Hadrich Belguith ANLP Group, MIRACL laboratory FSEGS, University of Sfax B.P. 1088, 3018, Sfax,

Plus en détail

Analyse et visualisation d opinions dans un cadre de veille sur le Web

Analyse et visualisation d opinions dans un cadre de veille sur le Web Analyse et visualisation d opinions dans un cadre de veille sur le Web Mohamed Dermouche, Leila Khouas Sabine Loudcher Julien Velcin Eric Fourboul Université de Lyon (ERIC LYON 2), 5 av. P. Mendès-France

Plus en détail

Détection d Opinion : Apprenons les bons Adjectifs!

Détection d Opinion : Apprenons les bons Adjectifs! Détection d Opinion : Apprenons les bons Adjectifs! Ali Harb 1,2, Gérard Dray 1, Michel Plantié 1, Pascal Poncelet 1, Mathieu Roche 2, François Trousset 1 1 EMA-LGI2P, Parc Scientifique Georges Besse,

Plus en détail

Présentation de la plateforme d analyse linguistique médiévale

Présentation de la plateforme d analyse linguistique médiévale Présentation de la plateforme d analyse linguistique médiévale 1. Introduction Tout au long de ce document, notre projet sera présenté à travers la méthodologie suivie pour développer la plateforme d analyse

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Indexation de sous-collections pour l amélioration de la haute précision

Indexation de sous-collections pour l amélioration de la haute précision Indexation de sous-collections pour l amélioration de la haute précision Joëlson Randriamparany *,** *IRIT, Institut de Recherche Informatique de Toulouse Université Paul Sabatier Toulouse III 118 Route

Plus en détail

Similarité entre les mots

Similarité entre les mots Similarité entre les mots Traitement Automatique des Langues Master Informatique Université Paris-Est Marne-la-Vallée Matthieu Constant Références de base du cours Christopher D. Manning and Hinrich Schütze,

Plus en détail

ACOLAD Plateforme pour l édition collaborative dépendancielle

ACOLAD Plateforme pour l édition collaborative dépendancielle ACOLAD Plateforme pour l édition collaborative dépendancielle Francis Brunet-Manquat et Jérôme Goulian LIG-GETALP, Université Pierre Mendès France Grenoble 2 Francis.Brunet-Manquat@imag.fr et Jerome.Goulian@imag.fr

Plus en détail

Annotation Semi-automatique de Grandes BD Images : Approche par Graphes de Voisinage

Annotation Semi-automatique de Grandes BD Images : Approche par Graphes de Voisinage Lyon - France Annotation Semi-automatique de Grandes BD Images : Approche par Graphes de Voisinage Hakim Hacid Université Lumière Lyon 2 Laboratoire ERIC - 5, avenue Pierre Mendès-France 69676 Bron cedex

Plus en détail

Avancée en classification multi-labels de textes en langue chinoise

Avancée en classification multi-labels de textes en langue chinoise Avancée en classification multi-labels de textes en langue chinoise Thèse en cotutelle présentée par Zhihua WEI pour les doctorats en informatique des Universités Lyon2 et Tongji La thèse est centrée sur

Plus en détail

Segmentation des fichiers logs

Segmentation des fichiers logs Segmentation des fichiers logs Hassan Saneifar,, Stéphane Bonniol, Pascal Poncelet, Mathieu Roche LIRMM, CNRS, Université Montpellier 2; Satin Technologies Résumé. Avec la méthode de segmentation appelée

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,

Plus en détail

Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne

Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne Aurélien Lauf* ** * ERTIM 1 (Équipe de Recherche en Textes, Informatique, Multilinguisme) INALCO - 49bis

Plus en détail

Using NOOJ's to parse constituents in the french PASSAGE corpus

Using NOOJ's to parse constituents in the french PASSAGE corpus Using NOOJ's to parse constituents in the french PASSAGE corpus Christine Fay-Varnier, Qiuyue Li, Azim Roussanaly LORIA, équipe TALARIS Nancy, France Summary Context and project motivation Resources Method

Plus en détail

Construction d un dictionnaire multilingue de biodiversité à partir de dires d experts

Construction d un dictionnaire multilingue de biodiversité à partir de dires d experts Construction d un dictionnaire multilingue de biodiversité à partir de dires d experts Mamadou Dieye*, Mohamed Rafik Doulache*, Mustapha Floussi*, Julie Chabalier**, Isabelle Mougenot *, ***, Mathieu Roche

Plus en détail

Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif?

Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif? 23 Schedae, 2006 Prépublication n 3 Fascicule n 1 Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif? Sophie Piérard & Yves Bestgen 1 Université

Plus en détail

Le dictionnaire DEM dans NooJ

Le dictionnaire DEM dans NooJ 21 ème Traitement Automatique des Langues Naturelles, Marseille, 2014 Le dictionnaire DEM dans NooJ Max Silberztein ELLIADD, Université de Franche-Comté, 30 rue Mégevand, 25000 Besançon max.silberztein@univ-fcomte.fr

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Quelle plus-value linguistique pour la segmentation automatique de texte?

Quelle plus-value linguistique pour la segmentation automatique de texte? 85 Schedae, 2006 Prépublication n 11 Fascicule n 1 Quelle plus-value linguistique pour la segmentation automatique de texte? Christophe Pimm ERSS, Université de Toulouse-le-Mirail 5 Allées Antonio Machado

Plus en détail

Un langage pivot entre langue naturelle et langage informatique

Un langage pivot entre langue naturelle et langage informatique Un langage pivot entre langue naturelle et langage informatique Laurent Tromeur Ontomantics S.A.S. France laurent.tromeur@ontomantics.com GERFLINT Reçu le 17-03-2015 / Évalué le 24-04-2015 / Accepté le

Plus en détail

Vectorisation du modèle d appariement pour la recherche d images par le contenu

Vectorisation du modèle d appariement pour la recherche d images par le contenu - Vectorisation du modèle d appariement pour la recherche d images par le contenu Hanen Karamti 1 MIRACL, Université de Sfax Route de Tunis Km 10 B.P. 242, 3021, Sfax, Tunisie karamti.hanen@gmail.com RÉSUMÉ.

Plus en détail

Identifier la cible des sentiments dans les forums de santé S. BRINGAY, E. KERGOSIEN, P. POMPIDOR, P. PONCELET

Identifier la cible des sentiments dans les forums de santé S. BRINGAY, E. KERGOSIEN, P. POMPIDOR, P. PONCELET Identifier la cible des sentiments dans les forums de santé S. BRINGAY, E. KERGOSIEN, P. POMPIDOR, P. PONCELET Projet Patients Mind Financement par le Réseau National des MSH (Maisons des Sciences de l

Plus en détail

2 Représentation des données textuelles

2 Représentation des données textuelles Un système de vote pour la classification de textes d'opinion Michel Plantié*, Mathieu Roche**, Gérard Dray* * LGI2P, Ecole des Mines d'alès, Site EERIE (michel.plantie, gerard.dray)@ema.fr ** LIRMM, UMR

Plus en détail

Extraction d informations

Extraction d informations Extraction d informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de W. Cohen (CMU), de Julien Lemoine (Exalead) Antoine Rozenknop 6 février 2009 Antoine Rozenknop () Extraction d informations

Plus en détail

revue de littérature - corpus comparables

revue de littérature - corpus comparables revue de littérature - corpus comparables Julie Roy April 23, 2015 Université de Montréal Introduction Matière première MT : corpus parallèles. Intérêt des corpus comparables : corpus parallèles et dictionnaires

Plus en détail

Outils pour lexicographes : application à la lexicographie explicative et combinatoire

Outils pour lexicographes : application à la lexicographie explicative et combinatoire Outils pour lexicographes : application à la lexicographie explicative et combinatoire Gilles Sérasset GETA-CLIPS-IMAG (UJF & CNRS) BP 53 38041 Grenoble Cedex 9 Tél. : 04.76.51.43.80 - Fax : 04.76.51.44.05

Plus en détail

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013 Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,

Plus en détail

LIZARD, un assistant pour le développement de ressources linguistiques à base de cascades de transducteurs

LIZARD, un assistant pour le développement de ressources linguistiques à base de cascades de transducteurs RÉCITAL 2002, Nancy, 24-27 juin 2002 LIZARD, un assistant pour le développement de ressources linguistiques à base de cascades de transducteurs Antonio Balvet Université Paris X Nanterre / UMR MoDyCo 200,

Plus en détail

Extraction de termes centrée autour de l expert

Extraction de termes centrée autour de l expert Thomas Heitz, Mathieu Roche, Yves Kodratoff Université Paris-Sud, Bât 490, 91405 Orsay Cedex France, {heitz, roche, yk}@lri.fr, http://www.lri.fr/ {heitz, roche, yk}/ Résumé. Nous développons un logiciel,

Plus en détail

Des indices sur la fiabilité des sorties ou comment un analyseur robuste pourrait s auto-évaluer.

Des indices sur la fiabilité des sorties ou comment un analyseur robuste pourrait s auto-évaluer. Des indices sur la fiabilité des sorties ou comment un analyseur robuste pourrait s auto-évaluer. Nuria Gala GETA-CLIPS-IMAG 385 av. de la Bibliothèque, BP 53 F-38041 Grenoble cedex 9, France nuria.gala@imag.fr

Plus en détail

Marie-Claude L Homme Université de Montréal

Marie-Claude L Homme Université de Montréal Évaluation de logiciels d extraction de terminologie : examen de quelques critères Plan Marie-Claude L Homme Université de Montréal Unités recherchées et problèmes de base Catégories de critères Critères

Plus en détail

Solutions de traitement du document textuel avec prise en charge de ressources linguistiques

Solutions de traitement du document textuel avec prise en charge de ressources linguistiques 135 Schedae, 2006 Prépublication n 17 Fascicule n 1 Solutions de traitement du document textuel avec prise en charge de ressources linguistiques Abderrafih Lehmam Pertinence Mining SARL 82, avenue Jean

Plus en détail

MARQUEUR, UN LOGICIEL DE MARQUAGE SEMI-AUTOMATIQUE DE TEXTES

MARQUEUR, UN LOGICIEL DE MARQUAGE SEMI-AUTOMATIQUE DE TEXTES MARQUEUR, UN LOGICIEL DE MARQUAGE SEMI-AUTOMATIQUE DE TEXTES 1 Abdelkrim Mokhtari Département de Langue et de Littérature Françaises Université Ibn Tofail Faculté des Lettres et des Sciences Humaines Kénitra,

Plus en détail

Évaluation de G-LexAr pour la traduction automatique statistique

Évaluation de G-LexAr pour la traduction automatique statistique TALN 2011, Montpellier, 27 juin 1 er juillet 2011 Évaluation de G-LexAr pour la traduction automatique statistique Wigdan Mekki (1), Julien Gosme (1), Fathi Debili (2), Yves Lepage (3), Nadine Lucas (1)

Plus en détail

Formation et recherche dans le domaine du traitement automatique des langues en contexte universitaire

Formation et recherche dans le domaine du traitement automatique des langues en contexte universitaire Formation et recherche dans le domaine du traitement automatique des langues en contexte universitaire Dans cette intervention, nous nous pencherons sur le rôle spécifique que jouent ou que peuvent jouer

Plus en détail

Traduction automatique de la parole arabe/anglais par segmentations multiples

Traduction automatique de la parole arabe/anglais par segmentations multiples Traduction automatique de la parole arabe/anglais par segmentations multiples Fethi Bougares Laboratoire d Informatique de Grenoble, équipe GETALP BP 53, 38041 Grenoble Cedex 9, FRANCE Courriel : fethi.bougares@imag.fr

Plus en détail

Résumé automatique de textes scientifiques et construction de fiches de synthèse catégorisées :

Résumé automatique de textes scientifiques et construction de fiches de synthèse catégorisées : Université Paris IV-Sorbonne Ecole doctorale Concepts et Langages Thèse pour obtenir le grade de DOCTEUR DE L UNIVERSITE PARIS IV-SORBONNE Discipline : Informatique Spécialité : Informatique linguistique

Plus en détail

TALN (traitement automatique du langage naturel) Eva Sassolini, 30/06/2015

TALN (traitement automatique du langage naturel) Eva Sassolini, 30/06/2015 TALN (traitement automatique du langage naturel) Eva Sassolini, 30/06/2015 Objectifs de TALN Construction de modèles et d outils capables d'effectuer des tâches spécifiques liées à la langue naturelle,

Plus en détail

SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne

SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne Adrien GUILLE, C. Favre, Djamel Abdelkader Zighed To cite this version: Adrien GUILLE, C. Favre, Djamel Abdelkader

Plus en détail

Objectif : Programme: Projet coordonné par l Office International de l Eau. Evènement labellisé World Water Forum 6

Objectif : Programme: Projet coordonné par l Office International de l Eau. Evènement labellisé World Water Forum 6 Atelier WaterDiss2.0: Valoriser les résultats de la recherche sur l'eau comme catalyseur de l'innovation. Paris, Pollutec, 1 er Décembre 2011 De 14h à 17h Salle 617 Objectif : L'objectif du projet WaterDiss2.0

Plus en détail

Appariement de phrases courtes pour la traduction automatique par l exemple

Appariement de phrases courtes pour la traduction automatique par l exemple MajecSTIC 2009 Avignon, France, du 6 au 8 novembre 2009 Appariement de phrases courtes pour la traduction automatique par l exemple Julien Gosme Laboratoire GREYC, Université de Caen Basse-Normandie Contact

Plus en détail

Traduction automatique

Traduction automatique Traduction automatique M. Constant Université Paris-Est Marne-la-Vallée 5 octobre 2009 Outline Introduction Problèmes Différentes approches Traduction automatique statistique Modélisation Exemple de modèle

Plus en détail

Introduction a la détection émotionnelle dans les textes. Kevin Forand

Introduction a la détection émotionnelle dans les textes. Kevin Forand Introduction a la détection émotionnelle dans les textes Kevin Forand Contenu I.Survol du domaine II.Détection émotionnelle dans les textes III.Campagne d'évaluation SemEval IV.Détection de la polarité

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

Introduction au TALN et à l ingénierie linguistique. Isabelle Tellier ILPGA

Introduction au TALN et à l ingénierie linguistique. Isabelle Tellier ILPGA Introduction au TALN et à l ingénierie linguistique Isabelle Tellier ILPGA Plan de l exposé 1. Quelques notions de sciences du langage 2. Applications et enjeux du TAL/ingénierie linguistique 3. Les deux

Plus en détail

Analyse sémantique latente et segmentation automatique des textes

Analyse sémantique latente et segmentation automatique des textes Analyse sémantique latente et segmentation automatique des textes Yves Bestgen FNRS UCL/PSOR 1348 Louvain-la-Neuve Belgique yves.bestgen@psp.ucl.ac.be Abstract Latent semantic analysis (LSA) is employed

Plus en détail

Accès au Contenu Informationnel pour les Masses de Données de Documents

Accès au Contenu Informationnel pour les Masses de Données de Documents Accès au Contenu Informationnel pour les Masses de Données de Documents Grappa LILLE 3 - UR Futurs INRIA MOSTRARE Laboratoire d Informatique de Paris 6 Laboratoire de Recherche en Informatique Orsay -

Plus en détail

Traitement Automatique des Langues

Traitement Automatique des Langues Traitement Automatique des Langues Jean-Yves Antoine Université François Rabelais de Tours www.info.univ-tours.fr/~antoine J.Y. Antoine 1 Traitement Automatique des Langues INTRODUCTION : TECHNOLOGIES

Plus en détail

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique Des traitements aux ressources : le rôle d une architecture Frederik Cailliau Villetaneuse, le 9 décembre 2010 Sous la direction d Adeline Nazarenko 1. 2. 3. 4. 5. 6. 2 Sinequa Cifre à Sinequa Recherche

Plus en détail

Conception et Développement d un Système Automatique d Ecriture Amazighe: Etat d Avancement et Perspectives

Conception et Développement d un Système Automatique d Ecriture Amazighe: Etat d Avancement et Perspectives Conception et Développement d un Système Automatique d Ecriture Amazighe: Etat d Avancement et Perspectives Y. Es Saady, B. Bakkass, A. Rachidi, M. El Yassa, D. Mammass Laboratoire IRF-SIC, Université

Plus en détail

Ressources lexicales au service de recherche et d indexation des images

Ressources lexicales au service de recherche et d indexation des images RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)

Plus en détail

Construction et enrichissement d une ontologie à partir d un corpus de textes

Construction et enrichissement d une ontologie à partir d un corpus de textes Lyon - France Construction et enrichissement d une ontologie à partir d un corpus de textes Rokia BENDAOUD LORIA Campus Scientifique - BP 239 54506 VANDOEUVRE-lès-NANCY CEDEX {Rokia.Bendaoud}@loria.fr

Plus en détail

Fouille de données et sémantique : des techniques pour donner du sens aux données

Fouille de données et sémantique : des techniques pour donner du sens aux données Fouille de données et sémantique : des techniques pour donner du sens aux données Nathalie Aussenac-Gilles (IRIT) co-animatrice avec M. Boughanem de l axe masse de données et calcul http://www.irit.fr/-masses-de-donnees-et-calcul,677-?lang=fr

Plus en détail

L apport des concepts métiers pour la classification des questions ouvertes d enquête.

L apport des concepts métiers pour la classification des questions ouvertes d enquête. TALN 2010, Montréal, 19-23 juillet 2010 L apport des concepts métiers pour la classification des questions ouvertes d enquête. Ludivine Kuznik 1 3 Anne-Laure Guénet 1 Anne Peradotto 2 Chloé Clavel 2 (1)

Plus en détail

Du texte brut au web sémantique

Du texte brut au web sémantique Du texte brut au web sémantique Thierry Poibeau LIPN, CNRS et Université Paris 13 Faciliter l accès au texte But : Améliorer l accès à l information (essentiellement textuelle) Moyen : Proposer de nouveaux

Plus en détail

Collecting, Encoding and Organizing Collocates in a Terminological Database

Collecting, Encoding and Organizing Collocates in a Terminological Database Collecting, Encoding and Organizing Collocates in a Terminological Database Marie-Claude L Homme Observatoire de linguistique Sens-Texte (OLST) Université de Montréal mc.lhomme@umontreal.ca www.olst.umontreal.ca

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Classification d opinions par méthodes symbolique, statistique et hybride

Classification d opinions par méthodes symbolique, statistique et hybride Classification d opinions par méthodes symbolique, statistique et hybride Sigrid Maurel, Paolo Curtoni et Luca Dini CELI-France, SAS 38000 Grenoble {maurel, curtoni, dini}@celi-france.com http://www.celi-france.com

Plus en détail

Gestionnaire de dialogue pour un système d informations à reconnaissance vocale

Gestionnaire de dialogue pour un système d informations à reconnaissance vocale TALN 2001, Tours, 2-5 juillet 2001 Gestionnaire de dialogue pour un système d informations à reconnaissance vocale Sophie Rosset, Lori Lamel LIMSI-CNRS, 91403 Orsay Cédex rosset,lamel@limsi.fr Résumé -

Plus en détail

Classification de questions par traduction

Classification de questions par traduction Classification de questions par traduction Anne-Laure Ligozat LIMSI-CNRS rue John von Neumann 91403 Orsay Cedex prenom.nom@limsi.fr RÉSUMÉ. Dans cet article, nous nous intéressons à la classification de

Plus en détail

Segmentation multiple d un flux de données textuelles pour la modélisation statistique du langage

Segmentation multiple d un flux de données textuelles pour la modélisation statistique du langage TALN 2009 Session posters, Senlis, 24-26 juin 2009 Segmentation multiple d un flux de données textuelles pour la modélisation statistique du langage Sopheap Seng (1, 2), Laurent Besacier (1), Brigitte

Plus en détail

Laurent Besacier Hervé Blanchon

Laurent Besacier Hervé Blanchon Laboratoire d Informatique de Grenoble Equipe GETALP Université Stendhal Laurent Besacier Hervé Blanchon Réalisé par Atef Ben Youssef Sous la direction de Georges Antoniadis 1 Plan La traduction statistique

Plus en détail

TITRE DE LA THESE. Développement durable et lutte contre la pauvreté, Cas de la Tunisie. Par. Riadh Béchir. Unité de recherche ; Laboratoire ;

TITRE DE LA THESE. Développement durable et lutte contre la pauvreté, Cas de la Tunisie. Par. Riadh Béchir. Unité de recherche ; Laboratoire ; TITRE DE LA THESE Développement durable et lutte contre la pauvreté, Cas de la Tunisie Par Riadh Béchir Unité de recherche ; Laboratoire ; Entreprise - Economie - Environnement Economie et sociétés rurales

Plus en détail

SMILK : du TAL au LOD

SMILK : du TAL au LOD SMILK : du TAL au LOD Social Media Intelligence and Linked Knowledge Cédric Lopez (Viseo R&D) 2,060 milliards d inscrits sur les réseaux sociaux Une personne passe en moyenne 4,8 heures par jour devant

Plus en détail

CorpuSearch : présentation d un outil d extraction spécifique

CorpuSearch : présentation d un outil d extraction spécifique CorpuSearch : présentation d un outil d extraction spécifique Jean-Philippe Demoulin, Alda Mari, Romain Vinot ENST Département INFRES CNRS URA 820 46 rue Barrault - 75013 PARIS - +33(0)145817259 {demoulin,

Plus en détail

Construction et enrichissement automatique d ontologie à partir de ressources externes

Construction et enrichissement automatique d ontologie à partir de ressources externes Construction et enrichissement automatique d ontologie à partir de ressources externes JFO 2009 Jeudi 3 décembre 2009 E. Kergosien (LIUPPA, Pau) M. Kamel (IRIT- UPS, Toulouse) M. Sallabery (LIUPPA, Pau)

Plus en détail

Réutilisation de traducteurs gratuits pour développer des systèmes multilingues

Réutilisation de traducteurs gratuits pour développer des systèmes multilingues RECITAL 2004, Fès, 21 avril 2004 Réutilisation de traducteurs gratuits pour développer des systèmes multilingues VO TRUNG Hung Institut National Polytechnique de Grenoble GETA, CLIPS, IMAG - campus 385,

Plus en détail

Sélection de variables groupées avec les forêts aléatoires. Application à l analyse des données fonctionnelles multivariées.

Sélection de variables groupées avec les forêts aléatoires. Application à l analyse des données fonctionnelles multivariées. Sélection de variables groupées avec les forêts aléatoires. Application à l analyse des données fonctionnelles multivariées. Baptiste Gregorutti 12, Bertrand Michel 2 & Philippe Saint Pierre 2 1 Safety

Plus en détail

Fouille de collections de documents en vue d une cartographie thématique de connaissances textuelles

Fouille de collections de documents en vue d une cartographie thématique de connaissances textuelles Fouille de collections de documents en vue d une cartographie thématique de connaissances textuelles Abdenour Mokrane, Gérard Dray, Pascal Poncelet Groupe Connaissance et Systèmes Complexes LGI2P Site

Plus en détail

Comment exploiter les commentaires d internautes pour la recommandation automatique

Comment exploiter les commentaires d internautes pour la recommandation automatique Comment exploiter les commentaires d internautes pour la recommandation automatique Damien Poirier Paris, le 11 juin 2012 1/32 Contexte et problématique 2/32 Contexte et problématique 3/32 Contexte Mise

Plus en détail

Un gestionnaire de dialogue oral arabe Homme-machine

Un gestionnaire de dialogue oral arabe Homme-machine Un gestionnaire de dialogue oral arabe Homme-machine Réalisation et évaluation Younès Bahou Amine Bayoudhi Lamia Hadrich Belguith Laboratoire LARIS MIRACL Faculté des Sciences Economiques et de Gestion

Plus en détail

Analyseur syntaxique C# pour PADL

Analyseur syntaxique C# pour PADL Université de Montréal Projet Ift3150 Analyseur syntaxique C# pour PADL Projet ift3150 Analyseur syntaxique C# pour PADL Page 0 sur 15 Table des matières Introduction I. Énoncé A. Bénéfices attendus B.

Plus en détail

Traduction Automatique Statistique à partir de corpus comparables : Application au couple de langues arabe-français

Traduction Automatique Statistique à partir de corpus comparables : Application au couple de langues arabe-français Traduction Automatique Statistique à partir de corpus comparables : Application au couple de langues arabe-français Rahma Sellami* Fatiha Sadat** Lamia Hadrich Belguith* *ANLP Research Group Laboratoire

Plus en détail

ATHIS. L'historien, le texte et l'ordinateur. Les logiciels de traitement informatique du texte. Alain Dallo Université Paris I.

ATHIS. L'historien, le texte et l'ordinateur. Les logiciels de traitement informatique du texte. Alain Dallo Université Paris I. ATHIS. L'historien, le texte et l'ordinateur. Les logiciels de traitement informatique du texte. Alain Dallo Université Paris I. LAMOP 1 1. Des logiciels qui ont une histoire. L'utilisation de corpus.

Plus en détail

Association des Doctorants du campus STIC. Séminaires doctorants 11

Association des Doctorants du campus STIC. Séminaires doctorants 11 Association des Doctorants du campus STIC Séminaires doctorants 11 07 mars 2007 Actes édités par l association des doctorants du campus STIC. Les travaux individuels publiés restent l unique propriété

Plus en détail

OrderGeneMiner : Logiciel pour l extraction et la visualisation de motifs partiellement ordonnés à partir de puces à ADN

OrderGeneMiner : Logiciel pour l extraction et la visualisation de motifs partiellement ordonnés à partir de puces à ADN OrderGeneMiner : Logiciel pour l extraction et la visualisation de motifs partiellement ordonnés à partir de puces à ADN Mickaël Fabrègue, Agnès Braud, Sandra Bringay, Florence Le Ber, Charles Lecellier,

Plus en détail

Product Platform Development: A Functional Approach Considering Customer Preferences

Product Platform Development: A Functional Approach Considering Customer Preferences Product Platform Development: A Functional Approach Considering Customer Preferences THÈSE N O 4536 (2009) PRÉSENTÉE le 4 décembre 2009 À LA FACULTé SCIENCES ET TECHNIQUES DE L'INGÉNIEUR LABORATOIRE DES

Plus en détail

Recherche et visualisation de mots sémantiquement liés

Recherche et visualisation de mots sémantiquement liés Recherche et visualisation de mots sémantiquement liés Alexander Panchenko 1, 2 Hubert Naets 1 Laetitia Brouwers 1 Pavel Romanov 2 Cédrick Fairon 1 (1) CENTAL, Université catholique de Louvain, Belgique

Plus en détail

Une extension pour RDF/RDFS utilisant des relations procédurales

Une extension pour RDF/RDFS utilisant des relations procédurales Une extension pour RDF/RDFS utilisant des relations procédurales Jean-François Baget * * INRIA Sophia-Antipolis & LIRMM(CNRS - UM2) LIRMM, 161 rue Ada, 34392 Montpellier Cedex 5 baget@lirmm.fr RÉSUMÉ.

Plus en détail

Analyse argumentative du corpus de l ACL (ACL Anthology)

Analyse argumentative du corpus de l ACL (ACL Anthology) 21 ème Traitement Automatique des Langues Naturelles, Marseille, 2014 Analyse argumentative du corpus de l ACL (ACL Anthology) Résumé. Untel Trucmuche 1, 2 Unetelle Machinchose 1, 3 (1) LPL, AMU, CNRS,

Plus en détail

SMU MEDITERRANEAN. SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002)

SMU MEDITERRANEAN. SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002) SMU SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002) MEDITERRANEAN institute OF TECHNOLOGY The Unique English-Speaking Engineering School in Tunisia 'Masters in Systems

Plus en détail

Détection de mots-clés par approches au grain caractère et au grain mot

Détection de mots-clés par approches au grain caractère et au grain mot Détection de mots-clés par approches au grain caractère et au grain mot Gaëlle Doualan, Mathieu Boucher, Romain Brixtel, Gaël Lejeune, Gaël Dias Équipe HULTECH (GREYC, Université de Caen), Bd Maréchal

Plus en détail

Forthcoming Database

Forthcoming Database DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

Indexation conceptuelle application au domaine biomédical. Mesures de similarité dans les ontologies. [Séminaire MIAD Montpellier SupAgro]

Indexation conceptuelle application au domaine biomédical. Mesures de similarité dans les ontologies. [Séminaire MIAD Montpellier SupAgro] [] Indexation conceptuelle application au domaine biomédical Mesures de similarité dans les ontologies Sylvie Ranwez Sébastien Harispe LGI2P de l école des mines d Alès équipe KID (Knowledge and Image

Plus en détail

Analyse d'opinions et de sentiments

Analyse d'opinions et de sentiments Analyse d'opinions et de sentiments Joséphine Anstett IFT6010 Intelligence artificielle Plan Introduction Contexte Complexité des textes Méthode symbolique Méthode statistique Conclusion Comparaison des

Plus en détail

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation 443 Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation Diem Le Thi Hoang Equipe MRIM, Laboratoire CLIPS-IMAG 38041 Grenoble Cedex 9, France

Plus en détail

Segmentation et classification non supervisée de conversations téléphoniques automatiquement retranscrites

Segmentation et classification non supervisée de conversations téléphoniques automatiquement retranscrites TALN 2009 Session posters, Senlis, 24-26 juin 2009 Segmentation et classification non supervisée de conversations téléphoniques automatiquement retranscrites Laurent Bozzi, Philippe Suignard, Claire Waast-Richard

Plus en détail

Journée de l école doctorale ICMS 5 juin 2009

Journée de l école doctorale ICMS 5 juin 2009 Informatique Linguistique Journée de l école doctorale ICMS 5 juin 2009 Elsa Wankawee Mehdi TOLONE PUANGKOR GHASEMI Laboratoire d informatique, Institut Gaspard Monge Université Paris Est Plan Présentation

Plus en détail

AGROBASE : un système de gestion de données expérimentales

AGROBASE : un système de gestion de données expérimentales AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.

Plus en détail

Désambiguïsation lexicale à base de connaissances par sélection distributionnelle et traits sémantiques

Désambiguïsation lexicale à base de connaissances par sélection distributionnelle et traits sémantiques Désambiguïsation lexicale à base de connaissances par sélection distributionnelle et traits sémantiques Mardi 23 Juin 2015 Mokhtar Boumedyen BILLAMI Doctorant, équipe TALEP, Laboratoire LIF (Marseille)

Plus en détail

Structuration sémantique des documents XML : Expérimentations et évaluation

Structuration sémantique des documents XML : Expérimentations et évaluation Structuration sémantique des documents XML : Expérimentations et évaluation Salma Ben Meftah* ² Kaïs Khrouf* ² Jamel Feki* ² Chantal Soulé- Dupuy** * Laboratoire MIRACL, Université de Sfax, B.P. 1088,

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail