ACTES DU COLLOQUE. Colloque pour les Étudiants Chercheurs en Traitement Automatique du Langage naturel et ses applications.

Dimension: px
Commencer à balayer dès la page:

Download "ACTES DU COLLOQUE. Colloque pour les Étudiants Chercheurs en Traitement Automatique du Langage naturel et ses applications."

Transcription

1 ACTES DU COLLOQUE Colloque pour les Étudiants Chercheurs en Traitement Automatique du Langage naturel et ses applications Organisé par Le groupe de recherche ANLP-RG (Arabic natural Language Processing Group) du Laboratoire MIRACL (Multimedia, InfoRmation Systems and Advanced Computing Laboratory) du 23 au 25 Mars 2015 à l hôtel Royal Kenz Thalasso & Spa, Sousse, Tunisie Avec la participation

2 2

3 Préface Après la réussite de sa première édition, le groupe de recherche ANLP (ANLP-RG : Arabic Natural Language Research Group) du laboratoire MIRACL organise la deuxième édition de la conférence CEC-TAL CEC-TAL est une conférence internationale réservée aux étudiants des cycles supérieurs (master ou doctorat) ainsi qu aux jeunes chercheurs travaillant sur le traitement automatique du langage naturel. Cette conférence intéresse particulièrement les étudiants en informatique, en linguistique, sciences cognitives, sciences de l'éducation et tout autre domaine pertinent au TALN. L'objectif de cette conférence est de rassembler des chercheurs de disciplines connexes (développement de ressources linguistiques, Analyse et génération, traitement automatique du langage naturel, application du TAL) et des spécialistes du monde industriel et des entreprises qui déploient des méthodes d'extraction et de gestion des connaissances, afin de communiquer des travaux de qualité, d'échanger et de fertiliser des idées nouvelles. CEC-TAL a pour vocation d offrir aux jeunes chercheurs en Traitement Automatique des Langues l occasion de présenter leurs travaux et de comparer leurs approches. Cette conférence a un comité de programme, constitué de professeurs, de chercheurs en TALN 3

4 Comités Comité d'organisation Lamia HADRICH BELGUITH (FSEGS) Fatiha SADAT (UQAM) Maher JAOUA (FSEGS) Mohamed Mahdi BOUDABOUS (ENIG) Amine BAYOUDHI (FSEGS) Marwa GRAJA BOUDABOUS (ISIMA) Iskander KESKES (ISGG) Comité du programme Abdelmajid Ben Hamadou Lamia Hadrich Belguith Chafik Aloulou Bilel Gargouri Maher Jaoua Faiez Gargouri Mariem Ellouze Khemakhem Wajdi Zaghouani Fatiha Sadat Rim Faiz Farah Benamara Zitoune Hatem Ghorbel Kais Haddar Youness Bahou Mohamed Hedi Maaloul Karim Bouzouba Mona Diab Imed Zitouni Thierry Hamon Azzedine Mazroui Philippe Blache Paolo Rosso Khaled Shaalan Almoataz Bellah Elsaid Mohame Mhiri Aida Khemakhem Souha Mezghanni Héla Fehri MIRACL Lab., University of Sfax - Tunisia ANLP-RG, MIRACL Lab., University of Sfax - Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia MIRACL Lab., University of Sfax - Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia MIRACL Lab., University of Sfax -Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia Carnegie Mellon University - Qatar GDAC Lab., Université of Québec - Montréal LARODEC Lab., IHEC, University of Carthage - Tunisia IRIT Lab., University of Paul Sabatier - Toulouse ISIC Lab., University of Applied Sciences-Switzerland MIRACL Lab., University of Sfax - Tunisia MIRACL Lab., University of Kairouan - Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia LARIE Lab., Mohammed Vth University-Morocco CCLS center, Columbia University Microsoft, USA LIMSI-CNRS & Université Paris 13, France University Mohammed First, Oujda Morocco LPL Lab., CNRS & University of Aix-Marseille NLE Lab, Universitat Politècnica de València, Spain The British University in Dubai, UAE Cairo University - Egypt FSS, University of Sfax - Tunisia MIRACL Lab., University of Sfax - Tunisia IHEC, University of Sfax - Tunisia ISG, University of Gabes - Tunisia 4

5 Sommaire Construction d une cascade de transducteurs pour la reconnaissance des dates à partir d un corpus Wikipédia. Fatma Ben Mesmia, Nathalie Friburger, Kais Haddar and Denis Maurel... 8 Web Arabic corpus : Construction d un large corpus arabe annoté grammaticalement à partir du Web. Ghoul Dhaou 12 La construction automatique d'un lexique d'opinion pour la langue arabe. Abidi Karima and Guiassa Yamina Tlili 17 Acquisition de connaissances multilingues, un espace sémantique comme langage pivot. Boucham Souhila and Aliane Hassina 22 Analyse syntaxique statistique de la langue arabe. Amira Barhoumi, Chafik Aloulou, Lamia Hadrich Belghith and Imed Zitouni.. 31 Intégration du profil utilisateur dans la reformulation des requêtes, la recherche des documents et le ré-ordonnancement des résultats : cas de la langue Arabe. Safi Houssem, Jaoua Maher and Belguith Hadrich Lamia 40 Construction d un Wordnet standard pour l arabe tunisien. Nadia Karmani Ep Ben Moussa and Adel M. Alimi Patents editor in order to automatically construct terminological databases. Chihebeddine Ammar and Kais Haddar A Thesaurus-based ontology generation. Mounira Chkiwa, Anis Jedidi and Faiez Gargouri Automatisation de l encodage des lexiques arabes en TEI. Hajer Maraoui and Kais Haddar Using finite-state transducers to build lexical resources for Unitex Arabic package. Noureddine Doumi, Ahmed Lehireche, Denis Maurel and Maamar Khater. 83 Development of Arabic particles lexicon using the LMF framework. Driss Namly, Karim Bouzoubaa, Youssef Tahir and Hakima Khamar 94 5

6 Programme Lundi 23 Mars h00-16h30 Accueil et Inscription 16h30-17h00 Ouverture de CEC-TAL h00-18h30 Session de présentation courte - Chair : Salma Jamoussi (ISIMS) 1. Fatma Ben Mesmia, Nathalie Friburger, Kais Haddar and Denis Maurel. "Construction d une cascade de transducteurs pour la reconnaissance des dates à partir d un corpus Wikipédia". 2. Ghoul Dhaou. "Web Arabic corpus : Construction d un large corpus arabe annoté grammaticalement à partir du Web". 3. Mohammed Saidi, Leila Falek, Bachir Boudraa and Hocine Teffahi. "Synthèse de la parole à très Bas Débit". 4. Abidi Karima and Guiassa Yamina Tlili. "La construction automatique d'un lexique d'opinion pour la langue arabe". 19h Dîner Mardi 24 Mars h30-10h00 Conférencier invité - Chair : Abdelmajid Ben Hamadou (ISIMS) Houda Bouamor (Carnegie Mellon University, Qatar) 10h00-10h30 10h30-12h30 Pause Café Session orale 1 Chair : Mariem Ellouze (ESC) Présentation 1 : Boucham Souhila and Aliane Hassina. "Acquisition de connaissances multilingues, un espace sémantique comme langage pivot". Présentation 2 : Amira Barhoumi, Chafik Aloulou, Lamia Hadrich Belghith and Imed Zitouni. "Analyse syntaxique statistique de la langue arabe". Présentation 3 :Safi Houssem, Jaoua Maher and Belguith Hadrich Lamia. "Intégration du profil utilisateur dans la reformulation des requêtes, la recherche des documents et le ré-ordonnancement des résultats : cas de la langue Arabe". Présentation 4 : Nadia Karmani Ep Ben Moussa and Adel M. Alimi. "Construction d un Wordnet standard pour l arabe tunisien". 13h00-15h00 15h00-16h00 Déjeuner Session orale 2 Chair : Chafik Aloulou (FSEGS) 6

7 Présentation 1 :Chihebeddine Ammar and Kais Haddar. "Patents editor in order to automatically construct terminological databases". Présentation 2 : Mounira Chkiwa, Anis Jedidi and Faiez Gargouri. "A Thesaurus-based ontology generation". 16h00-18h30 19h Programme Social : sortie guidée par train touristique et visite de la Medina. Dîner Mercredi 25 Mars h30-10h00 Conférencier invité - Chair : Lamia Belguith (FSEGS) Salma Jamoussi (Université de Sfax, Tunisie) - Thématique : L'apprentissage profond pour le TALN 10h00-10h30 10h30-12h00 Pause Café Session orale 3 Chair : Houda Bouamor (CMU) Présentation 1 : Hajer Maraoui and Kais Haddar. "Automatisation de l encodage des lexiques arabes en TEI". Présentation 2 :Noureddine Doumi, Ahmed Lehireche, Denis Maurel and Maamar Khater. "Using finite-state transducers to build lexical resources for Unitex Arabic package". Présentation 3 :Driss Namly, Karim Bouzoubaa, Youssef Tahir and Hakima Khamar. "Development of Arabic particles lexicon using the LMF framework" 12h00-13h00 Prix de la meilleure présentation et Clôture de CEC-TAL h00-15h00 15h00-18h00 Déjeuner Programme Social : sortie sur bateau 7

8 Construction d une cascade de transducteurs pour la reconnaissance des dates à partir d un corpus Wikipédia Fatma Ben Mesmia*, Nathalie Friburger **, Kais Haddar* et Denis Maurel** *Université de Sfax, Laboratoire MIRACL, Multimedia, InfoRmation Systems and Advanced Computing Laboratory ** Université François-Rabelais de Tours, Laboratoire d Informatique {nathalie.friburger, RÉSUMÉ.Les dates sont souvent des sources d information et peuvent aussi être incluses dans des entités nommées représentant les lieux et les évènements. Leur reconnaissance doit être intégrée dans le processus de reconnaissance des entités nommées arabes. En conséquence, dans le présent article, nous élaborons une cascade de transducteurs reconnaissant les entités nommées arabes de type Date à partir d un corpus extrait de Wikipédia. L implémentation de cette cascade est établie en utilisant l outil CasSysdisponible sous la plateforme linguistique libre Unitex. ABSTRACT.The dates often are sources of informationand can beincluded in named entities representing the locations and events. Their recognition mustbe integrated in the process of recognition of Arab named entities.consequently, in the presentpaper,we develop a cascade of transducers recognizing Arabic named entities withthe type Date from a corpus extracted of Wikipedia. The implementation of this cascade is established by using the tool CasSysavailable under the Unitex free linguistic platform. MOTS-CLÉS :Cascade de transducteurs, Wikipédia, REN, Unitex, CasSys. KEYWORDS: Cascade of transducers, Wikipedia, NER, Unitex, CasSys. 1. Introduction La reconnaissance des entités nommées (REN) constitue une piste de recherche encore très innovante. Elle n est pas une tâche facile car elle dépend en large partie d un nombre important de ressources à exploiter. Autrement dit, la complexité de la REN peut être justifiée par l incomplétude de ces ressources.le critère d exhaustivité est donc impossible. En contrepartie, le Web devient très exploité dans nos jours. Il fournit un nombre très intéressant des ressources libres sur lequel elles sont publiées. Parmi celles qui sont plus utilisées, citons Wikipédia.En ce sens, la Wikipédia arabe est considérée comme étant une ressource de connaissances pouvant illustrer des phénomènes linguistiques informatisés. Son exploitation offre l opportunité pour la valorisation del entité nommée arabe (ENA) de type Date. Les dates apparaissent dans différents textes (date de naissance, évènement ). Cependant, l extraction des dates peut rencontrer plusieurs problèmes (en particulier l'existence de différentes écritures régionales). C'est dans ce contexte que s inscrit le présent article. Notre objectif est donc de proposer une démarche baséeune cascade de transducteurs reconnaissant les ENA de type Date. Pour ce faire, nous devons, d une part, identifier un ensemble de mots déclencheurs permettant le repérage d ENA et, d autre part, construire un ensemble de transducteurs agissant sur un corpus avec un ordre prédéfini. La cascade proposée doit résoudre les problèmes d ambiguïté. Cet article s articule autour de quatre sections. La première section permet de présenter les approches existantes pour la REN. La deuxième section est dédiée à la description de la catégorisation des dates à partir de Wikipédia. La troisième section est consacrée à détailler la démarche proposée qui va être expérimentée à l aide du système CasSys de la plateforme 8

9 linguistique libre Unitex. Cette expérimentation est présentée et évaluée dans la section quatre. 2. Etat de l art sur les systèmes de reconnaissance des entités nommées Les approches de REN existantes sontde trois types : symbolique, statistique et hybrides. Les facteurs de distinction entre les trois approches citées sont leur acquisition et leur manipulation, ce n est pas la nature des informations qui sera étudiées.l approche symbolique s appuie spécialement sur l'utilisation de grammaires formelles construites à la main par un linguiste (Friburger et Maurel, 2004 ; Maurel et al., 2011). Elle se fonde sur des règles exploitant des marqueurs lexicaux, des dictionnaires, etc. Parmi les travaux basés sur cette approche, citons :le système NERA développé par (Shaalan et Raza, 2009) reposant sur l utilisation d un ensemble de dictionnaires d EN et sur une grammaire sous forme d'expressions régulières ; le module de repérage des EN à base de règles pour la langue arabe développé par (Zaghouani et al., 2010) en exploitant une première étape de prétraitement lexical qui prépare le texte pour son analyse linguistique ; le système de reconnaissance d ENA pour le domaine de sportdéveloppé par (Fehri, 2012) à travers un ensemble de dictionnaires, des patrons syntaxiques etle formalisme de transducteurs sur la plateforme linguistique Nooj.L approche statistiqueutilise des techniques statistiques sur de larges corpus de textes où les entités-cibles ont été étiquetées. Elle utilise aussi un algorithme d apprentissage permettant d élaborer automatiquement une base de connaissances.en se basant sur l'approche statistique, une technique d apprentissage SVM a été conçue par (Benajiba et al., 2008) pour mettre en œuvre un système de reconnaissance d entités nommées en exploitant les particularités de la langue arabe.l approche hybride utiliseà la fois des règles écrites manuellement et des règles extraites grâce à des algorithmes d'apprentissage et à des arbres de décisions.dans ce contexte, se situe le travail de (Shaalan et Oudah. 2014). 3. Catégorisation des dates à partir de Wikipédia La catégorisation des ENA de type Date que nous proposons est basée sur l étude effectuée sur le corpus Wikipédia d étude constitué de 17 fichiers textes.de ce corpus, nous avons pu identifier trois formes de dates. Première forme d ENA de type Date. La première formeest composée par l année uniquement. Cette formecontient un terme déclencheur qui peut la précéder et/ou la suivre.par exemple, dans «عام 1434 ھ» (année 1934 hégirienne) le mot عام joue le rôle d un mot déclencheur permettant d identifier le nombre 1434 comme étant une année, tandis que le mot ajoute un degré de certitude sur le nombre identifié. C est un indice que l année désignée ھ est hégirienne.«في 2004» (en 2004)présente un deuxième exempled apparition respectant la في première forme déjà mentionnée. L élément brillant est donc l année. Le mot déclencheur peut créer une ambiguïté sémantique dans la langue arabe. Il peut être suivi par un nombre désignant l année (2004) ou suivie d une suite de caractères indiquant une date. Comme par exemple القرن 21 في (en 21ème siècle) ou في الربیع (auprintemps). Deuxième forme de type Date.La deuxième forme décrit le contexte d apparition d une date dont le mois est un élément central. Cette date est incomplète car elle est composée à son tour de deux formes. Nous trouvons soit le nom et/ou le nombre du jour et le mois, soit le mois et l année.d après l étude de corpus, nous constatons que certainesdates peuvent être détectées ثورة ex., selon leur contexte d apparition,lorsqu'elles sont intégrées dans des événements (par / ملعب 14 جانفي برادس ex,. 14/ La révolution du 14 janvier) ou dans des noms de lieux (par جانفي Stade 14 janvier de Rades). Quant aux mois hégiriens,ilsapparaissent généralement dans les évènements religieux (par ex,. یوم العید 1 شوال / L aïd 1 er chawal). Les dates peuvent avoir des 9

10 écritures différentes dans les pays arabes. Par exemple, dans les pays orientaux, les mois syriaques et musulmans sont les plus utilisés. Par contre, les mois grégoriens sont utilisés d une façon fréquente dans les pays magrébins. Au sein de cette union, il existe une différence aux niveaux des appellations des mois. En Tunisie, comme en Algérie,le mois d août en arabe». غشت «est», tandis qu au Maroc, son appellation أوت «est Troisième forme de type Date. La troisième formeà reconnaitre dans le corpus d étude concerne une date complète, telle qu elle composée par le nom et/ou le nombre du jour, le mois, یوم الا حد 26 أكتوبر l année.«2014» (Dimanche 26 octobre 2014)illustre une forme possible d une date complète figurant dans le corpus d étude. 4. Démarche proposée pour la reconnaissance des entités nommée de type Date La démarche que nous proposonsest composée par deux étapes : l identification des ressources nécessaires pouvant cerner les entités nommées à reconnaitre et la création des transducteurs dont chacun possède son propre rôle Identification des ressources nécessaires Les ressources nécessaires sont les dictionnaires, les mots déclencheurs, les règles d extraction. Un dictionnaire doit être crééstockant les noms de la semaine et les noms du mois selon les différents calendriers.les règles d extraction des dates sont identifiées grâce aux mots déclencheurs. Par exemple, les mots déclencheurs حتى,ثورة et reconnaissentلیلة respectivement les formes suivantes : <NB><mois><NB>, عام< NB > <mois><nb> et <NB><mois><NB> Cascade de transducteurs proposée La cascade de transducteurs proposée englobe trois transducteurs principaux. Ces transducteursdoivent être classés selon les trois formes identifiées. Cette décomposition est faite pour éviter les problèmes de chevauchement de certains chemins, d une part, et les problèmes d ambigüité, d autre part.donnons l exemple du premier transducteur reconnaissant une date complète (figure 1). Figure 1. Exemple d'un transducteur reconnaissant une date complète 5. Expérimentation et évaluation La cascade de transducteurs proposée est implémentéesous la plateforme linguistique Unitex. La figure 2 ci-dessous montre la forme de la cascade qui est générée grâce à l outil CasSys. L expérimentationeffectuée montre que chaque graphe ajoute ses propres annotationsà l aide du mode «Merge». Ce mode permet d avoir, en sortie, une ENA reconnue entourée par une balise définie au sein des transducteurs. 10

11 Figure 2. Cascade de transducteurs reconnaissant les dates Dans le but d effectuer une évaluation nous avons appliqué la cascade implémentée sur le corpus de test. Le corpus est composé de 50 fichiers textes dont sa construction rassemble à celle du corpus d étude. Le résultat obtenu dépend en grande partie des mots déclencheurs établis précédemment. Echantillons traités Entités de type Date trouvées Entités détectées parerreur Tableau 1. Tableau récapitulatif des résultats obtenus Nous avons évalué manuellement la qualité de notre travail sur le corpus de test. Les résultats sont satisfaisants (Tableau 1) car les transducteurs ont pu couvrir la majorité des ENA y figurant.avec une précision de 0,96 et un rappel de 0,95.Nous constatons donc que la méthode proposée est efficace. 6. Conclusion et perspectives Dans le présent article, nous avons construit un ensemble de transducteurset généré une cascade permettant la reconnaissance des ENA de type Date. La génération de cette cascade est réalisée à l aide du système CasSys, intégré dans la plateforme linguistique Unitex. Le fonctionnement de la cascade de transducteurs a nécessité la construction d un dictionnaire et une liste des mots déclencheurs. Dans un futur immédiat, nous tentons decouvrir les autres types (les noms de personnes, les évènements, les noms de lieux, etc.) afin de générer une cascade de transducteurs reconnaissant toutes les ENA. Nous continuons à travailler avec la ressource libre Wikipédia arabeenprofitant de sa richesse pour enrichir nos corpus. 7. Références Benajiba Y. et Rosso P Arabic Named Entity Recognition using Conditional Random Fields, In Proceedings of Workshop on HLT and NLP within the Arabic World, LREC. Friburger N. et Maurel D. 2004, Finite-state transducer cascade to extract named entities in texts, Theoretical Computer Science, volume 313 : Fehri H Reconnaissance automatique des entités nommées arabes et leur traduction vers le français, thèse de doctorat, Université de Sfax. Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I. et Nouvel D Cascades de transducteurs autour de la reconnaissance des entités nommées, Traitement automatique des langues, 52(1) : Shaalan K. et Raza H NERA : Named entity recognition for Arabic, Journal of the American Society for Information Science and Technology, 60(9) : Khaled Shaalan et Mai Oudah A hybrid approach to Arabic named entity recognition. Journal of Information Science, 40(1) : Zaghouani W., Pouliquen B., Ebrahim M. et Steinberger R Adapting a resource-light highly multilingual named entity recognition system to arabic, Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC 10)

12 Web Arabic corpus: Construction d un large corpus arabe annoté morpho-syntaxiquement à partir du Web Dhaou Ghoul Laboratoire STIH, Université Sorbonne Paris4, 1 rue Victor cousin Paris RÉSUMÉ.Dans ce papier,nous présentons une méthodologie de construction d un large corpus annoté grammaticalement à partir du Web. Notre objectif est d avoir une grande ressource pour la langue arabe qui permette aux chercheurs dans le domaine du traitement automatique de la langue de réaliser des applications en TAL. Pour ce faire, tout d abord nous avonspris les données textuelles réalisées au cours de notre recherche dans le cadre de notre projet de thèse. Ensuite, nous avons appliqué l analyseur morphosyntaxique «Tree Tagger» pour annoter ces données automatiquement dans le but d avoir à disposition un large corpus annoté. ABSTRACT. In this paper, we present a methodology to build a large grammatically annotated corpus from the Web. Our goal is to have a great resource for the Arabic language that allows researchers in the field of automatic language processing to create applications in NLP. To achieve this, first we took the textual data made during our research as part of our thesis project. Then we applied the morphosyntactic analyzer Tree Tagger to automatically annotate data in order have available a large annotated corpus. MOTS CLÉS :TAL, corpus, langue arabe, Tree Tagger, Web, précision, apprentissage. KEYWORDS: NLP, corpora, Arabic language, Tree Tagger, Web, precision, learning. 1. Introduction La construction des corpus électroniques annotés morpho-syntaxiquement reste une tâche indispensable pour réaliser des systèmes de TAL robustes. Denos jours, plusieurs corpus annotés sont disponibles gratuitement pour la langue anglaise et française (Candito et Seddah, 2012). Pour la langue arabe et malgré les différents travaux effectués dans le domaine du traitement automatique, il reste toujours compliqué de trouver assez de ressources gratuites à propos de cette langue. Dans le cadre de notre projet de thèse (Mogador), nous avons décidé de créer notre propre corpus à partir du web. Ceci, dans le but de repérer les différents tokens 1 en arabe littéraire, et de créer une grammaire pour chaque token. Avec le développement de l internet et de ses services, le web est devenu une grande source de documents dans différentes langues et différents domaines. Cette source alliée à des supports de stockage permet la construction rapide de corpus (Meftouh et al, 2007). Dans ce papier, nous présentons les différents processus qui sont utilesà la construction d unvaste corpus étiqueté à partir du Web dans le but d améliorer les différentes applications de TAL pour l arabe (analyseur morphosyntaxique, extraction d informations, traduction automatique ). Ce papier est organisé de la manière suivante : la section 2 présente quelques corpus ou travaux qui ont été effectués dans ce domaine, la section 3 présente la méthode de 1 Les mots qui n appartiennent pas au lexique arabe et n obéissent pas à la dérivation morphologique de l arabe. 12

13 l annotation de notre corpus (catégories grammaticales) et la section 4 décrit l évaluation de l annotation de notre corpus. Les conclusions de ce travail feront l objet de la section Etat de l art: La plupart des chercheurs travaillant dans le domaine du traitement automatique de la langue arabe ont choisi de construire leurs propres ressources pour réaliser leurs applications. Dans cette section, nous allons présenter deux ressources électroniques déjà réalisées pour la langue arabe : Le corpus coranique arabe 2 (Kais et Habash, 2010) est une ressource linguistique en ligne annotée avec différentes couches d annotation y compris: la segmentation morphologique, l étiquetage morphosyntaxique et l analyse syntaxique en se basant sur la grammaire de dépendance القرأن الكریم) (إعراب et une ontologie sémantique. Le coran contient mots répartis sur 114 chapitres, chaque chapitre contient une séquence des versets numérotés. L annotation de ce corpus est basée sur Buckwalter Arabic Morphological Analyzer ou BAMA (Buckwalter, 2002) qui utilise un jeu d étiquettes contient 55 étiquettes. KALIMAT (El-Haj et Koulali, 2013) est une collection de articles à partir du journal Omani Alwatan 3 qui a été effectué par (Abbas et al, 2011). Ce corpus contient mots repartis sur six domaines (Culture, Economie, religion, Sports, International, Local). L annotation se fait grâce à Stanford PosTagger (Toutanova et all, 2003) en se basant sur un jeu d étiquettes contenant 33 étiquettes. 3. Construction du corpus : différents processus La réalisation de notre corpus porte sur l extraction de différents articles à partir d un site web. Le site que nous avons choisi est le site du journal électronique «Alwatan» (الوطن) en 2004 (Ghoul, 2014). Notre corpus est constitué de phrases (nombre approximatif car en arabe on n utilise pas souvent les ponctuations ce qui rend très difficile le comptage des phrases dans un texte) et mots (dont mots différents) distribués sur quatre domaines : culture, économie, religion et sports, de la manière suivante : Domaine Nb articles Nb phrases Nb mots / Nb mots différents Nb tokens (mots-outils) Culture / Economie / Religion / Sports / Total / Table 1. Statistiques de notre corpus 13

14 Notons que nous avons translitéré les textes sous la forme de Buckwalter 4 (Buckwalter, 2002) pour éviter les problèmes de codage arabe et pour faciliter le nettoyage automatique de notre corpus Segmentation du corpus: La première phase de l annotation morphosyntaxique d un corpus est la segmentation en morphèmes. Pour la langue arabe la segmentation est une tâche loin d être facile en raison de l agglutination. Au cours de notre recherche, nous avons essayé de réaliser un algorithme de segmentation en nous basant sur des règles qui traitent dans la majorité des cas la forme correcte d un mot en arabe. Notre algorithme a été implémenté en Perl (Ghoul,2013). Le principe de cette méthode est basé sur un corpus segmenté manuellement. En effet, nous avons effectué une segmentation grossière au niveau des espaces et des signes de ponctuation. Ensuite, on compare chaque mot avec la forme déjà segmentée. La segmentation est considérée valide si le mot est trouvé dans le corpus. Sinon, on parcourt le mot dans le but d extraire les prés-bases et les post-bases afin d obtenir la forme correcte du mot en arabe. Par contre, avec cette méthode, nous avons constaté qu il reste des ambiguïtés de découpage pour certains mots qui peuvent se découper de plusieurs façons différentes. On prend l exemple du mot «ألم» qui peut se découper soit en : لم+أ conjonction d interrogation+ particule de négation, soit en ألم : nom masculin singulier (douleur). Après avoir segmenté notre corpus, nous allons appliquer un outil d annotation afin d obtenir un corpus étiqueté. Ce travail sera l objet de la section suivante Annotation du corpus : Le jeu d étiquettes : La plupart des chercheurs ne sont pas d accord sur ce le choix du jeu d étiquettes. Quelques études ont été déjà faites sur la taille du jeu d étiquettes et son influence sur les performances des analyseurs. Les résultats obtenus annoncent que la taille réduite donne des bonnes performances pour les analyseurs syntaxiques mais qu on n y trouve pas plus d informations sur la langue et qu on reste dans la généralité. Notre objectif dans ce travail est de réaliser un corpus qui contienne le maximum des informations pour être utilisable dans les différentes applications en TAL et en particulier pour repérer les tokens ou jetons de la langue arabe. C est pourquoi, nous avons décidé de créer notre propre jeu d étiquettes en collaboration avec des spécialistes en linguistique arabe. Notre jeu d étiquettes contient 61 catégories syntaxiques (voir annexe). Dans ce jeu d étiquette, nous avons essayé de donner plus d informations sur l unité lexicale et surtout les tokens afin de diminuer le taux d ambiguïté Processus d annotation : L annotation d un vaste corpus manuellement est coûteuse. En effet, nous avons essayé de trouver un mécanisme ou une méthodologie moins coûteuse surtout au niveau du temps. Notre méthodologie d annotation se compose de deux étapes : D abord, nous avons annoté manuellement grâce à un expert en linguistique arabe une partie importante de notre corpus (300 phrases) qui a été utilisée pour l apprentissage du modèle. Ensuite nous avons utilisé l outil «Tree Tagger» (Schmid, 1995) pour entraîner et annoter automatiquement le reste de notre corpus. En effet, notre choix de cet étiqueteur se justifie par sa performance sur plusieurs langues (anglais, français, allemand, ) et en plus il est gratuit et facile à utiliser sur l Unix. Pour la langue française, (Stein, 2007) a entraîné cet analyseur sur un corpus 4 14

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013 Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Évaluation de G-LexAr pour la traduction automatique statistique

Évaluation de G-LexAr pour la traduction automatique statistique TALN 2011, Montpellier, 27 juin 1 er juillet 2011 Évaluation de G-LexAr pour la traduction automatique statistique Wigdan Mekki (1), Julien Gosme (1), Fathi Debili (2), Yves Lepage (3), Nadine Lucas (1)

Plus en détail

Extraction de termes centrée autour de l expert

Extraction de termes centrée autour de l expert Thomas Heitz, Mathieu Roche, Yves Kodratoff Université Paris-Sud, Bât 490, 91405 Orsay Cedex France, {heitz, roche, yk}@lri.fr, http://www.lri.fr/ {heitz, roche, yk}/ Résumé. Nous développons un logiciel,

Plus en détail

L apport des concepts métiers pour la classification des questions ouvertes d enquête.

L apport des concepts métiers pour la classification des questions ouvertes d enquête. TALN 2010, Montréal, 19-23 juillet 2010 L apport des concepts métiers pour la classification des questions ouvertes d enquête. Ludivine Kuznik 1 3 Anne-Laure Guénet 1 Anne Peradotto 2 Chloé Clavel 2 (1)

Plus en détail

Extraction d informations

Extraction d informations Extraction d informations Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de W. Cohen (CMU), de Julien Lemoine (Exalead) Antoine Rozenknop 6 février 2009 Antoine Rozenknop () Extraction d informations

Plus en détail

MARQUEUR, UN LOGICIEL DE MARQUAGE SEMI-AUTOMATIQUE DE TEXTES

MARQUEUR, UN LOGICIEL DE MARQUAGE SEMI-AUTOMATIQUE DE TEXTES MARQUEUR, UN LOGICIEL DE MARQUAGE SEMI-AUTOMATIQUE DE TEXTES 1 Abdelkrim Mokhtari Département de Langue et de Littérature Françaises Université Ibn Tofail Faculté des Lettres et des Sciences Humaines Kénitra,

Plus en détail

Recherche et visualisation de mots sémantiquement liés

Recherche et visualisation de mots sémantiquement liés Recherche et visualisation de mots sémantiquement liés Alexander Panchenko 1, 2 Hubert Naets 1 Laetitia Brouwers 1 Pavel Romanov 2 Cédrick Fairon 1 (1) CENTAL, Université catholique de Louvain, Belgique

Plus en détail

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation 443 Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation Diem Le Thi Hoang Equipe MRIM, Laboratoire CLIPS-IMAG 38041 Grenoble Cedex 9, France

Plus en détail

Ressources lexicales au service de recherche et d indexation des images

Ressources lexicales au service de recherche et d indexation des images RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

Réutilisation de traducteurs gratuits pour développer des systèmes multilingues

Réutilisation de traducteurs gratuits pour développer des systèmes multilingues RECITAL 2004, Fès, 21 avril 2004 Réutilisation de traducteurs gratuits pour développer des systèmes multilingues VO TRUNG Hung Institut National Polytechnique de Grenoble GETA, CLIPS, IMAG - campus 385,

Plus en détail

UNIVERSITÉ PARIS-SORBONNE

UNIVERSITÉ PARIS-SORBONNE UNIVERSITÉ PARIS-SORBONNE ÉCOLE DOCTORALE V : Concepts et Langages EA 4509 Sens Textes Informatique Histoire T H È S E pour obtenir le grade de DOCTEUR DE L UNIVERSITÉ PARIS-SORBONNE Discipline : Linguistique

Plus en détail

OPITER : Fouille de données d opinion pour les territoires

OPITER : Fouille de données d opinion pour les territoires OPITER : Fouille de données d opinion pour les territoires Sagéo Brest, 2013 Eric Kergosien (TETIS- LIRMM) Pierre Maurel (TETIS) Mathieu Roche (TETIS LIRMM) Maguelonne Teisseire (TETIS LIRMM) 26/09/2013

Plus en détail

Ingénierie et gestion des connaissances

Ingénierie et gestion des connaissances Master Web Intelligence ICM Option Informatique Ingénierie et gestion des connaissances Philippe BEAUNE Philippe.Beaune@emse.fr 18 novembre 2008 Passer en revue quelques idées fondatrices de l ingénierie

Plus en détail

SMU MEDITERRANEAN. SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002)

SMU MEDITERRANEAN. SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002) SMU SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002) MEDITERRANEAN institute OF TECHNOLOGY The Unique English-Speaking Engineering School in Tunisia 'Masters in Systems

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

Forthcoming Database

Forthcoming Database DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of

Plus en détail

CURRICULUM VITAE. Informations Personnelles

CURRICULUM VITAE. Informations Personnelles CURRICULUM VITAE Informations Personnelles NOM: BOURAS PRENOM : Zine-Eddine STRUCTURE DE RATTACHEMENT: Département de Mathématiques et d Informatique Ecole Préparatoire aux Sciences et Techniques Annaba

Plus en détail

Calculatrice vocale basée sur les SVM

Calculatrice vocale basée sur les SVM Calculatrice vocale basée sur les SVM Zaïz Fouzi *, Djeffal Abdelhamid *, Babahenini MohamedChaouki*, Taleb Ahmed Abdelmalik**, * Laboratoire LESIA, Département d Informatique, Université Mohamed Kheider

Plus en détail

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée Expériences de formalisation d un guide d annotation : vers l annotation agile assistée Bruno Guillaume 1,2 Karën Fort 1,3 (1) LORIA 54500 Vandœuvre-lès-Nancy (2) Inria Nancy Grand-Est (3) Université de

Plus en détail

AGROBASE : un système de gestion de données expérimentales

AGROBASE : un système de gestion de données expérimentales AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.

Plus en détail

Identification de thèmes cas de l Arabe standard

Identification de thèmes cas de l Arabe standard Identification de thèmes cas de l Arabe standard Mourad Abbas 1, Kamel Smaili 2, et Daoud Berkani 3 1 Speech Processing Laboratory, CRSTDLA, 1 rue Djamel Eddine Alfghani, 16000 Algiers, Algeria, m abbas04@yahoo.fr

Plus en détail

L information biographique : modélisation, extraction et organisation en base de connaissances

L information biographique : modélisation, extraction et organisation en base de connaissances L information biographique : modélisation, extraction et en base de connaissances Laurent Kevers Université catholique de Louvain CENTAL laurent.kevers@uclouvain.be Résumé L extraction et la valorisation

Plus en détail

RAPID 3.34 - Prenez le contrôle sur vos données

RAPID 3.34 - Prenez le contrôle sur vos données RAPID 3.34 - Prenez le contrôle sur vos données Parmi les fonctions les plus demandées par nos utilisateurs, la navigation au clavier et la possibilité de disposer de champs supplémentaires arrivent aux

Plus en détail

Colloque parrainé par le Ministère MIPMEPI et organisé le 23-24 Mai 2011 Hôtel EL-RIADH Sidi Fredj - Algérie

Colloque parrainé par le Ministère MIPMEPI et organisé le 23-24 Mai 2011 Hôtel EL-RIADH Sidi Fredj - Algérie De la Société des Savoirs à l Économie de l Intelligence : Les méthodes et les outils pour cerner, optimiser et relever les défis de la mondialisation et de la globalisation Colloque parrainé par le Ministère

Plus en détail

Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle?

Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle? Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle? Daniel K. Schneider TECFA FPSE - Université de Genève daniel.schneider@unige.ch Unité de technologie de l'éducation Université

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

MASTER LPL : LANGUE ET INFORMATIQUE (P)

MASTER LPL : LANGUE ET INFORMATIQUE (P) MASTER LPL : LANGUE ET INFORMATIQUE (P) RÉSUMÉ DE LA FORMATION Type de diplôme := Master Domaine : Arts, Lettres, Langues Mention : LITTERATURE, PHILOLOGIE, LINGUISTIQUE Spécialité : LANGUE ET INFORMATIQUE

Plus en détail

SemWeb : Interrogation sémantique du web avec XQuery. Les membres du projet SemWeb

SemWeb : Interrogation sémantique du web avec XQuery. Les membres du projet SemWeb SemWeb : Interrogation sémantique du web avec XQuery Les membres du projet SemWeb Contexte et objectifs Le projet SemWeb s inscrit dans les efforts de recherche et de développement actuels pour construire

Plus en détail

Bilan de thèse à mi-parcours

Bilan de thèse à mi-parcours Bilan de thèse à mi-parcours Benjamin Lévy 26 mars 2012 Introduction La thèse de doctorat d informatique (école doctorale 130, EDITE) dont le titre officiel est le suivant : Avatars capables d écoute,

Plus en détail

CURRICULUM VITAE. 1. Informations générales. Nom et prénom: Akram KAMOUN. Date et lieu de naissance: 08 janvier 1988 à Tunis

CURRICULUM VITAE. 1. Informations générales. Nom et prénom: Akram KAMOUN. Date et lieu de naissance: 08 janvier 1988 à Tunis CURRICULUM VITAE 1. Informations générales Nom et prénom: Akram KAMOUN Date et lieu de naissance: 08 janvier 1988 à Tunis Adresse de correspondance: Route de Soukra, km 4, Cité El Amal 3, Maison N 4, Rue

Plus en détail

NVivo: du projet à la publication. Claude Julie Bourque, Ph.D. Université de Sherbrooke, Québec, Canada

NVivo: du projet à la publication. Claude Julie Bourque, Ph.D. Université de Sherbrooke, Québec, Canada NVivo: du projet à la publication Claude Julie Bourque, Ph.D. Université de Sherbrooke, Québec, Canada Du projet à la publication Cette présentation décrit brièvement comment la recherche de Claude Julie

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal

Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal Plan de cours ADM 992C Page 1 École des sciences de la gestion Département de management et technologie Université du Québec à Montréal ADM-992C LES TECHNOLOGIES D'AIDE À LA PRISE DE DÉCISION DANS LES

Plus en détail

Université de XY University of XY. Faculté XY Faculty of XY

Université de XY University of XY. Faculté XY Faculty of XY Université de XY University of XY Faculté XY Faculty of XY Le présent supplément au diplôme suit le modèle élaboré par la Commission européenne, le Conseil d'europe et l'unesco/cepes. Le supplément vise

Plus en détail

1 Description générale. Résumé

1 Description générale. Résumé Station Sensunique: une plateforme Web modulaire, collaborative et évolutive d acquisition assistée de ressources terminologiques et non terminologiques (orientée Langues Contrôlées) Izabella Thomas 1,

Plus en détail

Projet CNRS-Mastodons ANalyse d IMages fondée sur des Informations TEXtuelles

Projet CNRS-Mastodons ANalyse d IMages fondée sur des Informations TEXtuelles Projet CNRS-Mastodons ANalyse d IMages fondée sur des Informations TEXtuelles Bruno Crémilleux, Pierre Gançarski, Mathieu Roche, Christian Sallaberry, Maguelonne Teisseire et al. Strasbourg novembre 2014

Plus en détail

Traitement automatique des entités nommées en arabe : détection et traduction

Traitement automatique des entités nommées en arabe : détection et traduction Traitement automatique des entités nommées en arabe : détection et traduction Souhir Gahbiche-Braham Hélène Bonneau-Maynard François Yvon Université Paris Sud & LIMSI-CNRS BP 133-91403 ORSAY Cedex - France

Plus en détail

L ouverture des données de la recherche en 2015 : définitions, enjeux, dynamiques

L ouverture des données de la recherche en 2015 : définitions, enjeux, dynamiques L ouverture des données de la recherche en 2015 : définitions, enjeux, dynamiques «Re-analysis is a powerful tool in the review of important studies, and should be supported with data made available by

Plus en détail

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION THÈSE N O 2388 (2001) PRÉSENTÉE AU DÉPARTEMENT D'INFORMATIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE

Plus en détail

GLOSSAIRE DES TERMES DE TRADUCTIQUE. Marie-Claude L'Homme

GLOSSAIRE DES TERMES DE TRADUCTIQUE. Marie-Claude L'Homme GLOSSAIRE DES TERMES DE TRADUCTIQUE Marie-Claude L'Homme aide à la correction Angl. proofreading aid Tout logiciel conçu pour repérer des erreurs contenues dans un texte. aide à la traduction Angl. translation

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

Visualisation automatique du contenu d une base de documents textuels via les hyper-cartes d information

Visualisation automatique du contenu d une base de documents textuels via les hyper-cartes d information Visualisation automatique du contenu d une base de documents textuels via les hypercartes d information Motsclés Abdenour Mokrane, Pascal Poncelet, Gérard Dray Email : {abdenour.mokrane, pascal.poncelet,

Plus en détail

Sources d information : lexicale. Sources d information : phonotactique. Sources d information : prosodie (2/3) Sources d information : prosodie (1/3)

Sources d information : lexicale. Sources d information : phonotactique. Sources d information : prosodie (2/3) Sources d information : prosodie (1/3) Organisation de la présentation Reconnaissance automatique des langues RMITS 28 http://www.irit.fr/~jerome.farinas/rmits28/ Jérôme Farinas jerome.farinas@irit.fr Équipe SAMOVA (Structuration, Analyse et

Plus en détail

Classification du genre vidéo reposant sur des transcriptions automatiques

Classification du genre vidéo reposant sur des transcriptions automatiques TALN 2010, Montréal, 19 23 juillet 2010 Classification du genre vidéo reposant sur des transcriptions automatiques Stanislas Oger, Mickael Rouvier, Georges Linarès LIA, Université d Avignon, France {stanislas.oger,

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

TECH. INFOTECH # 34 Solvabilité 2 : Le calcul du capital économique dans le cadre d un modèle interne. Introduction

TECH. INFOTECH # 34 Solvabilité 2 : Le calcul du capital économique dans le cadre d un modèle interne. Introduction INFO # 34 dans le cadre d un modèle interne Comment les méthodes d apprentissage statistique peuvent-elles optimiser les calculs? David MARIUZZA Actuaire Qualifié IA Responsable Modélisation et Solvabilité

Plus en détail

Net-université 2008-1-IS1-LEO05-00110. http://www.adam-europe.eu/adam/project/view.htm?prj=5095

Net-université 2008-1-IS1-LEO05-00110. http://www.adam-europe.eu/adam/project/view.htm?prj=5095 Net-université 2008-1-IS1-LEO05-00110 1 Information sur le projet Titre: Code Projet: Année: 2008 Type de Projet: Statut: Accroche marketing: Net-université 2008-1-IS1-LEO05-00110 Projets de transfert

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

Enrichissement de vidéos pédagogiques et apprentissage actif : le projet

Enrichissement de vidéos pédagogiques et apprentissage actif : le projet Informatique e t M OOC 24 juin 2 014 P aris Enrichissement de vidéos pédagogiques et apprentissage actif : le projet Colin de la Higuera, Yannick Prié, Camila Morais Canellas, Matthieu Riou Université

Plus en détail

Le Traitement Automatique des Langues en France à l ère du Big Data

Le Traitement Automatique des Langues en France à l ère du Big Data TAL = Ordinateur & Langue Vers une myriadisation des (micro)-données et des traitement Le Traitement Automatique des Langues en France à l ère du Big Data À l aube d un révolution technologique Patrick

Plus en détail

Un modèle HMM pour la détection des mots composés dans un corpus textuel.

Un modèle HMM pour la détection des mots composés dans un corpus textuel. Un modèle HMM pour la détection des mots composés dans un corpus textuel. Lakhdar Remaki & Jean Guy Meunier LANCI Université du Québec à Montréal. Cp 8888, succ A Montréal. H3C 3P8 Canada remaki@livia.etsmtl.ca

Plus en détail

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École

Plus en détail

Artificial Intelligence AI

Artificial Intelligence AI Pedagogical Introduction Artificial Intelligence AI Lecture 0 Karim Bouzoubaa This Lecture General Information Examples Importance At the end Intelligent Systems Course Content, Other AI courses, Learning

Plus en détail

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 2 Plan Data mining : définition, utilisations et concepts Wolfram Alpha : extraction de données d'un compte

Plus en détail

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree French Programme of Studies (for courses commencing October 2009 and later) YEAR ONE (2009/10) Year (These units start in and continue in.) FRE1001 Linguistique théorique 1 4 credits Non Compensatable

Plus en détail

Conversion des requêtes en langage naturel vers nrql

Conversion des requêtes en langage naturel vers nrql Conversion des requêtes en langage naturel vers nrql Hasna Boumechaal 1, Sofiane Allioua 2, Zizette Boufaida 3 1 Université Mentouri, Constantine, Algérie boumechaal.h@gmail.com 2 Laboratoire LIRE, Université

Plus en détail

Initiation à la recherche documentaire

Initiation à la recherche documentaire Initiation à la recherche documentaire 1 Objectifs Cette séance est destinée à reprendre les principes de la démarche documentaire pour construire un parcours pertinent en terme de méthodologie et de résultats

Plus en détail

Enjeux méthodologiques, linguistiques et informatiques pour le traitement du français écrit des sourds

Enjeux méthodologiques, linguistiques et informatiques pour le traitement du français écrit des sourds Enjeux méthodologiques, linguistiques et informatiques pour le traitement du français écrit des sourds Tristan Vanrullen 1 Leïla Boutora 2 Jean Dagron 3 (1) TVSI, 13009 Marseille (2) LPL, UMR 7309 CNRS/Univ.

Plus en détail

NOTIONS GRAMMATICALES. Émission d un message signé (rencontre avec une personne sourde) 8 Identification (1) Classificateurs

NOTIONS GRAMMATICALES. Émission d un message signé (rencontre avec une personne sourde) 8 Identification (1) Classificateurs Syllabus : cours LSQ 1 Favoriser chez l étudiant des connaissances de base théoriques et pratiques sur la LSQ et la culture sourde. Ces connaissances permettront à l étudiant de pouvoir communiquer dans

Plus en détail

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Architecture d'entreprise : Guide Pratique de l'architecture Logique Guides Pratiques Objecteering Architecture d'entreprise : Guide Pratique de l'architecture Logique Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam

Plus en détail

Plan de la présentation

Plan de la présentation sous la direction du professeur Jean Quirion JULIAN ZAPATA ROJAS Candidat à la Maitrise ès arts en traductologie École de traduction et d interprétation Université d Ottawa Plan de la présentation Quelques

Plus en détail

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM 2015-2 APPLICATION FORM

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM 2015-2 APPLICATION FORM SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM 2015-2 APPLICATION FORM APPLICATION FORM / FORMULAIRE DE CANDIDATURE Note: If there is insufficient space to answer a question, please attach additional

Plus en détail

Outil de transcription phonétique à partir du texte Arabe

Outil de transcription phonétique à partir du texte Arabe Outil de transcription phonétique à partir du texte Arabe Fayçal Imedjdouben 1 Amrane Houacine 2 1 Faculté d'electronique et d'informatique Université des Sciences et de la Technologie Houari Boumediene

Plus en détail

ISTEX, vers des services innovants d accès à la connaissance

ISTEX, vers des services innovants d accès à la connaissance ISTEX, vers des services innovants d accès à la connaissance Synthèse rédigée par Raymond Bérard, directeur de l ABES, à partir du dossier de candidature d ISTEX aux Initiatives d excellence et des réunions

Plus en détail

2 ième AG de MAGMET Article de presse 2 ième AG of MAGMET Press article

2 ième AG de MAGMET Article de presse 2 ième AG of MAGMET Press article 2 ième AG de MAGMET Article de presse 2 ième AG of MAGMET Press article Le Réseau Maghrébin de Métrologie MAGMET a tenu sa 2 ième Assemblée Générale à Rabat les 31 Mai et 01 Juin 2011. Ont pris part à

Plus en détail

Analyse conjointe du signal sonore et de sa transcription pour l identification nommée de locuteurs

Analyse conjointe du signal sonore et de sa transcription pour l identification nommée de locuteurs Analyse conjointe du signal sonore et de sa transcription pour l identification nommée de locuteurs Vincent Jousse Sylvain Meignier Christine Jacquin Simon Petitrenaud Yannick Estève Béatrice Daille LIUM

Plus en détail

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Problématiques de recherche. Figure Research Agenda for service-oriented computing Problématiques de recherche 90 Figure Research Agenda for service-oriented computing Conférences dans le domaine ICWS (International Conference on Web Services) Web services specifications and enhancements

Plus en détail

Outils de traitements de corpus textuels développées à Paris-Est : présentations, démonstrations, formations

Outils de traitements de corpus textuels développées à Paris-Est : présentations, démonstrations, formations Outils de traitements de corpus textuels développées à Paris-Est : présentations, démonstrations, formations CorText Manager Application Web collaborative d analyse et de cartographie de données hétérogènes

Plus en détail

Trois approches du GREYC pour la classification de textes

Trois approches du GREYC pour la classification de textes DEFT 2008, Avignon (associé à TALN 08) Trois approches du GREYC pour la classification de textes Thierry Charnois Antoine Doucet Yann Mathet François Rioult GREYC, Université de Caen, CNRS UMR 6072 Bd

Plus en détail

FICHE DE POSTE. Date de rédaction : 20/02/15. Argumentaire général

FICHE DE POSTE. Date de rédaction : 20/02/15. Argumentaire général UNIVERSITE LYON 2 (LUMIERE) Référence GALAXIE : 4217 Numéro dans le SI local : Référence GESUP : F002 Corps : Maître de conférences Article : 26-I-1 Chaire : Non Section 1 : 71-Sciences de l'information

Plus en détail

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton Linked Open Data Le Web de données Réseau, usages, perspectives Sommaire Histoire du Linked Open Data Structure et évolution du réseau Utilisations du Linked Open Data Présence sur le réseau LOD Futurs

Plus en détail

Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base

Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base M.A. Knefati 1 & A. Oulidi 2 & P.Chauvet 1 & M. Delecroix 3 1 LUNAM Université, Université Catholique de l Ouest,

Plus en détail

Campagne 2009 Fiche descriptive de la thèse

Campagne 2009 Fiche descriptive de la thèse Campagne 2009 Fiche descriptive de la thèse Encadrant Orange Labs: Christophe Garcia Adresse électronique de l'encadrant : christophe.garcia@orange-ftgroup.com Site: Orange Labs, Rennes Sujet de la thèse

Plus en détail

Approche hybride de reconstruction de facettes planes 3D

Approche hybride de reconstruction de facettes planes 3D Cari 2004 7/10/04 14:50 Page 67 Approche hybride de reconstruction de facettes planes 3D Ezzeddine ZAGROUBA F. S.T, Dept. Informatique. Lab. d Informatique, Parallélisme et Productique. Campus Universitaire.

Plus en détail

ProxiDocs : un outil de cartographie et de catégorisation thématique de corpus

ProxiDocs : un outil de cartographie et de catégorisation thématique de corpus ProxiDocs : un outil de cartographie et de catégorisation thématique de corpus Thibault ROY 1 et Pierre BEUST 1 1 GREYC- ISLanD CNRS UMR 6072 Université de Caen 14032 Caen Cedex France thibault.roy@etu.info.unicaen.fr,

Plus en détail

RI sociale : intégration de propriétés sociales dans un modèle de recherche

RI sociale : intégration de propriétés sociales dans un modèle de recherche RI sociale : intégration de propriétés sociales dans un modèle de recherche Ismail Badache 1 Institut de Recherche en Informatique de Toulouse, UMR 5505 CNRS, SIG 118 Route de Narbonne F-31062 Toulouse

Plus en détail

Formula Negator, Outil de négation de formule.

Formula Negator, Outil de négation de formule. Formula Negator, Outil de négation de formule. Aymerick Savary 1,2, Mathieu Lassale 1,2, Jean-Louis Lanet 1 et Marc Frappier 2 1 Université de Limoges 2 Université de Sherbrooke Résumé. Cet article présente

Plus en détail

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,

Plus en détail

SQL Parser XML Xquery : Approche de détection des injections SQL

SQL Parser XML Xquery : Approche de détection des injections SQL SQL Parser XML Xquery : Approche de détection des injections SQL Ramahefy T.R. 1, Rakotomiraho S. 2, Rabeherimanana L. 3 Laboratoire de Recherche Systèmes Embarqués, Instrumentation et Modélisation des

Plus en détail

ADELFE : Atelier de développement de logiciels à fonctionnalité émergente

ADELFE : Atelier de développement de logiciels à fonctionnalité émergente ADELFE : Atelier de développement de logiciels à fonctionnalité émergente Gauthier Picard*, Carole Bernon*, Valérie Camps**, Marie- Pierre Gleizes* * Institut de Recherche en Informatique de Toulouse Université

Plus en détail

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris

Plus en détail

MARKETING AGROALIMENTAIRE

MARKETING AGROALIMENTAIRE 13 ème COLLOQUE INTERNATIONAL DE L ASSOCIATION TUNISIENNE DE MARKETING sous le thème MARKETING AGROALIMENTAIRE 03 et 04 Avril 2015 SFAX TUNISIE APPEL A COMMUNICA TIONS Le 13 ème Colloque International

Plus en détail

Bigdata et Web sémantique. les données + l intelligence= la solution

Bigdata et Web sémantique. les données + l intelligence= la solution Bigdata et Web sémantique les données + l intelligence= la solution 131214 1 big data et Web sémantique deux notions bien différentes et pourtant... (sable et silicium). «bigdata» ce n est pas que des

Plus en détail

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2 iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2 134712-LLP-2007-HU-LEONARDO-LMP 1 Information sur le projet iqtool - Outil e-learning innovateur pour enseigner

Plus en détail

TEXT MINING Tour d Horizon

TEXT MINING Tour d Horizon TEXT MINING Tour d Horizon Media Campus WAN IFRA "Structurer, optimiser et valoriser son contenu éditorial : les outils de text mining" 24 novembre 2009, PARIS Philippe BONNY Cabinet de Conseil et d Etudes

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

Évaluation d une architecture de stockage RDF distribuée

Évaluation d une architecture de stockage RDF distribuée Évaluation d une architecture de stockage RDF distribuée Maeva Antoine 1, Françoise Baude 1, Fabrice Huet 1 1 INRIA MÉDITERRANÉE (ÉQUIPE OASIS), UNIVERSITÉ NICE SOPHIA-ANTIPOLIS, I3S CNRS prénom.nom@inria.fr

Plus en détail

Recherche sémantique d information textuelle

Recherche sémantique d information textuelle Unité Mathématique, Informatique et Génome T e c h n i q u e s d ' e x p l o i t a t i o n d e s d o c u m e n t s m u l t i m é d i a s Recherche sémantique d information textuelle Claire Nédellec, Pascale

Plus en détail