ACTES DU COLLOQUE. Colloque pour les Étudiants Chercheurs en Traitement Automatique du Langage naturel et ses applications.

Dimension: px
Commencer à balayer dès la page:

Download "ACTES DU COLLOQUE. Colloque pour les Étudiants Chercheurs en Traitement Automatique du Langage naturel et ses applications."

Transcription

1 ACTES DU COLLOQUE Colloque pour les Étudiants Chercheurs en Traitement Automatique du Langage naturel et ses applications Organisé par Le groupe de recherche ANLP-RG (Arabic natural Language Processing Group) du Laboratoire MIRACL (Multimedia, InfoRmation Systems and Advanced Computing Laboratory) du 23 au 25 Mars 2015 à l hôtel Royal Kenz Thalasso & Spa, Sousse, Tunisie Avec la participation

2 2

3 Préface Après la réussite de sa première édition, le groupe de recherche ANLP (ANLP-RG : Arabic Natural Language Research Group) du laboratoire MIRACL organise la deuxième édition de la conférence CEC-TAL CEC-TAL est une conférence internationale réservée aux étudiants des cycles supérieurs (master ou doctorat) ainsi qu aux jeunes chercheurs travaillant sur le traitement automatique du langage naturel. Cette conférence intéresse particulièrement les étudiants en informatique, en linguistique, sciences cognitives, sciences de l'éducation et tout autre domaine pertinent au TALN. L'objectif de cette conférence est de rassembler des chercheurs de disciplines connexes (développement de ressources linguistiques, Analyse et génération, traitement automatique du langage naturel, application du TAL) et des spécialistes du monde industriel et des entreprises qui déploient des méthodes d'extraction et de gestion des connaissances, afin de communiquer des travaux de qualité, d'échanger et de fertiliser des idées nouvelles. CEC-TAL a pour vocation d offrir aux jeunes chercheurs en Traitement Automatique des Langues l occasion de présenter leurs travaux et de comparer leurs approches. Cette conférence a un comité de programme, constitué de professeurs, de chercheurs en TALN 3

4 Comités Comité d'organisation Lamia HADRICH BELGUITH (FSEGS) Fatiha SADAT (UQAM) Maher JAOUA (FSEGS) Mohamed Mahdi BOUDABOUS (ENIG) Amine BAYOUDHI (FSEGS) Marwa GRAJA BOUDABOUS (ISIMA) Iskander KESKES (ISGG) Comité du programme Abdelmajid Ben Hamadou Lamia Hadrich Belguith Chafik Aloulou Bilel Gargouri Maher Jaoua Faiez Gargouri Mariem Ellouze Khemakhem Wajdi Zaghouani Fatiha Sadat Rim Faiz Farah Benamara Zitoune Hatem Ghorbel Kais Haddar Youness Bahou Mohamed Hedi Maaloul Karim Bouzouba Mona Diab Imed Zitouni Thierry Hamon Azzedine Mazroui Philippe Blache Paolo Rosso Khaled Shaalan Almoataz Bellah Elsaid Mohame Mhiri Aida Khemakhem Souha Mezghanni Héla Fehri MIRACL Lab., University of Sfax - Tunisia ANLP-RG, MIRACL Lab., University of Sfax - Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia MIRACL Lab., University of Sfax - Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia MIRACL Lab., University of Sfax -Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia Carnegie Mellon University - Qatar GDAC Lab., Université of Québec - Montréal LARODEC Lab., IHEC, University of Carthage - Tunisia IRIT Lab., University of Paul Sabatier - Toulouse ISIC Lab., University of Applied Sciences-Switzerland MIRACL Lab., University of Sfax - Tunisia MIRACL Lab., University of Kairouan - Tunisia ANLP- RG, MIRACL Lab., University of Sfax - Tunisia LARIE Lab., Mohammed Vth University-Morocco CCLS center, Columbia University Microsoft, USA LIMSI-CNRS & Université Paris 13, France University Mohammed First, Oujda Morocco LPL Lab., CNRS & University of Aix-Marseille NLE Lab, Universitat Politècnica de València, Spain The British University in Dubai, UAE Cairo University - Egypt FSS, University of Sfax - Tunisia MIRACL Lab., University of Sfax - Tunisia IHEC, University of Sfax - Tunisia ISG, University of Gabes - Tunisia 4

5 Sommaire Construction d une cascade de transducteurs pour la reconnaissance des dates à partir d un corpus Wikipédia. Fatma Ben Mesmia, Nathalie Friburger, Kais Haddar and Denis Maurel... 8 Web Arabic corpus : Construction d un large corpus arabe annoté grammaticalement à partir du Web. Ghoul Dhaou 12 La construction automatique d'un lexique d'opinion pour la langue arabe. Abidi Karima and Guiassa Yamina Tlili 17 Acquisition de connaissances multilingues, un espace sémantique comme langage pivot. Boucham Souhila and Aliane Hassina 22 Analyse syntaxique statistique de la langue arabe. Amira Barhoumi, Chafik Aloulou, Lamia Hadrich Belghith and Imed Zitouni.. 31 Intégration du profil utilisateur dans la reformulation des requêtes, la recherche des documents et le ré-ordonnancement des résultats : cas de la langue Arabe. Safi Houssem, Jaoua Maher and Belguith Hadrich Lamia 40 Construction d un Wordnet standard pour l arabe tunisien. Nadia Karmani Ep Ben Moussa and Adel M. Alimi Patents editor in order to automatically construct terminological databases. Chihebeddine Ammar and Kais Haddar A Thesaurus-based ontology generation. Mounira Chkiwa, Anis Jedidi and Faiez Gargouri Automatisation de l encodage des lexiques arabes en TEI. Hajer Maraoui and Kais Haddar Using finite-state transducers to build lexical resources for Unitex Arabic package. Noureddine Doumi, Ahmed Lehireche, Denis Maurel and Maamar Khater. 83 Development of Arabic particles lexicon using the LMF framework. Driss Namly, Karim Bouzoubaa, Youssef Tahir and Hakima Khamar 94 5

6 Programme Lundi 23 Mars h00-16h30 Accueil et Inscription 16h30-17h00 Ouverture de CEC-TAL h00-18h30 Session de présentation courte - Chair : Salma Jamoussi (ISIMS) 1. Fatma Ben Mesmia, Nathalie Friburger, Kais Haddar and Denis Maurel. "Construction d une cascade de transducteurs pour la reconnaissance des dates à partir d un corpus Wikipédia". 2. Ghoul Dhaou. "Web Arabic corpus : Construction d un large corpus arabe annoté grammaticalement à partir du Web". 3. Mohammed Saidi, Leila Falek, Bachir Boudraa and Hocine Teffahi. "Synthèse de la parole à très Bas Débit". 4. Abidi Karima and Guiassa Yamina Tlili. "La construction automatique d'un lexique d'opinion pour la langue arabe". 19h Dîner Mardi 24 Mars h30-10h00 Conférencier invité - Chair : Abdelmajid Ben Hamadou (ISIMS) Houda Bouamor (Carnegie Mellon University, Qatar) 10h00-10h30 10h30-12h30 Pause Café Session orale 1 Chair : Mariem Ellouze (ESC) Présentation 1 : Boucham Souhila and Aliane Hassina. "Acquisition de connaissances multilingues, un espace sémantique comme langage pivot". Présentation 2 : Amira Barhoumi, Chafik Aloulou, Lamia Hadrich Belghith and Imed Zitouni. "Analyse syntaxique statistique de la langue arabe". Présentation 3 :Safi Houssem, Jaoua Maher and Belguith Hadrich Lamia. "Intégration du profil utilisateur dans la reformulation des requêtes, la recherche des documents et le ré-ordonnancement des résultats : cas de la langue Arabe". Présentation 4 : Nadia Karmani Ep Ben Moussa and Adel M. Alimi. "Construction d un Wordnet standard pour l arabe tunisien". 13h00-15h00 15h00-16h00 Déjeuner Session orale 2 Chair : Chafik Aloulou (FSEGS) 6

7 Présentation 1 :Chihebeddine Ammar and Kais Haddar. "Patents editor in order to automatically construct terminological databases". Présentation 2 : Mounira Chkiwa, Anis Jedidi and Faiez Gargouri. "A Thesaurus-based ontology generation". 16h00-18h30 19h Programme Social : sortie guidée par train touristique et visite de la Medina. Dîner Mercredi 25 Mars h30-10h00 Conférencier invité - Chair : Lamia Belguith (FSEGS) Salma Jamoussi (Université de Sfax, Tunisie) - Thématique : L'apprentissage profond pour le TALN 10h00-10h30 10h30-12h00 Pause Café Session orale 3 Chair : Houda Bouamor (CMU) Présentation 1 : Hajer Maraoui and Kais Haddar. "Automatisation de l encodage des lexiques arabes en TEI". Présentation 2 :Noureddine Doumi, Ahmed Lehireche, Denis Maurel and Maamar Khater. "Using finite-state transducers to build lexical resources for Unitex Arabic package". Présentation 3 :Driss Namly, Karim Bouzoubaa, Youssef Tahir and Hakima Khamar. "Development of Arabic particles lexicon using the LMF framework" 12h00-13h00 Prix de la meilleure présentation et Clôture de CEC-TAL h00-15h00 15h00-18h00 Déjeuner Programme Social : sortie sur bateau 7

8 Construction d une cascade de transducteurs pour la reconnaissance des dates à partir d un corpus Wikipédia Fatma Ben Mesmia*, Nathalie Friburger **, Kais Haddar* et Denis Maurel** *Université de Sfax, Laboratoire MIRACL, Multimedia, InfoRmation Systems and Advanced Computing Laboratory ** Université François-Rabelais de Tours, Laboratoire d Informatique {nathalie.friburger, RÉSUMÉ.Les dates sont souvent des sources d information et peuvent aussi être incluses dans des entités nommées représentant les lieux et les évènements. Leur reconnaissance doit être intégrée dans le processus de reconnaissance des entités nommées arabes. En conséquence, dans le présent article, nous élaborons une cascade de transducteurs reconnaissant les entités nommées arabes de type Date à partir d un corpus extrait de Wikipédia. L implémentation de cette cascade est établie en utilisant l outil CasSysdisponible sous la plateforme linguistique libre Unitex. ABSTRACT.The dates often are sources of informationand can beincluded in named entities representing the locations and events. Their recognition mustbe integrated in the process of recognition of Arab named entities.consequently, in the presentpaper,we develop a cascade of transducers recognizing Arabic named entities withthe type Date from a corpus extracted of Wikipedia. The implementation of this cascade is established by using the tool CasSysavailable under the Unitex free linguistic platform. MOTS-CLÉS :Cascade de transducteurs, Wikipédia, REN, Unitex, CasSys. KEYWORDS: Cascade of transducers, Wikipedia, NER, Unitex, CasSys. 1. Introduction La reconnaissance des entités nommées (REN) constitue une piste de recherche encore très innovante. Elle n est pas une tâche facile car elle dépend en large partie d un nombre important de ressources à exploiter. Autrement dit, la complexité de la REN peut être justifiée par l incomplétude de ces ressources.le critère d exhaustivité est donc impossible. En contrepartie, le Web devient très exploité dans nos jours. Il fournit un nombre très intéressant des ressources libres sur lequel elles sont publiées. Parmi celles qui sont plus utilisées, citons Wikipédia.En ce sens, la Wikipédia arabe est considérée comme étant une ressource de connaissances pouvant illustrer des phénomènes linguistiques informatisés. Son exploitation offre l opportunité pour la valorisation del entité nommée arabe (ENA) de type Date. Les dates apparaissent dans différents textes (date de naissance, évènement ). Cependant, l extraction des dates peut rencontrer plusieurs problèmes (en particulier l'existence de différentes écritures régionales). C'est dans ce contexte que s inscrit le présent article. Notre objectif est donc de proposer une démarche baséeune cascade de transducteurs reconnaissant les ENA de type Date. Pour ce faire, nous devons, d une part, identifier un ensemble de mots déclencheurs permettant le repérage d ENA et, d autre part, construire un ensemble de transducteurs agissant sur un corpus avec un ordre prédéfini. La cascade proposée doit résoudre les problèmes d ambiguïté. Cet article s articule autour de quatre sections. La première section permet de présenter les approches existantes pour la REN. La deuxième section est dédiée à la description de la catégorisation des dates à partir de Wikipédia. La troisième section est consacrée à détailler la démarche proposée qui va être expérimentée à l aide du système CasSys de la plateforme 8

9 linguistique libre Unitex. Cette expérimentation est présentée et évaluée dans la section quatre. 2. Etat de l art sur les systèmes de reconnaissance des entités nommées Les approches de REN existantes sontde trois types : symbolique, statistique et hybrides. Les facteurs de distinction entre les trois approches citées sont leur acquisition et leur manipulation, ce n est pas la nature des informations qui sera étudiées.l approche symbolique s appuie spécialement sur l'utilisation de grammaires formelles construites à la main par un linguiste (Friburger et Maurel, 2004 ; Maurel et al., 2011). Elle se fonde sur des règles exploitant des marqueurs lexicaux, des dictionnaires, etc. Parmi les travaux basés sur cette approche, citons :le système NERA développé par (Shaalan et Raza, 2009) reposant sur l utilisation d un ensemble de dictionnaires d EN et sur une grammaire sous forme d'expressions régulières ; le module de repérage des EN à base de règles pour la langue arabe développé par (Zaghouani et al., 2010) en exploitant une première étape de prétraitement lexical qui prépare le texte pour son analyse linguistique ; le système de reconnaissance d ENA pour le domaine de sportdéveloppé par (Fehri, 2012) à travers un ensemble de dictionnaires, des patrons syntaxiques etle formalisme de transducteurs sur la plateforme linguistique Nooj.L approche statistiqueutilise des techniques statistiques sur de larges corpus de textes où les entités-cibles ont été étiquetées. Elle utilise aussi un algorithme d apprentissage permettant d élaborer automatiquement une base de connaissances.en se basant sur l'approche statistique, une technique d apprentissage SVM a été conçue par (Benajiba et al., 2008) pour mettre en œuvre un système de reconnaissance d entités nommées en exploitant les particularités de la langue arabe.l approche hybride utiliseà la fois des règles écrites manuellement et des règles extraites grâce à des algorithmes d'apprentissage et à des arbres de décisions.dans ce contexte, se situe le travail de (Shaalan et Oudah. 2014). 3. Catégorisation des dates à partir de Wikipédia La catégorisation des ENA de type Date que nous proposons est basée sur l étude effectuée sur le corpus Wikipédia d étude constitué de 17 fichiers textes.de ce corpus, nous avons pu identifier trois formes de dates. Première forme d ENA de type Date. La première formeest composée par l année uniquement. Cette formecontient un terme déclencheur qui peut la précéder et/ou la suivre.par exemple, dans «عام 1434 ھ» (année 1934 hégirienne) le mot عام joue le rôle d un mot déclencheur permettant d identifier le nombre 1434 comme étant une année, tandis que le mot ajoute un degré de certitude sur le nombre identifié. C est un indice que l année désignée ھ est hégirienne.«في 2004» (en 2004)présente un deuxième exempled apparition respectant la في première forme déjà mentionnée. L élément brillant est donc l année. Le mot déclencheur peut créer une ambiguïté sémantique dans la langue arabe. Il peut être suivi par un nombre désignant l année (2004) ou suivie d une suite de caractères indiquant une date. Comme par exemple القرن 21 في (en 21ème siècle) ou في الربیع (auprintemps). Deuxième forme de type Date.La deuxième forme décrit le contexte d apparition d une date dont le mois est un élément central. Cette date est incomplète car elle est composée à son tour de deux formes. Nous trouvons soit le nom et/ou le nombre du jour et le mois, soit le mois et l année.d après l étude de corpus, nous constatons que certainesdates peuvent être détectées ثورة ex., selon leur contexte d apparition,lorsqu'elles sont intégrées dans des événements (par / ملعب 14 جانفي برادس ex,. 14/ La révolution du 14 janvier) ou dans des noms de lieux (par جانفي Stade 14 janvier de Rades). Quant aux mois hégiriens,ilsapparaissent généralement dans les évènements religieux (par ex,. یوم العید 1 شوال / L aïd 1 er chawal). Les dates peuvent avoir des 9

10 écritures différentes dans les pays arabes. Par exemple, dans les pays orientaux, les mois syriaques et musulmans sont les plus utilisés. Par contre, les mois grégoriens sont utilisés d une façon fréquente dans les pays magrébins. Au sein de cette union, il existe une différence aux niveaux des appellations des mois. En Tunisie, comme en Algérie,le mois d août en arabe». غشت «est», tandis qu au Maroc, son appellation أوت «est Troisième forme de type Date. La troisième formeà reconnaitre dans le corpus d étude concerne une date complète, telle qu elle composée par le nom et/ou le nombre du jour, le mois, یوم الا حد 26 أكتوبر l année.«2014» (Dimanche 26 octobre 2014)illustre une forme possible d une date complète figurant dans le corpus d étude. 4. Démarche proposée pour la reconnaissance des entités nommée de type Date La démarche que nous proposonsest composée par deux étapes : l identification des ressources nécessaires pouvant cerner les entités nommées à reconnaitre et la création des transducteurs dont chacun possède son propre rôle Identification des ressources nécessaires Les ressources nécessaires sont les dictionnaires, les mots déclencheurs, les règles d extraction. Un dictionnaire doit être crééstockant les noms de la semaine et les noms du mois selon les différents calendriers.les règles d extraction des dates sont identifiées grâce aux mots déclencheurs. Par exemple, les mots déclencheurs حتى,ثورة et reconnaissentلیلة respectivement les formes suivantes : <NB><mois><NB>, عام< NB > <mois><nb> et <NB><mois><NB> Cascade de transducteurs proposée La cascade de transducteurs proposée englobe trois transducteurs principaux. Ces transducteursdoivent être classés selon les trois formes identifiées. Cette décomposition est faite pour éviter les problèmes de chevauchement de certains chemins, d une part, et les problèmes d ambigüité, d autre part.donnons l exemple du premier transducteur reconnaissant une date complète (figure 1). Figure 1. Exemple d'un transducteur reconnaissant une date complète 5. Expérimentation et évaluation La cascade de transducteurs proposée est implémentéesous la plateforme linguistique Unitex. La figure 2 ci-dessous montre la forme de la cascade qui est générée grâce à l outil CasSys. L expérimentationeffectuée montre que chaque graphe ajoute ses propres annotationsà l aide du mode «Merge». Ce mode permet d avoir, en sortie, une ENA reconnue entourée par une balise définie au sein des transducteurs. 10

11 Figure 2. Cascade de transducteurs reconnaissant les dates Dans le but d effectuer une évaluation nous avons appliqué la cascade implémentée sur le corpus de test. Le corpus est composé de 50 fichiers textes dont sa construction rassemble à celle du corpus d étude. Le résultat obtenu dépend en grande partie des mots déclencheurs établis précédemment. Echantillons traités Entités de type Date trouvées Entités détectées parerreur Tableau 1. Tableau récapitulatif des résultats obtenus Nous avons évalué manuellement la qualité de notre travail sur le corpus de test. Les résultats sont satisfaisants (Tableau 1) car les transducteurs ont pu couvrir la majorité des ENA y figurant.avec une précision de 0,96 et un rappel de 0,95.Nous constatons donc que la méthode proposée est efficace. 6. Conclusion et perspectives Dans le présent article, nous avons construit un ensemble de transducteurset généré une cascade permettant la reconnaissance des ENA de type Date. La génération de cette cascade est réalisée à l aide du système CasSys, intégré dans la plateforme linguistique Unitex. Le fonctionnement de la cascade de transducteurs a nécessité la construction d un dictionnaire et une liste des mots déclencheurs. Dans un futur immédiat, nous tentons decouvrir les autres types (les noms de personnes, les évènements, les noms de lieux, etc.) afin de générer une cascade de transducteurs reconnaissant toutes les ENA. Nous continuons à travailler avec la ressource libre Wikipédia arabeenprofitant de sa richesse pour enrichir nos corpus. 7. Références Benajiba Y. et Rosso P Arabic Named Entity Recognition using Conditional Random Fields, In Proceedings of Workshop on HLT and NLP within the Arabic World, LREC. Friburger N. et Maurel D. 2004, Finite-state transducer cascade to extract named entities in texts, Theoretical Computer Science, volume 313 : Fehri H Reconnaissance automatique des entités nommées arabes et leur traduction vers le français, thèse de doctorat, Université de Sfax. Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I. et Nouvel D Cascades de transducteurs autour de la reconnaissance des entités nommées, Traitement automatique des langues, 52(1) : Shaalan K. et Raza H NERA : Named entity recognition for Arabic, Journal of the American Society for Information Science and Technology, 60(9) : Khaled Shaalan et Mai Oudah A hybrid approach to Arabic named entity recognition. Journal of Information Science, 40(1) : Zaghouani W., Pouliquen B., Ebrahim M. et Steinberger R Adapting a resource-light highly multilingual named entity recognition system to arabic, Proceedings of the Seventh conference on International Language Resources and Evaluation (LREC 10)

12 Web Arabic corpus: Construction d un large corpus arabe annoté morpho-syntaxiquement à partir du Web Dhaou Ghoul Laboratoire STIH, Université Sorbonne Paris4, 1 rue Victor cousin Paris RÉSUMÉ.Dans ce papier,nous présentons une méthodologie de construction d un large corpus annoté grammaticalement à partir du Web. Notre objectif est d avoir une grande ressource pour la langue arabe qui permette aux chercheurs dans le domaine du traitement automatique de la langue de réaliser des applications en TAL. Pour ce faire, tout d abord nous avonspris les données textuelles réalisées au cours de notre recherche dans le cadre de notre projet de thèse. Ensuite, nous avons appliqué l analyseur morphosyntaxique «Tree Tagger» pour annoter ces données automatiquement dans le but d avoir à disposition un large corpus annoté. ABSTRACT. In this paper, we present a methodology to build a large grammatically annotated corpus from the Web. Our goal is to have a great resource for the Arabic language that allows researchers in the field of automatic language processing to create applications in NLP. To achieve this, first we took the textual data made during our research as part of our thesis project. Then we applied the morphosyntactic analyzer Tree Tagger to automatically annotate data in order have available a large annotated corpus. MOTS CLÉS :TAL, corpus, langue arabe, Tree Tagger, Web, précision, apprentissage. KEYWORDS: NLP, corpora, Arabic language, Tree Tagger, Web, precision, learning. 1. Introduction La construction des corpus électroniques annotés morpho-syntaxiquement reste une tâche indispensable pour réaliser des systèmes de TAL robustes. Denos jours, plusieurs corpus annotés sont disponibles gratuitement pour la langue anglaise et française (Candito et Seddah, 2012). Pour la langue arabe et malgré les différents travaux effectués dans le domaine du traitement automatique, il reste toujours compliqué de trouver assez de ressources gratuites à propos de cette langue. Dans le cadre de notre projet de thèse (Mogador), nous avons décidé de créer notre propre corpus à partir du web. Ceci, dans le but de repérer les différents tokens 1 en arabe littéraire, et de créer une grammaire pour chaque token. Avec le développement de l internet et de ses services, le web est devenu une grande source de documents dans différentes langues et différents domaines. Cette source alliée à des supports de stockage permet la construction rapide de corpus (Meftouh et al, 2007). Dans ce papier, nous présentons les différents processus qui sont utilesà la construction d unvaste corpus étiqueté à partir du Web dans le but d améliorer les différentes applications de TAL pour l arabe (analyseur morphosyntaxique, extraction d informations, traduction automatique ). Ce papier est organisé de la manière suivante : la section 2 présente quelques corpus ou travaux qui ont été effectués dans ce domaine, la section 3 présente la méthode de 1 Les mots qui n appartiennent pas au lexique arabe et n obéissent pas à la dérivation morphologique de l arabe. 12

13 l annotation de notre corpus (catégories grammaticales) et la section 4 décrit l évaluation de l annotation de notre corpus. Les conclusions de ce travail feront l objet de la section Etat de l art: La plupart des chercheurs travaillant dans le domaine du traitement automatique de la langue arabe ont choisi de construire leurs propres ressources pour réaliser leurs applications. Dans cette section, nous allons présenter deux ressources électroniques déjà réalisées pour la langue arabe : Le corpus coranique arabe 2 (Kais et Habash, 2010) est une ressource linguistique en ligne annotée avec différentes couches d annotation y compris: la segmentation morphologique, l étiquetage morphosyntaxique et l analyse syntaxique en se basant sur la grammaire de dépendance القرأن الكریم) (إعراب et une ontologie sémantique. Le coran contient mots répartis sur 114 chapitres, chaque chapitre contient une séquence des versets numérotés. L annotation de ce corpus est basée sur Buckwalter Arabic Morphological Analyzer ou BAMA (Buckwalter, 2002) qui utilise un jeu d étiquettes contient 55 étiquettes. KALIMAT (El-Haj et Koulali, 2013) est une collection de articles à partir du journal Omani Alwatan 3 qui a été effectué par (Abbas et al, 2011). Ce corpus contient mots repartis sur six domaines (Culture, Economie, religion, Sports, International, Local). L annotation se fait grâce à Stanford PosTagger (Toutanova et all, 2003) en se basant sur un jeu d étiquettes contenant 33 étiquettes. 3. Construction du corpus : différents processus La réalisation de notre corpus porte sur l extraction de différents articles à partir d un site web. Le site que nous avons choisi est le site du journal électronique «Alwatan» (الوطن) en 2004 (Ghoul, 2014). Notre corpus est constitué de phrases (nombre approximatif car en arabe on n utilise pas souvent les ponctuations ce qui rend très difficile le comptage des phrases dans un texte) et mots (dont mots différents) distribués sur quatre domaines : culture, économie, religion et sports, de la manière suivante : Domaine Nb articles Nb phrases Nb mots / Nb mots différents Nb tokens (mots-outils) Culture / Economie / Religion / Sports / Total / Table 1. Statistiques de notre corpus 13

14 Notons que nous avons translitéré les textes sous la forme de Buckwalter 4 (Buckwalter, 2002) pour éviter les problèmes de codage arabe et pour faciliter le nettoyage automatique de notre corpus Segmentation du corpus: La première phase de l annotation morphosyntaxique d un corpus est la segmentation en morphèmes. Pour la langue arabe la segmentation est une tâche loin d être facile en raison de l agglutination. Au cours de notre recherche, nous avons essayé de réaliser un algorithme de segmentation en nous basant sur des règles qui traitent dans la majorité des cas la forme correcte d un mot en arabe. Notre algorithme a été implémenté en Perl (Ghoul,2013). Le principe de cette méthode est basé sur un corpus segmenté manuellement. En effet, nous avons effectué une segmentation grossière au niveau des espaces et des signes de ponctuation. Ensuite, on compare chaque mot avec la forme déjà segmentée. La segmentation est considérée valide si le mot est trouvé dans le corpus. Sinon, on parcourt le mot dans le but d extraire les prés-bases et les post-bases afin d obtenir la forme correcte du mot en arabe. Par contre, avec cette méthode, nous avons constaté qu il reste des ambiguïtés de découpage pour certains mots qui peuvent se découper de plusieurs façons différentes. On prend l exemple du mot «ألم» qui peut se découper soit en : لم+أ conjonction d interrogation+ particule de négation, soit en ألم : nom masculin singulier (douleur). Après avoir segmenté notre corpus, nous allons appliquer un outil d annotation afin d obtenir un corpus étiqueté. Ce travail sera l objet de la section suivante Annotation du corpus : Le jeu d étiquettes : La plupart des chercheurs ne sont pas d accord sur ce le choix du jeu d étiquettes. Quelques études ont été déjà faites sur la taille du jeu d étiquettes et son influence sur les performances des analyseurs. Les résultats obtenus annoncent que la taille réduite donne des bonnes performances pour les analyseurs syntaxiques mais qu on n y trouve pas plus d informations sur la langue et qu on reste dans la généralité. Notre objectif dans ce travail est de réaliser un corpus qui contienne le maximum des informations pour être utilisable dans les différentes applications en TAL et en particulier pour repérer les tokens ou jetons de la langue arabe. C est pourquoi, nous avons décidé de créer notre propre jeu d étiquettes en collaboration avec des spécialistes en linguistique arabe. Notre jeu d étiquettes contient 61 catégories syntaxiques (voir annexe). Dans ce jeu d étiquette, nous avons essayé de donner plus d informations sur l unité lexicale et surtout les tokens afin de diminuer le taux d ambiguïté Processus d annotation : L annotation d un vaste corpus manuellement est coûteuse. En effet, nous avons essayé de trouver un mécanisme ou une méthodologie moins coûteuse surtout au niveau du temps. Notre méthodologie d annotation se compose de deux étapes : D abord, nous avons annoté manuellement grâce à un expert en linguistique arabe une partie importante de notre corpus (300 phrases) qui a été utilisée pour l apprentissage du modèle. Ensuite nous avons utilisé l outil «Tree Tagger» (Schmid, 1995) pour entraîner et annoter automatiquement le reste de notre corpus. En effet, notre choix de cet étiqueteur se justifie par sa performance sur plusieurs langues (anglais, français, allemand, ) et en plus il est gratuit et facile à utiliser sur l Unix. Pour la langue française, (Stein, 2007) a entraîné cet analyseur sur un corpus 4 14

Construction d un corpus arabe à partir du Web dans le but d identifier les mots-outils ou tokens

Construction d un corpus arabe à partir du Web dans le but d identifier les mots-outils ou tokens Construction d un corpus arabe à partir du Web dans le but d identifier les mots-outils ou tokens Dhaou Ghoul 1 1 STIH dhaou.ghoul@gmail.com Abstract In this paper, we present a method to build a large

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Présentation de la plateforme d analyse linguistique médiévale

Présentation de la plateforme d analyse linguistique médiévale Présentation de la plateforme d analyse linguistique médiévale 1. Introduction Tout au long de ce document, notre projet sera présenté à travers la méthodologie suivie pour développer la plateforme d analyse

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

L apport d une approche hybride pour la reconnaissance des entités nommées en langue arabe

L apport d une approche hybride pour la reconnaissance des entités nommées en langue arabe TALN 2010, Montréal, 19-23 juillet 2010 L apport d une approche hybride pour la reconnaissance des entités nommées en langue arabe Inès Zribi, Souha Mezghani Hammami, Lamia Hadrich Belguith ANLP Research

Plus en détail

Acquisition terminologique pour identifier les mots clés d articles scientifiques

Acquisition terminologique pour identifier les mots clés d articles scientifiques Actes du huitième défi fouille de texte, DEFT2012, Grenoble, France, 8 juin 2012. Pages 29-35. Proceedings of the Eight DEFT Workshop, DEFT2012, Grenoble, France, 8th July 2012. Pages 29-35. Acquisition

Plus en détail

revue de littérature - corpus comparables

revue de littérature - corpus comparables revue de littérature - corpus comparables Julie Roy April 23, 2015 Université de Montréal Introduction Matière première MT : corpus parallèles. Intérêt des corpus comparables : corpus parallèles et dictionnaires

Plus en détail

Génération de réponses pour un système de questions-réponses

Génération de réponses pour un système de questions-réponses Génération de réponses pour un système de questions-réponses Van-Minh Pho 1 LIMSI-CNRS, Rue John von Neumann, Université Paris-Sud, 91403 Orsay cedex, France vanminh.pho@gmail.com RÉSUMÉ. Les systèmes

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Comment exploiter les commentaires d internautes pour la recommandation automatique

Comment exploiter les commentaires d internautes pour la recommandation automatique Comment exploiter les commentaires d internautes pour la recommandation automatique Damien Poirier Paris, le 11 juin 2012 1/32 Contexte et problématique 2/32 Contexte et problématique 3/32 Contexte Mise

Plus en détail

Approche Générique d Extraction Automatique des Evénements et leur Exploitation

Approche Générique d Extraction Automatique des Evénements et leur Exploitation Université de Paris-Sorbonne École Doctorale Concepts et Langages Laboratoire LaLIC (Langue, Logique, Informatique et Cognition) Université de Tunis Institut Supérieur de Gestion Laboratoire LARODEC (Recherche

Plus en détail

Marie-Claude L Homme Université de Montréal

Marie-Claude L Homme Université de Montréal Évaluation de logiciels d extraction de terminologie : examen de quelques critères Plan Marie-Claude L Homme Université de Montréal Unités recherchées et problèmes de base Catégories de critères Critères

Plus en détail

Indexation de sous-collections pour l amélioration de la haute précision

Indexation de sous-collections pour l amélioration de la haute précision Indexation de sous-collections pour l amélioration de la haute précision Joëlson Randriamparany *,** *IRIT, Institut de Recherche Informatique de Toulouse Université Paul Sabatier Toulouse III 118 Route

Plus en détail

Le dictionnaire DEM dans NooJ

Le dictionnaire DEM dans NooJ 21 ème Traitement Automatique des Langues Naturelles, Marseille, 2014 Le dictionnaire DEM dans NooJ Max Silberztein ELLIADD, Université de Franche-Comté, 30 rue Mégevand, 25000 Besançon max.silberztein@univ-fcomte.fr

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Analyse et visualisation d opinions dans un cadre de veille sur le Web

Analyse et visualisation d opinions dans un cadre de veille sur le Web Analyse et visualisation d opinions dans un cadre de veille sur le Web Mohamed Dermouche, Leila Khouas Sabine Loudcher Julien Velcin Eric Fourboul Université de Lyon (ERIC LYON 2), 5 av. P. Mendès-France

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Détection d Opinion : Apprenons les bons Adjectifs!

Détection d Opinion : Apprenons les bons Adjectifs! Détection d Opinion : Apprenons les bons Adjectifs! Ali Harb 1,2, Gérard Dray 1, Michel Plantié 1, Pascal Poncelet 1, Mathieu Roche 2, François Trousset 1 1 EMA-LGI2P, Parc Scientifique Georges Besse,

Plus en détail

Le système SMART 1. Indexation

Le système SMART 1. Indexation Le système SMART Le système SMART (System for the Mechanical Analysis and Retrieval of Text) (aussi appelé Salton's Magic Automatic Retrieval Technique:-) est un système de RI expérimental. Il utilise

Plus en détail

Rubrique préparée par Fiammetta Namer Université Nancy2 de Nancy, UMR «ATILF» Fiammetta.Namer@univ-nancy2.fr

Rubrique préparée par Fiammetta Namer Université Nancy2 de Nancy, UMR «ATILF» Fiammetta.Namer@univ-nancy2.fr Résumés de thèses Résumés de thèses Rubrique préparée par Fiammetta Namer Université Nancy2 de Nancy, UMR «ATILF» Fiammetta.Namer@univ-nancy2.fr Adrien LARDILLEUX : (Adrien.Lardilleux@info.unicaen.fr)

Plus en détail

Vers un lexique arabe pour l analyse des opinions et des sentiments

Vers un lexique arabe pour l analyse des opinions et des sentiments Vers un lexique arabe pour l analyse des opinions et des sentiments Amine Bayoudhi, Houssem Koubaa, Lamia Hadrich Belguith ANLP Group, MIRACL laboratory FSEGS, University of Sfax B.P. 1088, 3018, Sfax,

Plus en détail

Rapport de méthodologie:

Rapport de méthodologie: Rapport de méthodologie: "Laboratoire on chip/lab-on-chip/loc" REMARQUE : La méthode employée est en tout point similaire à celle utilisée en groupe. Contents Rapport de méthodologie:... 1 "Laboratoire

Plus en détail

Construction et enrichissement automatique d ontologie à partir de ressources externes

Construction et enrichissement automatique d ontologie à partir de ressources externes Construction et enrichissement automatique d ontologie à partir de ressources externes JFO 2009 Jeudi 3 décembre 2009 E. Kergosien (LIUPPA, Pau) M. Kamel (IRIT- UPS, Toulouse) M. Sallabery (LIUPPA, Pau)

Plus en détail

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006 Les outils de veille sur Internet Panorama, évolutions, nouveautés Myriel Brouland SCIP France -10 Mai 2006 1 La veille en France: une situation paradoxale Une situation contrastée Une prise de conscience

Plus en détail

Identifier la cible des sentiments dans les forums de santé S. BRINGAY, E. KERGOSIEN, P. POMPIDOR, P. PONCELET

Identifier la cible des sentiments dans les forums de santé S. BRINGAY, E. KERGOSIEN, P. POMPIDOR, P. PONCELET Identifier la cible des sentiments dans les forums de santé S. BRINGAY, E. KERGOSIEN, P. POMPIDOR, P. PONCELET Projet Patients Mind Financement par le Réseau National des MSH (Maisons des Sciences de l

Plus en détail

plate-forme PaaS (Audit)

plate-forme PaaS (Audit) Contrôle d accès dans une plate-forme PaaS (Audit) Ahmed BOUCHAMI, Olivier PERRIN, LORIA Introduction La sécurité d une plate-forme collaborative nécessite un module d authentification et un module de

Plus en détail

Similarité entre les mots

Similarité entre les mots Similarité entre les mots Traitement Automatique des Langues Master Informatique Université Paris-Est Marne-la-Vallée Matthieu Constant Références de base du cours Christopher D. Manning and Hinrich Schütze,

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE Paul Pașcu, Assist Prof, PhD, Ștefan cel Mare University of Suceava Abstract: This article aims to present a number

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

Using NOOJ's to parse constituents in the french PASSAGE corpus

Using NOOJ's to parse constituents in the french PASSAGE corpus Using NOOJ's to parse constituents in the french PASSAGE corpus Christine Fay-Varnier, Qiuyue Li, Azim Roussanaly LORIA, équipe TALARIS Nancy, France Summary Context and project motivation Resources Method

Plus en détail

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique Des traitements aux ressources : le rôle d une architecture Frederik Cailliau Villetaneuse, le 9 décembre 2010 Sous la direction d Adeline Nazarenko 1. 2. 3. 4. 5. 6. 2 Sinequa Cifre à Sinequa Recherche

Plus en détail

Initiation à la recherche documentaire

Initiation à la recherche documentaire Initiation à la recherche documentaire 1 Objectifs Cette séance est destinée à reprendre les principes de la démarche documentaire pour construire un parcours pertinent en terme de méthodologie et de résultats

Plus en détail

Obtention du marquage CE pour un dispositif médical

Obtention du marquage CE pour un dispositif médical Université de Technologie de Compiègne Obtention du marquage CE pour un dispositif médical Extraits du dossier de Validation des Acquis de l Expérience (VAE) pour l obtention du Master "Qualité et Performance

Plus en détail

Système adaptatif d aide à la génération de requêtes de médiation

Système adaptatif d aide à la génération de requêtes de médiation Système adaptatif d aide à la génération de requêtes de médiation Dimitre Kostadinov Verónika Peralta Assia Soukane Xiaohui Xue Laboratoire PRiSM, Université de Versailles 45 avenue des Etats-Unis 78035

Plus en détail

ACOLAD Plateforme pour l édition collaborative dépendancielle

ACOLAD Plateforme pour l édition collaborative dépendancielle ACOLAD Plateforme pour l édition collaborative dépendancielle Francis Brunet-Manquat et Jérôme Goulian LIG-GETALP, Université Pierre Mendès France Grenoble 2 Francis.Brunet-Manquat@imag.fr et Jerome.Goulian@imag.fr

Plus en détail

Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle?

Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle? Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle? Daniel K. Schneider TECFA FPSE - Université de Genève daniel.schneider@unige.ch Unité de technologie de l'éducation Université

Plus en détail

LA TRANSCRIPTION ORTHOGRAPHIQUE-PHONETIQUE DE LA LANGUE ARABE

LA TRANSCRIPTION ORTHOGRAPHIQUE-PHONETIQUE DE LA LANGUE ARABE RÉCITAL 2004, Fès, 19-22 avril 2004 LA TRANSCRIPTION ORTHOGRAPHIQUE-PHONETIQUE DE LA LANGUE ARABE Tahar SAIDANE (1), Mounir ZRIGUI (2) et Mohamed BEN AHMED (3) (1) Société Tunisienne d Electricité et du

Plus en détail

Indexation et interrogation de photos de presse décrites en MPEG-7

Indexation et interrogation de photos de presse décrites en MPEG-7 Indexation et interrogation de photos de presse décrites en MPEG-7 Emmanuel Bruno Jacques Le Maitre Elisabeth Murisasco Laboratoire SIS, Equipe Informatique Université de Toulon et du Var Bâtiment R, BP

Plus en détail

Traduction automatique

Traduction automatique Traduction automatique M. Constant Université Paris-Est Marne-la-Vallée 5 octobre 2009 Outline Introduction Problèmes Différentes approches Traduction automatique statistique Modélisation Exemple de modèle

Plus en détail

INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1)

INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1) 09.02.2002 INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1) Outils de traitement automatique des langues pour la construction d ontologies à partir de textes Didier BOURIGAULT

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

NVivo: du projet à la publication. Claude Julie Bourque, Ph.D. Université de Sherbrooke, Québec, Canada

NVivo: du projet à la publication. Claude Julie Bourque, Ph.D. Université de Sherbrooke, Québec, Canada NVivo: du projet à la publication Claude Julie Bourque, Ph.D. Université de Sherbrooke, Québec, Canada Du projet à la publication Cette présentation décrit brièvement comment la recherche de Claude Julie

Plus en détail

Des indices sur la fiabilité des sorties ou comment un analyseur robuste pourrait s auto-évaluer.

Des indices sur la fiabilité des sorties ou comment un analyseur robuste pourrait s auto-évaluer. Des indices sur la fiabilité des sorties ou comment un analyseur robuste pourrait s auto-évaluer. Nuria Gala GETA-CLIPS-IMAG 385 av. de la Bibliothèque, BP 53 F-38041 Grenoble cedex 9, France nuria.gala@imag.fr

Plus en détail

Avancée en classification multi-labels de textes en langue chinoise

Avancée en classification multi-labels de textes en langue chinoise Avancée en classification multi-labels de textes en langue chinoise Thèse en cotutelle présentée par Zhihua WEI pour les doctorats en informatique des Universités Lyon2 et Tongji La thèse est centrée sur

Plus en détail

G R E C A U Rapport sur le mémoire de thèse de doctorat ENSA de Toulouse, INSA, école doctorale MEGeP, Spécialité Génie Civil, En co-tutelle avec l'université de Laval, Québec, Canada présenté par Catherine

Plus en détail

Analyse lexicale et morphologique de l arabe standard utilisant la plateforme linguistique NooJ

Analyse lexicale et morphologique de l arabe standard utilisant la plateforme linguistique NooJ Analyse lexicale et morphologique de l arabe standard utilisant la plateforme linguistique NooJ Résumé Slim Mesfar Université de Franche-Comté LASELDI mesfarslim@yahoo.fr Cet article décrit un système

Plus en détail

Introduction au TALN et à l ingénierie linguistique. Isabelle Tellier ILPGA

Introduction au TALN et à l ingénierie linguistique. Isabelle Tellier ILPGA Introduction au TALN et à l ingénierie linguistique Isabelle Tellier ILPGA Plan de l exposé 1. Quelques notions de sciences du langage 2. Applications et enjeux du TAL/ingénierie linguistique 3. Les deux

Plus en détail

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille La Veille multilingue : outils et ressources pour les traducteurs Jean-Paul PINTE Institut Catholique de Lille Premier Colloque International sur la veille multilingue Genève les 28 et 29 mai 2008 Nous

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Analyse d'opinions et de sentiments

Analyse d'opinions et de sentiments Analyse d'opinions et de sentiments Joséphine Anstett IFT6010 Intelligence artificielle Plan Introduction Contexte Complexité des textes Méthode symbolique Méthode statistique Conclusion Comparaison des

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Une rencontre internationale pour la culture et le patrimoine en ligne. 9 au 12 avril 2008 - Montréal, Québec, Canada

Une rencontre internationale pour la culture et le patrimoine en ligne. 9 au 12 avril 2008 - Montréal, Québec, Canada Museums and the Web 2008 Une rencontre internationale pour la culture et le patrimoine en ligne 9 au 12 avril 2008 - Montréal, Québec, Canada Sommaire du programme Museums and the Web 2008 9 au 12 avril

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

INGENIERIE COLLABORATIVE, ELLE A TOUT D'UNE GRANDE...

INGENIERIE COLLABORATIVE, ELLE A TOUT D'UNE GRANDE... INGENIERIE COLLABORATIVE, ELLE A TOUT D'UNE GRANDE... Article rédigé pour les Etats généraux 2008 du MICADO, par Yannick BOUDIER. Résumé : L ingénierie collaborative est souvent prise pour un système d

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

Service d accompagnement pédagogique de l Université Sorbonne Paris Cité

Service d accompagnement pédagogique de l Université Sorbonne Paris Cité Service d accompagnement pédagogique de l Université Sorbonne Paris Cité CATALOGUE DE FORMATION POUR LES ENSEIGNANTS DE USPC 2014-2015 Le service SAPIENS créé en janvier 2014 propose durant l année 2014-2015

Plus en détail

Stage New Delhi octobre 2012

Stage New Delhi octobre 2012 Stage New Delhi octobre 2012 «L école du socle : donner du sens et des contenus à la continuité pédagogique» Enseignement de la langue française École : BO n 3-19 juin 2008 / BO n 1 du 5 janvier 2012 programmes

Plus en détail

Résultats obtenus pour le questionnaire «Clientèle»

Résultats obtenus pour le questionnaire «Clientèle» Résultats obtenus pour le questionnaire «Clientèle» Introduction Suite à l envoi du questionnaire «Clientèle», nous avons reçu un total de 588 réponses. Ce résultat nous semble tout à fait satisfaisant

Plus en détail

Extraction de règles d association pour la prédiction de valeurs manquantes

Extraction de règles d association pour la prédiction de valeurs manquantes Cari 2004 7/10/04 12:00 Page 487 Extraction de règles d association pour la prédiction de valeurs manquantes Sylvie Jami 1, Tao-Yan Jen 2, Dominique Laurent 3, George Loizou 1, Oumar Sy 3,4 1. Birkbeck

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Association des Doctorants du campus STIC. Séminaires doctorants 11

Association des Doctorants du campus STIC. Séminaires doctorants 11 Association des Doctorants du campus STIC Séminaires doctorants 11 07 mars 2007 Actes édités par l association des doctorants du campus STIC. Les travaux individuels publiés restent l unique propriété

Plus en détail

Gouvernement du Québec Ministère de l Éducation, du Loisir et du Sport, 2005 05-00037 ISBN 2-550-44268-7

Gouvernement du Québec Ministère de l Éducation, du Loisir et du Sport, 2005 05-00037 ISBN 2-550-44268-7 Gouvernement du Québec Ministère de l Éducation, du Loisir et du Sport, 2005 05-00037 ISBN 2-550-44268-7 Dépôt légal Bibliothèque nationale du Québec, 2005 TABLE DES MATIÈRES Présentation... 1 1 Conséquences

Plus en détail

ANNEXE IV - RÉGLEMENT D EXAMEN. U. 1 3 écrite 4 h CCF 3 situations d évaluatio n. 2h + 20 min* orale. 3 situations d évaluatio n

ANNEXE IV - RÉGLEMENT D EXAMEN. U. 1 3 écrite 4 h CCF 3 situations d évaluatio n. 2h + 20 min* orale. 3 situations d évaluatio n BTS Management des unités commerciales ANNEXE IV - RÉGLEMENT D EXAMEN Voie scolaire dans un établissement public ou privé sous contrat, CFA ou section d apprentissage habilité. Formation professionnelle

Plus en détail

Indexation conceptuelle application au domaine biomédical. Mesures de similarité dans les ontologies. [Séminaire MIAD Montpellier SupAgro]

Indexation conceptuelle application au domaine biomédical. Mesures de similarité dans les ontologies. [Séminaire MIAD Montpellier SupAgro] [] Indexation conceptuelle application au domaine biomédical Mesures de similarité dans les ontologies Sylvie Ranwez Sébastien Harispe LGI2P de l école des mines d Alès équipe KID (Knowledge and Image

Plus en détail

Une approche multicritère pour lever l ambiguïté morphologique dans le texte arabe

Une approche multicritère pour lever l ambiguïté morphologique dans le texte arabe Une approche multicritère pour lever l ambiguïté morphologique dans le texte arabe Mohamed Amine Chéragui 1, Youssef Hceini 2 et Moncef Abbas 3 1 Ecole national Supérieure d Informatique (E.S.I.), E-mails

Plus en détail

PROGRAMME DES ÉPREUVES EXAMEN BTS NOTARIAT

PROGRAMME DES ÉPREUVES EXAMEN BTS NOTARIAT PROGRAMME DES ÉPREUVES EXAMEN BTS NOTARIAT www.imnrennes.fr ÉPREUVE E1 - CULTURE GÉNÉRALE ET EXPRESSION Coefficient 3 L objectif visé est de vérifier l aptitude des candidats à communiquer avec efficacité

Plus en détail

Contexte général de l étude

Contexte général de l étude 1 2 Contexte général de l étude Les entrepôts de données associés à des outils d analyse On Line Analytical Processing (OLAP), représentent une solution effective pour l informatique décisionnelle (Immon,

Plus en détail

Un langage pivot entre langue naturelle et langage informatique

Un langage pivot entre langue naturelle et langage informatique Un langage pivot entre langue naturelle et langage informatique Laurent Tromeur Ontomantics S.A.S. France laurent.tromeur@ontomantics.com GERFLINT Reçu le 17-03-2015 / Évalué le 24-04-2015 / Accepté le

Plus en détail

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif 1 Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif Narration pour présentation Prezi (http://prezi.com/5tjog4mzpuhh/analyse-de-donneestextuelles-analyse-de-contenu-qualitative/)

Plus en détail

Segmentation des fichiers logs

Segmentation des fichiers logs Segmentation des fichiers logs Hassan Saneifar,, Stéphane Bonniol, Pascal Poncelet, Mathieu Roche LIRMM, CNRS, Université Montpellier 2; Satin Technologies Résumé. Avec la méthode de segmentation appelée

Plus en détail

Evaluation de la qualité des institutions de l enseignement supérieur : Cas de l Université Mohammed Premier

Evaluation de la qualité des institutions de l enseignement supérieur : Cas de l Université Mohammed Premier Evaluation de la qualité des institutions de l enseignement supérieur : Cas de l Université Mohammed Premier Pr. Abdelali Kaaouachi Université Mohammed Premier Oujda - Maroc E-mail : akaaouachi@hotmail.com

Plus en détail

Cartographie de mots : application à la visualisation de noms de marque

Cartographie de mots : application à la visualisation de noms de marque Université Montpellier II UFR Fac des Sciences Master 1 Informatique Université Montpellier II UFR Fac des Sciences Master 1 Informatique Cartographie de mots : application à la visualisation de noms de

Plus en détail

MARKETING AGROALIMENTAIRE

MARKETING AGROALIMENTAIRE 13 ème COLLOQUE INTERNATIONAL DE L ASSOCIATION TUNISIENNE DE MARKETING sous le thème MARKETING AGROALIMENTAIRE 03 et 04 Avril 2015 SFAX TUNISIE APPEL A COMMUNICA TIONS Le 13 ème Colloque International

Plus en détail

La détection automatique de l opinion : contraintes et enjeux

La détection automatique de l opinion : contraintes et enjeux La détection automatique de l opinion : contraintes et enjeux Frédéric Marcoul Responsable R&D de Spotter fmarcoul@spotter.com Ana Athayde Président Directeur Général de Spotter aathayde@spotter.com RÉSUMÉ

Plus en détail

Annotation Semi-automatique de Grandes BD Images : Approche par Graphes de Voisinage

Annotation Semi-automatique de Grandes BD Images : Approche par Graphes de Voisinage Lyon - France Annotation Semi-automatique de Grandes BD Images : Approche par Graphes de Voisinage Hakim Hacid Université Lumière Lyon 2 Laboratoire ERIC - 5, avenue Pierre Mendès-France 69676 Bron cedex

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Use Cases. Introduction

Use Cases. Introduction Use Cases Introduction Avant d aborder la définition et la conception des UC il est bon de positionner le concept du UC au sein du processus de développement. Le Processus de développement utilisé ici

Plus en détail

ATHIS. L'historien, le texte et l'ordinateur. Les logiciels de traitement informatique du texte. Alain Dallo Université Paris I.

ATHIS. L'historien, le texte et l'ordinateur. Les logiciels de traitement informatique du texte. Alain Dallo Université Paris I. ATHIS. L'historien, le texte et l'ordinateur. Les logiciels de traitement informatique du texte. Alain Dallo Université Paris I. LAMOP 1 1. Des logiciels qui ont une histoire. L'utilisation de corpus.

Plus en détail

À propos du Programme d évaluation international des compétences des adultes, le PEICA

À propos du Programme d évaluation international des compétences des adultes, le PEICA Automne 2013 À propos du Programme d évaluation international des compétences des adultes, le PEICA Par Giselle Boisvert, conseillère pédagogique, Commission scolaire de Montréal Les données de la troisième

Plus en détail

Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif?

Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif? 23 Schedae, 2006 Prépublication n 3 Fascicule n 1 Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif? Sophie Piérard & Yves Bestgen 1 Université

Plus en détail

Utilisation d une approche basée sur la recherche cross-lingue d information pour l alignement de phrases à partir de textes bilingues Arabe-Français

Utilisation d une approche basée sur la recherche cross-lingue d information pour l alignement de phrases à partir de textes bilingues Arabe-Français TALN 007, Toulouse, 5 8 juin 007 Utilisation d une approche basée sur la recherche cross-lingue d information pour l alignement de phrases à partir de textes bilingues Arabe-Français Nasredine SEMMAR (1),

Plus en détail

Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal

Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal Plan de cours ADM 992C Page 1 École des sciences de la gestion Département de management et technologie Université du Québec à Montréal ADM-992C LES TECHNOLOGIES D'AIDE À LA PRISE DE DÉCISION DANS LES

Plus en détail

Enrichissement de vidéos pédagogiques et apprentissage actif : le projet

Enrichissement de vidéos pédagogiques et apprentissage actif : le projet Informatique e t M OOC 24 juin 2 014 P aris Enrichissement de vidéos pédagogiques et apprentissage actif : le projet Colin de la Higuera, Yannick Prié, Camila Morais Canellas, Matthieu Riou Université

Plus en détail

Du conventionnel au digital : un site web en vue d une évaluation des compétences linguistiques

Du conventionnel au digital : un site web en vue d une évaluation des compétences linguistiques PANOS ARVANITIS, CATHERINE KIYITSIOGLOU-VLACHOU & PANOS PANAGIOTIDIS PANOS ARVANITIS Université Aristote de Thessalonique Grèce CATHERINE KIYITSIOGLOU-VLACHOU Université Aristote de Thessalonique Grèce

Plus en détail

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre Avant-propos 1. Objectif du livre 17 2. Illustrations des exemples de ce livre 18 2.1 Office 365 comme plateforme technologique pour une digital workplace 18 2.2 SharePoint et Yammer à l honneur 18 3.

Plus en détail

Guide d utilisation de la base de données

Guide d utilisation de la base de données Guide d utilisation de la base de données Introduction Ce guide a pour objet de présenter le contenu de la base de données relatives aux traductions de textes économiques disponibles sur le site Web EE-T

Plus en détail

Utilisation de Moodle pour le tutorat de formation en environnement et aménagement Le cas du Campus numérique ENVAM

Utilisation de Moodle pour le tutorat de formation en environnement et aménagement Le cas du Campus numérique ENVAM Utilisation de Moodle pour le tutorat de formation en environnement et aménagement Le cas du Campus numérique ENVAM Hélène Podvin Ingénieur pédagogique ENVAM CIRM-Université de Rennes 1 Campus de Beaulieu

Plus en détail

4ème. Colloque international ISKO- Maghreb'2013 ********************************************************** ********************

4ème. Colloque international ISKO- Maghreb'2013 ********************************************************** ******************** Conference Venue: Algiers city town (Algeria) Appels à Communications : 4ème. Colloque international ISKO- Maghreb'2013 ********** ******************** Concepts et Outils pour le Management de la Connaissance

Plus en détail

Construction d un lexique affectif pour le français à partir de Twitter

Construction d un lexique affectif pour le français à partir de Twitter TALN 2010, Montréal, 19 23 juillet 2010 Construction d un lexique affectif pour le français à partir de Twitter Alexander Pak Patrick Paroubek Université de Paris-Sud, Laboratoire LIMSI-CNRS, Bâtiment

Plus en détail

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés Les nouveaux enjeux et défis du marché immobilier : comment y contribuer? Chaire Ivanhoé Cambridge ESG UQÀM Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la

Plus en détail

Le lycée pilote innovant de Poitiers

Le lycée pilote innovant de Poitiers Merci d'utiliser le titre suivant lorsque vous citez ce document : OCDE (1998), «Le lycée pilote innovant de Poitiers : Futuroscope - 10 ans déjà», PEB Échanges, Programme pour la construction et l'équipement

Plus en détail

Homophone. Année et sujet: 6e année. Domaine : Français. Enseignant : Philippe Ledaga. Attente : C4. publier ses textes.

Homophone. Année et sujet: 6e année. Domaine : Français. Enseignant : Philippe Ledaga. Attente : C4. publier ses textes. Homophone Année et sujet: 6e année Domaine : Français Enseignant : Philippe Ledaga Attente : C4. publier ses textes. C5. intégrer ses connaissances des référents de la francophonie d ici et d ailleurs

Plus en détail

Recueil, constitution, préparation et test d un corpus lexicométrique (CORDIAL, HYPERBASE, LEXICO, WEBLEX, ALCESTE) CORRIGE

Recueil, constitution, préparation et test d un corpus lexicométrique (CORDIAL, HYPERBASE, LEXICO, WEBLEX, ALCESTE) CORRIGE Recueil, constitution, préparation et test d un corpus lexicométrique (CORDIAL, HYPERBASE, LEXICO, WEBLEX, ALCESTE) CORRIGE 1. Récupérer dans la base TEXTOPOL les trois débats Bush-Kerry dans la version

Plus en détail

Article. Système de saisie et de codage en ligne de relevés de notes et de catalogues de cours d études secondaires

Article. Système de saisie et de codage en ligne de relevés de notes et de catalogues de cours d études secondaires Composante du produit n o 11-522-X au catalogue de Statistique Canada La série des symposiums internationaux de Statistique Canada : recueil Article Symposium 2008 : Collecte des données : défis, réalisations

Plus en détail

Projet : Réalisation d une base de. données. Sujet : Gestion des ressources humaines. Logiciel : Microsoft Access

Projet : Réalisation d une base de. données. Sujet : Gestion des ressources humaines. Logiciel : Microsoft Access Projet : Réalisation d une base de données Sujet : Gestion des ressources humaines Logiciel : Microsoft Access Encadré par : M. Mohamed Saïd ZERRADSAHLI Réalisé par : Ben Abdelmoumen Ibtissam Challaoui

Plus en détail

L enseignement de l algorithmique au Lycée

L enseignement de l algorithmique au Lycée L enseignement de l algorithmique au Lycée Sisteron 12 novembre 2009 Fernand Didier didier@irem.univ-mrs.fr Approche naïve C est une méthode, une façon systématique de procéder, pour faire quelque chose

Plus en détail

SYLLABUS ISIT. OPTION 1 : Traduction 1. Module 1 : Traduction. Traduction spécialisée vers A. Nombre de crédits. Objectifs généraux :

SYLLABUS ISIT. OPTION 1 : Traduction 1. Module 1 : Traduction. Traduction spécialisée vers A. Nombre de crédits. Objectifs généraux : Traduction spécialisée vers A Module 1 : Traduction 5 ECTS généraux : Acquérir la méthodologie de la traduction de textes techniques dans divers domaines de spécialité : recherche documentaire, élaboration

Plus en détail