Actes du colloque INFOL@NGUES 2014 http://infolangues.olympe.in La 6 ème édition du colloque : INFOL@NGUES 2014 L Informatique au service des Langues 24, 25 et 26 avril 2014 Béja, Tunisie
La 6 ème édition du colloque : INFOL@NGUES 2014 L Informatique au service des Langues 24, 25 et 26 avril 2014 Béja, Tunisie i
Préface La sélection d articles publiés dans le présent recueil constitue les actes de la 6 ème édition du colloque INFOLANGUES 2014 qui s est déroulé à Béja du 24 à 26 avril 2014. Le colloque INFOLANGUES ambitionne comme à l accoutumée de regrouper dans un même lieu scientifique, chercheurs, informaticiens et linguistes, pour échanger des idées et des approches dans le domaine du traitement des langues. Donc c est un défi de rassembler une panoplie de chercheurs travaillant sur plusieurs thèmes abordés dans ce colloque, tels que Linguistique computationnelle, Linguistique pour la reconnaissance de l'écriture, Langue et informatique, Dictionnaires numériques, Fouille de données textuelles, Traduction automatique (TA) et automatisée (TAO), Ontologies, Evaluation des modèles de langues par les TICs, Enseignement virtuel, Recherche d information. Le colloque faut il le souligner attire de plus en plus des chercheurs nationaux et internationaux. Dans cette édition, 22 papiers dont 10 rédigés par des informaticiens et 12 par des linguistes ont été acceptés. Nous avons invité plusieurs Professeurs et Docteurs, spécialistes dans le domaine du Traitement des Langues Naturelles (TALN), pour présenter l état d avancement de leurs recherches au cours des journées du colloque. Pour la deuxième fois dans l histoire d infolangues nous avons programmé une séance pratique animée par le docteur Hela Fehri de l Université de Sfax sur la plateforme Nooj de développement d applications TALN. Nous avons également programmé dans la séance inaugurale une présentation animée par l expert Ahmed Kaddour, Expert de Microsoft, sur les solutions proposées par Microsoft pour les chercheurs qui s intéressent aux langues et textes. Remerciement Nos vifs remerciement vont tous d abord aux auteurs pour leurs excellentes contributions mais aussi aux relecteurs, membres du comité scientifique, dont les rapports d évaluation circonstanciés et constructifs ont contribué à améliorer significativement la qualité des articles. Nos remerciements vont également à tous les invités du colloque qui ont donné le plus par leurs implications et présence. Nous citons entre autre le Prof. Abdelmajid Ben Hamadou, le Prof. Mohamed Bouattour, le Prof. Sami Faiz, le Prof. Rim Faiz, le Dr. Hela Fehri et Mr. Ahmed Kaddour. Nous remercions aussi toute l équipe du comité d organisation pour leur travail efficace et leur mobilisation continue. Enfin nous remercions spécialement pour leur soutien financier et aides, l université de Jendouba, l Institut Supérieur des Langues Appliquées et d Informatique de Béja, le Laboratoire de recherche en Technologies de l'information et de la Communication & Génie Electrique à l ESSTT, Tunis, l usine Kromberg & Shubert et l Association Actes Académiques. ii
Comités du colloque Infol@ngues 2014 est organisé par l Institut supérieur des Langues Appliquées et d informatique de Béja en collaboration avec les deux Laboratoires de recherches LaTICE, Université de Tunis et LLTA, Université de Sfax et l Association Actes Académiques. Comité Scientifique Président : - Prof. Abdelmajid Ben Hamadou, Université de Sfax, Tunisie. Membres : - Prof. Mourad Elloumi, Université d El Manar, Tunisie. - Prof. Rim Faiz, Université de Carthage, Tunisie. - Prof. Sami Faiz, Université de la Manouba, Tunisie - Prof. Mohamed Gamoudi, Université de la Manouba, Tunisie. - Prof. Faiez Gargouri, Université de Sfax, Tunisie - Prof. Mohamed Jabir, Université de Carthage, Tunisie. - Prof. Mohamed Jemni, Université de Tunis, Tunisie. - Prof. Ridha Mami, Université de la Manouba, Tunisie. - Prof. Yahya Slimani, Université de la Manouba, Tunisie. - Prof. Mohamed Bouattour, Université de Sfax, Tunisie. - Prof. Ezzedine Zagrouba, Université d El Manar, Tunisie. - Prof. Eric Wehrli, Université de Genève, Suisse. - M.C. Lamia Hadrich Belguith, Université de Sfax, Tunisie. - M.C. Akila Baklouti, Université de Sfax, Tunisie - M.C. Tahar Labbassi, Université de Tunis, Tunisie. - M.C. Ricco Rakotomalala, Université de Lyon, France. - Dr. Imed Ben Amar, Université de la Manouba, Tunisie. - Dr. Afef Kacem, Université de Tunis, Tunisie, Tunisie. - Dr. Ramzi Farhat, Université de Jendouba, Tunisie. - Dr. Bilel Gargouri, Université de Sfax, Tunisie. - Dr. Salma Jammoussi, Université de Sfax, Tunisie. - Dr. Sahbi Hidri, Université de Tunis, Tunisie. - Dr. Karim Chine, Université de Cambridge, Royaume-Uni. - Dr. Abdessatar Mahfoudhi, Université de Kuwait, Kuwait. - Dr. Slim Mesfar, Université de Jendouba, Tunisie. - Dr. Othman Talbi, Université de la Manouba, Tunisie. - Dr. Ghassan Mourad, Université Libanaise, Liban. - Dr. Aymen Khlifi, ENS Lyon, France. - Dr. Talel Zid, Université de Jendouba, Tunisie. - Dr. Asma Bouhafs, Université de Carthage, Tunisie. - Dr. Imed Mehnan, Université de Jendouba, Tunisie. - Dr. Sofien Haboubi, Université de Tunis, Tunisie. - Dr. Faiza Derbel, Université de la Manouba, Tunisie. Comité d organisation Président : - Dr. Faouzi Mhamdi Membres : - Dr. Romdhan Elouri - Dr. Ines Shabo - Dr. Lamia Mrad - Asma Gaaloul - Rim Ktari - Mounir Argoubi - Nidhal Hamrouni - Imen Ktari - Imed Khmiri - Taoufik Kouki - Fouad El Abdi - Asma Riyahi - Samir Ouechen - Anouar Mekni - Bachar Mekni - Maha Maaroufi - Olfa Bhiri - Iheb Djibi - Abdel Hafidh Mgaydiya - Kais Bouzidi - Akram Melki iii
Table de matières Colloque invités Devenez Agile avec TFS et Windows Azure, Ahmed Kaddour........1 Génération automatique de textes, Mohamed Bouattour.......2 Concepts Fondamentaux et Recherche en Géomatique, Sami Faiz.......3 اوت ا ا و اد واد Abdelmajid Ben Hamadou........ 4 Traitement Automatique du Langage An Overview on Sign Language Recognition Technique, B. Khalil, S. Meddeb et H. Amiri......... 5 Traitement Automatique de Paraphrases : Etat de l'art, Y. Ben Yahya, S. Mezghani Hammami, L. Hadrich Belguith........ 6 Traitement Automatique et Actes de Langage Indirects : le cas des Directifs Dérivés, M. Amal........7 Traitement Automatique des Verbes de Perception, le verbe «Toucher» comme Exemple, K. Gouasmia..............8 La Traduction Automatique du Verbe «Changer», Monia Sendi.....9 Text Mining Nouvelle Approche de Représentation Vectorielle des Textes pour la Catégorisation des Textes, A. Ben Afia, S. Haboubi1, A. Ksiksi et H. Amiri... 10 Vérification et Identification hors Ligne des Signatures Manuscrites par Approche Fractale, R. Zouari, R. Mokni et M. Kherallah......11 Une Vue Structurée des Données Textuelles pour l Enrichissement des Systèmes d Informations Géographiques, N. Hassini, K. Mahmoudi et S. Faïz...... 12 Sémantique et Lexique Une Vue Sémantique des Bases de Données, G. Landoulsi, K. Mahmoudi, S. Faiz.........13 Lexique Emotionnel et Oralité des Ecrits Electroniques : Usage des Smileys, Alouni Najeh......14 iv
La Représentation Sémantique des Adjectifs Psychologiques, Ajili Nehla.. 15 Les structures verbes causatifs + Nom d'émotion surprise : étude statistique et comparative françaisarabe à travers les corpus EMOLEX et Arabicorpus, S. Zouaidi & M. Bak Sienkiewicz.........16 Traitement Automatique de la Langue Arabe ز: و ا ا R. Ayad, O. Khayroun, I. Bounhas, B. Elayeb et Y. Slimani.....17 Informatique juridique documentaire: Vers un système de fouille dans les textes Arabes, I. Berrazega, R. Faiz et G. Mourad.....18 NTIC et Démocratisation du Savoir, Ezzedine Bouhlel... 19 A Statistical Language Model and Text Classification System Based on Schemes for Arabic Language, M. A. Ben Mohamed et M. Zrigui...... 20 Technologies de l Information et de la Communication pour l Éducation Gestion du Profil d'apprenant en Utilisant la Norme IEEE-PAPI dans un Contexte d Environnement d'apprentissage Personnel, B. Guettat et R. Farhat........21 Le Potentiel Didactique d un Logiciel d auto-apprentissage de l Orthographe en Milieu Universitaire Tunisien, Mohamed Msallmi..... 22 Le Logiciel Tropes, Y. Ghrissi.... 23 Dictionnaires électroniques & Applications Les Prédicats Nominaux de cause dans un Dictionnaire Electronique, Y. Frikha......24 La Langue Juridique: une Langue de Spécialité, Jahida Nouri........25 Le mouvement du sens, Monia Sendi...26 v
Devenez Agile avec TFS et Windows Azure Ahmed Keddour Microsoft, Tunisie kadahmed@microsoft.com Résumé : comment répondre rapidement au changement des besoins d un projet informatique, ainsi le tour complet des possibilités offertes par Windows Azure. Sites Web, Service Cloud, Machines virtuelles, Service Bus, Media Services, Mobile Services, Windows Azure Active Directory nous vous présenterons dans quel contexte utiliser chacun de ces éléments. A la fin de cette session, vous disposerez d'une vue globale de l'ensemble des fonctionnalités offertes à ce jour par Windows Azure. Biography: Ahmed KADDOUR is a Technical Evangelist working in Microsoft. He is a certified developer, particularly interested in web and mobile development all layers, from database to services to user interfaces. Specifically he is specialist in analysis and design of databases, in user interfaces, in managing requirements and in software development life cycle policies and procedures. 1
Génération automatique de textes Mohamed Bouattour Laboratoire de Recherche LLTA, Université de Sfax mohamedbouattour@yahoo.fr Résumé : les théories de génération automatique de texte n'ont pas eu l'intérêt qu'elles méritent, parce que les linguistes n'y ont pas contribué d'un commun accord avec les informaticiens. La linguistique a récemment revisité la théorie des topoï et celle des frames, peut-elle donc contribuer à éclairer des théories (GAT) comme l'aft et la TSR? Une application à un texte de Pascal pourrait nous permettre de circonscrire les contours de ces théories et nous mettre au fait des aspects qu'il faudra explorer. Biographie : Mohamed Bouattour est docteur d Etat en sciences du langage. Il est actuellement professeur à la faculté des lettres et sciences humaines de Sfax et est membre de la commission nationale sectorielle de langue, littérature et civilisation françaises. Il est directeur de l unité de recherche en Interaction et Traitement du Langage (ITL). Il a publié de nombreux travaux de recherche actes de colloque internationaux et possède à son actif des publications axées sur la linguistique et les stratégies discursives. 2
Concepts fondamentaux et Recherche en Géomatique Sami FAIZ Laboratoire de Télédétection et Systèmes d'information à Références Spatiales, Ecole Nationale d Ingénieurs de Tunis, TUNISIE sami.faiz@insat.rnu.tn Résumé : Le but du séminaire est d apporter un ensemble de connaissances dans le domaine de la Géomatique. Après une introduction à l'information géographique, sa représentation et ses techniques d acquisition. Ce séminaire présentera, les Systèmes d Information Géographique, leurs composantes et leurs fonctionnalités. Une partie du temps serait allouée à des sujets avancés en SIG, comme la géolocalisation, le géomarketing ou le GéoWeb. Et pour finir, un aperçu de la recherche en Géomatique serait proposé. Biography : Sami Faïz is a PhD in Computer Science from the «Laboratoire de Recherche en Informatique» of Orsay University (Paris 11). He is actually Professor in Computer Science at the Higher Institute of Multimedia Arts of Manouba and member of the Laboratory of Remote Sensing and Spatial Information Systems. He published more than 100 papers in specialized conferences and journals. He s also the author of three books in the framework of GIS. Dr Faïz is a scientific and organizing member of various international conferences. He s also the founder of many national and international projects in Geomatics. 3
ادوت ار ارو ن او ود واود ا : أ.د ا دو % 242 ا$# 3021 ا"ا! وا صب Abdelmajid.benhamadou@isimsf.rnu.tn د ادت ادوت را ن ادم ال ل ا و (أو م اب) ا ود ا$#رة وذك +*(ل ا)ت ا'& ا ورھ اوب ن ط- #زن وت وور ظوت و +ء -واد +ت +رة ام و ' وإ ت د طورة ب اوص ا ' أم ھ& mining) (Text 4 #راج وت *و فظهرت المدونات الا لكترونية وتطورت بسرعة من حيث ث ارء المحتوى وكثافة الحجم وكذلك إمكانية إث اري ها بمعلومات ببليوغ ارفية.' ولغوية لتوسيع مجالات استغلالها. فا صبحت التطبيقات اللغوية تعتمد أكثر فا كثر على المدونات الحاسوبية (المكتوبة والمنطوقة) في corpus ) " مر احل التصميم الاختبار. هذه المقاربة الجديدة نسبيا تندرج ضمن ما يسمى "بلغويات المدونة" " لسانيات أو المدونة.(linguistics في هذه الد ارسة سنحاول إلقاء الضوء على الجوانب التي تم ذكرها حيث سنبدأ بتعريف المدونة وذلك بوضع هذا المفهوم في سياقه المنهجي بالتعرف على علم لغويات المدونة ثم نمر إلى فواي د استعمال المدونة في بناء التطبيقات والد ارسات اللغوية. أهم عرض المدونات العربية المتاحة (مفتوحة المصدر أو بمقابل) سيا خذ حي از مهما في هذه الد ارسة. ونختم بتقييم هذه المدونات حسب معايير محددة قصد استبيان إمكانيات الاستفادة منها. Biography: Abdelmajid Ben HAMADOU obtained a doctorate degree in computer science from the University of Orsay (Paris, France) in November 1979 and a Thèse d Etat in Computer Science from the University of Tunis (Tunisia) in March 1993. He is presently Professor of Computer Science, Founder and Director the Higher Institute of Computer science and Multimedia, Sfax-university. He is also visiting Professor at Sorbonne University (France) and expert at ALECSO. In July 2002 he was decorated by the President of the Tunisian Republic ( Merit in Education and Science ) and in May 2009, he received from the "Al-Kindi" Award ( the best computer science researcher ). Abdelmajid Ben HAMADOU has published more than 280 articles in journals and conferences and has supervised more than 35 doctoral theses. His research domains are: Natural Languages Processing, Normalization of linguistic resources, information retrieval /filtering and document summarizing. 4
An Overview On Sign Language Recognition Techniques B. KHELIL 1, S. MEDDEB 1 and H. Amiri 1 National Engineering school of Tunis, Electrical Engineering department, SITI-LAB, tunis, Tunisia Khelil.bassem@gmail.com, mmemeddeb@gmail.com, hamidlamiri@gmail.com Abstract: Gesture recognition pertains to recognizing meaningful expressions of motion by a human, involving the hands, arms, face, head, and/or body. It is of utmost importance in designing an intelligent and efficient human-computer interface. The applications of gesture recognition are manifold, ranging from sign language through medical rehabilitation to virtual reality. In this paper, we provide an overview on sign language recognition techniques. Keywords: Hand pose; gesture recognition static process; gesture recognition dynamic process 5
Traitement automatique de paraphrases : Etat de l'art Y. Ben yahia, S. Mezghani Hammami, L. Hadrich Belguith ANLP Research Group Laboratoire MIRACL/ FSEGS Sfax, Tunisie. yacine.benyahia@gmail.com, souha.mezghani@fsegs.rnu.tn, l.belguith@fsegs.rnu.tn Résumé : Les langues en usage aujourd hui renferment un large éventail de phénomènes linguistiques et de caractéristiques faisant l objet d études très diverses. Parmi ces caractéristiques, nous nous intéressons à la variabilité qui se manifeste dans le fait qu une même idée, ou un même événement, peut être exprimée sous plusieurs formes. La variété de formes d expression reflète la richesse du vocabulaire des langues et définit un phénomène linguistique considéré comme un défi majeur dans le domaine du Traitement Automatiques des Langues (TAL) : la paraphrase. C est dans ce cadre que se situe cet article qui consiste à présenter une étude détaillée sur le traitement automatique de la paraphrase. Mots clés : Paraphrase, Corpus, Traitement automatique de la langue arabe. 6
Traitement automatique et actes de langage indirects : Le cas des directifs dérivés Mnasri Amel Laboratoire de Recherche LLTA, Université de Sfax Amoulamnasri@yahoo.fr Résumé : La possibilité constante de donner une lecture non littérale de plusieurs expressions des langues naturelles rend celle-ci encore plus mystérieuse et leur étude encore plus motivante. Parmi les phénomènes qui nécessitent une interprétation non littérale, il y a celui de l illocutoire dérivé occupant l un des versants les plus importants de la pragmatique illocutoire. L interprétation des actes de langage indirects pose problème étant donné que le sens littéral des énoncés supports de ces actes diverge de leurs buts illocutoires. Par exemple un énoncé tel que «Peux-tu me prêter un foulard? Ce drôle de Charles me laisse sans un seul mouchoir de tête.» (BALZAC, La Femme de trente ans, 1842, p. 110) interroge l interlocuteur sur ses capacités à accomplir l acte requis alors que sa valeur illocutoire dérivée est la requête. Autrement dit «Quand dire c est faire plusieurs choses à la fois» ou bien «Quand dire c est faire une chose sous les apparences d une autre». En effet, Les actes de langage indirects font partie des faits de langue encodés qui ne peuvent pas être décrits indépendamment de l usage qui en est fait dans la communication verbale : comprendre leurs sens c est essentiellement comprendre les situations dans lesquelles ils sont employés. La compréhension globale des actes de langage indirects ne peut pas se limiter aux aspects codiques et conventionnalistes des énoncés supports c'est-à-dire qu elle ne se limite pas à ses dimensions phonologiques, syntaxiques et sémantiques. Les valeurs illocutoires présentées par les actes de langage indirects sont contextuelles. Elles ne peuvent pas être interprétées en dehors d un processus inférentiel qui tiendrait compte à la fois des données linguistiques et extra-linguistique. Le problème que posent les actes de langage indirects est le suivant : «Comment est-il possible que le locuteur dise quelque chose et veuille le dire, mais veuille dire encore quelque chose d autre?! Et puisque le sens consiste en partie dans l intention de produire la compréhension chez l auditeur, une grande partie du problème revient à savoir comment est-il possible que l auditeur comprenne l acte de langage indirect alors que la phrase qu il entend et comprend signifie autre chose?» Les actes de langage indirects posent un problème non seulement au niveau descriptif mais aussi (et surtout) au niveau descriptif. Aucune généralisation ou description un tant soit peu formelle dans le cadre d'une théorie sémantique générale ou d'une théorie de la signification ne semble être viable. Bien évidemment, cet état des choses est très contraignant pour des chercheurs en intelligence artificielle, par exemple, dont les résultats paraissent très maigres pour l'instant à cause, surtout, des difficultés que posent au traitement automatique des phénomènes linguistiques des actes indirects. 7
Traitement Automatique des Verbes de Perception, le verbe «Toucher» comme Exemple Kader Gouasmia Laboratoire de Recherche LLTA, Université de Sfax kadergouasmia@gmail.com Résumé : Le traitement automatique vise à créer des programmes informatiques capables d étudier automatiquement une langue naturelle. L objectif du TALN est la conception des logicielles ou programmes capables de traiter de façon automatique des données linguistiques d une langue donnée, c'est-à-dire les règles et le comportement d une langue naturelle. En d autres termes, cette discipline s intéresse aux règles linguistiques et plus particulièrement à la recherche des méthodes de désambiguïsation des énoncés polysémiques. Dans cette perspective, étant donné que l objet que nous cherchons à automatiser n est pas un langage, mais un ensemble de textes exprimés dans une langue donnée, nous étudierons le verbe toucher comme exemple des verbes de perception. 8
La traduction automatique du verbe «changer» Monia SENDI LLTA, Université de Sfax sendimonia@yahoo.fr Résumé : Nous vivons aujourd hui dans une société décrite comme une société de l information. La communication multilingue a augmenté les besoins considérables en traduction. Nous notons que malgré le grand développement technologique, la qualité de la traduction automatique n est pas vraiment satisfaisante. Nous exposons dans cet article une méthode de traduction automatique. Nous allons essayer d utiliser l Atlas sémantique. Ce dictionnaire augmente la performance de la machine lors de la traduction automatique. Nous allons l appliquer dans le domaine de la traduction automatique du français vers l anglais et nous interpréterons les résultats fournis par ce modèle. Mots clés : Traduction automatique, polysémie, l Atlas sémantique, espace sémantique 9
Nouvelle approche de représentation vectorielle des textes pour la catégorisation des textes A. Ben Afia1, S. Haboubi1, A. Ksiksi et H. Amiri1 1Université de Tunis El Manar, LR-SITI-ENIT, ahmed.ben.afia@gmail.com, sofiene_haboubi@yahoo.fr, asma.ksiksi@gmail.com, hamidlamiri@gmail.com Résumé : Nous exposons dans cet article, une nouvelle approche pour la vectorisation des documents textuels. Après une brève présentation du processus global de la catégorisation de textes, la méthode TFIDF la plus réputée est détaillée. Nous détaillons par la suite notre nouvelle approche. Les expériences réalisées sur un corpus de textes arabe et leurs résultats sont enfin proposées. Mots clés : représentation vectorielles des textes, vectorisation, TFIDF, catégorisation des textes, validation croisée. 10
Vérification et identification hors ligne des signatures manuscrites par approche fractale R. Zouari, R. Mokni, M. Kherallah National School of Engineers BP 1173, Sfax, 3038, University of Sfax, Tunisia ramzi.zouari@gmail.com, raouia.mokni@gmail.com, monji.kherallah@ieee.org Résumé : La biométrie est science qui vise à l identification des individus à travers l étude des caractéristiques physiques et comportementaux de chaque personne. Dans ce contexte la signature manuscrite, est parmi les techniques biométriques qui sont largement utilisée pour la validation des documents officiels. Une signature peut être récupérée en mode hors ligne, dans ce cas elle sera considérée comme étant une image bidimensionnelle (2D) obtenue en utilisant un outil de numérisation comme le scanner, soit en mode en ligne à travers l utilisation d une tablette à interface tactile. Dans ce cas, plusieurs informations dynamiques seront disponibles comme la vitesse, l ordre temporel et la pression du stylo optique. Dans ce travail, nous nous sommes intéressés seulement au cas hors ligne. Le système développé permet de réaliser les deux taches d identification et de vérification des signatures manuscrites. L identification permet de reconnaitre le propriétaire d une telle signature, alors que la vérification permet de vérifier si une signature donnée est authentique ou elle a subi une falsification. Dans les systèmes de traitement de l information, la phase la plus pertinente est appelée «extraction des caractéristiques». Elle consiste à extraire, à partir de la forme de l objet analysé des informations permettant de le distinguer. Dans notre système, nous avons appliqué une approche appelée «Fractale». Ce choix est justifié du fait que cette approche est adaptée aux objets de formes irréguliers ce qui est bien vérifié par les signatures manuscrites. Ce degré d irrégularité est mesuré par un terme appelé «Dimension fractale» qui peut être obtenu en appliquant plusieurs méthodes comme la Box Counting, Box-Counting-Density, Mas Radius, Dilatation, Pour l identification, et suite à la phase d extraction des caractéristiques, nous avons appliqué un classificateur appelé KPPV (K-Plus-Proches-Voisins) que nous l avons testés pour différentes valeurs de K. Pour la vérification, nous avons appliqué un module qui permet de retourner, pour chaque scripteur, un intervalle de valeurs de dimensions fractales dans lequel la signature est considérée comme authentique, sinon elle sera considérée comme falsifiée. Le test de cette approche a été effectué sur une base de données de signatures connue dans la littérature «FUM-PHSDB», qui contient un total de 600 signatures appartenant à 20 scripteurs. Les résultats de test ont donnée un taux de reconnaissance égale à 92% et un taux de vérification égale à 81,5%. Comme perspective de ce travail, nous allons essayer d appliquer l approche fractale pour la reconnaissance de l écriture manuscrite arabe, sachant qu elle a été utilisée pour la modélisation de l écriture arabe pour l identification de scripteurs Mots clés : Fractale, hors ligne, en ligne, KPPV, scripteur 11
Une vue structurée des données textuelles pour l enrichissement des systèmes d informations géographiques N. Hassini, K. Mahmoudi, S. Faïz Laboratoire de Télédétection et Systèmes d'information à Références Spatiales, Ecole Nationale d Ingénieurs de Tunis BP 37 le Belvédère 1002 Tunis, TUNISIE hassnes@yahoo.fr, kamahmoudi@yahoo.fr, sami.faiz@insat.rnu.tn Résumé. Le développement des technologies géo-référencées a fait émerger un nouveau type de données, qualifiées de géographiques. De ce fait, une prolifération des systèmes d informations géographiques (SIG) a vu le jour pour assurer une meilleur exploitation de ces informations. Dans ce contexte, l approche que nous préconisons génère automatiquement une base de données géographiques (BDG) à partir des documents textuels. Notre but est de mettre en place un système facilitant l'accès aux informations présentes dans les textes afin de faciliter leur intégration dans un SIG. Notre approche s articule autour de deux grandes phases : la génération de la structure de la BDG à partir du texte et le remplissage de cette dernière à partir des mêmes textes. L implémentation de notre approche a donné naissance à un outil que nous avons baptisé GDB Generator et que nous avons intégré dans le SIG open source : OpenJUMP. Mots-clés: Système d informations géographiques, base de données géographiques, traitement automatique du langage naturel. 12
Une vue sémantique des bases de données G. Landoulsi, K. Mahmoudi, S. Faiz Laboratoire de Télédétection et Système d Information à Référence Spatiale (LTSIRS), École National d Ingénieurs de Tunis, Tunisie. ghadalandoulsi@yahoo.fr, khaoula.mahmoudimapa@laposte.net, sami.faiz@insat.rnu.tn Résumé : Dans cet article, nous présentons une approche dédiée à la génération d un extrait textuel à partir de bases de données. L idée sous-jacente à notre approche est d apporter plus de sémantique aux données des bases. Cette proposition peut s opérer moyennant l utilisation des ontologies comme ressources sémantiques. Ce choix est justifié par le fait qu une ontologie permet de déterminer les relations sémantiques entre différentes entités assurant un meilleur passage de la base de données au texte. Notre approche prend comme données d entrée un ensemble de bases de données et associe à chacune une ontologie qu on qualifiera de locale. Une ontologie globale est générée par la suite à partir de ces ontologies locales. Des règles d association sont proposées pour mieux expliciter la sémantique de l ontologie globale. Enfin, la génération d un extrait textuel prend lieu. Mots-clés: Bases de données, extrait textuel, ontologie, règles d association. 13
Lexique émotionnel dans le contexte des nouvelles formes de communication (réseaux sociaux) Elouni Najeh Faculté des Lettres et Sciences Humaines de Sfax, Laboratoire Langage et Traitement Automatique (LLTA) (Université de Sfax). Université de Bourgogne, centre de recherche Interlangues «Texte Image Langage» elouninajeh@yahoo.fr Résumé : Depuis qu internet est devenu le médium de communication par excellence, le discours normatif sur la langue n a jamais été aussi présent dans l échange virtuel. Nous remarquons ainsi que les travaux sur la langue et le discours dans les réseaux sociaux se sont développés pendant les dernières années. Dans le cadre de cet article, nous allons nous intéresser à l emploi du lexique émotionnel dans une nouvelle forme de discours différent de ceux déjà étudiés, en l occurrence le discours «virtuel» dans un espace de communication à distance, en recourant aux textes très émotionnels que sont les textes modernes des nouveaux médias tels que les blogs, les forums, les commentaires sur internet, les réseaux sociaux, le chat etc. Ce travail déplace le curseur des études sur l expression linguistique des sentiments et des émotions du système vers l emploi. Il vise à interroger un corpus jusque là inédit dans ce type d études, en l occurrence les formes de communication instantanée rendues possibles par les nouvelles technologies et qui semblent prédisposées à accueillir de nombreux marqueurs expressifs. Dans notre travail, nous allons mettre l accent sur la polémique de la frontière écrit / oral et la problématique de l emploi contextuel de ce lexique affectif dans ce type de discours qui vise une autoreprésentation et une identité en ligne. Notre cadre méthodologique sera la linguistique appliquée aux nouvelles technologies en l occurrence l analyse de discours. Nous allons étudier comment ce lexique est verbalisé? Quels sont les moyens utilisés pour cela et qui inscrivent la subjectivité des internautes dans le discours? (smileys, signes typographiques, émoticônes, etc.) Et comment se construit le sens à partir de tout çà? Mots clefs : nom d affect, sentiments, émotion, lexique, contexte, réseaux sociaux, subjectivité, discours, écrit, oral. 14
La représentation sémantique des adjectifs psychologiques Ajili Nehla, Laboratoire de Recherche LLTA, Université de Sfax ajili.nahla@yahoo.fr Résumé : Le traitement automatique écrit en langues naturelles exige une représentation explicite et cohérente des informations de tous les niveaux. Dans ce travail, nous nous sommes concentrés sur une classe des adjectifs de qualité à savoir les adjectifs psychologiques. Cette étude est consacrée donc à la description sémantique des adjectifs psychologiques effectuée en vue de les traiter dans un système informatique. Nous utilisons à cette fin la notion des classes d objets [Gross G. 1995a, 1995b et 1996, Le Pesant & Mathieu- Colas 1998] qui a été conçue au Laboratoire de Linguistique Informatique pour décrire exhaustivement et systématiquement le lexique dans la perspective du traitement automatique des langues. En effet, la contigüité sémantique des prédicats <psychologiques> a donné lieu, entre autres, aux sous classes suivantes : <émotion>, <humeur>, <sentiments>, etc. Nous essayons donc de construire un dictionnaire électronique qui associe à chaque adjectif les traits sémantiques correspondants. Compte tenu des avantages qu elle présente, nous adoptons la plateforme NooJ afin de créer un dictionnaire électronique dans lequel nous allons inclure seulement les adjectifs psychologiques qui ont un sujet humain. NooJ est un environnement de développement linguistique permettant de construire, de tester, de gérer des descriptions formalisées à large couverture des langues naturelles, sous forme de dictionnaires et de grammaires électroniques, et d appliquer des grammaires représentées sous forme de graphes ou d expressions rationnelles augmentées à un corpus. Ces grammaires sont utilisées au sein de notre plateforme NooJ pour la tâche en cours : elles sont nommées grammaires locales. Elles servent à localiser des phénomènes locaux de manière très précise dans les textes. Ces grammaires sont des graphes lexicalisés [Gross, 1997 ; Silberztein, 1993] qui font appel à des dictionnaires de mots simples et composés. Elles sont équivalentes à des réseaux récursifs de transitions (RTNs) voir même des réseaux de transitions augmentés (ATNs). Notre travail se base principalement sur : - La construction d un dictionnaire bilingue français-arabe qui décrit les traits sémantiques des adjectifs psychologiques : toutes les informations qui y sont contenues doivent être cohérentes, aussi bien du point de vue de la forme des entrées que du point de vue des informations associées - La création d une grammaire formelle - Reconnaissance automatique des adjectifs psychologiques 15
Les structures verbes causatifs + Nom d'émotion surprise : étude statistique et comparative français-arabe à travers les corpus EMOLEX et Arabicorpus Safa Zouaidi1 & Monika Bak Sienkiewicz2 1Université de Sfax, ITL, Université Grenoble-Alpes LIDILEM 2Université Grenoble-Alpes, LIDILEM safa.zouaidi@doctorant.univ-grenoble.fr, Monika.Sienkielwicz@doctorant.univ-grenoble.fr Résumé : Dans cette contribution, nous nous proposerons d examiner le fonctionnement syntaxico-sémantique de la construction «verbe causatif + nom d émotion surprise» (désormais Vcausatif + N_surprise) dans une perspective contrastive français-arabe. Ce travail a pour but de déterminer les structures passant pour équivalentes ou référentiellement semblables dans ces deux langues. Le nom surprise appartient au champ d émotion SURPRISE de la classification d EMOLEX 1 (www.emolex.eu ANR/DFG), réalisée dans le cadre du projet franco-allemand qui porte sur le lexique des émotions dans cinq langues européennes (français, anglais, allemand, espagnol, russe). À travers l étude du profil combinatoire et fonctionnel de ces lexies en français et en arabe, nous essayerons d appréhender les convergences et les divergences qui subsistent dans ces deux systèmes linguistiques. À notre connaissance, la sémantique des arguments des verbes causatifs (et, plus particulièrement, les arguments appartenant aux champs d émotions), n a pas fait l objet d études approfondies 2 et, moins encore, en étude contrastive avec l arabe. De ce fait, notre projet peut être perçu comme novateur. Pour ce faire, nous nous appuierons sur deux corpus comparables équilibrés : un corpus journalistique français, issu de la base de données EmoBase d EMOLEX (http://emolex.u-grenoble3.fr/emobase/) et celui en arabe, Arabicorpus (http://arabicorpus.byu.edu/). Nous présenterons d abord le cadre théorique et méthodologique (section 2). Nous examinerons ensuite le profil combinatoire et fonctionnel du patron syntaxique Vcausatif + N_surprise en français et en arabe (section 3). Nous terminerons notre article par la présentation des résultats et nous formulerons ainsi les premières conclusions émanant de cette analyse. Mots-clés : verbe causatif, nom d émotion, construction, structures actancielles, valence, analyse sémantique, analyse syntaxique, analyse contrastive. 1 Le projet franco-allemand ANR/DFG Emolex (ANR-09-FASHS-017), sous la responsabilité d I. Novakova (Université Stendhal, Grenoble 3) et de P. Blumenthal (Université de Cologne), a pour objectif l étude du lexique des émotions dans cinq langues européennes dans ses aspects sémantique, syntaxique et discursif. 2 L exception faite de quelques travaux généraux, comme ceux du laboratoire LADL. 16
ز: و ا ا 2 2 1 2 1 1 رء د أ +ن #رون إ+راھم+وس +(لا ب 8 1 #+رردي ادراوط وم ا)( و+ 2010 و+ {ayed.raja, oussama.ben.khiroun}@gmail.com, Bilel.Elayeb@riadi.rnu.tn -, إ ا*() ا'& 1060 ت.(.& Bounhas.Ibrahim@yahoo.fr Yahya.slimani@fst.rnu.tn ا :( 3 م 6! ھ 4 ا ا 3 ل 1,وع " 9 &.ز" ا;: 6! إ( 1 ء و(,?< ا. = ا, وا@($. إن 1,وع " 9 &.ز",تC $ B ('.ص ا?< ا&.ي = ا 94.رت و( 3,ح,.ا " 9 &.ز ا' BG ",( J3 HI( ا?<,ا%ت تJ ت"وM6 &" ت, L.(TREC) ("ف O لاو( ا, إ Bا&".ض?.ث= ا, و=تأO,ى( CLIR ). ا"ت ا ھ : ا,. ا= ا, ا?< ا*دي وا,ا 36! ا. ('.ص ا?< ا&.ي او( 17
Informatique juridique documentaire: Vers un système de fouille dans les textes Arabes I. Berrazega 1, R. Faiz 2 et G. Mourad 3 1 LARODEC, ISG de Tunis B.P.1088, 2000 Bardo, Tunisie, ines_berrazega@yahoo.fr 2 LARODEC, IHEC de Carthage, 2016 Carthage Présidence, Tunisie, Rim.Faiz@ihec.rnu.tn 3 Centre des Sciences du Langage et de la Communication Université Libanaise, ghassan.mourad@ul.edu.lb Résumé : Le présent travail s inscrit dans le domaine l informatique juridique, qui consiste à appliquer les technologies de l informatique au service du droit. Notre objectif est de développer un système opérationnel capable de fournir aux utilisateurs les informations qu ils cherchent dans de larges corpus juridiques en langue arabe. Nous présentons dans cet article notre méthode de segmentation thématique des documents textuels que nous avons appliquée sur les textes de lois, décrets, arrêtés et avis publiés dans le Journal Officiel de la République Tunisienne (JORT). Mots clés : Traitement Automatique de la Langage Arabe, Exploration Contextuelle, Segmentation Thématique, Fouille de données textuelles 18
NTIC et démocratisation du savoir Ezzedine Bouhlel FLSH Université de Sousse, LLTA Université de Sfax ezzedinebouhlel@yahoo.fr Résumé : Aujourd hui, on assiste à un déferlement sans précédent d outils et de techniques (comme la télévision numérique, le DVD, l iphone, l ipod, la Wi-Fi et en particulier le réseau Internet), qui se sont imposés à toutes les sociétés. L innovation ne se situe pas seulement au niveau technique, elle implique également le niveau linguistique puisque de nombreux néologismes ont vu le jour ; c est le cas par exemple de baladeur, téléchargement, chat, spam, internaute, émoticône, Ces nouveautés appelées NTIC s avèrent essentielles dans le traitement et la transmission de l information ; elles tiennent de nos jours une place de choix dans pratiquement toutes les sociétés et ont de ce fait investi la formation, le travail, les loisirs ; mais elles sont particulièrement cruciales dans le secteur de l éducation. Elles sont de plus en plus sollicitées dans l enseignement supérieur dans la mesure où l université est plus réceptive que l école ou le lycée en raison des moyens considérables mis à sa disposition et en raison du degré élevé de maturité et d instruction de la population estudiantine, comparée aux élèves du primaire et du secondaire. En tant qu enseignant universitaire ayant assuré des cours en TICE avec des étudiants de niveaux différents (Licence et Master), nous pouvons avancer que les TICE, comme les NTIC offrent à l étudiant de prodigieuses opportunités d apprentissage qu un enseignement classique ne peut fournir. Il en résulte que ces outils ont sensiblement contribué à la diffusion et par voie e conséquence à la démocratisation du savoir. 19
A Statistical Language Model and Text Classification System Based on Schemes for Arabic Language M. A. BEN MOHAMED and M. ZRIGUI 1LaTICE Laboratory, Monastir Unity, Tunisia, mohamedachraf@gmail.com, mounir.zrigui@fsm.rnu.tn Abstract: Arabic is known for its sparseness, which explains the difficulty of its automatic processing. The Arabic language is based on schemes; lemmas are produced using derivation based on roots and schemes. This latter character presents two major advantages: the first is that this hidden side of the Arabic language composed by schemes does not suffer too much from sparseness since it represents a finite set. The second is that schemes keep a large number of features of the language in a much reduced vocabulary size. Schemes present a very great perspective and have great potential in building accurate natural language processing tools for Arabic. In this work we tried to explore this potential; we start with the study of the statistical characteristics of this model by highlighting the attenuation of the sparseness at the level of schemes. Then we build a statistical language model and a text classification system while relying entirely or partially on schemes. Keywords: Arabic language, Schemes, Roots, Derivation, n-scheme model, text classification, Supervised Machine Learning. 20
Gestion du profil d'apprenant en utilisant la norme IEEE-PAPI dans un contexte d environnement d'apprentissage personnel B. GUETTAT 1 et R. FARHAT 2 Laboratoire de recherche en Technologies de l Information et de la Communication & Génie électrique (LaTICE), Université de Tunis 5 Avenue Taha Hussein, B.P. 56, Bab Menara, Tunis, Tunisie 1 belhassen.guettat@gmail.com 2 ramzi.farhat@esstt.rnu.tn Résumé : Le concept d environnement d apprentissage personnel (En anglais PLE : Personal Learning Environment) fait actuellement l objet d un intérêt croissant. Cependant, la mise en place de ces environnements nécessite la résolution d'un certain nombre de problèmes. Dans ce papier, nous allons discuter principalement de la façon dont la norme IEEE-PAPI est utile dans le cas des Environnements d Apprentissage Personnels pour la gestion des profils d apprenants. Par conséquent, nous allons rappeler les principales idées derrière ces environnements, ensuite, nous allons donner un aperçu de notre approche pour construire un environnement d apprentissage personnel. Enfin, nous allons discuter l'utilisation de l IEEE- PAPI pour construire un modèle approprié de l'apprenant dans un contexte de PLE. Mots clés : Environnement d Apprentissage Personnel, Modèle de l Apprenant, Profil de l Apprenant, IEEE-PAPI. 21
Le potentiel didactique d un logiciel d auto-apprentissage de l orthographe en milieu universitaire tunisien Mohamed MSALMI Laboratoire de Recherche LLTA, Université de Sfax msalmimoha@yahoo.fr Résumé : Dans cette contribution, nous rendons compte des résultats d une enquête qui vise à vérifier la maîtrise du système orthographique du français par deux groupes d étudiants, littéraires et scientifiques, grâce au logiciel «orthodidacte». Outre l analyse tant quantitative que qualitative des résultats des tests effectués dans deux établissements différents de l enseignement supérieur, notre objectif est de mesurer l intérêt didactique de l outil informatique d auto-apprentissage en ligne dans le milieu universitaire tunisien. Mots clés : Auto-apprentissage, français, logiciel, orthographe. 22
Le logiciel Tropes Yakoub Ghrissi Laboratoire de Recherche LLTA, Université de Sfax gh.yac.2013@gmail.com Résumé : Le travail que je vais présenter concerne le traitement automatique de langues (TAL). De nos jours, le nombre de documents numérisés disponibles sur la Toile sont si nombreux que le travail manuel du chercheur est incapable de traiter. Certains chercheurs et laboratoires de recherches offrent des outils téléchargeables gratuitement et qui permettent d automatiser les recherches afin d embrasser le maximum de documents et d en extraire des concordances. Certains comme AntConc sont seulement graphiques. En lançant une ou plusieurs requêtes sur un grand nombre de fichiers de tout type (xml, pdf, doc, txt, html, etc.), on obtient des résultats intéressants. D autres comme NooJ, TXM ou Unitex, acceptent les requêtes catégorisées. On peut extraire des concordances selon la suite de catégories grammaticales souhaitées, du type Dét + Adj + N + Adj + V + prép + dét + N. Dans mon intervention, je voudrais présenter le logiciel Tropes. C estune plate-forme d une grande capacité d analyse sémantique de contenu et qui est à sa huitième version. Elle est développée par Pierre Molette et Agnès Landré à partir des recherches de Rodolphe Ghiglione et le Groupe de Recherche sur la Parole (GRP, Université Paris 8) qui ont élaboré successivement deux théories d analyse de contenu : l Analyse Propositionnelle du Discours (APD) puis l AnalyseCognitivo Discursive (ACD). Ce logiciel se situe au carrefour de plusieurs disciplines : Français, Histoire-Géographie, Philosophie etc. 23
Les prédicats nominaux de cause dans un dictionnaire électronique Yosra FRIKHA Faculté des Lettres et Sciences Humaines de Sfax groupe de recherche ITL (Interaction et traitement du langage) yosrabelaaj@yahoo.fr Résumé : Le travail que nous présenterons s inscrit dans le cadre du traitement automatique des langues, en particulier dans la lignée des travaux menés au LDI de Paris 13 (Lexiques, Dictionnaires, Informatique) qui se propose pour objectif de construire un dictionnaire dans une perspective de traitement automatique des langues. Il s agit de décrire les différents emplois et sens des opérateurs, en partant de la relation fondamentale qui les relie à leurs arguments, et en sous-catégorisant les traits syntactico-sémantiques en sous-classes sémantiques appelées classes d objets. Nous proposons de décrire un ensemble de substantifs prédicatifs de cause tels que prétexte, motif, cause, etc. en vue de discriminer leur emploi. Nous nous serverons des traits syntaxiques et de la notion de classe d objets pour décrire de façon précise leur distribution et pour rendre compte de leur polysémie. Nous nous intéresserons particulièrement à la description de leur schéma actanciel et aux verbes supports qui permettent de les actualiser. Ainsi, nous montrerons par exemple que le prédicat causal prétexte n a pas la même distribution que le substantif non prédicatif prétexte, appartenant à la classe des vêtements. Nous envisagerons, dans une deuxième étape, de présenter des classes sémantiques de cause, en se fondant sur les propriétés syntactico-sémantiques des prédicats nominaux. Pour ce faire nous examinerons le type de verbes et d adjectifs qu ils sélectionnent. De tels critères montreront que ces substantifs ne sont pas sémantiquement et syntaxiquement homogènes. Ainsi, nous proposerons des classes sémantiques comme la classe des «causes factuelles»ou la classe des «causes justificatives». Cette classification permettra de dégager les différences de significations qui existent entre plusieurs marqueurs traduisant tous une relation de causalité. La diversité des types de cause nous conduira à exploiter les nuances de ce lexique causal pour traduire la spécificité de chaque classe qui pourrait être considérée comme une classe d objets. 24
La langue juridique : une langue de spécialité Jahida Nouri Faculté des Lettres et des Sciences Humaines de Sfax, Laboratoire LLTA jahidanourii@yahoo.fr Résumé : Dans ce présent travail, nous tentons de mettre la loupe sur l un des traits définitoires du langage juridique, à savoir une «langue de spécialité». Comme toute discipline, le droit a une langue spécifique. Dans ce cas, parler du langage juridique, c est s interroger sur le lexique qui forme le langage de droit. Afin de valider cette hypothèse, nous proposons une analyse lexico-sémantique du vocabulaire juridique en nous appuyant sur un ensemble d exemples extraits du texte de droit (le texte normatif et le texte juridictionnel). Notre objectif final est de savoir si le langage juridique peut-il être considéré comme un langage scientifique. Mots clés : langage juridique, langue de spécialité, analyse lexico-sémantique. 25
Le mouvement du sens Monia SENDI Laboratoire de Recherche LLTA, Université de Sfax sendimonia@yahoo.fr Résumé : Nous exposons dans cet article une analyse de la notion de mouvement du sens. Nous allons focaliser notre étude sur le rapport entre le changement de catégorie et le changement de sens. Donc, notre objectif est de délimiter le rapport entre la polysémie et la catégorisation. La construction dynamique de sens présente le souci majeur de chercheur. La notion de mouvement du sens présente d une part une source de vie de la langue et d autre part, elle est considérée comme une source d ambiguïté vu la multiplicité de significations. Mots clés : polysémie, mouvement de sens, catégorisation, prototype. 26