Désambiguïsation lexicale à base de connaissances par sélection distributionnelle et traits sémantiques



Documents pareils
État de l art : mesures de similarité sémantique locales et algorithmes globaux pour la désambiguïsation lexicale à base de connaissances

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Désambiguïsation lexicale par propagation de mesures sémantiques locales par algorithmes à colonies de fourmis

Consolidation de réseaux lexico-sémantiques par des inférences déductives et inductives

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Apprentissage Automatique

Indexation sémantique au moyen de coupes de redondance minimale dans une ontologie

Laboratoire 4 Développement d un système intelligent

Une plate-forme open-source de recherche d information sémantique

Sens, synonymes et définitions

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Exploitation de hiérarchies sémantiques construites à partir du Trésor de la Langue Française informatisé (TLFi) pour la recherche d images

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

Ressources lexicales au service de recherche et d indexation des images

Trois approches du GREYC pour la classification de textes

! Text Encoding Initiative

Multi-catégorisation de textes juridiques et retour de pertinence

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Big Data et Graphes : Quelques pistes de recherche

Comment déterminer les définitions les plus pertinentes d un sigle donné?

TEXT MINING Tour d Horizon

Big Data et Graphes : Quelques pistes de recherche

Une méthode d apprentissage pour la composition de services web

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

1 Description générale. Résumé

Vers une approche générique pour l interprétation de commandes en langage naturel

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Construction et maintenance d une ressource lexicale basées sur l usage

Learning Object Metadata

Master Informatique Aix-Marseille Université

Extraction automatique de terminologie à partir de libellés textuels courts

La recherche d informations sur le Web par les lycéens : Pourquoi et comment faciliter le travail collaboratif?

Modélisation du comportement habituel de la personne en smarthome

LIVRE BLANC Décembre 2014

Introduction au Data-Mining

SOMMAIRE AIDE À LA CRÉATION D UN INDEX SOUS WORD. Service général des publications Université Lumière Lyon 2 Janvier 2007

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Quel est l apport de la détection d entités nommées pour l extraction d information en domaine restreint?

Application de K-means à la définition du nombre de VM optimal dans un cloud

Modélisation des données

Extraction de mots-clefs dans des vidéos Web par Analyse Latente de Dirichlet

Une approche de désambiguïsation morpho_lexicale évaluée sur l analyseur morphologique Alkhalil*

N SIMON Anne-Catherine

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

Gestion collaborative de documents

Parcours DIWEB : (Données, Interaction et Web)

Apprentissage statistique dans les graphes et les réseaux sociaux

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

E-Gen : traitement automatique des offres d emploi

Problématiques de recherche. Figure Research Agenda for service-oriented computing

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S

Entreposage de données complexes pour la médecine d anticipation personnalisée

Bases de données documentaires et distribuées Cours NFE04

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Évaluation de G-LexAr pour la traduction automatique statistique

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

Règles d élaboration d une évaluation par Questions à Choix Multiple Joël LECHEVALLIER 1

COORDONNÉES PROFESSIONNELLES PARCOURS PROFESSIONNEL FORMATION

Application d un algorithme de traduction statistique à la normalisation de textos

Demande d admission au Centre pédagogique Lucien-Guilbault Secteur primaire

Méthode de classification des réponses d un moteur de recherche

Dafoe Présentation de la plate-forme UIMA

INF6304 Interfaces Intelligentes

Analyse sémantique et contraintes distributionnelles: l exemple du verbe monter 1

La base de données dans ArtemiS SUITE

RI sociale : intégration de propriétés sociales dans un modèle de recherche

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Les défis du traitement automatique du langage pour l analyse des réseaux sociaux

Hervé Couturier EVP, SAP Technology Development

CONTRIBUTIONS EN LIGNE des membres des AA Directives et conseils généraux pour faciliter l utilisation par les membres 7 juin 2010

L hypertexte, le multimédia, c est quoi?

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Formula Negator, Outil de négation de formule.

Analyse d opinions de tweets par réseaux de neurones convolutionnels

SAS ENTERPRISE MINER POUR L'ACTUAIRE

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Annexe 8. Documents et URL de référence

Lhopitault Aurora PES 09 février Unité d apprentissage : Les fruits. Unité d apprentissage : les fruits séance 1

Interface PC Vivago Ultra. Pro. Guide d'utilisation

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Évaluation d une architecture de stockage RDF distribuée

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

SEO > Grandes Tendances. 29/01/2015 > Digital Marketing Day

INTRODUCTION AU CMS MODX

Environnement coopératif intelligent pour l'annotation collaborative répartie et son évaluation

Évaluation d outils de Text Mining : démarche et résultats

Analyser le texte des enquêtes

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

VI- Exemples de fiches pédagogiques en 3 ème année primaires

Quels apprentissages info-documentaires au collège?

Les défis statistiques du Big Data

Transcription:

Désambiguïsation lexicale à base de connaissances par sélection distributionnelle et traits sémantiques Mardi 23 Juin 2015 Mokhtar Boumedyen BILLAMI Doctorant, équipe TALEP, Laboratoire LIF (Marseille) mokhtar.billami@lif.univ-mrs.fr

Introduction WSD est nécessaire pour plusieurs applications : recherche d information, extraction d information, traduction automatique, fouille de textes, simplification lexicale de textes, etc. Systèmes de désambiguïsation lexicale existants s appuient sur deux étapes (Navigli, 2009) : 1) Représentation de l ensemble des sens d un mot (ressources lexicales : dictionnaires ou réseaux sémantiques) 2) Choix du sens le plus probable d un mot par rapport à son contexte La meilleure possibilité d identifier le sens d un mot est de se référer à son contexte(ide, Véronis, 1998) 2

Ambiguïté lexicale et sa résolution Quel contexte? Définir la taille de la fenêtre textuelle, nature des informations retenues n mots à gauche/droite du mot cible, une phrase, un paragraphe, le document entier, Sacs de mots, dépendances syntaxiques, parties du discours spécifiques, Méthode de désambiguïsation la plus directe Estimer la proximité sémantique de chaque sens candidat par rapport à chaque sens de chaque mot appartenant au contexte du mot à désambiguïser Complexité exponentielle 3

Complexité exponentielle (approche exhaustive) Temps d exécution : critère important pour une désambiguïsation plus rapide Si est le nombre de sens du mot alors = est le nombre de combinaisons possibles avec N nombre de mots dans le contexte Exemple : Une phrase de 10 mots avec 10 sens en moyenne combinaisons possibles ( séquences de 10 sens possibles) 4

Plan de la présentation Approches de désambiguïsation lexicale Méthodes dirigées par les données Méthodes basées sur des connaissances, utilisation de ressources lexicales Méthodologie Corpus de travail et de test Réseau sémantique BabelNet Évaluation Données des expériences menées Conclusion et perspectives 5

Approches de désambiguïsation lexicale (1/2) Quelle méthode de désambiguïsation utiliser? Dirigées par les données (supervisées/non supervisées) Méthodes supervisées : s appuient sur un corpus d apprentissage, utilisation de données annotées sémantiquement Exemple: Corpus SemCor (Miller et al., 1993) avec 352 textes annotés et près de 234 000 sens au total Elles ont les meilleures performances et donnent les meilleurs résultats Méthodes non supervisées : exploitation des résultats de méthodes d acquisition automatique de sens 6

Approches de désambiguïsation lexicale (2/2) À base de connaissances : exploitation de ressources prédéfinies Elles reposent sur des connaissances issues de ressources lexicales et sémantiques Les ressources fournissent les descriptions sémantiques nécessaires pour faire la désambiguïsation Mesures de similarité sémantique locales donnant une valeur de proximité entre deux sens de mots Algorithmes globaux utilisant ces mesures pour trouver le sens selon le contexte (phrase, paragraphe ou document) 7

Méthodologie Désambiguïsation lexicale traitant l hypothèse de «One sens Per Discourse» Clé : Observation des voisins de chaque mot polysémique dans le texte Comparaison du sens candidat uniquement avec les sens des voisins sélectionnés au moyen d une similarité distributionnelle (Lin,1998) Avantages d utilisation des voisins les plus proches (k-ppv) Avoir des indices sur le sens le plus probable d un mot polysémique dans le texte Réduire la complexité exponentielle (temps d exécution) Ne pas perdre une cohérence au niveau de la désambiguïsation de tous les mots du texte Plus de chance de retourner le sens le plus spécifique au lieu du sens le plus général 8

Corpus de travail Ensemble de trois corpus de différents genres AFP, EST REP et Wikipédia Au total : 6 631 442 phrases correspondant à 147 648 986 tokens Corpus analysés par la chaîne de traitement Macaon (Nasr et al., 2011) Textes lemmatisés et annotés en partie de discours Un ensemble de triplets de dépendances syntaxiques est stocké et indexé Un triplet de dépendance se compose d une tête, d un type de dépendance et d un modificateur Exemple d un triplet de dépendance : «leurs regards recouvraient les eaux du fleuve» Triplet : (recouvrir, sujet, regard) 9

Corpus de test Deux corpus différents 10 textes du corpus IREST, textes standards pour des tests de vitesses de lecture 20 textes de lectures pour enfants en école primaire 6 235 occurrences de mots (4 139 occurrences de mots pleins) Une moyenne de 208 occurrences (138 occurrences de mots pleins) par texte Textes lemmatisés et annotés en partie de discours par Macaon 10

Réseau sémantique BabelNet (Navigli, Ponzetto, 2012) Il décrit des sens et des entités nommées Il intègre différentes ressources avec WordNet : Wikipédia, Wiktionary, Wikidata, OmegaWiki et Open Multilingual WordNet (Collections dewordnets disponibles dans différentes langues) Il regroupe des mots en différentes langues par groupes de synonymes (Babel Synsets). Pour chaque Babel synset, plusieurs définitions en différentes langues sont disponibles Langue Française Mots Synsets Mots monosémiques BabelNet 2.5.1 (proportion de 95,4% pour les noms) Mots polysémiques 1 088 170 708 802 959 906 128 264 11

Similarité distributionnelle (1/3) Mesure indiquant le degré de cooccurrence entre un mot cible et son voisin apparaissant dans des contextes similaires Cas de «souris» Voisins les plus proches possible pour le sens «genre d animaux» : rongeur, muridæ, espèce, animal, queue, oreille Voisins les plus proches possibles pour le sens «dispositif de pointage en informatique» : informatique, pointage, ordinateur, périphérique, surface, interface, Plus la similarité distributionnelle entre le mot à désambiguïser et ses voisins les plus proches est forte plus la probabilité d avoir le sens le plus probable est grande 12

Similarité distributionnelle (2/3) Utilisation de cette mesure pour des mots partageant la même partie du discours; cas d utilisation sur les noms et les verbes Pour chaque mot du corpus de travail, des relations grammaticales (de cooccurrences) existent : objet-de, sujet-de, a-pour-objet, etc. «leurs regards recouvraient les eaux du fleuve» Triplets de dépendances syntaxiques (regard, det, leur), (recouvrir, suj, regard), (recouvrir, obj, eau), (eau, det, le), (eau, dep, de) et (de, obj, fleuve) 13

Similarité distributionnelle (3/3) Triplet de dépendance syntaxique trait syntaxique (recouvrer, suj, regard) regard a pour trait syntaxique suj(recouvrer) Similarité distributionnelle entre deux mots et, = + : ensemble des traits syntaxique possédés par : quantité d information contenue dans les traits de = f S log avec : probabilité d avoir le trait 14

Algorithme de Lesk (1/2) Similarités à base de traits sémantiques Principe de base (Lesk, 1986) Déterminer le nombre de mots en communs entre deux définitions de mots pour avoir le sens partagé Comparaison de mots pleins (traits sémantiques) Baseline, variante de Lesk Comparaison des mots pleins du contexte avec les traits sémantiques des définitions de chaque sens candidat Prise en compte des synonymes dans le cas d absence des définitions = w 15

Exemple Texte Dans une petite ville, un marchand de fruits possédait un magasin situé juste au-dessus d une cave profonde. Chaque nuit les souris venaient en foule de cette cave dans le magasin. Elles mangeaient les pommes et les poires, les raisins et les noix, et n épargnaient pas non plus les légumes et les pommes de terre. Entre minuit et le lever de soleil, aucune marchandise se trouvant dans le magasin n était épargnée des petits rongeurs. La nuit, tant qu il y avait du bruit dans les rues et des chariots qui roulaient, les souris restaient silencieuses dans la cave. Mais dès minuit, elles venaient en foule, s amusaient avec les fruits doux et célébraient de vrais banquets. Leurs traces de passage désespéraient le magasin. Il essayait en vain de se protéger contre les souris. Sens 1 «Dispositif de pointage en informatique» (nombre de connexions sémantiques : 1102) - Dispositif de pointage en informatique - Une souris est un dispositif de pointage pour ordinateur - Un périphérique d'entrée qui, lorsqu'il est déplacé sur une surface plane, fait bouger un curseur sur les axes X et Y d'une interface utilisateur graphique, et possède un ou plusieurs boutons pour sélectionner des éléments de l'interface graphique comme des boutons Sens 2 «espèce de souris» (nombre de connexions sémantiques : 839) - Espèce de souris - La souris grise est une espèce parmi les petits rongeurs de la famille des muridés 16

Algorithme de Lesk (2/2) Similarités à base de traits sémantique Algorithme de base de Lesk Donner un score à une paire de sens de deux mots différents Comparaison des traits sémantiques entre les définitions des sens, = Extension de Lesk (Lesk étendu) Calcul du recouvrement entre les définitions de deux sens de mots Ajouter du recouvrement entre les définitions provenant de différentes relations : hypernyms, hyponyms, meronyms, holonyms, attribute, similar-to et also-see (7 relations 49 paires de relations possibles) =,, ;,, }, = 1, 17

Désambiguïsation lexicale par sélection distributionnelle et traits sémantiques Méthode structurelle fondée sur une distance sémantique entre un sens candidat et chaque sens de chaque voisin plus proche du mot à désambiguïser = Sensw : w Score S, S Sens =,,, du mot cible = : ensemble ordonné des voisins les plus proches Sens : ensemble des sens du voisin Sens w : ensemble des sens du mot cible Score S, S : fonction pour mesurer la similarité entre deux sens S et S 18

Données des expériences menées Jeu de test Fréquence Nbre Sens LeskBase LeskÉtendu LeskVariante Babelfy fleuve 3 3 100 100 0 100 fée 8 3 0 100 100 87,5 pêcheur 4 4 0 0 0 0 plante 15 5 86,67 100 80 100 castor 4 9 100 100 100 100 souris 10 9 30 100 0 30 planter 2 3 100 100 100 100 naître 7 3 0 85,71 85,71 100 obliger 2 5 50 100 50 100 taire 9 5 erreur POS erreur POS erreur POS - troubler 2 7 0 0 0 0 parler 6 10 16,67 100 16,67 50 Taux d exactitude (%) obtenus par méthode de Lesk de base et Lesk étendu par sélection aléatoire de 30% (V 1 ) sur l ensemble des triplets pour les 5 plus proches voisins et comparaison avec la méthode de Lesk variante et Babelfy 19

Évaluation (1/2) 95 90 85 80 75 70 65 60 55 50 80 70 60 50 40 30 20 10 0 LeskE (k=3) LeskE (k=5) LeskE (k=7) LeskE (K=3) LeskE (K=5) LeskE (K=7) LeskVariante Babelfy LeskVariante Babelfy Écart-type = 3,76 Taux d exactitude sur les noms du jeu de test par utilisation de l algorithme de Lesk étendu Écart-type = 9,80 Taux d exactitude sur les verbes du jeu de test par utilisation de l algorithme de Lesk étendu 20

Évaluation (2/2) 100 70 90 60 80 50 70 40 30 60 20 50 10 40 LeskVariante Babelfy LeskBase LeskÉtendu 0 LeskVariante Babelfy LeskBase LeskÉtendu K=3 K=5 K=7 K=3 K=5 K=7 Taux d exactitude sur les noms du jeu de test par sélection aléatoire de 30% sur les dépendances syntaxiques Taux d exactitude sur les verbes du jeu de test sur l ensemble des dépendances syntaxiques 21

Conclusion Méthode de désambiguïsation lexicale traitant l hypothèse du «One sense Per Discourse» en utilisant k-ppv par sélection distributionnelle et traits sémantiques selon le contexte du mot à désambiguïser. Utilisation de l algorithme de désambiguïsation lexicale de Lesk, de sa variante et de son extension. Application de la méthode de désambiguïsation sur un domaine général (pas de domaine de spécialité) et utilisation du paragraphe comme contexte. Taux d exactitude = 78% sur les données du jeu de test (meilleure combinaison est retournée par k=5 et 30%V1 comme sélection de triplets de dépendances syntaxiques). 22

Perspectives Comparaison des résultats avec l utilisation deskmotspleinslesplus proches linéairement de l'occurrence du mot à désambiguïser. Évaluation qualitative sur les différents sens d un mot ambigu (vérification de l existence d une relation d hyperonymie entre les sens candidats). Utilisation d autres algorithmes locaux pour mesurer la similarité sémantique : algorithmes à bases de distance taxonomique (Wu, Palmer, 1994 ; Hirst, St-Onge, 1998) ou algorithms à base de contenu informationnel (Resnik, 1995 ; Seco et al., 2004). 23

En vous remerciant pour votre attention

RÉCITAL : 17ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues Mes coordonnées Mokhtar Boumedyen BILLAMI Émail : mokhtar.billami@lif.univ-mrs.fr Tel : 04 91 82 96 37 Fax : 04 91 82 92 75 Aix-Marseille Université LIF, UMR 7279 163 Avenue de Luminy Case 901 13288 Marseille cedex 9, France

Références Fellbaum, C. Ed. (1998). WordNet: An Electronic Database. MIT Press, Cambridge, MA. Hirst, G., St-Onge, D. D. (1998). Lexical chains as representations of context for the detection and correction of malapropisms. WordNet : An electronic Lexical Database. C. Fellbaum. Ed. MIT Press, 305 332. Ide, N., Véronis, J. (1998). Word sense disambiguation: The state of the art. Computat. Ling. 24, 1, 1 40. Lesk, M. (1986). Automatic sense disambiguation using machine readable dictionaries : how to tell a pine cone from an ice cream cone. In Proceedings of the 5th annual international conference on Systems documentation, SIGDOC '86, New York, NY, USA : ACM, 24 26. 26

Références Lin, D. (1998). An information-theoretic definition of similarity. In Proceedings of the 15th International Conference on Machine Learning (ICML, Madison, WI), 296 304. Miller, G. A., Leacock, C., Tengi, R., Bunker, R. T. (1993). A semantic concordance. In Proceedings of the ARPA Workshop on Human Language Technology. 303 308. Moro, A., Raganato, A., Navigli, R. (2014). Entity Linking meets Word Sense Disambiguation: a Unified Approach. Transactions of the Association for Computational Linguistics (TACL), 2, 231-244. Nasr, A., Béchet, F., Rey, J. F., Favre, B., Le Roux, J. (2011). MACAON: A linguistic tool suite for processing word lattices. The 49th Annual Meeting of the Association for Computational Linguistics. ACTI, 86-91. 27

Références Navigli, R., Ponzetto, S. P. (2012). BabelNet: The Automatic Construction, Evaluation and Application of a Wide-Coverage Multilingual Semantic Network. Artificial Intelligence, 193, Elsevier, 217-250. Navigli, R. (2009). Word Sense Disambiguation : a Survey. ACM Computing Surveys 41(2), ACM Press, 1-69. Resnik, P. (1995). Using information content to evaluate semantic similarity in a taxonomy. In IJCAI 95, San Francisco, CA, USA, 448 453. Seco, N., Veale, T., Hayes, J. (2004). An intrinsic information content metric for semantic similarity in wordnet. In Proceedings of ECAI 2004, Valencia, Spain, 1089 1090. 28

Références Wu, Z., Palmer, M. (1994). Verbs semantics and lexical selection. In Proceedings of the 32nd annual meeting on ACL, volume 2 de ACL 94, Stroudsburg, PA, USA. Association for Computational Linguistics, 133 138. 29