LSA : les limites d'une approche statistique



Documents pareils
Apprentissage Automatique

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, Paris

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

Ressources lexicales au service de recherche et d indexation des images

Learning Object Metadata

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

Comment déterminer les définitions les plus pertinentes d un sigle donné?

OPITER : Fouille de données d opinionpour les territoires

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Vers la conception automatique de filtres d'informations efficaces. Towards the Automatic Design of Efficient Custom Filters

Mémoire DEA Système d'information Management and Technology of Information Systems

TEXT MINING Tour d Horizon

Grammaires d unification

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

Luc GRIVEL, (*, **), Olivier BOUSQUET (**, ***)

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

AVIS D'INFORMATIONS COMPLÉMENTAIRES, AVIS D'INFORMATIONS SUR UNE PROCÉDURE INCOMPLÈTE OU AVIS RECTIFICATIF

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Travaux pratiques avec RapidMiner

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

modèle d atelier de LECTURE-ÉCRITURE

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Système binaire. Algèbre booléenne

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Curriculum Vitae - Emmanuel Hebrard. Emmanuel Hebrard

Image d un intervalle par une fonction continue

Méthode du commentaire de document en Histoire

L usage des concepts du web sémantique dans le filtrage d information collaboratif

MCMC et approximations en champ moyen pour les modèles de Markov

Laboratoire 4 Développement d un système intelligent

Qu est-ce qu un résumé?

Trois approches du GREYC pour la classification de textes

Introduction au Data-Mining

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

Journées d études IARD

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Analyse des réclamations d allocataires de la CAF : un cas d étude en fouille de données

Zazie : Être et avoir

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

2 Serveurs OLAP et introduction au Data Mining

3. Hypothèses 4. Méthodologie

LES TYPES DE DONNÉES DU LANGAGE PASCAL

Partie 1. La structure des réseaux sociaux

Théorèmes de Point Fixe et Applications 1

AVIS D'INFORMATIONS COMPLÉMENTAIRES, AVIS D'INFORMATIONS SUR UNE PROCÉDURE INCOMPLÈTE OU AVIS RECTIFICATIF

! Text Encoding Initiative

Extraction de mots-clefs dans des vidéos Web par Analyse Latente de Dirichlet

PLAN DE COMMUNICATION TACTIQUE COMM Faculté des lettres : Département d'information et de communication PLAN DE COURS

AVIS D'INFORMATIONS COMPLÉMENTAIRES, AVIS D'INFORMATIONS SUR UNE PROCÉDURE INCOMPLÈTE OU AVIS RECTIFICATIF

Vers une architecture générique de système de dialogue oral homme-machine

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Séquence inaugurale qui conduira les étudiants à soulever les problématiques essentielles.

En direct de la salle de presse du Journal virtuel

Sécurité logicielle. École de technologie supérieure (ÉTS) MGR850 Automne 2012 Automne Yosr Jarraya. Chamseddine Talhi.

Concevoir un modèle de données Gestion des clients et des visites

Echantillonnage Non uniforme

Annexe 1 Programmes des classes préparatoires aux Grandes Ecoles

Limites finies en un point

TRAVAUX DE RECHERCHE DANS LE

La classification automatique de données quantitatives

5. Apprentissage pour le filtrage collaboratif

AVIS D'INFORMATIONS COMPLÉMENTAIRES, AVIS D'INFORMATIONS SUR UNE PROCÉDURE INCOMPLÈTE OU AVIS RECTIFICATIF

GFM 296 UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE GUIDE POUR LA REDACTION DU MEMOIRE DE MASTER MBA (FORMULAIRE D)

Fusion et consolidation RFC - Réflexion -comptabilité - Décembre p

ITIL : Premiers Contacts

RTDS G3. Emmanuel Gaudin

Europresse : Découvrir la recherche avancée

Jérôme Mathieu janvier Débuter avec R. Ce document est disponible sur le site web :

LIVRE BLANC Décembre 2014

PROJET DE FIN D ETUDES

Introduction à MATLAB R

AVIS D'INFORMATIONS COMPLÉMENTAIRES, AVIS D'INFORMATIONS SUR UNE PROCÉDURE INCOMPLÈTE OU AVIS RECTIFICATIF

Introduction au modèle de la pédagogie culturelle au service de la construction identitaire

Contrôle de gestion des participations de la ville de Lucerne

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

AVIS D'INFORMATIONS COMPLÉMENTAIRES, AVIS D'INFORMATIONS SUR UNE PROCÉDURE INCOMPLÈTE OU AVIS RECTIFICATIF

N SIMON Anne-Catherine

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Site Internet de la Ville de Marssac. Comment ouvrir un compte et devenir contributeur PAGE 1

1. Productions orales en continu après travail individuel

Modélisation des processus métiers et standardisation

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

SIP. Plan. Introduction Architecture SIP Messages SIP Exemples d établissement de session Enregistrement

Master4Light. Caractérisation Optique et Electrique des Sources Lumineuses. Equipement 2-en-1 : source de courant et spectrophotomètre

Expression des contraintes. OCL : Object C o n t r a i n t L a n g u a g e

Evaluation des modèles non-linéaires à effets mixtes

Magister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de :

ÉCOLE SECONDAIRE PÈRE-RENÉ-DE-GALINÉE

CONSOMMATION FINALE. Matérialité de l usage. Productivité de l usage. Effet de l usage. Satisfaction. Usage d un bien SANS effet productif ultérieur

Marc Paulet-deodis pour APRIM 1

LA SIMULATION: INTERETS EN FORMATIION MEDICALE CONTINUE. C Assouline

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Transcription:

LSA : les limites d'une approche statistique Atelier «Fouille de Données Complexes» (FDC'6), 7 janvier 26 Mathieu Roche et Jacques Chauché Equipe TAL, LIRMM, Université Montpellier 2

Plan Motivations LSA Méthode Exemple Les limites de LSA Influence de la taille des contextes Influence du vocabulaire Ajout de connaissances syntaxiques Syntaxe et LSA : Etat de l'art Perspectives Conclusion 2

Motivations Motivations But de LSA (Latent Semantic Analysis) [Landauer et al., 998] : trouver la similarité entre deux mots ou deux textes. Cadre de travail : ensemble de documents textuels. Méthode non supervisée qui s appuie sur le contexte des mots. Questions : Quelles sont les limites de LSA? Quelles perspectives pour améliorer cette méthode? 3

Méthode (/4) Matrice relative aux mots du texte : - phrases - paragraphes - documents LSA > Méthode X = mots Occurrence des mots de chaque contexte 4

Méthode (2/4) LSA > Méthode Normalisation X X' X'' Décomposition en valeurs propres + Approximation 5

Méthode (3/4) LSA > Méthode Décomposition en valeurs propres : une matrice de rang r peut se décomposer de la manière suivante X m x n U m x r S r x r V T r x n 6

Méthode (4/4) LSA > Méthode Approximation de la matrice X : construction sur seulement d dimensions d une matrice X qui est une approximation de la matrice d origine. X m x n U m x r S r x r V T r x n 7

Exemple (/4) LSA > Exemple c: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system enginneering testing of EPS c5: Relation of user perceived response time to error measurement m: The generation of random, binary, orered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey 8

9 LSA > Exemple Exemple (2/4) 2 R=-.38 R=-.29 minors graph trees survey EPS time response system user computer interface human m4 m3 m2 m c5 c4 c3 c2 c X =

Exemple (3/4) LSA > Exemple Intuition de l approximation : m: The generation of random, binary, orered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasiordering m4: Graph minors: A survey c c2 c3 c4 c5 m m2 m3 m4........................... survey trees graph minors.66

Exemple (4/4) LSA > Exemple R=-.83 X '' c c2 c3 c4 c5 m m2 m3 m4 human.6.4.38.47.8.5.2.6.9 interface.4.37.33.4.6.3.7..4 computer.5.5.36.4.24.2.6. 9. 2 user.26.84.6.7.39.3.8. 2. 9 system.45. 23.5.27.56.7.5.2.5 response.6.58.38.42.28.6.3. 9. 22 time.6.58.38.42.28.6.3. 9. 22 EPS.22.55.5.63.24.7.4.2. survey..53.23.2.27.4.3. 44. 42 trees. 6.23. 4.27.4.24.55. 77. 66 graph. 6.34. 5.3.2.3.69. 98. 85 minors. 4.25..2.5.22.5. 7. 62 R=.94

Plan Motivations LSA Méthode Exemple Les limites de LSA Influence de la taille des contextes Influence du vocabulaire Ajout de connaissances syntaxiques Syntaxe et LSA : Etat de l'art Perspectives Conclusion 2

Les limites de LSA Les limites de LSA Deux exemples : Classification de termes : corpus écrit en français issu des Ressources Humaines (société PerformanSe). Classification de textes : corpus écrit en anglais d'articles journalistiques (corpus de TREC Novelty 24). 3

Taille des contextes Les limites de LSA > Taille des contextes Objectif : Classification de termes (corpus des Ressources Humaines). Résultats décevants particulièrement en terme de couverture [Roche et Kodratoff, 23]. Similarité (cosinus).3.4.5.6 % de termes correctement associés 9.2 % (3/6) 32.% (9/28) 42.9 % (3/7) 75. % (3/4) % de termes de la classification 9.8 % (8/842) 2.7 % (49/842).8 % (4/842).4 % (8/842) Influence de la taille des contextes : Taille des contextes de moins de 6 mots résultats décevants [Rehder et al., 998] Taille moyenne à partir du corpus des Ressources Humaines : 27 mots! 4

Influence du vocabulaire Les limites de LSA > Influence du vocabulaire Objectif : Classification de textes (corpus de TREC Novelty 24). Caractéristique : utilisation de contextes plus grands. Résultats : Cas : 29 textes dont 4 non pertinents de la même thématique : les textes non pertinents ne sont pas retrouvés avec LSA. Cas 2 : 29 textes dont 4 non pertinents de thématiques différentes : les textes non pertinents sont retrouvés avec LSA. 5

Plan Motivations LSA Méthode Exemple Les limites de LSA Influence de la taille des contextes Influence du vocabulaire Ajout de connaissances syntaxiques Syntaxe et LSA : Etat de l'art Perspectives Conclusion 6

Syntaxe et LSA : Etat de l'art Ajout de connaissances syntaxiques > Syntaxe et LSA : Etat de l'art Associer la syntaxe à LSA [Wiemer-Hastings, 999]. Chaque phrase est décomposée en (sujet, verbe, objet). Avantages : Prise en compte de mots vides («if», «because», «have», etc.). Décomposition des phrases ayant un même verbe associé à plusieurs sujets ou plusieurs objets. 7

Perspectives (/2) Ajout de connaissances syntaxiques > Perspectives Utilisation de connaissances syntaxiques issues de SYGMART [Chauché, 984] Exemple : L'ajout de connaissances syntaxiques à la méthode statistique LSA caractérise notre projet-de-recherche à moyenterme. Décomposition : sujet(ajout, connnaissance, complément (méthode, LSA)) verbe(caractériser) objet(projet-de-recherche, complément(moyen-terme)) Exemple 2 : L'ajout de connaissances sémantiques significatives à notre approche ouvre également d'ambitieuses-perspectives. Décomposition : sujet(ajout, connnaissance, complément (approche)) verbe(ouvrir) objet(ambitieuses-perspectives) 8

Perspectives (2/2) Ajout de connaissances syntaxiques > Perspectives Ajouter un poids aux mots partageant les mêmes structures syntaxiques. Donner un poids plus importants à certaines structures syntaxiques (par exemple, les verbes). Mettre en oeuvre des méthodes d'apprentissage supervisé pour déterminer ces poids. Premières expérimentations : Ajout des deux phrases précédentes parmi les phrases composant l'introduction de notre article. Conclusion : ajout de connaissances syntaxiques permet de privilégier les deux phrases en question. 9

Conclusion Plusieurs limites à LSA : L'ordre des mots n'est pas pris en compte. Exemple : le mot français est écrit dans le corpus le corpus est écrit avec des mots français Taille des contextes a des conséquences significatives sur le résultat. Influence de la proximité du vocabulaire utilisé. Contact : mroche@lirmm.fr chauche@lirmm.fr Solution proposée : Ajouter des connaissances syntaxiques à LSA. 2