LSA : les limites d'une approche statistique Atelier «Fouille de Données Complexes» (FDC'6), 7 janvier 26 Mathieu Roche et Jacques Chauché Equipe TAL, LIRMM, Université Montpellier 2
Plan Motivations LSA Méthode Exemple Les limites de LSA Influence de la taille des contextes Influence du vocabulaire Ajout de connaissances syntaxiques Syntaxe et LSA : Etat de l'art Perspectives Conclusion 2
Motivations Motivations But de LSA (Latent Semantic Analysis) [Landauer et al., 998] : trouver la similarité entre deux mots ou deux textes. Cadre de travail : ensemble de documents textuels. Méthode non supervisée qui s appuie sur le contexte des mots. Questions : Quelles sont les limites de LSA? Quelles perspectives pour améliorer cette méthode? 3
Méthode (/4) Matrice relative aux mots du texte : - phrases - paragraphes - documents LSA > Méthode X = mots Occurrence des mots de chaque contexte 4
Méthode (2/4) LSA > Méthode Normalisation X X' X'' Décomposition en valeurs propres + Approximation 5
Méthode (3/4) LSA > Méthode Décomposition en valeurs propres : une matrice de rang r peut se décomposer de la manière suivante X m x n U m x r S r x r V T r x n 6
Méthode (4/4) LSA > Méthode Approximation de la matrice X : construction sur seulement d dimensions d une matrice X qui est une approximation de la matrice d origine. X m x n U m x r S r x r V T r x n 7
Exemple (/4) LSA > Exemple c: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system enginneering testing of EPS c5: Relation of user perceived response time to error measurement m: The generation of random, binary, orered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey 8
9 LSA > Exemple Exemple (2/4) 2 R=-.38 R=-.29 minors graph trees survey EPS time response system user computer interface human m4 m3 m2 m c5 c4 c3 c2 c X =
Exemple (3/4) LSA > Exemple Intuition de l approximation : m: The generation of random, binary, orered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasiordering m4: Graph minors: A survey c c2 c3 c4 c5 m m2 m3 m4........................... survey trees graph minors.66
Exemple (4/4) LSA > Exemple R=-.83 X '' c c2 c3 c4 c5 m m2 m3 m4 human.6.4.38.47.8.5.2.6.9 interface.4.37.33.4.6.3.7..4 computer.5.5.36.4.24.2.6. 9. 2 user.26.84.6.7.39.3.8. 2. 9 system.45. 23.5.27.56.7.5.2.5 response.6.58.38.42.28.6.3. 9. 22 time.6.58.38.42.28.6.3. 9. 22 EPS.22.55.5.63.24.7.4.2. survey..53.23.2.27.4.3. 44. 42 trees. 6.23. 4.27.4.24.55. 77. 66 graph. 6.34. 5.3.2.3.69. 98. 85 minors. 4.25..2.5.22.5. 7. 62 R=.94
Plan Motivations LSA Méthode Exemple Les limites de LSA Influence de la taille des contextes Influence du vocabulaire Ajout de connaissances syntaxiques Syntaxe et LSA : Etat de l'art Perspectives Conclusion 2
Les limites de LSA Les limites de LSA Deux exemples : Classification de termes : corpus écrit en français issu des Ressources Humaines (société PerformanSe). Classification de textes : corpus écrit en anglais d'articles journalistiques (corpus de TREC Novelty 24). 3
Taille des contextes Les limites de LSA > Taille des contextes Objectif : Classification de termes (corpus des Ressources Humaines). Résultats décevants particulièrement en terme de couverture [Roche et Kodratoff, 23]. Similarité (cosinus).3.4.5.6 % de termes correctement associés 9.2 % (3/6) 32.% (9/28) 42.9 % (3/7) 75. % (3/4) % de termes de la classification 9.8 % (8/842) 2.7 % (49/842).8 % (4/842).4 % (8/842) Influence de la taille des contextes : Taille des contextes de moins de 6 mots résultats décevants [Rehder et al., 998] Taille moyenne à partir du corpus des Ressources Humaines : 27 mots! 4
Influence du vocabulaire Les limites de LSA > Influence du vocabulaire Objectif : Classification de textes (corpus de TREC Novelty 24). Caractéristique : utilisation de contextes plus grands. Résultats : Cas : 29 textes dont 4 non pertinents de la même thématique : les textes non pertinents ne sont pas retrouvés avec LSA. Cas 2 : 29 textes dont 4 non pertinents de thématiques différentes : les textes non pertinents sont retrouvés avec LSA. 5
Plan Motivations LSA Méthode Exemple Les limites de LSA Influence de la taille des contextes Influence du vocabulaire Ajout de connaissances syntaxiques Syntaxe et LSA : Etat de l'art Perspectives Conclusion 6
Syntaxe et LSA : Etat de l'art Ajout de connaissances syntaxiques > Syntaxe et LSA : Etat de l'art Associer la syntaxe à LSA [Wiemer-Hastings, 999]. Chaque phrase est décomposée en (sujet, verbe, objet). Avantages : Prise en compte de mots vides («if», «because», «have», etc.). Décomposition des phrases ayant un même verbe associé à plusieurs sujets ou plusieurs objets. 7
Perspectives (/2) Ajout de connaissances syntaxiques > Perspectives Utilisation de connaissances syntaxiques issues de SYGMART [Chauché, 984] Exemple : L'ajout de connaissances syntaxiques à la méthode statistique LSA caractérise notre projet-de-recherche à moyenterme. Décomposition : sujet(ajout, connnaissance, complément (méthode, LSA)) verbe(caractériser) objet(projet-de-recherche, complément(moyen-terme)) Exemple 2 : L'ajout de connaissances sémantiques significatives à notre approche ouvre également d'ambitieuses-perspectives. Décomposition : sujet(ajout, connnaissance, complément (approche)) verbe(ouvrir) objet(ambitieuses-perspectives) 8
Perspectives (2/2) Ajout de connaissances syntaxiques > Perspectives Ajouter un poids aux mots partageant les mêmes structures syntaxiques. Donner un poids plus importants à certaines structures syntaxiques (par exemple, les verbes). Mettre en oeuvre des méthodes d'apprentissage supervisé pour déterminer ces poids. Premières expérimentations : Ajout des deux phrases précédentes parmi les phrases composant l'introduction de notre article. Conclusion : ajout de connaissances syntaxiques permet de privilégier les deux phrases en question. 9
Conclusion Plusieurs limites à LSA : L'ordre des mots n'est pas pris en compte. Exemple : le mot français est écrit dans le corpus le corpus est écrit avec des mots français Taille des contextes a des conséquences significatives sur le résultat. Influence de la proximité du vocabulaire utilisé. Contact : mroche@lirmm.fr chauche@lirmm.fr Solution proposée : Ajouter des connaissances syntaxiques à LSA. 2