Data mining pour la recherche d'information contextuelle

Dimension: px

Commencer à balayer dès la page:

Download "Data mining pour la recherche d'information contextuelle"

Félix Lavallée
il y a 9 ans
Total affichages :

1 Data mining pour la recherche d'information contextuelle A. B I G OT, S. D É J E A N, L. L A P ORTE, J. M OTHE 1 GDR I3 : Journée sur la fouille de données Cadre FREMIT : Structure Fédérative de Recherche en Mathématiques et en Informatique de Toulouse Institut de Recherche en Informatique de Toulouse, UMR 5505 Institut de Mathématique de Toulouse, UMR 5219 Projet ANR CAAS: Analyse Contextuelle et Recherche d information Adaptative 2 1

Mathématiques et en Informatique de Toulouse Institut de Recherche en Informatique de Toulouse, UMR 5505

2 RI Datamining et recherche d information Retrouver les documents pertinents pour une requête Modèle d indexation Modèle de recherche Ordonnancement des réponses Evaluer les résultats via des mesures de performance et collections de test 3 Relations entre les mesures d évaluation Analyse des paramètres de RI Requêtes répétées: apprendre le meilleur système Learning to rank dans les moteurs géo-référencés Relations entre les mesures d évaluation A. Baccini S. Déjean, L. Lafage & J. Mothe How many performance measures to evaluate Information Retrieval Systems? Knowledge and Information Systems, 2011 Objectifs Comparer les mesures d évaluation de RI Aider l utilisateur à en choisir un nombre minimal Méthode Analyse des relations entre 130 mesures calculées par trec_eval Regrouper les mesures dans des ensembles homogènes Etude massive des résultats de TREC ad hoc ( individus) 4 2

géo-référencés Relations entre les mesures d évaluation A. Baccini S. Déjean, L. Lafage & J. Mothe How many performance measures to evaluate Information Retrieval Systems?

3 Relations entre les mesures d évaluation Données Matrice de données individus/lignes 130 variables / colonnes 5 Relations entre les mesures d évaluation Classification ascendante hiérarchique et ACP Distance Euclidienne + Ward K-means 6 CAAS - Analyse Contextuelle et Recherche d'information Adaptative 3

évaluation Classification ascendante hiérarchique et ACP Distance Euclidienne

4 Datamining et recherche d information Relations entre les mesures d évaluation Analyse des paramètres de RI Requêtes répétées: apprendre le meilleur système Learning to rank dans les moteurs géo-référencés 7 Analyse des paramètres de RI Mining information retrieval results : Significant IR parameters S. Déjean, J. Mothe et al. IMMM, Objectifs : Quels paramètres influencent significativement les performances TREC ad hoc : 100 topics ; documents Terrier : plusieurs indexation, recherche, etc Matrice individus (individu: une requête traitée par une chaine de modules) Variables: 7 paramètres de traitement + MAP (mesure d évaluation) CAAS - Analyse Contextuelle et Recherche d'information Adaptative 4

IMMM, 2011 8 Objectifs : Quels paramètres influencent significativement les performances TREC ad hoc : 100 topics ; 528 155 documents Terrier : plusieurs indexation, recherche, etc

5 Analysing IR parameters 9 Results ANOVA Gris sign. Analyse des paramètres de RI 10 Faciles Difficiles 5

6 Analyse des paramètres de RI Résultats CART - global 11 CAAS - Analyse Contextuelle et Recherche d'information Adaptative 12 CART Facile CAAS - Analyse Contextuelle et Recherche d'information Adaptative Difficile 6

7 Datamining et recherche d information Relations entre les mesures d évaluation Analyse des paramètres de RI Requêtes répétées: apprendre le meilleur système Learning to rank dans les moteurs géo-référencés 13 Requêtes répétées: apprendre le meilleur système Fusing different information retrieval systems according to query-topics: a study based on correlation in information retrieval systems and TREC topics A. Bigot, C. Chrisment, T. Dkaki, G. Hubert, J. Mothe Information Rretrieval Journal 14 Objectif Apprendre le paramétrage pour une requête donnée Méthode Apprentissage sur un sous ensemble/ Test sur le reste Analyse de l influence de la difficulté des requêtes sur les résultats 7

based on correlation in information retrieval systems and TREC topics A. Bigot, C. Chrisment, T. Dkaki, G. Hubert, J.

8 Repeated queries: learning the best parameters Résultats 15 Méthode MAP Meilleur système OneT2OneS (test) (+21%) OneT2ClusterS (test) 30 clusters (+20%) OneT2ClusterS (test) 12 clusters (+15%) ClusterT2ClusterS Difficile Facile Moyenne 0.36 (+9%) (+11%) (+24%) Datamining et recherche d information Relations entre les mesures d évaluation Analyse des paramètres de RI Requêtes répétées: apprendre le meilleur système Learning to rank dans les moteurs géo-référencés 16 8

461 (+15%) ClusterT2ClusterS Difficile Facile Moyenne 0.36 (+9%) 0.695 (+11%) 0.

Documents pareils

Introduction au Data-Mining

Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane