Data mining pour la recherche d'information contextuelle A. B I G OT, S. D É J E A N, L. L A P ORTE, J. M OTHE 1 GDR I3 : Journée sur la fouille de données Cadre FREMIT : Structure Fédérative de Recherche en Mathématiques et en Informatique de Toulouse Institut de Recherche en Informatique de Toulouse, UMR 5505 Institut de Mathématique de Toulouse, UMR 5219 Projet ANR CAAS: Analyse Contextuelle et Recherche d information Adaptative 2 1
RI Datamining et recherche d information Retrouver les documents pertinents pour une requête Modèle d indexation Modèle de recherche Ordonnancement des réponses Evaluer les résultats via des mesures de performance et collections de test 3 Relations entre les mesures d évaluation Analyse des paramètres de RI Requêtes répétées: apprendre le meilleur système Learning to rank dans les moteurs géo-référencés Relations entre les mesures d évaluation A. Baccini S. Déjean, L. Lafage & J. Mothe How many performance measures to evaluate Information Retrieval Systems? Knowledge and Information Systems, 2011 Objectifs Comparer les mesures d évaluation de RI Aider l utilisateur à en choisir un nombre minimal Méthode Analyse des relations entre 130 mesures calculées par trec_eval Regrouper les mesures dans des ensembles homogènes Etude massive des résultats de TREC ad hoc (23 000 individus) 4 2
Relations entre les mesures d évaluation Données Matrice de données 23 518 individus/lignes 130 variables / colonnes 5 Relations entre les mesures d évaluation Classification ascendante hiérarchique et ACP Distance Euclidienne + Ward K-means 6 CAAS - Analyse Contextuelle et Recherche d'information Adaptative 3
Datamining et recherche d information Relations entre les mesures d évaluation Analyse des paramètres de RI Requêtes répétées: apprendre le meilleur système Learning to rank dans les moteurs géo-référencés 7 Analyse des paramètres de RI Mining information retrieval results : Significant IR parameters S. Déjean, J. Mothe et al. IMMM, 2011 8 Objectifs : Quels paramètres influencent significativement les performances TREC ad hoc : 100 topics ; 528 155 documents Terrier : plusieurs indexation, recherche, etc Matrice 98650 individus (individu: une requête traitée par une chaine de modules) Variables: 7 paramètres de traitement + MAP (mesure d évaluation) CAAS - Analyse Contextuelle et Recherche d'information Adaptative 4
Analysing IR parameters 9 Results ANOVA Gris sign. Analyse des paramètres de RI 10 Faciles Difficiles 5
Analyse des paramètres de RI Résultats CART - global 11 CAAS - Analyse Contextuelle et Recherche d'information Adaptative 12 CART Facile CAAS - Analyse Contextuelle et Recherche d'information Adaptative Difficile 6
Datamining et recherche d information Relations entre les mesures d évaluation Analyse des paramètres de RI Requêtes répétées: apprendre le meilleur système Learning to rank dans les moteurs géo-référencés 13 Requêtes répétées: apprendre le meilleur système Fusing different information retrieval systems according to query-topics: a study based on correlation in information retrieval systems and TREC topics A. Bigot, C. Chrisment, T. Dkaki, G. Hubert, J. Mothe Information Rretrieval Journal 14 Objectif Apprendre le paramétrage pour une requête donnée Méthode Apprentissage sur un sous ensemble/ Test sur le reste Analyse de l influence de la difficulté des requêtes sur les résultats 7
Repeated queries: learning the best parameters Résultats 15 Méthode MAP Meilleur système 0.398 OneT2OneS (test) 0.481 (+21%) OneT2ClusterS (test) 30 clusters 0.478 (+20%) OneT2ClusterS (test) 12 clusters 0.461 (+15%) ClusterT2ClusterS Difficile Facile Moyenne 0.36 (+9%) 0.695 (+11%) 0.519 (+24%) Datamining et recherche d information Relations entre les mesures d évaluation Analyse des paramètres de RI Requêtes répétées: apprendre le meilleur système Learning to rank dans les moteurs géo-référencés 16 8