Data mining pour la recherche d'information contextuelle



Documents pareils
Introduction au Data-Mining

La classification automatique de données quantitatives

Application de K-means à la définition du nombre de VM optimal dans un cloud

THOT - Extraction de données et de schémas d un SGBD

TRAVAUX DE RECHERCHE DANS LE

Introduction au datamining

Proposition des cadres d évaluation adaptés à un système de RI personnalisé

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Introduction au Data-Mining

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

INTRODUCTION AU DATA MINING

Analyse de grandes bases de données en santé

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

RI sociale : intégration de propriétés sociales dans un modèle de recherche

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Distinguer les requêtes pour améliorer la recherche d information XML

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Bases de données documentaires et distribuées Cours NFE04

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Ingénierie et gestion des connaissances

Enjeux mathématiques et Statistiques du Big Data

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Data issues in species monitoring: where are the traps?

ORDONNANCEMENT DES RÉSULTATS SUR LES MOTEURS DE RECHERCHE : PRINCIPES, LIMITES ET APPLICATIONS AU GÉORÉFÉRENCEMENT

Luc Grivel (*, **)

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Masses de données et calcul : à l IRIT. 8 octobre 2013

Extraction d informations stratégiques par Analyse en Composantes Principales

Evidence-based medicine en français

Big Data et Graphes : Quelques pistes de recherche

Logiciel XLSTAT version rue Damrémont PARIS

Big Data et Graphes : Quelques pistes de recherche

Apprentissage statistique dans les graphes et les réseaux sociaux

Adaptabilité d un MOOC aux styles d apprentissage. Hubert Kadima Directeur de Recherche LARIS/EISTI hubert.kadima@eisti.fr

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Travaux pratiques avec RapidMiner

Titre : La BI vue par l intégrateur Orange

Agrégation des portefeuilles de contrats d assurance vie

1 Complément sur la projection du nuage des individus

Nom du client. Date. Client Logo or project name

VIPE CNAM 6 mars Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

ARDUIN Pierre-Emmanuel

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Recherche d information textuelle

Cartes de communautés pour l adaptation interactive de profils dans un système de filtrage d information

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Data mining 1. Exploration Statistique

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Big Data -Comment exploiter les données et les transformer en prise de décisions?

BIG DATA en Sciences et Industries de l Environnement

Recherche de microblogs : quels critères pour raffiner les résultats des moteurs usuels de RI?

Modèles pour données répétées

MAP 553 Apprentissage statistique

2 Serveurs OLAP et introduction au Data Mining

Cairnalys est une société spécialisée dans le développement de la connaissance client et l analyse des campagnes d ing.

Fouille de données massives avec Hadoop

Nous désirons tout mettre en œuvre pour découvrir le travail d enseignant et surtout, améliorer nos

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

Projet de mise en place de l Enquête Emploi du temps en Algérie

Une Démarche pour la sélection d outils de cartographie des processus métiers

Étude d impact et Services Écosystémiques : Comment identifier et spatialiser les enjeux?

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Les études de cas Responsable: Monika Niederhuber, Pauline Bart

Jean-Claude Kaufmann "L'invention de soi - Une théorie de l'identité"

Rôle des FAI et des Datacenters dans les dispositifs de cyber-sécurité Ou comment tenter de rendre l Internet plus sûr.

Analyse des réclamations d allocataires de la CAF : un cas d étude en fouille de données

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Étude de données multisources par simulation de capteurs et clustering collaboratif

Introduction à la Recherche d information

Scénario: Données bancaires et segmentation de clientèle

INF6304 Interfaces Intelligentes

Exemple PLS avec SAS

Apprentissage symbolique et statistique à l ère du mariage pour tous

Christophe SANNIER

Jean-François Boulicaut & Mohand-Saïd Hacid

L évaluation du transfert des apprentissages suite à un programme de perfectionnement

Évaluation de la pertinence des résultats en recherche d information géographique

CONSTRUIRE SES CARTES: LE DÉVELOPPEMENT D'OUTILS STATISTIQUES INTERACTIFS INTÉGRÉS À UN SYSTÈME D'INFORMATION GÉOGRAPHIQUE

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Le référentiel professionnel du Diplôme d Etat d Aide Médico-Psychologique

Résumés des projets de GMM5-2014/2015

ACP Voitures 1- Méthode

GUIDE PRATIQUE DE L INDEXEUR : LES PRINCIPES DE L INDEXATION COLLABORATIVE

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

Les datas = le fuel du 21ième sicècle

Le cinquième chapitre

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

Les clés pour bâtir une stratégie gagnante avec le channel

THESE. Présentée devant. L Université Paul Sabatier de Toulouse. en vue de l obtention du

Transcription:

Data mining pour la recherche d'information contextuelle A. B I G OT, S. D É J E A N, L. L A P ORTE, J. M OTHE 1 GDR I3 : Journée sur la fouille de données Cadre FREMIT : Structure Fédérative de Recherche en Mathématiques et en Informatique de Toulouse Institut de Recherche en Informatique de Toulouse, UMR 5505 Institut de Mathématique de Toulouse, UMR 5219 Projet ANR CAAS: Analyse Contextuelle et Recherche d information Adaptative 2 1

RI Datamining et recherche d information Retrouver les documents pertinents pour une requête Modèle d indexation Modèle de recherche Ordonnancement des réponses Evaluer les résultats via des mesures de performance et collections de test 3 Relations entre les mesures d évaluation Analyse des paramètres de RI Requêtes répétées: apprendre le meilleur système Learning to rank dans les moteurs géo-référencés Relations entre les mesures d évaluation A. Baccini S. Déjean, L. Lafage & J. Mothe How many performance measures to evaluate Information Retrieval Systems? Knowledge and Information Systems, 2011 Objectifs Comparer les mesures d évaluation de RI Aider l utilisateur à en choisir un nombre minimal Méthode Analyse des relations entre 130 mesures calculées par trec_eval Regrouper les mesures dans des ensembles homogènes Etude massive des résultats de TREC ad hoc (23 000 individus) 4 2

Relations entre les mesures d évaluation Données Matrice de données 23 518 individus/lignes 130 variables / colonnes 5 Relations entre les mesures d évaluation Classification ascendante hiérarchique et ACP Distance Euclidienne + Ward K-means 6 CAAS - Analyse Contextuelle et Recherche d'information Adaptative 3

Datamining et recherche d information Relations entre les mesures d évaluation Analyse des paramètres de RI Requêtes répétées: apprendre le meilleur système Learning to rank dans les moteurs géo-référencés 7 Analyse des paramètres de RI Mining information retrieval results : Significant IR parameters S. Déjean, J. Mothe et al. IMMM, 2011 8 Objectifs : Quels paramètres influencent significativement les performances TREC ad hoc : 100 topics ; 528 155 documents Terrier : plusieurs indexation, recherche, etc Matrice 98650 individus (individu: une requête traitée par une chaine de modules) Variables: 7 paramètres de traitement + MAP (mesure d évaluation) CAAS - Analyse Contextuelle et Recherche d'information Adaptative 4

Analysing IR parameters 9 Results ANOVA Gris sign. Analyse des paramètres de RI 10 Faciles Difficiles 5

Analyse des paramètres de RI Résultats CART - global 11 CAAS - Analyse Contextuelle et Recherche d'information Adaptative 12 CART Facile CAAS - Analyse Contextuelle et Recherche d'information Adaptative Difficile 6

Datamining et recherche d information Relations entre les mesures d évaluation Analyse des paramètres de RI Requêtes répétées: apprendre le meilleur système Learning to rank dans les moteurs géo-référencés 13 Requêtes répétées: apprendre le meilleur système Fusing different information retrieval systems according to query-topics: a study based on correlation in information retrieval systems and TREC topics A. Bigot, C. Chrisment, T. Dkaki, G. Hubert, J. Mothe Information Rretrieval Journal 14 Objectif Apprendre le paramétrage pour une requête donnée Méthode Apprentissage sur un sous ensemble/ Test sur le reste Analyse de l influence de la difficulté des requêtes sur les résultats 7

Repeated queries: learning the best parameters Résultats 15 Méthode MAP Meilleur système 0.398 OneT2OneS (test) 0.481 (+21%) OneT2ClusterS (test) 30 clusters 0.478 (+20%) OneT2ClusterS (test) 12 clusters 0.461 (+15%) ClusterT2ClusterS Difficile Facile Moyenne 0.36 (+9%) 0.695 (+11%) 0.519 (+24%) Datamining et recherche d information Relations entre les mesures d évaluation Analyse des paramètres de RI Requêtes répétées: apprendre le meilleur système Learning to rank dans les moteurs géo-référencés 16 8