Découverte de Règles Associatives Hiérarchiques entre termes. Sandra BSIRI Hamza Mahdi ZARG AYOUNA Chiraz L.Chérif Sadok BENYAHIA

Documents pareils

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Apprentissage Automatique

Conception des systèmes répartis

Hervé Couturier EVP, SAP Technology Development

LIVRE BLANC Décembre 2014

République Algérienne Démocratique et Populaire

Systèmes d information et bases de données (niveau 1)

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Université de Tunis El Manar Université Montpellier 2. Thèse. En cotutelle. Pour obtenir le grade de. Docteur de l Université Montpellier II

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Traitement bas-niveau

Utilisation des tableaux sémantiques dans les logiques de description

Cours de Master Recherche

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES

et les Systèmes Multidimensionnels

données en connaissance et en actions?

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Introduction au Data-Mining

Conception de réseaux de télécommunications : optimisation et expérimentations

TEXT MINING Tour d Horizon

Gestion des Clés Publiques (PKI)

Programmation linéaire

Intégration de la dimension sémantique dans les réseaux sociaux

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Les bases de données Page 1 / 8

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Les structures de données. Rajae El Ouazzani

Résumé CONCEPTEUR, INTEGRATEUR, OPERATEUR DE SYSTEMES CRITIQUES

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Visualisation en Fouille de Données

TD 1 - Structures de Traits et Unification

Entrepôt de données 1. Introduction

Intelligence Artificielle Planification

MÉMOIRE DE STAGE DE MASTER SPÉCIALITÉ : Recherche en Informatique Mention : Informatique, Mathématiques, Statistiques

!-.!#- $'( 1&) &) (,' &*- %,!

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Ebauche Rapport finale

1ère partie Nadine Cullot. Bases de données déductives. Bases de données déductives Introduction et Motivation

Gestion de données incertaines et de leur provenance

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

CMI ECONOMIE, FINANCE QUANTITATIVE ET STATISTIQUES - PARCOURS FORMATION EN APPRENTISSAGE

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Raisonnement probabiliste

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Université Paris-Dauphine DUMI2E 1ère année, Applications

CH.6 Propriétés des langages non contextuels

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Chapitre 1 : Introduction aux bases de données

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Licence Sciences et Technologies Examen janvier 2010

Programmation Par Contraintes

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

N SIMON Anne-Catherine

Big Data et Graphes : Quelques pistes de recherche

Bases de données Cours 5 : Base de données déductives

Tâche complexe produite par l académie de Clermont-Ferrand. Mai 2012 LE TIR A L ARC. (d après une idée du collège des Portes du Midi de Maurs)

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Gestion collaborative de documents

Conception des bases de données : Modèle Entité-Association

Introduction aux concepts d ez Publish

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

MB Led. Benjamin Bonny Cédric Le Ninivin Guillaume Normand

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Transmission de données. A) Principaux éléments intervenant dans la transmission

INF 232: Langages et Automates. Travaux Dirigés. Université Joseph Fourier, Université Grenoble 1 Licence Sciences et Technologies

Introduction au datamining

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

L apprentissage automatique

White Paper - Livre Blanc

Ressources nécessaires (avec budget)

TP Modulation Démodulation BPSK

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Mais, avant de nous lancer dans cette entreprise, clarifions les termes et le cadre.

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Masses de données et calcul : à l IRIT. 8 octobre 2013

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

ANALYSE CATIA V5. 14/02/2011 Daniel Geffroy IUT GMP Le Mans

Sur un ordinateur exécutant Windows 2000 Server Ayant une adresse IP statique

Merise. Introduction

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Bases de Données. Le cas des BD relationnelles ouverture sur les BD relationnelles spatiales Séance 2 : Mise en oeuvre

La directive INSPIRE en Wallonie: le géoportail et l infrastructure de diffusion des géodonnées en Région wallonne (InfraSIG(

Chapitre VI- La validation de la composition.

Chap. 3: Le modèle de données entité-association (E.A.)

Cours d Analyse. Fonctions de plusieurs variables

CORBA haute performance

Les algorithmes SLIQ et SSDM

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

Introduction au Data-Mining

Système à enseigner : Robot M.I.M.I. MultipodeIntelligent à Mobilité Interactive. Version 1.0

Introduction à la B.I. Avec SQL Server 2008

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

CORBA. (Common Request Broker Architecture)

CESI Bases de données

Transcription:

Découverte de Règles Associatives Hiérarchiques entre termes Sandra BSIRI Hamza Mahdi ZARG AYOUNA Chiraz L.Chérif Sadok BENYAHIA 1

Plan Problématique et État de l art Nouvelle approche Approche Conceptuelle pour l Extraction des règles associatives non redondantes Génération d un Treillis de Générateurs Extraction des règles associatives non redondantes Exactes et Approximatives : Algorithme Gen_RA_RE L Extraction de règles associatives Hiérarchiques Objectifs et intérêts Les règles associatives Hiérarchiques: Génériques, Spécifiques et Equivalentes: algorithme Gen_RH Conclusion et perspectives 2

Problématique Données non structurées Corpus Textuels Besoin d exploitation Une méthode intéressante: L extraction des règles associatives Problèmes Les Algorithmes disponibles rendent un nombre trop important de règles Redondantes Non prise en compte de la sémantique malgré la disponibilité de taxonomies Proposition d une approche conceptuelle pour la découverte de règles d associations non redondantes et hiérarchiques 3

Les Règles Associatives Objectif représenter les corrélations entre les termes dans un ensemble de documents. Formalisme X Y α est une règle associative Exemple r : Langage O.O C++, Java 53% Dans 53% des documents où le terme langage O.O existe, les termes C++ et Java existent aussi 4

Les deux indicateurs Support Confiance mesure l efficacité d une règle associative Support ( X Y )= X &Y mesure la pertinence d une règle associatives. Confiance (X Y)= Support (XY) Documents Support( X ) Le nombre de documents contenant X et Y rapporté au nombre de documents total Le nombre de documents contenant X et Y rapporté au nombre de documents contenant X 5

Principe du processus d extraction de règles associatives 1 ère phase 2 ème phase Découverte des ensembles d attributs satisfaisant le seuil de support minsupp. Utilisation des ensembles d Itemsets fréquents pour en déduire les relations d implication: règles associatives valides. L ensemble retenu est dit : Itemsets fréquents Une règle associative est dite valide si elle satisfait le seuil de confiance minconf. 6

Les Connexions de Galois Soit R une relation binaire définie sur un ensemble E x F. Soient les deux ensembles O E. et I F. f (O) = { d / g, g O (g, d) R } h (I) = { g / d, d I (g, d) R } Les deux opérateurs f et h définissent une connexion de Galois. h ({I1,I2})= {O1, O3} f ({O1, O3})= {I1, I2, I3} f o h ({I1,I2})= { I1, I2, I3} Un concept formel f (O) R o1 o2 o3 o4 h (I) I1 I2 I3 I4 I 5 1 1 1 1 0 0 1 1 0 1 1 1 1 0 1 0 1 0 0 1 I est un concept formel ssi f o h( I )= I 7

Le Treillis de Galois C est l ensemble des concepts formels dérivés à partir d une relation R et en utilisant la fermeture de la connexion de Galois. Un ordre partiel (<<) définit les liaisons entre les concepts tel que : Il existe un arc direct entre c 1 et c 2 ssi f o h (c 1 ) f o h (c 2 ) h(c 1 ) h(c 2 ) Il c 3 h(c 2 ) h(c 3 ). & h(c 3 ) h(c 1 ) 8

Nouvelle Approche Extraction de Règles Associatives Non Redondantes Exactes et Approximatives. & Extraction de Règle Associatives Hiérarchiques 9

Motivations Règles associatives nombreuses et redondantes Une règle est dite redondante si elle n et pas porteuse de connaissances supplémentaires par rapport à l ensemble des règles résultats Taxonomie mal exploitée en textmining. Une Taxonomie est un graphe élaboré par des linguistes représentant les relations sémantiques entre les termes d un même domaine 10

Objectifs Améliorer la qualité des Règles Associatives à extraire à partir d un corpus textuel. Extraction de règles associatives Non Redondantes Exactes et Approximatives Extraction de règles associatives hiérarchiques 11

Les Avantages du Treillis de Générateurs un gain important d espace Mémoire Une meilleure visualisation Un Intérêt pour la génération des règles associatives. Treillis de Générateurs Treillis de Galois 12

Définition La redondance Simple r1 : A CTW et r2 : AT CW Supp ( r1 ) = supp ( r2 ) = supp ( ACTW ) Conf (r1) = supp( ACTW) / supp(a) << conf (r2) = supp(actw) / supp(at) Pour tout k-itemset, il suffit de générer la règle de prémisse minimale et satisfaisant min-conf La redondance stricte Conf (r 1 ) = supp (ACTW) /supp (A) r 1 : A CTW et r 2 : A CW Si ACTW est fréquent alors ACW est fréquent aussi << conf (r 2) = supp (ACW) /supp (A) 13

L algorithme Gen_RA_RE Principe Treillis de Générateurs Gen_RA_RE Règles associatives Non Redondantes Exactes & Approximatives Parcourir le Treillis de Générateurs de la racine vers les feuilles. Au niveau de chaque nœud générer les règles associatives non redondantes approximatives, Si il n y en a pas alors générer la règle associative non redondante exacte Amélioration de la qualité des règles associatives Gain en terme de temps d exécution 14

Exemple Conf (x y) = supp(xy xy) ) / supp(x) > min-conf supp(xy xy)> )>min-conf * supp(x) = seuil-supp supp Exemple Seuil-supp ( C ) =1/2 * 6 = 3 Seuil-supp (w) =1/2 * 5 = 5/2 15

Objectifs et intérêts des règles Hiérarchiques Pallier aux problèmes de bruit et de silence dans les SRI et/ou moteurs de recherche. Mieux cibler les besoins des utilisateurs non experts du domaine Possibilité d extension interactive des requêtes des utilisateurs Améliorer les deux indicateurs Rappel et précision 16

Principe de l algorithme Gen_RH Treillis de Générateurs & Règles associatives non redondantes & Taxonomie Gen_RH Principe Pour chaque règles non redondante : Règle Génériques & Règles Spécifiques & Règles Equivalentes Localiser les termes de la prémisse dans la Taxonomie Substituer chaque terme par : Son père Règle associative Générique Son fils Règle associative Spécifique Son voisin Règle associative Equivalentes Exploiter les relations sémantiques entre les termes Vérifier la validité statistiques des relations sémantiquement validesv alides. Etendre les requêtes dans les SRI 17

Exemple Soit la règle non redondante : D CT D A A CT : Supp = 3 ; Conf = 3 / 4 Règle Associative Générique D T T C : Supp = 4 ; Conf = 4 / 4 D W W CT : supp = 3 ; conf = 3 / 5 Règle Associative Equivalente Règle Associative Spécifique D G G CT impossible 18

Résultats Expérimentaux Les collections textuelles utilisées : OFIL: 35Mb contient 11016 articles hétérogènes et 119434 termes INIST: +100Mb contient 165431 articles scientifiques et 174659 termes Intervalle support Nbre règles Nbre règle Taux de réduction (CARD) (Gen-RA-RE) 5~ 50 documements 235806 5761 97,56% 50~ 500 documents 16162 3304 79,56% 50 ~1000 documents 291062 85878 70,49% 1000 ~ 5000 documents 374 257 31,28% 1000 ~ 11016 documents 2348 618 73,68% Résultats relatifs à la collection OFIL Intervalle support Nbre règles Nbre règles Taux de réduction (CARD) (Gen-RA-RE) 3 ~ 30 documents 5154 3062 40,59% 30 ~ 250 documents 472 273 42,16% 250 ~163000 documents 11012 8949 18,73% Résultats relatifs à la collection INIST 19

Conclusion Bilan Nouvelle approche conceptuelle efficace pour la réduction du nombre des règles associatives Exploitation des relations sémantiques véhiculées par la taxonomie dans le processus de génération de règles associatives Expérimentation sur les collections OFIL et INIST Perspectives Exploiter les règles découvertes pour l expansion de requêtes en RI. Comparer les deux indicateurs Rappel et Précision avec les résultats donnés par IOTA (Clips emac). Adapter cette approche à la floue 20