Présentation SSDM : Semantically Similar Data Miner



Documents pareils
Les algorithmes SLIQ et SSDM

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Application de K-means à la définition du nombre de VM optimal dans un cloud

Études des principaux algorithmes de data mining

Etude d Algorithmes Parallèles de Data Mining

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Mesure agnostique de la qualité des images.

Intégration de la dimension sémantique dans les réseaux sociaux

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

INF6304 Interfaces Intelligentes

données en connaissance et en actions?

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Vers une Optimisation de l Algorithme AntTreeStoch

Apprentissage Automatique

Spécificités, Applications et Outils

Contrôle stochastique d allocation de ressources dans le «cloud computing»

INSCRIPTION MASTER / MASTER S APPLICATION

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

Créer un référentiel client grâce à Talend MDM

Introduction au Data-Mining

INTRODUCTION AU DATA MINING

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Hervé Couturier EVP, SAP Technology Development

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Université de Tunis El Manar Université Montpellier 2. Thèse. En cotutelle. Pour obtenir le grade de. Docteur de l Université Montpellier II

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

La représentativité des sondages en ligne. LegerWeb.com

Algorithmique I. Algorithmique I p.1/??

République Algérienne Démocratique et Populaire

ESIEA PARIS

Les travaux internationaux et leurs conséquences sur les règles françaises

SERVEUR DE SAUVEGARDE POUR BCDI3. par. G.Haberer, A.Peuch, P.Saadé

APPROCHE DE LA SURVEILLANCE DES SYSTEMES PAR RESEAUX DE PETRI SYNCHRONISES FLOUS

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS. Spécialité : Systèmes Automatiques. Par CLAUDIA VICTORIA ISAZA NARVAEZ

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Une méthode d apprentissage pour la composition de services web

Laboratoire 4 Développement d un système intelligent

La classification automatique de données quantitatives

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Modélisation d objets mobiles dans un entrepôt de données

Rappel sur les bases de données

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Application 1- VBA : Test de comportements d'investissements

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

IC2. Interaction, Cognition and Complexity Département INFRES. Talel Abdessalem. Institut Mines-Télécom

Brique BDL Gestion de Projet Logiciel

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Saisie des chauffe-eau thermodynamiques à compression électrique

IN Cours 1. 1 Informatique, calculateurs. 2 Un premier programme en C

ITIL Gestion de la capacité

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

et les Systèmes Multidimensionnels

Un Consortium de Recherche Européen Expérimente de Nouvelles Solutions pour Assurer le Respect de la Vie Privée Numérique au Lycée et à l Université

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Résultats techniques de la mortalité au Canada

Découverte des dépendances fonctionnelles conditionnelles fréquentes

Atelier sur l Analyse des Réseaux Madagascar

France SMS+ MT Premium Description

Spectrophotométrie. Spectrophotomètre CCD2. Réf : Version 1.0. Français p 2. Version : 4105

Guide Installation Serveur Extensive Testing

Règles d engagement. Présentation Diapositives Bibliographie Questions Les vertus de la marche

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Éléments d informatique Cours 3 La programmation structurée en langage C L instruction de contrôle if

Une Démarche pour la sélection d outils de cartographie des processus métiers

A.E.C. GESTION DES APPLICATIONS TECHNOLOGIE DE L'INFORMATION LEA.BW

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution

Introduction au Data-Mining

Data Mining. Master 1 Informatique - Mathématiques UAG

Algorithmique & programmation

Entreposage de données complexes pour la médecine d anticipation personnalisée

La Recherche du Point Optimum de Fonctionnement d un Générateur Photovoltaïque en Utilisant les Réseaux NEURO-FLOUS

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Application de K-Means à la définition du nombre de VM optimal dans un Cloud

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Programme

Ecole Polytechnique de Louvain INGI Fichiers et bases de données

Agrégation des portefeuilles de contrats d assurance vie

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Laboratoire d Automatique et Productique Université de Batna, Algérie

Application Form/ Formulaire de demande

d authentification SSO et Shibboleth

DEMANDE D OUVERTURE DE COMPTE REQUEST OF ACCOUNT OPENING. PROFIL CLIENT Customer Profile. Identité* Identity. Nom de jeune fille* / Maiden name

Agenda de la présentation

2. Activités et Modèles de développement en Génie Logiciel

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Transcription:

Présentation SSDM : Semantically Similar Data Miner Guillaume Calas <calas g@epita.fr> Henri-François Chadeisson <chadei hepita.fr> EPITA SCIA 2009 16 Juillet 2008 calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-1 / 43

Plan Avant-propos 1 2 3 Résultats sur de vrais Datasets calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-2 / 43

... Avant-propos calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-3 / 43

Plan Avant-propos 1 2 3 Résultats sur de vrais Datasets calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-4 / 43

Plan Avant-propos 1 2 3 Résultats sur de vrais Datasets calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-5 / 43

Le data mining sans les petites roues (1/2) Définition Analyse portant sur un ensemble de données dans lequel aucune des données ou valeur prise individuellement n a de valeur particulière et dont aucune n est la cible, l objet de l analyse. calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-6 / 43

Le data mining sans les petites roues (1/2) Définition Analyse portant sur un ensemble de données dans lequel aucune des données ou valeur prise individuellement n a de valeur particulière et dont aucune n est la cible, l objet de l analyse. Objectif global L objectif global étant la découverte de corrélations intéressantes (inconnues jusqu alors) entre les données à partir d une très grande quantité de données. calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-6 / 43

Le data mining sans les petites roues (2/2) Quelques applications dégager des groupes homogènes à partir d un ensemble d individus calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-7 / 43

Le data mining sans les petites roues (2/2) Quelques applications dégager des groupes homogènes à partir d un ensemble d individus construire des normes de comportement calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-7 / 43

Le data mining sans les petites roues (2/2) Quelques applications dégager des groupes homogènes à partir d un ensemble d individus construire des normes de comportement compression d informations calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-7 / 43

Le data mining sans les petites roues (2/2) Quelques applications dégager des groupes homogènes à partir d un ensemble d individus construire des normes de comportement compression d informations détection de déviation par rapport à ces normes calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-7 / 43

Le data mining sans les petites roues (2/2) Quelques applications dégager des groupes homogènes à partir d un ensemble d individus construire des normes de comportement compression d informations détection de déviation par rapport à ces normes Techniques utilisées Réseau de neurones : carte de Kohonen, cartes auto-adaptatives, etc.. calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-7 / 43

Le data mining sans les petites roues (2/2) Quelques applications dégager des groupes homogènes à partir d un ensemble d individus construire des normes de comportement compression d informations détection de déviation par rapport à ces normes Techniques utilisées Réseau de neurones : carte de Kohonen, cartes auto-adaptatives, etc.. Méthodes statistiques : K-means, ACP, NNS, etc.. calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-7 / 43

Le data mining sans les petites roues (2/2) Quelques applications dégager des groupes homogènes à partir d un ensemble d individus construire des normes de comportement compression d informations détection de déviation par rapport à ces normes Techniques utilisées Réseau de neurones : carte de Kohonen, cartes auto-adaptatives, etc.. Méthodes statistiques : K-means, ACP, NNS, etc.. Data mining : apriori, SSDM, Carma, etc.. calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-7 / 43

Plan Avant-propos 1 2 3 Résultats sur de vrais Datasets calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-8 / 43

(1/2) Origines 1965 - Lofti Asker Zadeh Objectif : Représenter mathématiquement l imprécision relative à certaines classes d objets Sert de fondement à la logique floue Utilisation Modéliser la représentation humaine des connaissances Améliorer les performances des systèmes de décision qui utilisent cette modélisation Modéliser l incertitude et l imprécision calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-9 / 43

(2/2) Algorithmes utilisant les ensembles flous Lee and Lee-Kwang s algorithm[6] ; Kuok, Fu and Wong s algorithm[5] ; F-APACS[2] ; FARM[1] ; FTDA[4]. Fig.: Algorithmes travaillant sur des données quantitatives calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-10 / 43

Plan Avant-propos 1 2 3 Résultats sur de vrais Datasets calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-11 / 43

SSDM (1/3) Avant-propos Description Principe SSDM : Semantically Similar Data Miner [3] Objectif : Mener une étude sémantique sur les données traitées afin d améliorer et d augmenter les relations mises en évidence Utiliser la logique floue afin de mettre en évidence des liens sémantiques entre différents éléments. Algo basé sur la génération de règles associatives entre itemsets. On définit les variables suivantes : Transactions comprenant X et Y support : confidence : Nombre total de transactions Transactions comprenant X et Y Nombre de transactions comprenant X calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-12 / 43

SSDM (2/3) - Support / Confidence : Exemples Attribut 1 Attribut 2 chair table sofa desk chair desk chair table chair table(support = 50%, confidence = 67%) sofa desk(support = 25%, confidence = 100%) chair desk(support = 25%, confidence = 33%) calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-13 / 43

SSDM (3/3) Avant-propos Sélection de règles Support (X Y) > 50% Confidence (X Y) > 60% chair table(support = 50%, confidence = 67%) sofa desk(support = 25%, confidence = 100%) chair desk(support = 25%, confidence = 33%) calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-14 / 43

SSDM (3/3) Avant-propos Sélection de règles Support (X Y) > 50% Confidence (X Y) > 60% chair table(support = 50%, confidence = 67%) sofa desk(support = 25%, confidence = 100%) chair desk(support = 25%, confidence = 33%) But de l algorithme Mots Table et Desk différents Concepts Table et Desk proches Mettre en évidence ces relations conceptuelle par une approche sémantique, afin de permettre de trouver de nouvelles relations. calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-14 / 43

Plan Avant-propos 1 2 3 Résultats sur de vrais Datasets calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-15 / 43

Plan Avant-propos 1 2 3 Résultats sur de vrais Datasets calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-16 / 43

Description et Initialisation Description 1 Data scanning (préparation des données) 2 Remplissage de la matrice de similarités 3 Identification des éléments similaires, cycle de similarités 4 Génération des candidats 5 Pondération des ensembles candidats 6 Évaluation des candidats 7 Génération des règles associatives calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-17 / 43

Description et Initialisation Description 1 Data scanning (préparation des données) 2 Remplissage de la matrice de similarités 3 Identification des éléments similaires, cycle de similarités 4 Génération des candidats 5 Pondération des ensembles candidats 6 Évaluation des candidats 7 Génération des règles associatives Initialisation 3 valeurs seuils (minsup, minconf, minsim) matrices de similarité calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-17 / 43

Plan Avant-propos 1 2 3 Résultats sur de vrais Datasets calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-18 / 43

Avant-propos id Attribut 1 Attribut 2 Attribut 3 10 chair table wardrobe 20 sofa desk cupboard 30 seat table wardrobe 40 sofa desk cupboard 50 chair board wardrobe 60 chair board cupboard 70 chair desk cupboard 80 seat board cabinet 90 chair desk cabinet 100 sofa desk cupboard Minimal support (minsup) = 0.45 Minimal confidence (minconf ) = 0.3 Minimal similarity (minsim) = 0.8 calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-19 / 43

Plan Avant-propos 1 2 3 Résultats sur de vrais Datasets calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-20 / 43

0 - Comment ça se passe? Non, on déroule... calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-21 / 43

1 - Data scanning Avant-propos Attribuer un domaine à chaque élément (Pré-tri). Lorsque les données sont stockées en BDD, on peut définir un domaine par champs. Éléments Domaines sofa, chair, seat Domaine 1 board, desk, table Domaine 2 cabinet, cupboard, wardrobe Domaine 3 Domaine 1 contient les éléments sur lesquels on peut s asseoir. Domaine 2 contient les éléments sur lesquels on peut poser quelque chose. Domaine 3 contient les éléments qui peuvent contenir quelque chose. calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-22 / 43

2 - Degrés de similarité Déterminer pour chaque domaine des degrés de similarité entre ses éléments (Matrice de similarité). Peut être fait à la main, ou automatiquement. Dom 1 Sofa Seat Chair Sofa 1 0.75 0.7 Seat 0.75 1 0.6 Chair 0.7 0.6 1 Dom 2 Desk Table Board Desk 1 0.9 0.75 Table 0.9 1 0.7 Board 0.75 0.7 1 Dom 3 Cabinet Wardrobe Cupboard Cabinet 1 0.9 0.85 Wardrobe 0.9 1 0.8 Cupboard 0.85 0.8 1 calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-23 / 43

3 - Eléments similaires - Ensembles flous Domaine Valeur Relation Domaine 2 0.9 Desk Table Domaine 3 0.9 Cabinet Wardrobe Domaine 3 0.85 Cabinet Cupboard Domaine 3 0.8 Cupboard Wardrobe Fig.: Table associative avec minsim= 0.8 Fig.: Cycle de similarité calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-24 / 43

4 - Génération des candidats La génération des candidats est similaire à celle de l algorithme Apriori où on rajoute les éléments considérés comme similaires aux ensembles générés. Fig.: Apriori algorithm calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-25 / 43

5 - Poids des ensembles candidats (1/2) calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-26 / 43

5 - Poids des ensembles candidats (1/2) Exemple Somme des occurences des éléments de l ensemble pondérées par les coefficients de similarité. calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-26 / 43

5 - Poids des ensembles candidats (1/2) Exemple Somme des occurences des éléments de l ensemble pondérées par les coefficients de similarité. Item 1 Item 2 Item 1 1 0.8 Item 2 0.8 1 On dispose d un ensemble contenant 2 fois l Item 1 et 1 fois l Item 2. calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-26 / 43

5 - Poids des ensembles candidats (1/2) Exemple Somme des occurences des éléments de l ensemble pondérées par les coefficients de similarité. Item 1 Item 2 Item 1 1 0.8 Item 2 0.8 1 On dispose d un ensemble contenant 2 fois l Item 1 et 1 fois l Item 2. Pour 2 éléments poids(item 1 ) + poids(item 2 ) sim(item 1, Item 2 ) = 2.8 calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-26 / 43

5 - Poids des ensembles candidats (1/2) Exemple Somme des occurences des éléments de l ensemble pondérées par les coefficients de similarité. Item 1 Item 2 Item 1 1 0.8 Item 2 0.8 1 On dispose d un ensemble contenant 2 fois l Item 1 et 1 fois l Item 2. Pour 2 éléments poids(item 1 ) + poids(item 2 ) sim(item 1, Item 2 ) = 2.8 poids(item 1 ) sim(item 1, Item 2 ) + poids(item 2 ) = 2.6 calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-26 / 43

5 - Poids des ensembles candidats (1/2) Exemple Somme des occurences des éléments de l ensemble pondérées par les coefficients de similarité. Item 1 Item 2 Item 1 1 0.8 Item 2 0.8 1 On dispose d un ensemble contenant 2 fois l Item 1 et 1 fois l Item 2. Pour 2 éléments poids(item 1 ) + poids(item 2 ) sim(item 1, Item 2 ) = 2.8 poids(item 1 ) sim(item 1, Item 2 ) + poids(item 2 ) = 2.6 poids = [poids(item 1)+poids(Item 2 )][1+sim(Item 1,Item 2 )] 2 = 2.7 calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-26 / 43

5 - Poids des ensembles candidats (2/2) Pour plus de 2 éléments f = min (sim (Item 1, Item 2 ),..., sim (Item n 1, Item n )) poids = [ n i=1 poids (Item i)] [ ] 1+f 2 calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-27 / 43

6 - Évaluation des candidats Évaluation des candidats Les ensembles d éléments dont le support est inférieur à minsup sont écartés car non suffisament fréquents. Support = poids(ensemble d éléments) Nombre d entrées dans la base de données calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-28 / 43

7 - Génération des règles associatives Rappel Une règle d association est définie par : Antecedent Consequent Génération des règles L ensemble des règles possibles entre chaque ensemble sont générées et seules les règles dont la valeur de confidence est supérieure à minconf sont conservées. Confidence = Support(Regle) Support(Antecedent) calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-29 / 43

Plan Avant-propos Résultats sur de vrais Datasets 1 2 3 Résultats sur de vrais Datasets calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-30 / 43

Plan Avant-propos Résultats sur de vrais Datasets 1 2 3 Résultats sur de vrais Datasets calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-31 / 43

Résultats sur de vrais Datasets Description du test - Comparaison SSDM / Apriori Datasets : Personnes atteintes du SIDA au Brésil Dataset AIDS1 3324 entrées Champs : Région (22 régions), Sexe, Age, Status (single / married / widow(er) / coupled / separated / divorced / did not answer) Dataset AIDS2 3324 entrées Champs : Religion (catholic / protestant / pentecostal / spiritism / afro-brazilian / none / did not answer / other) Do you read newspaper? (yes, diary / yes, almost every day / yes, once in a week / yes, once in a while / yes, rarely / never / did not answer) Do you watch TV? calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-32 / 43

Dataset 1 - Initialisation Résultats sur de vrais Datasets Attribute 1 Attribute 2 Degré de similarité Single Widow(er) 0.7 Married Coupled 0.8 Separated Divorced 0.9 minsup : 0.2 minconf : 0.4 minsim : 0.7 calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-33 / 43

Dataset 1 - Résultats Résultats sur de vrais Datasets Apriori married female sup=0.23495789 conf=0.54922646 female married sup=0.23495789 conf=0.4256131 calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-34 / 43

Dataset 1 - Résultats Résultats sur de vrais Datasets Apriori married female sup=0.23495789 conf=0.54922646 female married sup=0.23495789 conf=0.4256131 SSDM coupled married male sup=0.23420578 conf=0.46331015 male coupled married sup=0.23420578 conf=0.5228341 married female sup=0.23495789 conf=0.54922646 female married sup=0.23495789 conf=0.4256131 coupled married female sup=0.27129963 conf=0.5366899 female coupled married sup=0.27129963 conf=0.49144414 calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-34 / 43

Dataset 2 - Initialisation Résultats sur de vrais Datasets Attribute 1 Attribute 2 Degré de similarité (N) Yes, diary (N)Yes, Almost every day 0.8 (N) Yes, rarely (N) Once in a while 0.6 (T) Yes, diary (T)Yes, Almost every day 0.8 (T) Yes, rarely (T) Once in a while 0.6 minsup : 0.2 minconf : 0.7 minsim : 0.6 calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-35 / 43

Dataset 2 - Résultats Résultats sur de vrais Datasets Apriori (T) Yes, diary Protestant sup=0.5744222 conf=0.77312315 Protestant (T) Yes, diary sup=0.5744222 conf=0.768343 (N) Never Protestant sup=0.24807397 conf=0.76520914 calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-36 / 43

Dataset 2 - Résultats Résultats sur de vrais Datasets Apriori (T) Yes, diary Protestant sup=0.5744222 conf=0.77312315 Protestant (T) Yes, diary sup=0.5744222 conf=0.768343 (N) Never Protestant sup=0.24807397 conf=0.76520914 SSDM (N) Yes, rarely (N) Once in a while (T) Yes, diary sup=0.25565487 conf=0.78620166 (N) Yes, rarely (N) Once in a while Protestant sup=0.24086288 conf=0.74071264 (T) Yes, diary Protestant sup=0.5744222 conf=0.77312315 Protestant (T) Yes, diary sup=0.5744222 conf=0.768343 (N) Never Protestant sup=0.24807397 conf=0.76520914 calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-36 / 43

Plan Avant-propos Résultats sur de vrais Datasets 1 2 3 Résultats sur de vrais Datasets calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-37 / 43

Critiques Avant-propos Résultats sur de vrais Datasets Autocritique Algorithme plus lent que Apriori Édition manuelle des matrices de similarité Notre avis Intérêt de minsim? Datasets de tests trop petits Pas d étude sur le temps d exécution calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-38 / 43

Bons points Avant-propos Résultats sur de vrais Datasets Analyse sémantique des données On génère bien plus de règles Acquisition de nouvelles connaissances Utilisation de logique floue Approche plus fidèle au raisonnement humain Les nouvelles règles générées sont pertinentes calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-39 / 43

Avant-propos Résultats sur de vrais Datasets Bilan Mise en évidence de nouvelles associations pertinentes Objectif initial atteint Améliorations Améliorer les performances de l algorithme en modifiant les structures de données utilisées Recherche de techniques de définition de domaines automatisées Data cleaning Définition automatisée des matrices de similarité (regain d intérêt pour minsim) calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-40 / 43

Questions Avant-propos Résultats sur de vrais Datasets We want YOUR questions! calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-41 / 43

Questions Avant-propos Résultats sur de vrais Datasets We want YOUR questions! Vous pouvez détacher vos ceintures...... et merci de votre attention... calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-41 / 43

Bibliographie I Avant-propos Résultats sur de vrais Datasets W. Au and K. Chan. Farm : A data mining system for discovering fuzzy association rules. In Proc. of the 8th IEEE Int l Conf. on Fuzzy Systems, pages 1217 1222, Seoul, Korea, 1999. K. C. C. Chan and W.-H. Au. An effective algorithm for mining interesting quantitative association rules. In SAC, pages 88 90, 1997. E. L. G. Escovar, M. Biajiz, and M. T. P. Vieira. Ssdm : A semantically similar data mining algorithm. In C. A. Heuser, editor, SBBD, pages 265 279. UFU, 2005. calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-42 / 43

Bibliographie II Avant-propos Résultats sur de vrais Datasets T.-P. Hong, C.-S. Kuo, S.-C. Chi, and S.-L. Wang. Mining fuzzy rules from quantitative data based on the aprioritid algorithm. In SAC (1), pages 534 536, 2000. C. M. Kuok, A. W.-C. Fu, and M. H. Wong. Mining fuzzy association rules in databases. SIGMOD Record, 27(1) :41 46, 1998. J.-H. Lee and H. Lee-Kwang. Fuzzy identification of unknown systems based on ga. In X. Yao, J.-H. Kim, and T. Furuhashi, editors, SEAL, volume 1285 of Lecture Notes in Computer Science, pages 216 223. Springer, 1996. calas g - chadei h SSDM : Semantically Similar Data Miner 16 Juillet 2008-43 / 43