Extraction de règles d association pour la prédiction de valeurs manquantes



Documents pareils
Application de K-means à la définition du nombre de VM optimal dans un cloud

BIG Data et R: opportunités et perspectives

Data Mining. Master 1 Informatique - Mathématiques UAG

Exemple PLS avec SAS

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Forthcoming Database

FOUNDATIONS OF SYSTEMS AND PROPERTIES: METHODOLOGICAL SUPPORT FOR MODELING PROPERTIES OF SOFTWARE-INTENSIVE SYSTEMS

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Bourses d excellence pour les masters orientés vers la recherche

BNP Paribas Personal Finance

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Une méthode d apprentissage pour la composition de services web

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

Application Form/ Formulaire de demande

Etude d Algorithmes Parallèles de Data Mining

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Utilisation d outils de Visual Data Mining pour l exploration d un ensemble de règles d association

État de l art sur les aspects méthodologiques et processus en Knowledge Discovery in Databases

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Principe de symétrisation pour la construction d un test adaptatif

Face Recognition Performance: Man vs. Machine

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

An Ontology-Based Approach for Closed-Loop Product Lifecycle Management

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Completed Projects / Projets terminés

Les doutes et les questions des économistes face au système des brevets

RAPID Prenez le contrôle sur vos données

Marie Curie Individual Fellowships. Jean Provost Marie Curie Postdoctoral Fellow, Institut Langevin, ESCPI, INSERM, France

Formula Negator, Outil de négation de formule.

Entreposage de données complexes pour la médecine d anticipation personnalisée

CURRICULUM VITAE. Informations Personnelles

PeTEX Plateforme pour e-learning et expérimentation télémétrique

Object Oriented Parallel Discrete Event Simulation: The PROSIT Approach

La solution idéale de personnalisation interactive sur internet

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Infrastructure PLM pour la capitalisation et la réutilisation de données en conception mécanique

MANAGEMENT SOFTWARE FOR STEEL CONSTRUCTION

Réflexion sur la mise en place d'un système mobile d'aide à la navigation destiné aux services d'urgence basée sur une solution libre.

AGROBASE : un système de gestion de données expérimentales

Proposition de méthode d implémentation d ITIL

Le projet WIKIWATER The WIKIWATER project

BLUELINEA ,00 EUR composé de actions de valeur nominale 0,20 EUR Date de création : 17/01/2006

Introduction à la Fouille de Données (Data Mining) (8)

Bologne à l EPFL. Réforme de Bologne Implications pour l EPFL. Prof. Dominique Bonvin, Doyen Bachelor-Master

Ordonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative

recommandation Domaine : Informatique, Intelligence Artificielle, Modélisation de préférences

L hypertexte, le multimédia, c est quoi?

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

A GLOBAL VISION OF INFORMATION SYSTEM

Découverte des dépendances fonctionnelles conditionnelles fréquentes

Hervé Couturier EVP, SAP Technology Development

Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Architecture client riche Evolution ou révolution? Thomas Coustenoble IBM Lotus Market Manager

Trois approches du GREYC pour la classification de textes

Revision of hen1317-5: Technical improvements

RI sociale : intégration de propriétés sociales dans un modèle de recherche

Les Bases de Données et l Objet Introduction

Entreprise et Big Data

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

ADHEFILM : tronçonnage. ADHEFILM : cutting off. ADHECAL : fabrication. ADHECAL : manufacturing.

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

Qualité de la conception de tests logiciels : plate-forme de conception et processus de test

Public and European Business Law - Droit public et européen des affaires. Master I Law Level

Ingénierie et gestion des connaissances

SOS! Parent Teens Acculturation Conflict in Immigrant Families

Laboratoire 4 Développement d un système intelligent

Du e-commerce au m-commerce : vers une recommandation incrémentale

Billettique sans contact et traçabilité des déplacements :

Préparation / Industrialisation. Manufacturing Engineering/ On-site Industrialisation. Qualité, contrôle et inspection. On-site quality and Inspection

Bases de données avancées Introduction

C-CUBE: Un nouvel opérateur d agrégation pour les entrepôts de données en colonnes

Contrôle par commande prédictive d un procédé de cuisson sous infrarouge de peintures en poudre.

: Machines Production a créé dès 1995, le site internet

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

MESURES D'INTÉRÊT SUBJECTIF ET REPRÉSENTATION

Township of Russell: Recreation Master Plan Canton de Russell: Plan directeur de loisirs

Stage Ingénieur en développement logiciel/modélisation 3D

22/09/2014 sur la base de 55,03 euros par action

POSITION DESCRIPTION DESCRIPTION DE TRAVAIL

Big Data et Graphes : Quelques pistes de recherche

Les marchés Security La méthode The markets The approach

plate-forme PaaS (Audit)

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Le cinquième chapitre

Analyse des logiciels d application spécialisée pour le courtage en épargne collective

Informatique / Computer Science

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Big Data -Comment exploiter les données et les transformer en prise de décisions?

RETHINKING JACQUES ELLUL AND THE TECHNOLOGICAL SOCIETY IN THE 21ST CENTURY REPENSER JACQUES ELLUL ET LA SOCIETE TECHNICIENNE AU 21EME SIECLE

Étude d impact et Services Écosystémiques : Comment identifier et spatialiser les enjeux?

Transcription:

Cari 2004 7/10/04 12:00 Page 487 Extraction de règles d association pour la prédiction de valeurs manquantes Sylvie Jami 1, Tao-Yan Jen 2, Dominique Laurent 3, George Loizou 1, Oumar Sy 3,4 1. Birkbeck College - University of London London - United Kingdom {s.jami, george}@dcs.bbk.ac.uk 2. LI - Université de Tours Tours - France jen@univ-tours.fr 3. LICP - Université de Cergy-Pontoise Cergy-Pontoise - France dominique.laurent@dept-info.u-cergy.fr 4. UFR Sciences Appliquées - Université Gaston Berger Saint Louis - Sénégal oumar.sy@ugb.sn RÉSUMÉ. La présence de valeurs manquantes dans les bases de donnnées a suscité de nombreuses recherches dans le domaine de la découverte des connaissances, notamment en ce qui concerne la prédiction. Cependant, à notre connaissance, aucune de ces approches n utilise les règles d association pour la prédiction des valeurs manquantes. Dans cet article, nous montrons comment adapter les différents concepts et algorithmes par niveau liés aux règles d association afin d obtenir des règles fréquentes et de confiance 1, permettant la prédiction de valeurs manquantes dans une table relationnelle. La particularité des règles extraites dans notre approche est que leurs conséquents se présentent sous la forme d intervalles ou d ensembles de valeurs, selon que le domaine de l attribut sur lequel les valeurs sont prédites est soit continu soit discret. ABSTRACT. Missing values in databases has motivated many researches in the field of KDD, specially concerning prediction. However, to the best of our knowledge, no appraoch based on association rules has been proposed so far. In this paper, we show how to adapt the levelwise algorithm for the mining of association rules in order to mine frequent rules with a confidence equal to 1 from a relational table. In our approach, the consequent of extracted rules are either an interval or a set of values, according to the type of the predicted attribute. MOTS-CLÉS : Bases de données, valeurs manquantes, règles d association, prédiction. KEYWORDS : Databases, missing values, association rules, prediction. - 487 -

Cari 2004 7/10/04 12:00 Page 488-488 -

Cari 2004 7/10/04 12:00 Page 489-489 -

Cari 2004 7/10/04 12:00 Page 490-490 -

Cari 2004 7/10/04 12:00 Page 491-491 -

Cari 2004 7/10/04 12:00 Page 492-492 -

Cari 2004 7/10/04 12:00 Page 493-493 -

Cari 2004 7/10/04 12:00 Page 494 porté sur un ensemble de données de 20 000 lignes. Pour un seuil de support de 003 et un seuil de gain de précision de 0.1, 410 règles ont été extraites. Les résultats montrent que 99.62% des valeurs manquantes ont pu donner lieu à une prédiction et que 99.55% des règles extraites étaient correctes. En conclusion, nous rappelons que l approche présentée dans cet article permet l extraction de règles de prédiction de confiance 1 et dont la partie droite est un ensemble de valeurs. Outre les mesures de support et de confiance, la notion de gain de précision a été introduite afin d améliorer la qualité des règles extraites. Nous avons montré que, malgré ce critère supplémentaire, il est possible d appliquer un algorithme par niveau de type Apriori pour extraire les règles de prédiction. Enfin, les résultats expérimentaux brièvement rappelés ci-dessus montrent la pertinence de l approche. L implémentation de l algorithme présenté dans cet article est en cours, afin d améliorer les performances du prototype de [5]. 6. Bibliographie 1. R. Agrawal, H. Mannila, R. Srikant, H. Toivonen, A.I. Verkamo. Fast Discovery of Association Rules. In Advances in Knowledge Discovery and Data Mining. AAAI-MIT Press, 1996. 2. M. Ingunn, E. Stenrud, U. Olsson. Analysing Data Sets with Missing Data : An empirical Evaluation of Imputation Methods and Likelihood-Based Methods. IEEE Transactions on Software Engineering, 27(11), 2001 3. Y. Fujikawa. Efficient Algorithms for Dealing with Missing values in Knowledge Discovery. Ph.D Thesis, School of Knowledge Science, Advanced Institute of Science and Technology, Japan, 2001 4. J. Han and M. Kamber. Data Mining : Concepts and Techniques, Morgan Kaufmann, 2000. 5. S. Jami. Learning Quality Rules from Sparse and Uncertain Data. Ph.D Thesis, University of London, Birkbeck College, 2000. 6. M. Levene, G. Loizou. A Guided Tour of Relational Databases and Beyond. Springer-Verlag, 1999. 7. G. Piatetsky-Shapiro. Discovery, Analysis and Presentation of Strong Rules. In Knowledge Discovery in Databases, AAAI Press, 1991. 8. R. Quinlan. C4.5 : Programs for Machine Learning. Morgan Kaufmann, 1993. 9. A. Ragel and B. Crémilleux. Treatment of Missing Values for Association Rules. Pacific-Asia Conference on Knowledege Discovery and Data Mining, 1998. 10. A. Ragel, B. Crémilleux. MVC - A Preprocessing Method to Deal with Missing Values. Knowledge-based Systems, Elsevier, 1999. - 494 -