Data Mining. Master 1 Informatique - Mathématiques UAG



Documents pareils
Data Mining. Bibliographie (1) Sites (1) Bibliographie (2) Plan du cours. Sites (2) Master 2 Informatique UAG

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Introduction au Data-Mining

Introduction au Data-Mining

Introduction au datamining

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Introduction à la B.I. Avec SQL Server 2008

Application de K-means à la définition du nombre de VM optimal dans un cloud

Introduction à la Fouille de Données (Data Mining) (8)

Spécificités, Applications et Outils

Enjeux mathématiques et Statistiques du Big Data

Travaux pratiques avec RapidMiner

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Les Entrepôts de Données

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

Publications, ressources, liens, logiciels,

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Agenda de la présentation

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

données en connaissance et en actions?

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Big Data et Graphes : Quelques pistes de recherche

Didier MOUNIEN Samantha MOINEAUX

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

La classification automatique de données quantitatives

TANAGRA : un logiciel gratuit pour l enseignement et la recherche

Analyse de grandes bases de données en santé

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

Présentations personnelles. filière IL

Entrepôts de Données

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Entreprise et Big Data

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Big Data et Graphes : Quelques pistes de recherche

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Entrepôt de données 1. Introduction

INTRODUCTION AU DATA MINING

Pourquoi l apprentissage?

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

Les algorithmes de fouille de données

Le cinquième chapitre

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Les datas = le fuel du 21ième sicècle

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

État de l art sur les aspects méthodologiques et processus en Knowledge Discovery in Databases

Extraction des Connaissances à partir des Données (ECD)

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

MABioVis. Bio-informatique et la

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

RFC 791 (Jon Postel 1981)

Laboratoire 4 Développement d un système intelligent

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

IBM Software Big Data. Plateforme IBM Big Data

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

IBM SPSS Direct Marketing

BI = Business Intelligence Master Data-Science

Mesure agnostique de la qualité des images.

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

Business Intelligence : Informatique Décisionnelle

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Travailler avec les télécommunications

Urbanisation des SI-NFE107

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

ETL Extract - Transform - Load

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

SQL Server 2012 et SQL Server 2014

SAS ENTERPRISE MINER POUR L'ACTUAIRE

XCube XML For Data Warehouses

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Jean-François Boulicaut & Mohand-Saïd Hacid

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Accélérer l agilité de votre site de e-commerce. Cas client

Big Data et Prévisions. Philippe Picard, le 24 juin Page 1

Bases de données avancées Introduction

et les Systèmes Multidimensionnels

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

Chapitre 9 : Informatique décisionnelle

1 Modélisation d être mauvais payeur

Apprentissage Automatique

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Transcription:

Data Mining Master 1 Informatique - Mathématiques UAG

1.1 - Introduction Data Mining?

On parle de Fouille de données Data Mining Extraction de connaissances à partir de données Knowledge Discovery in Data (KDD) Exploration des données Plus actuel : Science des données Data Science Data Analytics Données massives Big Data

Une définition du data mining Le data mining a pour objet l extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semi-automatiques. Wikipédia

Chapitre 1 1. Principes 2. Exemples d'application 3. Tâches standard 4. Pré-traitement

Motivation outils et technologie d analyse et de stockage performants Explosion du volume des données Exemple Sites d échange et de partage recueil de données volumineuses (transactions de ventes, cartes de crédit, images ) : giga, tera, péta, exa, zetta, yotta Wal-Mart : 20 millions de transactions, 483 processeurs parallèles Amazon, millions de transactions chaque jour Twitter, millions de messages par jours nécessité d'en tirer des connaissances utiles

Une définition du data mining "un processus non trivial d'extraction de modèles valides, nouveaux, potentiellement utiles et compréhensibles à partir de données " (Fayyad 1996) non pas décrire et vérifier des hypothèses mais, générer une hypothèse en recherchant des modèles

Domaine d'application et types de problème (2) Analyse et gestion des risques, Détection de fraudes Assurance Peut-on caractériser les assurés qui font des déclarations d accident frauduleuses? Domaine Bancaire : cartes de crédit, accord de crédit Détecter l'utilisation de cartes de crédit frauduleuse Quels sont les clients "à risque" pour l'accord de crédit? Téélcommunications, Systèmes informatiques, Réseaux Quels sont les connexions suspectes Il y a t-ils des groupes d individus dangereux?

Domaine d'application et types de problème (3) Santé, Médécine Etude de l'influence de certaines médications sur l évolution d une maladie Recherche des médicaments les plus efficaces Astronomie, Sécurité, etc.

Domaine d'application et types de problème (4) Sécurité informatique Détection traditionnelle basée sur des signatures connues Détecter automatiquement de nouvelles intrusions Différencier intrusion et mauvaise utilisation : Classifier les intrusions Chercher des modèles prédictifs de mauvaises utilisations Construire des profils normaux, des séquences fréquentes Identifier des déviations dans les comportements

Domaine d'application et types de problème (5) Biologie - Génomique Analyse des données d'expression de biopuces (micro-arrays) Identifier des similarités dans des séquences d ADN Rechercher le rôle de certains gènes dans une pathologie Rechercher le rôle de certains gènes dans l'effet de médications Rechercher des gènes qui s'expriment de la même manière

Domaine d'application et types de problème (4) Télécommunications Problème du churn Recherche d'anomalies sur un réseau Web Mining Etudier le contenu, la structure ou l usage des pages web Text mining (news group, email, tous documents) E-learning

Un exemple en marketing Une compagnie de téléphone mobile doit tester sur le marché un nouveau produit ; le produit ne peut être offert initialement qu'à quelques centaines d'abonnés. Il est exclu d'envoyer un courrier à tous les abonnés Il faudrait pouvoir "prédire" qui va probablement acheter le produit Expérience passée : 2 à 3% des clients sont à même de répondre positivement en achetant le produit Pour 500 réponses positives : sans modèle, il faut entre 17000 et 25000 prospects

Un exemple en marketing (suite) Apprentissage par l'exemple ensemble d'apprentissage : ensembles des enregistrements obtenus lors du lancement d'un produit similaire préparation des données : choix des données entre 3 bases de données (appels détaillés, marketing, données démographiques) construction de plusieurs champs ajoutés comme les minutes d'utilisation, la fréquence des appels, phase de data mining : extraction d'un modèle qui décrit les clients probables du nouveau produit évaluation et interprétation du modèle mise en œuvre (déploiement)

Les étapes du processus (1) Comprendre le problème connaissance du domaine, buts poursuivis, données disponibles, déploiment des résultats Explorer : visualiser, questionner Créer le réservoir de données Nettoyage et Intégration Réduction et Transformation Choisir la(les) fonctionnalité(s) (60% du travail) description, classification, classement, regression, association, Choisir la (les) méthodes (algorithmes) Effectuer l'extraction : recherche des modèles intéressants Evaluation du modèle Présentation des résultats

Exemple de données Ouvrir avec un éditeur de texte les fichiers Weather.arff contact-lenses.arff Ouvrir avec le logiciel WEKA ces mêmes fichiers

CRISP-DM: Data Mining Process Business understanding Data evaluation Deployment Data Data preparation Modeling Evaluation

Les étapes du processus (2) Evaluation Connaissances Data Mining Entrepôt Sélection et transformation Nettoyage Intégration

Quels types de données sont fouillées? BD relationnelles Datawarehouses : relationnel, cube multi-dimension Données de transactions BD orientées objet, spatiales, multimedia, textuelles Données temporelles et séries temporelles Données du Web mais le plus souvent, pré-traitées et intégrées dans une table sur laquelle la recherche d'un modèle est réalisée

1.3 - Les différentes tâches/modèles Deux principaux objectifs: - Décrire - Décrit les données et les liens entre les éléments - Ex. 60% des individus qui achètent un APN à plus de 400 euros achètent également un ordinateur - Prédire - Permet de prédire les événements futurs - Ex. Si salaire > 60k et age < 30 alors achète une voiture de sport

Les différentes tâches/modèles Classement/Prédiction ou Apprentissage supervisé (supervised classification) - apprendre une fonction qui associe une donnée à une classe prédéfinie - Connaissance de la classe d une partie des données Exemple - classer les clients "vagabonds" en fonction de leurs caractéristiques prédire un comportement frauduleux - Identifier terroristes dans réseaux sociaux - Reconnaissance vocale

Les différentes tâches/modèles Classification ou Apprentissage non supervisé (clustering) - trouver des groupes ou classes d'objets tels que la similarité intra-classe est élevée et la simlilarité inter-classes est faible - Aucune connaissance apriori sur la classe Exemple - segmentation des clients dans une assurance auto - Regrouper des produits

Les différentes tâches/modèles Analyse d'association (corrélation et causalité) : découvrir des règles d'association : X Y où X et Y sont des conjonctions de termes attributs-valeurs ou des prédicats pain=1 et café=1 beurre=1 [support = 5%, confiance = 70%] age>20 et age<29 et revenu>1000 achètepc="oui" [support = 2%, confiance = 60%]

Autres fonctionnalités du data mining Recherche de séquences temporelles Analyse de flux Analyse de déviations Recherche de correlations

1.4 - Préparation des données Nécessité de préparer les données Données réelles endommagées Incomplètes, Bruitées, Incohérentes Nettoyage Intégration et transformation Réduction Discrétisation Phase importante: environ 80% du temps

Tâches principales pour la préparation Nettoyage compléter les valeurs manquantes, lisser les données bruitées, supprimer les déviations, et corriger les incohérences Intégration intégrer des sources de données multiples Transformation normaliser (ex. pour le calcul de distances) Réduction réduire le volume des données (agréger, supprimer une dimension ) Discrétisation pour les attributs numériques, permet de réduire le volume

Valeurs manquantes on peut ignorer le tuple compléter la valeur à la main utiliser une constante globale utiliser la valeur moyenne utiliser la valeur moyenne pour les exemples d'une même classe utiliser la valeur la plus probable

Données bruitées on peut trier et partitionner (discrétiser) classifier appliquer un modèle de prédiction (ex : une fonction de régression)

Données bruitées Partitionnement et Lissage les valeurs triées sont réparties en largeur (distance) la suite triée est partitionnée en N intervalles de même amplitude amplitude de chaque intervalle W = (max -min)/n. solution la plus simple, mais les exceptions peuvent dominer Exemple données triées 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Avec 3 partitions [4..14[ et [14..24[ et [24..34[ ou en profondeur (fréquence) la suite triée est partitionnée en N intervalles contenant le même nombre d'exemples

Données bruitées Tri et Partitionner : un exemple données triées 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Partition en profondeur : - part 1: 4, 8, 9, 15 - part 2: 21, 21, 24, 25 - part 3: 26, 28, 29, 34 Lissage par les moyennes : chaque valeur de la partition est remplacée par la moyenne - part 1: 9, 9, 9, 9 - part 2: 23, 23, 23, 23 - part 3: 29, 29, 29, 29 Lissage par les extremes : : chaque valeur de la partition est remplacée par la valeur extreme la plus proche - part 1: 4, 4, 4, 15 - part 2: 21, 21, 25, 25 - part 3: 26, 26, 26, 34

Données bruitées Regression Y1 Y1 y y = x + 1 les données sont lissées de manière à approcher une fonction Régression linéaire X1 x Régression linéaire multiple

Intégration Données redondantes Détection de données redondantes par analyse de corrélation par exemple : coefficient de Bravais-Pearson ra, B ( A A)( B ( n 1) AB B) mesure la corrélation entre les attributs A et B Covariance: moyenne du produit des écarts à la moyenne

Transformation Les transformations appliquées : Le lissage qui supprime les données bruitées L'agrégation qui calcule des sommes, des moyennes La généralisation qui remonte dans une hiérarchie de concept La normalisation qui ramène les valeurs dans un intervalle donné La construction d'attributs

Réduction permet d'obtenir une représentation réduite d'ensembles volumineux de données stratégies appliquées agrégation suppression compression discrétisation

Réduction de dimension suppression d'attributs : de nombreux attributs non pertinents détériorent les performances des algorithmes par ex, les algorithmes d'induction d'arbres pour assurer de bonnes performances aux algorithmes d'extraction (arbres de décision, classifieurs de bayes, ) supprimer des données non pertinentes supprimer des données redondantes

Discrétisation permet de réduire le nombre de valeurs d'un attribut continue en divisant le domaine de valeurs en intervalles utile pour la classification et les arbres de décision (algorithmes qui manipulent des variables catégorielles)

Discrétisation non supervisée Ou discrétisation aveugle (indépendamment d'une valeur de classe) partitionnement en largeur 64 65 68 69 70 71 72 73 74 81 83 85 Yes No Yes Yes Yes No No No No Yes partitionnement en profondeur Yes Yes No Yes Yes No 64 65 68 69 70 71 72 73 74 81 83 85 Yes No Yes Yes Yes No No No No Yes Yes Yes No Yes Yes No

Discrétisation supervisée prend en compte la classification utilise l'entropie pour mesurer l'information et obtenir un critère de "pureté" discrétise en intervalles "purs" 64 65 68 69 70 71 72 73 74 81 83 85 Yes No Yes Yes Yes No No No No Yes Yes Yes No Yes Yes No

Discretisation basée sur l'entropie 64 65 68 69 70 71 72 73 74 81 83 85 Yes No Yes Yes Yes No No No No Yes S1 Yes Yes S2 No Yes Yes No ( S S 1 2 E S, T) Ent( ) ( ) S Ent S 1 S S 2 Ent( S) E( T, S)

Bibliographie (1) U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy, editors, Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996 Gilbert Saporta, Data mining et statistique décisionnelle, Éditions Technip, 2005. Jiawei Han, Micheline Kamber, Data Mining : Concepts and Techniques, Morgan Kaufmann, David T. Connolly & C. Begg, Systèmes de bases de données, Eyrolles, 2005. Ian Witten and Eibe Frank, Data Mining, Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufman, 2005. David Hand, Heikki Mannila, Padhraic Smith, Principles of Data Mining, MIT Press, 2001. Anand Rajaraman, Jeffrey David Ullman, Mining of Massive Datasets, Cambridge University Press, 2011.

Webographie (2) Cynthia Gibas et Per Jambeck, Introduction à la bioinformatique, O'Reilly, 2001. Anna Tramontano, Introduction to Bioinformatics, Chapman & Hall/CRC, 2006. Jason Wang, Mohammed Zaki, Hannu Toivonen and Dennis Shasha, Data Mining in Bioinformatics, series: Advanced Information and Knowledge Processing, Springer, 2005. Marcus A. Maloof, Machine Learning and Data Mining for Computer Security: Methods and Applications (Advanced Information and Knowledge Processing), Springer, 2006. Jaideep Vaidya, Chris Clifton, Michael Zhu, Privacy Preserving Data Mining (Advances in Information Security), Springer, 2006.

Webographie (2) Sites dédiés KD Nuggets http://www.kdnuggets.com/ Conférences Journaux ACM SIGKDD - Knowledge Discovery and Data Mining ACM Special Interest Group http://www.acm.org/sigkdd/ MOOC Introduction to Data Science, Coursera Outils Jaideep Vaidya, Chris Clifton, Michael Zhu, Privacy Preserving Data Mining (Advances in Information Security), Springer, 2006.

Outils logiciels - exemples SAS (Entreprise Miner) http://www.sas.com/ R RapidMiner http://rapid-i.com Weka http://www.cs.waikato.ac.nz/~ml/ BioConductor http://www.bioconductor.org/