connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données.



Documents pareils
Introduction au datamining

Bases de Données Avancées

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Agenda de la présentation

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Analyse de grandes bases de données en santé

Introduction au Data-Mining

Chapitre 9 : Informatique décisionnelle

Didier MOUNIEN Samantha MOINEAUX

Introduction à la B.I. Avec SQL Server 2008

Hervé Couturier EVP, SAP Technology Development

Les Entrepôts de Données

QU EST-CE QUE LE DECISIONNEL?

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

Intelligence Economique - Business Intelligence

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

BI = Business Intelligence Master Data-Science

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Entrepôt de données 1. Introduction

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Spécificités, Applications et Outils

Introduction au Data-Mining

et les Systèmes Multidimensionnels

Apprentissage Automatique

Business Intelligence : Informatique Décisionnelle

Présentation du module Base de données spatio-temporelles

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Les datas = le fuel du 21ième sicècle

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Les Entrepôts de Données. (Data Warehouses)

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Data Mining. Master 1 Informatique - Mathématiques UAG

L INTELLIGENCE D AFFAIRE DANS LA VIE QUOTIDIENNE D UNE ENTREPRISE

La problématique. La philosophie ' ) * )

BI = Business Intelligence Master Data-ScienceCours 3 - Data

données en connaissance et en actions?

AXIAD Conseil pour décider en toute intelligence

Systèmes d information décisionnels (SIAD) Extraction de connaissances (KDD) Business Intelligence (BI)

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Business & High Technology

SQL Server 2012 et SQL Server 2014

LES ENTREPOTS DE DONNEES

Urbanisation des SI-NFE107

Présentations personnelles. filière IL

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Travailler avec les télécommunications

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)


Pentaho Business Analytics Intégrer > Explorer > Prévoir

Business Intelligence avec Excel, Power BI et Office 365

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Thibault Denizet. Introduction à SSIS

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Intégration de données hétérogènes et réparties. Anne Doucet

Cybermarché et analyse comportementale

Introduction à la Fouille de Données (Data Mining) (8)

Entreprise et Big Data

Base de données bibliographiques Pubmed-Medline

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Introduction Big Data

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Accélérer l agilité de votre site de e-commerce. Cas client

La gestion des données de référence ou comment exploiter toutes vos informations

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

SQL SERVER 2008, BUSINESS INTELLIGENCE

IBM SPSS Direct Marketing

IBM Software Big Data. Plateforme IBM Big Data

Big Data On Line Analytics

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza


Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

ETL Extract - Transform - Load

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Etude d Algorithmes Parallèles de Data Mining

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

BIG DATA en Sciences et Industries de l Environnement

Analytics Platform. MicroStrategy. Business Intelligence d entreprise. Self-service analytics. Big Data analytics.

Entreposage de données complexes pour la médecine d anticipation personnalisée

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Pourquoi l apprentissage?

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

L A B U S I N E S S. d a t a g i n f o r m a t i o n g a c t i o n

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

Transcription:

Data Mining = Knowledge Discovery in Databases (KDD) = Fouille de données 1 Définition : Processus ou méthode qui extrait des connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données. Evaluation Connaissances Fouille Sélection & transformation Données pertinentes Nettoyage Intégration Entrepôt de données Bases de données, fichiers, etc.

Au programme 2 Statistiques i descriptives i Prétraitement des données Caractérisation Classification et prédiction Clustering Statistiquesti ti Règles d association Cubes de données et OLAP (On Line Analytical lprocessing)

Motivation 3 Masses de données Outils automatisés de collecte de données Maturité des SGBD Entrepôts de données (data warehouses et information repositories) ex : Génomes (complets), PubMed, données d expression Données vs. connaissances Solution : entrepôts de données et data mining Data warehousing and on line analytical processing (OLAP) Extraction de connaissances (règles, régularités, motifs, contraintes) à partir de grosses bases de données

Un déluge de données mais peu de connaissances 4 Comment analyser ces données?

Recherche de motifs intéressants 5 YPEL1 TBX5 BMP4 NKX2.5 modèles gènes connus séquences domaines régulation candidats fusion annotations interactions expression

Evolution 6 1960 : Systèmes de gestion de fichiers, collection de données, bases de données (modèle réseau) 1970 : Émergence du modèle relationnel et de son implémentation 1980 : SGBD relationnels, lti l modèles avancés (relationnel létendu, OO, déductif, etc.) et orientés application (spatial, scientifique) 1990 : Data mining et entrepôts de données, multimédia, et Web

Qu est ce que le data mining? 7 Dt Data mining i (découverte de connaissances dans les bases de données) : Extraction d informations ou de motifs intéressants (non triviaux, implicites, inconnus auparavant et potentiellement utiles) à partir de grandes bases de données Autres appellations : Data mining : est ce judicieux? Knowledge ld discovery (mining) i in databases (KDD), knowledge extraction, data/pattern analysis, information harvesting, business intelligence, etc. Ce qui n est nest pas du data mining (Deductive) query processing Systèmes experts

Data Mining : union de disciplines variées 8 Bases de données Statistiques Apprentissage automatique Dt Data Mining i Visualsation i Si Science de Autres l information disciplines

Pour quoi faire? 9 Analyse des bases de données et aide à la décision i Analyse du marché et management cible marketing, gestion de la relation client, analyse du panier dela ménagère, segmentationdumarché Analyse de risques et management Prévisions, fidélisation du client, mises en avant améliorées, contrôle qualité, analyses de compétitivité Détection des fraudes et management Bio informatiqueinformatique Autres applications Text mining (news group, email, documents, PubMed) et Web Intelligent query answering

Analyse du marché 10 Quelles sources de données? Transactions bancaires (CB), coupons de réduction, service clients (plaintes), et aussi les études publiques de style de vie Cible marketing Trouver des groupes «modèles» de clients qui partagent les mêmes caractéristiques : intérêts, revenus, habitudes de consommation, etc. Déterminer les profils d achat des clients au cours du temps Ex : compte joint après le mariage Cross market analysis Associations/corrélations i i des ventes entre produits Prédictions basées sur les associations d information

Analyse du marché (suite) 11 Profils client Quels types de clients achètent quels produits (clusteringou classification) Identifier les besoins des clients Identifier les meilleurs produits pour des clients différents Utiliser la prédictionpourpour trouverquels facteurs vont attirer des nouveaux clients Fournir une synthèse de l information Rapports multidimensionnels lidi i l variés Rapports statistiques (tendance générale des données et variation)

Détection de fraude 12 Applications i carte bancaire Approche Utiliser les données d historiquepourconstruiredes des modèles de comportements frauduleux puis rechercher par data mining des instances similaires Exemples Assurances : détecter les groupes de personnes qui déclarent des accidents/vols pour les indemnités Blanchiment d argent : détecter les transactions suspectes (US Treasury's Financial Crimes Enforcement Network) Assurance maladie : détecter les patients professionnels et les docteurs associés

Bio informatique Sources de données Séquences (ADN, acides aminés) Structures tri dimensionnelle (PDB) Puces à ADN (expression, acgh) Interaction protéiques réseau métabolique régulation génétique PubMed Applications Prédiction de structure 3D Prédictiondes des séquence codantes Prédiction de fonction, d interaction, de localisation, Découverte de motifs sur/sous représentés, répétitions Analyse de données d expression Aide au diagnostic Méthodes de classification, clustering, etc. 13

Autres applications 14 Astrophysique JPL and the Palomar Observatory discovered 22 quasars with the help of data mining Organisation de sites Web Algorithmes de data mining appliqués aux journaux d accès aux pages pg commerciales afin d identifier les préférences et les comportements des clients et d analyser les performances du marketing Web et l organisation du site. Ex: IBM Surf Aid, GoogleAnalytics

Étapes impliquées dans le processus de découverte de connaissances 15 Apprentissage du domaine d application : Connaissances nécessaires et buts de l application Création du jeu de données cible : sélection des données Nettoyage et prétraitement des données (jusqu à 60% du travail!) Réduction et transformation ti des données Trouver les caractéristiques utiles, dimensionnalité/réduction des variables Choixdes fonctionnalités datamining synthèse, classification, régression, association, clustering Choixdes algorithmes Data mining : recherche de motifs (patterns) intéressants Évaluation des motifs et représentation ti des connaissances visualisation, transformation, élimination des motifs redondants, etc. Utilisation des connaissances découvertes

Data mining: a KDD process 16 Evaluation Connaissances Fouille Sélection & transformation Données pertinentes Intégration Nettoyage Entrepôt de données Bases de données, fichiers, etc.

Data Mining and Business Intelligence 17 Increasing potential to support business decisions Making Decisions End User Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Business Analyst Data Analyst Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA

Architecture of a Typical Data Mining System 18 Graphical user interface Pattern evaluation Data mining engine Database or data warehouse server Knowledge base Data cleaning & data integration Filtering Databases Data Warehouse

Quelles sortes de données 19 Fichiers plats Bases de données relationnelles Entrepôts de données (data warehouses) Bases de données transactionnelles Bases de données avancées et entrepôts de données (data repositery) Bases de données orientées objets, et relationnelles objets Spatiales Données temporelles Textes et multimédia WWW

Fonctionnalités 20 Description de concepts : Caractérisation et discrimination Généraliser, résumer, et contraster les données caractéristiques, ex : régions sèches vs. humides Association (corrélation et causalité) Association multidimensionnellevs vs. monodimensionnelle âge(x, 20..29 ) ^ revenu(x, 20..29K ) achète(x, PC ) [support = 2%, confiance = 60%] contient(t, PC ) contient(x, logiciel ) [1%, 75%]

Fonctionnalités (suite) 21 Classification et Prédiction Trouver des modèles (fonctions) )qui décrivent et distinguent des classes ou concepts pour la prédiction future ex : séquences codantes, aide au diagnostic Présentation: arbre de décision, règles de classification, réseaux de neurones Prédiction: Prédire des valeurs inconnues ou manquantes Clustering Pas de classes prédéfinies i : grouper les données pour former des classes nouvelles, ex : familles de protéines basées sur la similarité des séquences Principe : maximiser la similarité intra classe et minimiser la p similarité inter classes

Fonctionnalités (suite) 22 Outlier analysis Outlier: un objet qui se distingue du comportement général des données Peut être considéré comme du bruit ou une exception Utile à la détection ti de fraudes et éè évènements rares Analyse des tendances et de l évolution lévolution Tendance et déviation : analyse de régression Découverte de motifs séquentiels, analyse de périodicité Analyses basées sur la similarité il ité Autres analyses basées sur des motifs ou sur des statistiques

Est ce que tous les patterns découverts sont intéressants? 23 Pb: Un système de data mining peut générer des milliers de patterns Approches suggérées : centré sur l utilisateur, basé sur des requêtes Mesures du niveau d intérêt : un motif est intéressant si il est : facile à comprendre par un humain valide sur des nouvelles données ou données test avec un certain degré de certitude potentiellement utile nouveau ou encore s il sert à validerune hypothèse que l utilisateurcherche à confirmer Mesures objective vs. subjective : Objective : basée sur des statistiques et sur les structures des motifs, ex : support, confiance Subjective : basée sur les sentiments de l utilisateur, ex : inattendu, nouveau

Peut on trouver tous les motifs intéressants et seulement ceux là? 24 Complétude : trouver tous les patterns intéressants Est ce qu un un système peut trouver tous les patterns intéressants? Association vs. classification vs. clustering Optimisation : trouver seulement les patterns intéressants Et Est ce qu un système peut trouver seulement tles patterns intéressants? Approches Générer tous les patterns et filtrer ceux intéressants Générer seulement des patterns intéressants

Schéma de classification des systèmes de data mining 25 Fonctionnalité générale Descriptif Prédictif Vues différentes, classifications différentes Types de bases de données à fouiller (relationnelles ou OO. Texte ou multimédia) Types de connaissances à découvrir (association, clustering) Types de techniques utilisées (automatique, guidée par l utilisateur utilisateur, exploratoire) Types d applications spécifiques

Classification des systèmes de data mining (suite) 26 Types de bases de données Relationnelles, transactionnelles, orientée objet, relationnelle objet, spatial, temporelles, texte, multimédia, WWW, etc. Types de connaissances à découvrir Caractérisation, discrimination, association, classification, clustering, tendance, déviation et outlier analysis, etc. Fonctions Multiples/intégrées et data mining sur plusieurs niveaux Techniques utilisées Orienté bases de données, entrepôt de données (OLAP), apprentissage automatique(machine learning), statistiques, visualisation, réseaux deneurones, etc. Applications spécifiques télé i ti b l d f d Bi i f ti b télécommunication, banque, analyse de fraude, Bio informatique, bourse, Web mining, Weblog, etc.

Principaux défis en data mining (1) 27 Méthodologie et interactions utilisateur Fouille de différents types de connaissances dans les bases de données Fouille interactive à des niveaux multiples d abstraction Incorporation de connaissances a priori (background knowledge) Langages de requêtes pour le data mining Expressionet et visualisation des résultats Prise en compte du bruit ou de données manquantes/incomplètes Évaluation des patterns : le problème duniveau d intérêt Performance et mise à l échelle Efficacité i et mise à l échelle ll des algorithmes de data mining i Parallélisation, distributivité et possibilités incrémentales des méthodes de fouille

Principaux défis en data mining (2) 28 Liées à la diversité i des types de données Données relationnelles et types complexes Bases de données hétérogènes et systèmes global d information (WWW) Liées aux applications et aux nouvelles connaissances Applications Création d outils domaine spécifique Intelligent query answering Contrôle de processus et aide à la décision Intégration des connaissances découvertes avec celles existantes : problème de fusion des connaissances Protection des données : sécurité, intégrité, et données privées (informatique et libertés, données cliniques)

Bilan 29 Data mining: i découverte de motifs intéressants à partir de données massives Évolution naturelle des technologies des bases de données, large demande, beaucoup d applications Le processus de découverte implique le nettoyage, l intégration, la sélection, la transformation et la fouille des données, suivies de l évaluation des motifs extraits et de leur représentation La fouille peut s effectuer sur une grande variété d entrepôt de données Fonctionnalités : caractérisation, discrimination, association, classification, clustering, analyse des tendances et des outliers, etc.