Christophe CANDILLIER Cours de DataMining mars 2004 Page 1



Documents pareils
Introduction au datamining

données en connaissance et en actions?

Analyse de grandes bases de données en santé

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Agenda de la présentation

Apprentissage Automatique

Spécificités, Applications et Outils

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Introduction au Data-Mining

QU EST-CE QUE LE DECISIONNEL?

Introduction au Data-Mining

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Introduction à la B.I. Avec SQL Server 2008

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Didier MOUNIEN Samantha MOINEAUX

Big Data et Marketing : les competences attendues

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Les Entrepôts de Données

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Présentation du module Base de données spatio-temporelles

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Raisonnement probabiliste

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Intelligence Economique - Business Intelligence

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Cybermarché et analyse comportementale

Guide d exploration de base de données de IBM SPSS Modeler 15

Urbanisation des SI-NFE107

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Accélérer l agilité de votre site de e-commerce. Cas client

Chapitre 9 : Informatique décisionnelle

Entrepôt de données 1. Introduction

INTRODUCTION AU DATA MINING

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

TRAVAUX DE RECHERCHE DANS LE

La problématique. La philosophie ' ) * )

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Introduction à la Fouille de Données (Data Mining) (8)

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Logiciel XLSTAT version rue Damrémont PARIS

guide Le Le guide Ligne PME

DURÉE DE VIE ET DE. Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique

CONCEPTION ET REALISATION D'UN GENERATEUR DE TABLEAUX DE BORD PROSPECTIFS MULTIDIMENSIONNELS

Éléments de contexte. L univers des jardineries et graineteries

SQL SERVER 2008, BUSINESS INTELLIGENCE

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

INF6304 Interfaces Intelligentes

Le géomarketing - Page 1 sur 7

Business Intelligence : Informatique Décisionnelle

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

Cycle de formation certifiante Sphinx

Business Intelligence avec SQL Server 2012

Extraction d informations stratégiques par Analyse en Composantes Principales

Présentations personnelles. filière IL

LES ENTREPOTS DE DONNEES

Pourquoi l apprentissage?

Master Marketing et Pratiques Commerciales Formation continue

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Petit Déjeuner Pépinière du Logiciel Libre. 25 juin 2008

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Travailler avec les télécommunications

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

BI = Business Intelligence Master Data-Science

Complet Intuitif Efficace. Références

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

THOT - Extraction de données et de schémas d un SGBD

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Sommaire. BilanStat manuel de présentation et d utilisation Page 2

MASTER EUROPEEN EN MANAGEMENT ET STRATEGIE D ENTREPRISE MSE. Diplôme Européen reconnu par la Fédération Européenne des Ecoles ;

Introduction à Business Objects. J. Akoka I. Wattiau

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

WEBSELL. Projet DATAMINING

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

SIG ET ANALYSE EXPLORATOIRE

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Travaux pratiques avec RapidMiner

(VM(t i ),Q(t i+j ),VM(t i+j ))

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

L analyse de la gestion de la clientèle

La classification automatique de données quantitatives

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

L apprentissage automatique

We make your. Data Smart. Data Smart

DATA MINING - Analyses de données symboliques sur les restaurants

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Transcription:

Christophe CANDILLIER Cours de DataMining mars 2004 age 1

1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe CANDILLIER Cours de DataMining mars 2004 age 2

Définition : Ensemble des techniques permettant d'aller puiser des informations pertinentes dans les montagnes de données stockées ces dernières décennies dans les entreprises. Analyse de Données + Bases de Données = Christophe CANDILLIER Cours de DataMining mars 2004 age 3

1. Nettoyage des données 3. Transformation des données 4. Définition de l'objectif et de la stratégie 5. Mise en oeuvre des méthodes 6. Test de validation 7. Exploitation des résultats. Analyse de données 3,4,5,7 + 1,,6 = DataMining Christophe CANDILLIER Cours de DataMining mars 2004 age 4

révoir marketing: Analyse des stocks et des ventes. Eviter les stocks, vendre à flux tendu. Segmenter marketing: Recherche et ciblage de niches de marché. Définir des types de clients potentiels. Analyser marketing: Analyse des profils des clients. Définir la fidélité potentielle d'un type de client. Définir une offre adaptée à chaque type de client. Christophe CANDILLIER Cours de DataMining mars 2004 age 5

Analyser marketing: Analyse des relations. Définir des produits groupés. Analyser production: Suivi en ligne des paramètres de production. Déterminer les facteurs modifiant la qualité. Analyser banques, télécom: Suivi en ligne des comportements. Détection de fraudes. Christophe CANDILLIER Cours de DataMining mars 2004 age 6

Optimisation transport: Calcul des circuits de livraison. Diminuer les coûts de transport. Diagnostiquer médecine: Estimation des causes et des conséquences probables des symptômes. Aider au diagnostic des maladies. Christophe CANDILLIER Cours de DataMining mars 2004 age 7

Autres : rospection textuelle text mining Veille technologique et collecte automatique d'informations textuelles. Web mining et comportement des internautes. Amélioration d'un site web ersonnalisation d'un site web. Christophe CANDILLIER Cours de DataMining mars 2004 age 8

Des volumes considérables de données plusieurs téraoctets : entrepôts de données Data WareHouses Christophe CANDILLIER Cours de DataMining mars 2004 age 9

Nettoyage des Données Échantillonnage Analyse de données standard Validation du résultat sur un autre échantillon Lecture artielle ou Résumé Analyse de Données en Ligne : OLA On-Line Analytical rocessing Résultats d'analyse Christophe CANDILLIER Cours de DataMining mars 2004 age 10

our enlever les bruits données répétées, doublons. our détecter les anomalies erreurs de saisie, valeurs improbables ou aberrantes. valeurs continues : méthodes statistiques donnant les valeurs minimales et maximales acceptables. valeurs qualitatives : sélection, comparaison à l'aide de tableaux de fréquence. valeurs manquantes :? pas de solution générale Christophe CANDILLIER Cours de DataMining mars 2004 age 11

Le plus grand possible ET traitable dans un temps raisonnable Choix aléatoire des individus Un échantillon pour la phase d'apprentissage Un échantillon pour la phase de validation Christophe CANDILLIER Cours de DataMining mars 2004 age 12

Dépend de la méthode d'analyse utilisée arfois difficilement faisable ou pas faisable du tout ex : Classification d'individus as forcément utile si l'on fait confiance au résultat Christophe CANDILLIER Cours de DataMining mars 2004 age 13

Analyse exploratoire des données, Visualisation Analyses factorielles vues en cours Classifications vues en cours Règles d'associations Arbres de décision Algorithmes génétiques Réseaux bayésiens Réseaux de neurones Christophe CANDILLIER Cours de DataMining mars 2004 age 14

But : Identifier des relations entre des variables Techniques utilisées : Examen des distributions de variables Examen des matrices de corrélations Régression linéaire ou non avec 2 ou plus variables Christophe CANDILLIER Cours de DataMining mars 2004 age 15

Variable analysée : Revenu Christophe CANDILLIER Cours de DataMining mars 2004 age 16

Variables analysées : NB,EF et CA Christophe CANDILLIER Cours de DataMining mars 2004 age 17

Variables analysées avec une Cible : ROFcible, TRAN,MENA,REA,SOMM ROF théo = -356.47 + 3.54 TRAN 0.33 MENA + 0.45 REA + 0.67 SOMM Christophe CANDILLIER Cours de DataMining mars 2004 age 18

Une règle d association est une règle du type Si REDICAT alors CONSÉQUENCE Les règles sont caractérisées par deux mesures : Support pop REDICAT et CONSÉQUENCE pop totale pop REDICAT Confiance pop CONSÉQUENCE Choix des Règles : Bonne confiance ex : >70% et Bon support ex : >5% Christophe CANDILLIER Cours de DataMining mars 2004 age 19

Exemple, le naufrage du Titanic : la classe premiere, deuxieme, troisieme, equipage le sexe de la personne masculin, feminin l'age adulte, enfant survecu oui, non Christophe CANDILLIER Cours de DataMining mars 2004 age 20

Définition : Il ressemble aux règles d'association mais il est ordonné de la variable la plus explicative jusqu'à la moins explicative en fonction de la variable cible. Exemple, le Titanic : prédicat : classe, sexe, age cible : survecu Christophe CANDILLIER Cours de DataMining mars 2004 age 21

sexe = male classe = 1st age = adult: no 175.0/57.0 age = child: yes 5.0 classe = 2nd age = adult: no 168.0/14.0 age = child: yes 11.0 classe = 3rd: no 510.0/88.0 classe = crew: no 862.0/192.0 sexe = female classe = 1st: yes 145.0/4.0 classe = 2nd: yes 106.0/13.0 classe = 3rd: no 196.0/90.0 classe = crew: yes 23.0/3.0 classement correct global =79% Christophe CANDILLIER Cours de DataMining mars 2004 age 22

But : trouver les quelques bonnes solutions sans évaluer toutes les solutions en imitant la sélection naturelle. Exemple d'application : la recherche de règles d'association n 30 9 2 2 10 our n variables prédicats : règles possibles pour A,B,C X X A X, B X, C X, A et B X, A et C X, B et C X A et B et C X Christophe CANDILLIER Cours de DataMining mars 2004 age 23

Modélisation : Choix du codage des solutions en individus Choix de la fonction d'évaluation des individus Choix de la fonction de croisement des individus Choix de la fonction de mutation des individus Déroulement du processus : 1. Création au hasard des premiers individus 2. Sélection Évaluation 3. Reproduction Croisements / Mutations 4. Si pas terminé Alors retour à l'étape 2 Christophe CANDILLIER Cours de DataMining mars 2004 age 24

Exemple : le voyageur de commerce Codage : ordre des villes Évaluation : distance parcourue la plus courte Croisement : Mutation : Inversion Christophe CANDILLIER Cours de DataMining mars 2004 age 25

Exemple : le voyageur de commerce 100 villes Christophe CANDILLIER Cours de DataMining mars 2004 age 26

Définition : modèle graphique de représentation de la causalité sous forme probabiliste. Intérêts : Déduire les conséquences probables grâce à une partie des causes. Induire depuis les conséquences pour déterminer les causes probables. Inconvénient : Seul un expert peut construire le graphe de causes/conséquences et il faut donner les probabilités Domaines d'application : Diagnostic maladies, pannes Christophe CANDILLIER Cours de DataMining mars 2004 age 27

outil de diagnostic : Christophe CANDILLIER Cours de DataMining mars 2004 age 28

Exemple : Il a lu robabilité VRAI 0.2 FAUX 0.8 Arrosage robabilité VRAI 0.1 FAUX 0.9 Le jardin du Voisin luie luie est mouillé VRAI FAUX VRAI 1 0.2 FAUX 0 0.8 Mon ArrosageArrosage Arrosage Arrosage Jardin VRAI VRAI FAUX FAUX Est luie luie luie luie Mouillé VRAI FAUX VRAI FAUX VRAI 1 0.9 1 0 FAUX 0 0.1 0 1 Déduction : J / A J / Aet J / Aet J / A 1 0.2 0.9 0.8 0.92 J / J / Aet A J / Aet A J / 1 0.1 1 0.9 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 29

Christophe CANDILLIER Cours de DataMining mars 2004 age 30 Déduction : Induction : 0.272 0.8 0.9 1 0.2 0.9 1 0.8 0.1 0.9 0.2 0.1 1 / / / / J A Aet J A Aet J A Aet J A Aet J J 0.34 0.272 0.1 0.92 / / J A A J J A 0.73 0.272 0.2 1 / / J J J 0.07 0.272 0.2 0.1 1 / / J A Aet J J Aet

Définition : graphe orienté de neurones se comportant comme une fonction non linéaire donnant les sorties en fonction des entrées. Neurone Réseau de Neurones Fonctionnement : hase d'apprentissage sur des exemples hase d'utilisation Christophe CANDILLIER Cours de DataMining mars 2004 age 31

Exemple : détermination du comportement d'un acheteur Inconvénients : Difficulté du choix du modèle de réseau Difficultés de la phase d'apprentissage Quels exemples? Combien? Dans quel ordre? Quand arrêter l'apprentissage? Fiabilité du réseau après l'apprentissage : bon fonctionnement incertain sur les nouveaux cas inconnus! Applications : Reconnaissance écriture, parole Christophe CANDILLIER Cours de DataMining mars 2004 age 32

Exemple simple : apprentissage du OU pour un réseau composé d'un seul neurone avec =-1,0,1 Et Sortie=0,1. E1 Sortie E2 Sortie E1, E2 E1 1 E2 2 Essai E1 E2 Résultat 1 2 Sortie Correction 1 Correction 2 A1 0 0 0 0 0 0 0 0 B1 1 0 1 0 0 0 _+1 0 C1 0 1 1 1 0 0 0 _+1 D1 1 1 1 1 1 1 0 0 A2 0 0 0 1 1 0 0 0 B2 1 0 1 1 1 0 0 0 C2 0 1 1 1 1 0 0 0 D2 1 1 1 1 1 1 0 0 Christophe CANDILLIER Cours de DataMining mars 2004 age 33

Exemple donnant la fonction XOR non linéaire E1 1 N1 1 1-1 -2 Sortie N 20,0 N 21,0 N 21,1 E2 N2 1 1 1 N3 NS NS E1, E2 N1 N3 2 N 2 NS E1, E2 E1 E2 2 E1 E2 0 1 1 0 1 0 1 0 1 1 1 1 0 NS0,0 NS1,0 NS11, 1 1 0 0 1 0 2 2 0 1 1 2 1 0 0 0 Christophe CANDILLIER Cours de DataMining mars 2004 age 34

rincipe : bénéficier en temps réel d'un tableau de bord donnant les informations souhaitées résumé, dernières variations sur un entrepôt de données. Un système OLA est un tout indissociable entre la structure de données et les analyses OLA : La structure des données détermine les analyses OLA possibles. Les analyses OLA demandées déterminent la structure de données à adopter. Christophe CANDILLIER Cours de DataMining mars 2004 age 35

Les analyses se font via un cube de données représentant au maximum trois variables réelles ou synthétiques appelées dimensions. Exemple : Le prix HT d'une vente de chaussures est fonction d'un magasin, d'un mois la date et d'un modèle, son cube est : Christophe CANDILLIER Cours de DataMining mars 2004 age 36

La structure de données permettant d'obtenir ce cube et bien d'autres est : Christophe CANDILLIER Cours de DataMining mars 2004 age 37

Les variables synthétiques sont définies par des formules. Exemple : avec TVA qui dépend du temps mois, on obtient le cube de TTC : Christophe CANDILLIER Cours de DataMining mars 2004 age 38

Les principales différences : Entrepôt Base de données +OLA de données + SQL Visualisation Cubes Tables sélections Exploration Souris Requêtes textes Résumés Oui Non Rapidité Instantané Lent pour résumer Christophe CANDILLIER Cours de DataMining mars 2004 age 39

Outils rofessionels : Enterprise Miner de SAS Clementine de SSS DB2 Intelligent Miner d'ibm SAD de Decisia Logiciels Libres : Tanagra http://chirouble.univ-lyon2.fr/~ricco/tanagra R http://www.r-project.org WEKA http://www.cs.waikato.ac.nz/ml/weka/ Christophe CANDILLIER Cours de DataMining mars 2004 age 40

Christophe CANDILLIER Cours de DataMining mars 2004 age 41

Christophe CANDILLIER Cours de DataMining mars 2004 age 42

Sites référençant les logiciels de DataMining : http://www.kdnuggets.com/ http://www.aiaccess.net/f_ww.htm http://www.web-datamining.net/liens/logiciels.asp Christophe CANDILLIER Cours de DataMining mars 2004 age 43

Livres : Data mining Gestion de la relation client. ersonnalisation de sites Web de René Lefébure, Gilles Venturi Introduction au Data Mining de Michel Jambu Sites Web : http://www.web-datamining.net/ http://depinfo.u-bourgogne.fr/dess-bdia/datamining/coursnondefinitif.pdf http://www.pcc.qub.ac.uk/tec/courses/datamining/stu_notes/dm_book_1.html http://www.thearling.com/index.htm http://www.intelliwise.com/links.htm Christophe CANDILLIER Cours de DataMining mars 2004 age 44

Christophe CANDILLIER Cours de DataMining mars 2004 age 45