Christophe CANDILLIER Cours de DataMining mars 2004 age 1
1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe CANDILLIER Cours de DataMining mars 2004 age 2
Définition : Ensemble des techniques permettant d'aller puiser des informations pertinentes dans les montagnes de données stockées ces dernières décennies dans les entreprises. Analyse de Données + Bases de Données = Christophe CANDILLIER Cours de DataMining mars 2004 age 3
1. Nettoyage des données 3. Transformation des données 4. Définition de l'objectif et de la stratégie 5. Mise en oeuvre des méthodes 6. Test de validation 7. Exploitation des résultats. Analyse de données 3,4,5,7 + 1,,6 = DataMining Christophe CANDILLIER Cours de DataMining mars 2004 age 4
révoir marketing: Analyse des stocks et des ventes. Eviter les stocks, vendre à flux tendu. Segmenter marketing: Recherche et ciblage de niches de marché. Définir des types de clients potentiels. Analyser marketing: Analyse des profils des clients. Définir la fidélité potentielle d'un type de client. Définir une offre adaptée à chaque type de client. Christophe CANDILLIER Cours de DataMining mars 2004 age 5
Analyser marketing: Analyse des relations. Définir des produits groupés. Analyser production: Suivi en ligne des paramètres de production. Déterminer les facteurs modifiant la qualité. Analyser banques, télécom: Suivi en ligne des comportements. Détection de fraudes. Christophe CANDILLIER Cours de DataMining mars 2004 age 6
Optimisation transport: Calcul des circuits de livraison. Diminuer les coûts de transport. Diagnostiquer médecine: Estimation des causes et des conséquences probables des symptômes. Aider au diagnostic des maladies. Christophe CANDILLIER Cours de DataMining mars 2004 age 7
Autres : rospection textuelle text mining Veille technologique et collecte automatique d'informations textuelles. Web mining et comportement des internautes. Amélioration d'un site web ersonnalisation d'un site web. Christophe CANDILLIER Cours de DataMining mars 2004 age 8
Des volumes considérables de données plusieurs téraoctets : entrepôts de données Data WareHouses Christophe CANDILLIER Cours de DataMining mars 2004 age 9
Nettoyage des Données Échantillonnage Analyse de données standard Validation du résultat sur un autre échantillon Lecture artielle ou Résumé Analyse de Données en Ligne : OLA On-Line Analytical rocessing Résultats d'analyse Christophe CANDILLIER Cours de DataMining mars 2004 age 10
our enlever les bruits données répétées, doublons. our détecter les anomalies erreurs de saisie, valeurs improbables ou aberrantes. valeurs continues : méthodes statistiques donnant les valeurs minimales et maximales acceptables. valeurs qualitatives : sélection, comparaison à l'aide de tableaux de fréquence. valeurs manquantes :? pas de solution générale Christophe CANDILLIER Cours de DataMining mars 2004 age 11
Le plus grand possible ET traitable dans un temps raisonnable Choix aléatoire des individus Un échantillon pour la phase d'apprentissage Un échantillon pour la phase de validation Christophe CANDILLIER Cours de DataMining mars 2004 age 12
Dépend de la méthode d'analyse utilisée arfois difficilement faisable ou pas faisable du tout ex : Classification d'individus as forcément utile si l'on fait confiance au résultat Christophe CANDILLIER Cours de DataMining mars 2004 age 13
Analyse exploratoire des données, Visualisation Analyses factorielles vues en cours Classifications vues en cours Règles d'associations Arbres de décision Algorithmes génétiques Réseaux bayésiens Réseaux de neurones Christophe CANDILLIER Cours de DataMining mars 2004 age 14
But : Identifier des relations entre des variables Techniques utilisées : Examen des distributions de variables Examen des matrices de corrélations Régression linéaire ou non avec 2 ou plus variables Christophe CANDILLIER Cours de DataMining mars 2004 age 15
Variable analysée : Revenu Christophe CANDILLIER Cours de DataMining mars 2004 age 16
Variables analysées : NB,EF et CA Christophe CANDILLIER Cours de DataMining mars 2004 age 17
Variables analysées avec une Cible : ROFcible, TRAN,MENA,REA,SOMM ROF théo = -356.47 + 3.54 TRAN 0.33 MENA + 0.45 REA + 0.67 SOMM Christophe CANDILLIER Cours de DataMining mars 2004 age 18
Une règle d association est une règle du type Si REDICAT alors CONSÉQUENCE Les règles sont caractérisées par deux mesures : Support pop REDICAT et CONSÉQUENCE pop totale pop REDICAT Confiance pop CONSÉQUENCE Choix des Règles : Bonne confiance ex : >70% et Bon support ex : >5% Christophe CANDILLIER Cours de DataMining mars 2004 age 19
Exemple, le naufrage du Titanic : la classe premiere, deuxieme, troisieme, equipage le sexe de la personne masculin, feminin l'age adulte, enfant survecu oui, non Christophe CANDILLIER Cours de DataMining mars 2004 age 20
Définition : Il ressemble aux règles d'association mais il est ordonné de la variable la plus explicative jusqu'à la moins explicative en fonction de la variable cible. Exemple, le Titanic : prédicat : classe, sexe, age cible : survecu Christophe CANDILLIER Cours de DataMining mars 2004 age 21
sexe = male classe = 1st age = adult: no 175.0/57.0 age = child: yes 5.0 classe = 2nd age = adult: no 168.0/14.0 age = child: yes 11.0 classe = 3rd: no 510.0/88.0 classe = crew: no 862.0/192.0 sexe = female classe = 1st: yes 145.0/4.0 classe = 2nd: yes 106.0/13.0 classe = 3rd: no 196.0/90.0 classe = crew: yes 23.0/3.0 classement correct global =79% Christophe CANDILLIER Cours de DataMining mars 2004 age 22
But : trouver les quelques bonnes solutions sans évaluer toutes les solutions en imitant la sélection naturelle. Exemple d'application : la recherche de règles d'association n 30 9 2 2 10 our n variables prédicats : règles possibles pour A,B,C X X A X, B X, C X, A et B X, A et C X, B et C X A et B et C X Christophe CANDILLIER Cours de DataMining mars 2004 age 23
Modélisation : Choix du codage des solutions en individus Choix de la fonction d'évaluation des individus Choix de la fonction de croisement des individus Choix de la fonction de mutation des individus Déroulement du processus : 1. Création au hasard des premiers individus 2. Sélection Évaluation 3. Reproduction Croisements / Mutations 4. Si pas terminé Alors retour à l'étape 2 Christophe CANDILLIER Cours de DataMining mars 2004 age 24
Exemple : le voyageur de commerce Codage : ordre des villes Évaluation : distance parcourue la plus courte Croisement : Mutation : Inversion Christophe CANDILLIER Cours de DataMining mars 2004 age 25
Exemple : le voyageur de commerce 100 villes Christophe CANDILLIER Cours de DataMining mars 2004 age 26
Définition : modèle graphique de représentation de la causalité sous forme probabiliste. Intérêts : Déduire les conséquences probables grâce à une partie des causes. Induire depuis les conséquences pour déterminer les causes probables. Inconvénient : Seul un expert peut construire le graphe de causes/conséquences et il faut donner les probabilités Domaines d'application : Diagnostic maladies, pannes Christophe CANDILLIER Cours de DataMining mars 2004 age 27
outil de diagnostic : Christophe CANDILLIER Cours de DataMining mars 2004 age 28
Exemple : Il a lu robabilité VRAI 0.2 FAUX 0.8 Arrosage robabilité VRAI 0.1 FAUX 0.9 Le jardin du Voisin luie luie est mouillé VRAI FAUX VRAI 1 0.2 FAUX 0 0.8 Mon ArrosageArrosage Arrosage Arrosage Jardin VRAI VRAI FAUX FAUX Est luie luie luie luie Mouillé VRAI FAUX VRAI FAUX VRAI 1 0.9 1 0 FAUX 0 0.1 0 1 Déduction : J / A J / Aet J / Aet J / A 1 0.2 0.9 0.8 0.92 J / J / Aet A J / Aet A J / 1 0.1 1 0.9 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 29
Christophe CANDILLIER Cours de DataMining mars 2004 age 30 Déduction : Induction : 0.272 0.8 0.9 1 0.2 0.9 1 0.8 0.1 0.9 0.2 0.1 1 / / / / J A Aet J A Aet J A Aet J A Aet J J 0.34 0.272 0.1 0.92 / / J A A J J A 0.73 0.272 0.2 1 / / J J J 0.07 0.272 0.2 0.1 1 / / J A Aet J J Aet
Définition : graphe orienté de neurones se comportant comme une fonction non linéaire donnant les sorties en fonction des entrées. Neurone Réseau de Neurones Fonctionnement : hase d'apprentissage sur des exemples hase d'utilisation Christophe CANDILLIER Cours de DataMining mars 2004 age 31
Exemple : détermination du comportement d'un acheteur Inconvénients : Difficulté du choix du modèle de réseau Difficultés de la phase d'apprentissage Quels exemples? Combien? Dans quel ordre? Quand arrêter l'apprentissage? Fiabilité du réseau après l'apprentissage : bon fonctionnement incertain sur les nouveaux cas inconnus! Applications : Reconnaissance écriture, parole Christophe CANDILLIER Cours de DataMining mars 2004 age 32
Exemple simple : apprentissage du OU pour un réseau composé d'un seul neurone avec =-1,0,1 Et Sortie=0,1. E1 Sortie E2 Sortie E1, E2 E1 1 E2 2 Essai E1 E2 Résultat 1 2 Sortie Correction 1 Correction 2 A1 0 0 0 0 0 0 0 0 B1 1 0 1 0 0 0 _+1 0 C1 0 1 1 1 0 0 0 _+1 D1 1 1 1 1 1 1 0 0 A2 0 0 0 1 1 0 0 0 B2 1 0 1 1 1 0 0 0 C2 0 1 1 1 1 0 0 0 D2 1 1 1 1 1 1 0 0 Christophe CANDILLIER Cours de DataMining mars 2004 age 33
Exemple donnant la fonction XOR non linéaire E1 1 N1 1 1-1 -2 Sortie N 20,0 N 21,0 N 21,1 E2 N2 1 1 1 N3 NS NS E1, E2 N1 N3 2 N 2 NS E1, E2 E1 E2 2 E1 E2 0 1 1 0 1 0 1 0 1 1 1 1 0 NS0,0 NS1,0 NS11, 1 1 0 0 1 0 2 2 0 1 1 2 1 0 0 0 Christophe CANDILLIER Cours de DataMining mars 2004 age 34
rincipe : bénéficier en temps réel d'un tableau de bord donnant les informations souhaitées résumé, dernières variations sur un entrepôt de données. Un système OLA est un tout indissociable entre la structure de données et les analyses OLA : La structure des données détermine les analyses OLA possibles. Les analyses OLA demandées déterminent la structure de données à adopter. Christophe CANDILLIER Cours de DataMining mars 2004 age 35
Les analyses se font via un cube de données représentant au maximum trois variables réelles ou synthétiques appelées dimensions. Exemple : Le prix HT d'une vente de chaussures est fonction d'un magasin, d'un mois la date et d'un modèle, son cube est : Christophe CANDILLIER Cours de DataMining mars 2004 age 36
La structure de données permettant d'obtenir ce cube et bien d'autres est : Christophe CANDILLIER Cours de DataMining mars 2004 age 37
Les variables synthétiques sont définies par des formules. Exemple : avec TVA qui dépend du temps mois, on obtient le cube de TTC : Christophe CANDILLIER Cours de DataMining mars 2004 age 38
Les principales différences : Entrepôt Base de données +OLA de données + SQL Visualisation Cubes Tables sélections Exploration Souris Requêtes textes Résumés Oui Non Rapidité Instantané Lent pour résumer Christophe CANDILLIER Cours de DataMining mars 2004 age 39
Outils rofessionels : Enterprise Miner de SAS Clementine de SSS DB2 Intelligent Miner d'ibm SAD de Decisia Logiciels Libres : Tanagra http://chirouble.univ-lyon2.fr/~ricco/tanagra R http://www.r-project.org WEKA http://www.cs.waikato.ac.nz/ml/weka/ Christophe CANDILLIER Cours de DataMining mars 2004 age 40
Christophe CANDILLIER Cours de DataMining mars 2004 age 41
Christophe CANDILLIER Cours de DataMining mars 2004 age 42
Sites référençant les logiciels de DataMining : http://www.kdnuggets.com/ http://www.aiaccess.net/f_ww.htm http://www.web-datamining.net/liens/logiciels.asp Christophe CANDILLIER Cours de DataMining mars 2004 age 43
Livres : Data mining Gestion de la relation client. ersonnalisation de sites Web de René Lefébure, Gilles Venturi Introduction au Data Mining de Michel Jambu Sites Web : http://www.web-datamining.net/ http://depinfo.u-bourgogne.fr/dess-bdia/datamining/coursnondefinitif.pdf http://www.pcc.qub.ac.uk/tec/courses/datamining/stu_notes/dm_book_1.html http://www.thearling.com/index.htm http://www.intelliwise.com/links.htm Christophe CANDILLIER Cours de DataMining mars 2004 age 44
Christophe CANDILLIER Cours de DataMining mars 2004 age 45