Ce qu est le Data Mining

Documents pareils

Introduction au Data-Mining

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

La classification automatique de données quantitatives

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Introduction au datamining

Analyse de grandes bases de données en santé

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Agenda de la présentation

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Gestion de la Relation Client (GRC)

Introduction au Data-Mining

Introduction à la B.I. Avec SQL Server 2008

Le cinquième chapitre

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Spécificités, Applications et Outils

Etude d Algorithmes Parallèles de Data Mining

Pourquoi l apprentissage?

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

Le courrier publicitaire, l indispensable de votre mix média

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

QU EST-CE QUE LE DECISIONNEL?

République Algérienne Démocratique et Populaire

données en connaissance et en actions?

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Arbres binaires de décision

Didier MOUNIEN Samantha MOINEAUX

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

plate-forme PaaS (Audit)

IBM SPSS Direct Marketing

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

INF6304 Interfaces Intelligentes

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Travailler avec les télécommunications

Chapitre 3. La répartition

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Apprentissage Automatique

Publications, ressources, liens, logiciels,

Laboratoire 4 Développement d un système intelligent

Agenda. Impact d une mauvaise gestion des données. Les stratégies de promotion interne de la gestion de données

Les dessous des moteurs de recommandation

Introduction Big Data

Analyse prédictive. L essor et la valeur de l analyse prédictive dans la prise de décisions

Big Data et Graphes : Quelques pistes de recherche

Entrepôt de données 1. Introduction

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Business Intelligence : Informatique Décisionnelle

Chapitre 1 : La consommation et l épargne

Quels outils pour prévoir?

LE DISPLAY RÉVOLUTION. De l achat d espace publicitaire classique à la gestion d audience ciblée. Janvier 2012 LIVRE BLANC ACXIOM.

Data Mining. Master 1 Informatique - Mathématiques UAG

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

Cognit Ive Cas d utilisation

«Une bonne thèse répond à une question très précise!» : comment l enseigner?

Vue d ensemble. Initiatives des données. Gestion de la trésorerie. Gestion du risque. Gestion des fournisseurs 2 >>

Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables.

LIVRE BLANC Décembre 2014

Guide du programme Transition vers l'après-secondaire

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Monnaie. Options de paiement Il y a différentes façons de paiement pour les produits et services en Estonie:

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

L apprentissage automatique

Application de K-means à la définition du nombre de VM optimal dans un cloud

Exemple d utilisation des outils MicroSave-Africa au Brésil

Lecture critique et pratique de la médecine

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Oxybul éveil et jeux

Entreprise et Big Data

COMMENT CREER UNE CAMPAGNE AMAZON OFFRES D ANNONCEUR?

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

Le projet logiciel E.C.D.Sagitta Un état des lieux

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

THOT - Extraction de données et de schémas d un SGBD

Les algorithmes de fouille de données

Extraction des Connaissances à partir des Données (ECD)

Comment toucher les décideurs

Le décisionnel plus que jamais au sommet de l agenda des DSI

MGP 702c Marketing & Financement d événements. Remarques (1) Remarques (3) Remarques (2)

Web-to-Store 12 septembre 2013

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

dans l ing De la Personnalisation à la Contextualisation Personnalisation et contenus situationnels (géolocalisation, météo, triggers avancés...

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

AdWords Faites la promotion de votre entreprise sur Google avec MidiMédia

Comment générer des revenus en Affiliation

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Visualisation en Fouille de Données

Catalogue des formations.

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Les Français et le courrier publicitaire. Rapport

Intégration de la dimension sémantique dans les réseaux sociaux

Transcription:

Data Mining 1

Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD (Extraction de Connaissances à partir de Données) KDD (Knowledge Discovery from Databases) Analyse de données/patterns, business intelligence, fouille de données, etc. 2

Quels types d information Rechercher? La typologie de l information que l on veut extraire dépend du type d action que le décideur veut entreprendre Nous allons considérer Recherche des liens entre éléments de la base de données (Règles d association) Analyse des comportement des éléments de la base de données (prédiction) Recherche de similitudes entre éléments de la base (Regroupement) 3

Associations (1) Les enseignes de grands magasins proposent régulièrement des promotions sur divers produits Une promotion représente un manque à gagner pour le magasin Dilemme : Comment proposer des promotions intéressantes pour les clients tout en réduisant le manque à gagner? Regarder les habitudes d achats des clients : si en général, les clients qui achètent du lait achètent aussi du sucre, alors il n est pas intéressant de faire des promotions sur les 2 produits en même temps Idée : trouver les associations entre produits pour extraire les produits à promouvoir 4

Associations (2) Règles d association : motifs de la forme : Corps Tête Exemple : Lait sucre Etant donnés: (1) une base de transactions, (2) chaque transaction est décrite par un identifiant et une liste d items Trouver: toutes les règles qui expriment une association entre la présence d un item avec la présence d un ensemble d items Ex., 98% des personnes qui achètent du lait achètent du sucre 5

Associations: Support et Confiance (3) Clients achetant les deux Clients achetant du lait Trouver les règles X & Y Z avec un support > s et une confiance >c ν support s, probabilité qu une transaction contienne {X, Y, Z} ν confiance c, probabilité conditionnelle qu une transaction qui contient {X, Y} contienne aussi Z Clients achetant du sucre ID Transaction Items 2000 A,B,C 1000 A,C 4000 A,D 5000 B,E,F Confiance=support(X,Y,Z)/support(X,Y) Soit support minimum 50%, et confiance minimum 50%, A C (50%, 66.6%) C A (50%, 100%) 6

Problème algorithmique Si on a 10 10 produits, on a 2 10^10 itemsets à vérifier! Idée: Exploiter la propriété de non monotonicité : Si {A,B,C} n est pas fréquent, alors {A,B,C,D} ne peut pas l être 7

Prévision (1) Les établissements financiers accordent des crédits à leurs clients L attribution d un crédit dépend de certains critères que le client doit satisfaire Dilemme : Si on ne prête qu aux très riches, on n aura pas de problèmes de remboursement mais on perd les autres clients (pas de risque). Si on prête aux moins riches, on ne va pas perdre les clients mais on est exposé aux non remboursements (trop de risque) Idée : se baser sur l historique des clients pour dresser des profils de bons clients, clients moyens, et mauvais payeurs 8

Prévision (2) L organisme dispose d un fichier décrivant ses différents clients à qui il a attribué un crédit Chaque client est décrit par un certain nombre d attributs : Salaire, situation marital, emploi, locataire/propriétaire, personnes à charge, montant crédit, A chaque client, on ajoute un attribut particulier qui est le nom de la classe et qui est égal à bon, mauvais ou moyen Le but consiste à extraire à partir de ce fichier un ensemble de règles qu on va utiliser lorsqu un nouveau client demande un crédit pour savoir si l on peut le lui attribuer ou pas 9

Prévision (3) Exemples de règles de production: Si crédit > 1/3 salaire mauvais Si crédit <1/3 salaire & charges >4 mauvais Si crédit <1/3 salaire & charges <4 & propriétaire = oui bon Si crédit <1/3 salaire & charges <4 & propriétaire=non & cadre=oui bon Si crédit <1/3 salaire & charges <4 & propriétaire=non & cadre = non moyen Ces règles peuvent être représentées par un arbre de décision 10

Mauvais Mauvais >1/3 Bon >4 Bon oui Prévision (4) oui Endettement charges <4 <1/3 Propriétaire non Cadre non En pratique, les systèmes construisent d abord les arbres d où ils dérivent les règles moyen 11

Association versus prévision Dans les deux cas, on cherche à extraire des règles Les règles d association expriment une notion de lien entre objets de même type (ex: les produits vendus par un magasin). Attention : Une règle d association n exprime pas une corrélation Les règles de production expliquent le lien entre une classe particulière et la valeur des caractéristiques de plusieurs objets Les deux types de règles ne véhiculent pas le même type d information 12

Regroupement (1) Considérons une entreprise de vente par correspondance qui veut envoyer des prospectus publicitaires à ses clients L entreprise a un fichier de 100.000 clients. Le coût de la campagne est estimé à 0,5 ce qui fait un coût global de 50.000 D où l intérêt de cibler les envois : un client qui a l habitude d acheter du matériel de pêche n a que faire d une pub qui porte sur les vêtements pour le golf (en général ) Dilemme : ne pas envoyer de prospectus versus en envoyer mais en ciblant les clients Idée : construire des groupes de clients. Chaque groupe sera soit destinataire d un prospectus ciblé soit on ne lui envoie pas du tout. 13

Regroupement (2) Les groupes (ou clusters) sont construits de sorte à Maximiser la similarité entre éléments d un même groupe Maximiser la dissimilarité entre groupes Les questions auxquelles le décideur est confronté : Si chaque individu forme à lui seul un groupe, alors la similarité intra-groupe est maximale mais la dissimilarité inter-groupes peut ne pas l être Si on ne forme qu un seul groupe, la dissimilarité intergroupes est maximale, mais la similarité intra-groupe peut ne pas l être des techniques qui permettent à l utilisateur de fixer le nombre k de groupes qu il veut construire 14

Regroupement 15

Regroupement (3) L information extraite se présente sous forme d un ensemble de groupes G={G 1, G 2,, G k } Toutes les techniques utilisent une mesure de similarité ou distance entre Individus (similarité intra) Groupes d individus (similarité inter) Les mesures dépendent du type des attributs décrivant les individus : Attributs numériques distance au sens mathématique Ex: o1=(1,2), o2=(0,3), dist(o1,o2)= 1-0 + 2-3 =2 Attributs binaires (oui ou non) coefficient de similarité Ex: o1=(oui, non, oui), o2=(oui, oui, non) dist(o1,o2)=1/3 Attributs catégoriels. Ex: taille : grand, petit, moyen 16

Prévision Versus Regroupement Dans la littérature, souvent l un est dénommé : Apprentissage supervisé et l autre Apprentissage non-supervisé Le regroupement pourrait être utilisé pour affecter une classe à un nouvel individu : la classe du groupe d individus auxquels il ressemble le plus La prévision pourrait être considérée comme du regroupement : Chaque valeur de l attribut particulier «Classe» correspond à un groupe 17

Autres types d information Séquences similaires : trouver les actions boursières qui évoluent d une manière similaire, trouver les internautes dont le comportement lors de la visite d un site marchand est similaire, Les exceptions : trouver les clients d une entreprise de téléphonie dont les factures ne ressemblent pas aux autres; travail à domicile, fraude 18

Conclusion Utiliser un système de datamining est intéressant quand on sait Quelles actions nous voulons entreprendre Quelles types d information nous devons rechercher Pour chaque type d information, il existe plusieurs techniques qui ne sont dans la plupart des cas, pas équivalentes mais complémentaires Pour bien exploiter les informations extraites, il est important de comprendre les techniques sous jacentes 19

Merci 20