Introduction au datamining



Documents pareils
Introduction au Data-Mining

Agenda de la présentation

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Introduction au Data-Mining

Apprentissage Automatique

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Analyse de grandes bases de données en santé

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Spécificités, Applications et Outils

La classification automatique de données quantitatives

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

données en connaissance et en actions?

INTRODUCTION AU DATA MINING

Big Data et Marketing : les competences attendues

Les clients puissance cube

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

Pourquoi l apprentissage?

Travailler avec les télécommunications

QU EST-CE QUE LE DECISIONNEL?

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Accélérer l agilité de votre site de e-commerce. Cas client

Débouchés professionnels

De la mesure à l analyse des risques

Principe et règles d audit

Méthodes d apprentissage statistique «Machine Learning»

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

IBM SPSS Direct Marketing

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Didier MOUNIEN Samantha MOINEAUX

Réseaux bayésiens. 3 e édition Patrick Naïm, Pierre-Henri Wuillemin, Philippe Leray, Olivier Pourret, Anna Becker

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Business Intelligence avec Excel, Power BI et Office 365

Introduction à la B.I. Avec SQL Server 2008

Coup de Projecteur sur les Réseaux de Neurones

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Modélisation aléatoire en fiabilité des logiciels

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

AXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Enjeux mathématiques et Statistiques du Big Data

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

Arbres binaires de décision

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining -

Business Intelligence

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Le scoring est-il la nouvelle révolution du microcrédit?

INF6304 Interfaces Intelligentes

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Résumé des communications des Intervenants

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

Une Démarche pour la sélection d outils de cartographie des processus métiers

Agrégation des portefeuilles de contrats d assurance vie

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

INTELLIGENCE MARKETING ETUDES DE MARCHE - DATA MINING - CONSEIL EN MARKETING - SYSTEMES D INFORMATION MARKETING

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

L apprentissage automatique

Le géomarketing - Page 1 sur 7

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Logiciel XLSTAT version rue Damrémont PARIS

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

L analyse de la gestion de la clientèle

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Chapitre 9 : Informatique décisionnelle

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Introduction Big Data

BUSINESS INTELLIGENCE

Chaînes de Markov au lycée

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Les Entrepôts de Données

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

THOT - Extraction de données et de schémas d un SGBD

Classification non supervisée

Base de données clients outil de base du CRM

ANALYSE DU RISQUE DE CRÉDIT

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Ouvrage conçu et coordonné par HERVÉ HUTIN TOUTE LA FINANCE. Éditions d Organisation, 1998, 2002, 2005 ISBN :

L analyse situationnelle

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

L évaluation de la performance de la communication media

Données des SIM. Données signalétiques (nom, adresse), Historique d achat, Réactions passées aux actions de promotion

ICHEC MANAGEMENT SCHOOL

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Coheris est agréé organisme de formation, n d agrément

We make your. Data Smart. Data Smart

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Transcription:

Introduction au datamining Patrick Naïm janvier 2005

Définition

Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des conclusions inexactes Exemple célèbre : parapyschologie Quelle est la définition du datamining? Procédons de façon inductive

Définitions du datamining «Le datamining est le procédé qui consiste à découvrir des corrélations nouvelles et utiles, des régularités et des tendances en explorant de grands volumes de données stockées à l aide de techniques statistiques, mathématiques, ou issues de la reconnaissance de formes.» (Gartner Group) «Ensemble de techniques permettant d extraire des modèles d une base de données historisées par raisonnement statistique (déduction on induction approchées) afin de décrire le comportement actuel et/ou de prédire le comportement futur d un procédé.» (Georges Gardarin, PRISM) «Le datamining est l extraction d informations de grandes bases de données. Il s agit du processus de présentation automatique de règles à des opérateurs qualifiés, pour examen. Ici l humain joue un rôle essentiel car lui seul peut décider de l intérêt d une règle pour l entreprise» (IBM) «Le datamining est un processus d analyse fine et intelligente des données détaillées, interactif et itératif, permettant aux managers d activités utilisant ce processus de prendre des décisions et de mettre en place des actions sur mesure dans l intérêt de l activité dont ils ont la charge et de l entreprise pour laquelle ils travaillent» (Michel Jambu, CNET, France Telecom) «[Le datamining] est le processus non automatique de recherche dans les données de régularités a priori inconnues, stables, utiles, et interprétables» [1](Fayyad, Piatetsky-Shapiro & Smyth,KDD) [1] [Datamining is] the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data

Exemples d applications Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB)

Segmentation Regrouper les individus en groupes homogènes Classification des objets célestes Identifier des comportements d achat «types» 12 12 10 10 ARTICLES 8 6 4 ARTICLES 8 6 4 2 2 0 0 5 10 15 TEMPS 0 0 5 10 15 TEMPS

Association Identifier les proximités entre caractéristiques observées Achats croisés de couches et de bière Détection de fraudes sur les marchés (COB)

Classification Expliquer ou prévoir une caractéristique (qualitative) à partir d autres Détection de fraude sur carte bancaire Localisation de gènes Réduction de coûts des campagnes de mailing Sous-entendus Relation explicite Y=F(X) Prévoir X(t), et Y(t+1) Incertitude Y=F(X)+ε

Estimation Expliquer ou prévoir une caractéristique (quantitative) à partir d autres Prévision sur les marchés boursiers Prévision de consommation électrique Estimation de la consommation d un client

Représentation des données Transformation des données pour en avoir une vision plus synthétique Opérations mathématiques explicites Moyenne des consommations par mois Opérations mathématiques implicites Analyse en composantes principales Visualisation 2D, 3D, réalité virtuelle

Caractérisation des applications Organiser et synthétiser Représentation Segmentation Association Modéliser et prévoir Classification Estimation Modélisation descriptive Modélisation prédictive

Les problèmes traités par le datamining Datamining Modélisation descriptive Modélisation prédictive Représentation Segmentation Association Classification Estimation

La démarche du datamining La connaissance est dans les données C est la démarche de la science expérimentale : modélisation empirique Cette démarche suppose la stabilité des phénomènes : existence de lois Les problèmes portent le plus souvent issues d usages humains : les comportements sont instables Le besoin existe surtout dans les phases d instabilité!!

Pourquoi utilise-t-on le datamining? En général, pour fonder une décision économique : Détection de fraude sur carte bancaire Achats croisés de couches et de bière Classification des objets célestes Localisation de gènes Réduction de coûts des campagnes de mailing Prévision sur les marchés boursiers Détection de fraudes sur les marchés (COB) La qualité de la décision est évaluée a posteriori

Qualité d une décision Faits A priori : rationnelle Risque Décision Rentabilité? A posteriori : bonne?

Notre définition du datamining Dans le cadre d une mission donnée, analyser les données détaillées pertinentes dont on dispose pour en déduire les actions les plus rationnelles, c est-à-dire celles dont la rentabilité sera probablement la meilleure.

Motivations

Secteurs et applications Télécommunications Banque, Finance, Assurances Grande distribution, VPC, ecommerce Industrie Tourisme, Loisirs Santé, Génétique Industrie pharmaceutique Fidélisation clientèle (churn) Cross-selling, up-selling Détection de fraudes Marketing direct Sécurité etc.

Pourquoi le datamining aujourd hui? Environnement technique Plus de données disponibles (puissance des ordinateurs) Développement de l internet Environnement économique Concurrence croissante (dérèglementation des télécommunications) Personnalisation : développement du marketing 1-to-1

Cadre théorique

La démarche scientifique Deux cadres mathématiques principaux Géométrie Probabilités Ces deux cadres théoriques sont communs avec l analyse de données

Cadre géométrique Principe Les données sont représentées dans un espace muni d une métrique Modélisation descriptive Les données sont regroupées en fonction de leur proximité Les conclusions sont tirées par l observateur, sous sa responsabilité Modélisation prédictive Les nouvelles situations sont identifiées aux situations passées les plus proches Outils mathématiques Espaces vectoriels Distance euclidienne Inertie Distances généralisées (dans d autres espaces)

Cadre probabiliste Principe Les données sont supposées issues d une distribution jointe non observée La distribution est estimée à partir des données Modélisation descriptive Les données sont résumées par la distribution estimée (dépendances et indépendances) Modélisation prédictive Les conséquences de nouvelles situations sont estimées en probabilité (P(Y )) Outils mathématiques Probabilités Théorie de l estimation

Cadre théorique du datamining

Les techniques utilisées

Techniques utilisées en datamining Plusieurs sources Analyse de données Probabilités / statistiques Théorie de l information Intelligence artificielle Base de données Visualisation

Techniques utilisées AD Analyse en composantes principales Analyse discriminante Classification ascendante hiérarchique Intelligence artificielle Réseaux neuronaux, réseaux bayésiens Probabilités, théorie de l information Arbres de décision, réseaux bayésiens Autres Règles d association Filtrage collaboratif

Techniques d analyse des données Analyse en Composantes Principales Utilisée pour le prétraitement des données Peut être couplée avec des techniques de segmentation et/ou classification Analyse discriminante Utilisée pour le prétraitement des données Utilisée comme technique de classification

Réseaux neuronaux Modélisation du fonctionnement du système nerveux (années 1950) Modèle du neurone Modèle du réseau Modèle de l apprentissage En pratique Technique de régression non linéaire Apprentissage = Minimisation d erreur

Réseaux bayésiens Gestion de l incertitude dans les systèmes experts (diagnostic médical) Couplage Théorie des graphes Théorie des probabilités (Bayes) Utilisation Classification = Inférence P(Y X) Modélisation descriptive = Apprentissage P(M D)

Arbres de décision La technique la plus classique du datamining Basée sur la théorie de l information Minimisation itérative de l entropie d un ensemble de données Avantages Les modèles obtenus sont représentés sous forme de règles : Si Age>30 et Salaire>2000 alors Classe = 1 Très utile en marketing

Filtrage collaboratif Hit parade FILTRAGE COLLABORATIF Individus qui ont vu les mêmes programmes Filtre AUTRE FILTRAGE Individus qui ont le même profil (âge) Hit parade

Pratique du datamining

Etapes du processus de datamining Collecte des données Nettoyage des données Représentation des données Modélisation Evaluation Suivi et mesure de la dérive

1 - Collecte des données Avec la suivante, l étape la plus longue du processus : Sources et formats hétérogènes Jointure Volume Répétabilité La valeur ajoutée est dans l exhaustivité exemple : réclamations clients

2 Nettoyage des données Supprimer les valeurs aberrantes Connaissance a priori (Age = 220) Ecrêtage statistique Traiter les valeurs manquantes : Moyenne, moyenne conditionnelle

3- Représentation des données Objectif : Obtenir un tableau : Une ligne par observation, Une colonne par variable Difficultés Variables Agrégation (exemple : nombreux produits) Données temporelles Sélection Individus Représentativité

4- Modélisation Segmentation des bases Apprentissage, Test, Validation Choix de la technique Fabrication du modèle En général 20% seulement du temps total

5 - Evaluation du modèle Performances Précision (base d apprentissage) Stabilité (base de validation) Critère économique (sur les deux bases) Comparaison avec un modèle de référence

6 - Suivi et mesure de la dérive Sources d erreur Les modèles réalisés ne sont pas parfaits (univers incomplets) Les relations changent dans le temps Comment décider d où vient l erreur? Définition de critères objectifs pour réviser le modèle

Plan des séances suivantes S2 : Rappels mathématiques Cadre géométrique Cadre probabiliste Mesures de performance S3 : Segmentation K-means, CAH, Cartes topologiques S4 : Association Market basket analysis, filtrage collaboratif, réseaux bayésiens S5 : Classification Arbres de décision, réseaux bayésiens S6 : Estimation Réseaux neuronaux