Introduction au Data-Mining

Documents pareils
Introduction au Data-Mining

Introduction au datamining

La classification automatique de données quantitatives

Apprentissage Automatique

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Pourquoi l apprentissage?

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Agenda de la présentation

Analyse de grandes bases de données en santé

Algorithmes d'apprentissage

L apprentissage automatique

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

5. Apprentissage pour le filtrage collaboratif

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Les algorithmes de fouille de données

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Enjeux mathématiques et Statistiques du Big Data

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Laboratoire 4 Développement d un système intelligent

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Les algorithmes de base du graphisme

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Travailler avec les télécommunications

Cours d Analyse. Fonctions de plusieurs variables

QU EST-CE QUE LE DECISIONNEL?

Spécificités, Applications et Outils

Traitement bas-niveau

Les dessous des moteurs de recommandation

données en connaissance et en actions?

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Identification de nouveaux membres dans des familles d'interleukines

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Coup de Projecteur sur les Réseaux de Neurones

Arbres binaires de décision

Programmes des classes préparatoires aux Grandes Ecoles

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Classification non supervisée

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

Évaluation et implémentation des langages

Introduction à la B.I. Avec SQL Server 2008

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

4.2 Unités d enseignement du M1

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Méthodes d apprentissage statistique «Machine Learning»

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

INF6304 Interfaces Intelligentes

Métriques de performance pour les algorithmes et programmes parallèles

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Représentation des Nombres

Quantification Scalaire et Prédictive

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Mesure agnostique de la qualité des images.

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

Continuité d une fonction de plusieurs variables

Big Data et Graphes : Quelques pistes de recherche

Chapitre 9 : Informatique décisionnelle

Agrégation des portefeuilles de contrats d assurance vie

Accélérer l agilité de votre site de e-commerce. Cas client

Big Data et Graphes : Quelques pistes de recherche

Les apports de l informatique. Aux autres disciplines

Gestion de la Relation Client (GRC)

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

I. Polynômes de Tchebychev

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Cybermarché et analyse comportementale

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Modélisation aléatoire en fiabilité des logiciels

Travaux pratiques avec RapidMiner

Une Démarche pour la sélection d outils de cartographie des processus métiers

2.0 Interprétation des cotes d évaluation des risques relatifs aux produits

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Robert Guichet. Conférence DERBI Juin 2008

ANALYSE STATISTIQUE PRÉDICTIVE

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining -

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Toute la puissance de DoYouBuzz pour votre école. Présentation de DoYouBuzz Campus

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Apprentissage statistique dans les graphes et les réseaux sociaux

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

Systèmes d information et bases de données (niveau 1)

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Base de données clients outil de base du CRM

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Théorèmes de Point Fixe et Applications 1

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

Transcription:

Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25

Data-Mining : Kèkecé? Traduction : Fouille de données. Terme récent (1995) représentant un mélange d idées et d outils provenant de la Statistique, l Intelligence Artificielle et l Informatique. La définition exacte reste peu claire et les terminologies associées au Data-Mining sont encore floues. Une définition suivant un critère égocentré : Le data-mining est un processus de découverte de règle, relations, corrélations et/ou dépendances à travers une grande quantité de données, grâce à des méthodes statistiques, mathématiques et de reconnaissances de formes. Autres définitions : Le data-mining est un processus d extractions automatique d informations predictives à partir de grandes bases de données. Introduction au Data-Mining p. 2/25

Data-Mining : les raisons du développement pourquoi ca s est développé? Interêt économique : du produit aux clients. Technologie de l information : faible coût de stockage de données, saisie automatique de transaction (code bar, click, données de localisation GPS, internet) Augmentation de la puissance de calculs des ordinateurs (loi de Moore) Extraire de la connaissance à partir de grandes bases de données devient possible Introduction au Data-Mining p. 3/25

Exemples d applications Entreprise et Relation Clients : système de création de profils clients, ciblage de clients potentiels et nouveaux marchés Finances : minimisation de risque financiers Bioinformatique : Analyse du génome, mise au point de médicaments,... Internet : spam, e-commerce, détection d intrusion etc... Sécurité Introduction au Data-Mining p. 4/25

Exemples d applications : E-commerce Dell Problème : 50% des clients de Dell achètent leurs machines à travers le site Web. Mais seulement 0.5% des visiteurs du site deviennent clients. Solution : Stocker les séquences de clicks des visiteurs, analyser les caractéristiques des acheteurs et lors de la visite d un client potentiel, adapter le contenu du site pour maximiser la probabilité d un achat. Amazon Opportunité : la liste des achats des clients est stockée en mémoire et par ailleurs, les utilisateurs du site notent les produits! Comment tirer profit des choix d un utilisateur pour proposer des produits à un autre client? Solutions : technique dit de filtrage collaboratif permettant de regrouper des clients ayant les mêmes goûts Introduction au Data-Mining p. 5/25

Exemples d applications : Analyse des risques Détection de fraudes pour les assurances Analyse des déclarations des assurés par un expert afin d identifier les cas de fraudes. Extraction de caractéristiques à partir de ces déclarations (type d accident, de blessures, etc...) Applications de méthodes statistiques pour identifier les caractéristiques des déclarations fortement corrélées à la fraude. Prêt Bancaire Objectif des banques : réduire le risque des prêts bancaires. Créer un modèle à partir de caractérisques des clients pour discriminer les clients à risque des autres. Introduction au Data-Mining p. 6/25

Exemples d applications : Commerce Organisation de rayonnage Objectifs : Identifier les produits que les gens sont susceptibles d acheter conjointement afin d organiser les rayonnages Données : Code-Barre des produits. Méthodes : Extractions de règles Exemples : résultats logiques : les boissons alcoolisées et les biscuits apéritifs sont souvent proches. resultats étranges : dans une étude américaine, la vente de bière est plus importante si le rayon des couches n est pas trop loin, et si sur le chemin il y a des chips, cela permet d augmenter la vente des 3 produits. Introduction au Data-Mining p. 7/25

Mise en oeuvre d un projet d un projet de DM 1. Comprendre et analyser les objectifs de l application 2. Créer une base de données pour la mise au point de l application. 3. Prétraitement et nettoyage des données 4. Analyse statistique des données (réduction de la dimension, projection, etc...) 5. Identifier le type de problèmes ( discrimination, clustering, etc...) et choisir un algorithme. 6. Evaluer les performances de l algorithme. 7. Réitérer les étapes précédentes si necessaire. 8. Déployer l application. Objectifs du cours : Etude des méthodes pour les étapes 4 à 6 Introduction au Data-Mining p. 8/25

Caractérisation des méthodes de Data-Mining Types d apprentissage Apprentissage supervisé Apprentissage non-supervisé Apprentissage semi-supervisé Introduction au Data-Mining p. 9/25

Caractérisation des méthodes de Data-Mining Apprentissage supervisé Objectifs : à partir d un ensemble d observations {x 1,, x n } X d et de mesures {y i } Y, on cherche à estimer les dépendances entre l ensemble X et Y. Exemple : on cherche à estimer les liens entre les habitudes alimentaires et le risque d infarctus. x i est un patient décrit par d caractéristiques concernant son régime et y i une catégorie (risque, pas risque). On parle d apprentissage supervisé car les y i permettent de guider le processus d estimation Exemples de méthodes : Méthode du plus proche voisin, réseaux de neurones, Séparateurs à Vastes Marges, CART etc.. Exemples d applications : détection de fraude, marketing teléphonique, changement d opérateurs teléphonique etc... Introduction au Data-Mining p. 10/25

Caractérisation des méthodes de Data-Mining Apprentissage non-supervisé Objectifs : Comme seules les observations {x 1,, x n } X d sont disponibles, l objectif est de décrire comment les données sont organisées et d en extraire des sous-ensemble homogènes. Exemple : On cherche à étudier le panier de la mènagère dans une certaine zone démographique en fonction de certains critères sociaux. x représente un individu à travers ses caractéristiques sociales et ses habitudes lors des courses Exemples de méthodes : Classification hierarchique, Carte de Kohonen, K-means, extractions de règles... Exemples d applications : identification de segments de marchés, identification de document similaires, Introduction au Data-Mining p. 11/25

Caractérisation des méthodes de Data-Mining Apprentissage semi-supervisé Objectifs : parmi les observations {x 1,, x n } X d, seulement un petit nombre d entre elles ont un label {y i }. L objectif est le même que pour l apprentissage supervisé mais on aimerait tirer profit des observations non labelisées. Exemple : pour la discrimination de pages Web, le nombre d exemples peut être très grand mais leur associer un label est coûteux. Exemples de méthodes : méthodes bayesiennes, Séparateur à Vastes Marges, etc... Introduction au Data-Mining p. 12/25

Ensemble de données Dans un problème de Data-Mining, les informations caractérisant une étude (un client pour un problème de e-commerce ou un déclaration dans le cas d un détection de fraudes) sont présentées sous la forme d attributs et d exemples. Attributs Un attribut est un descripteur d une entité. On l appele également variable, champs, caratéristiques ou observations Exemple Un exemple est une entité caractérisant un objet et est donc constitué d attributs. synonymes : point, vecteur (surtout si les exemples sont dans R n ) Introduction au Data-Mining p. 13/25

Type de données Types numérique continue : la valeur de la variable peut prendre une valeur dans R (par exemple : le montant du compte en banques de B. Spears). numérique discrète : la valeur de la variable appartient à Z ou N (par exemple : l age du capitaine) catégorie : avec ou sans relation d ordre (par exemple : { rouge, vert, bleu }). binaire Chaînes de caractères (par exemple : un texte) Arbre : (par exemple Page XML) Données structurées : graphe, enregistrement Introduction au Data-Mining p. 14/25

Données et Métriques Que ce soit dans le cadre d un problème d apprentissage supervisé ou non supervisé, la plupart des algorithmes nécessite une notion de similarité dans l espace X des données. La similarité est traduite par la notion de distance. distance euclidienne : x, x R d, on a d(x, x ) = x x d l2 = i=1 (x i x i )2 = (x x ) t (x x ) Euclidien Manhattan Mahalanobis distance de manhattan d(x, x ) = x x l1 = (x i x i ) d i=1 distance de mahalanobis d(x, x ) = (x x ) t Σ 1 (x x ) La notion de similarité peut être étendue à d autres types de données. Introduction au Data-Mining p. 15/25

Apprentissage supervisé : les concepts Supposons que l on a deux ensembles X et Y munis d une loi de probabilité jointe p(x, Y ). On cherche une fonction f : X Y qui a X associe f(x) qui permet d estimer la valeur y associée à x. f appartient à un espace H appelé espace d hypothèses. Introduction au Data-Mining p. 16/25

Apprentissage supervisé : les concepts On introduit une notion de coût L(Y, f(x)) qui permet d évaluer la pertinence de la prédiction de f, et de pénaliser les erreurs. L objectif est donc de choisir f telle que f minimise R(f) = E X,Y [L(Y, f(x))] où R est appelé le risque moyen ou erreur de généralisation. Il est également noté EP E(f) pour expected prediction error Exemple de fonction coût et de risque moyen associé. L(Y, f(x)) = (Y f(x)) 2 L(Y, f(x)) = Y f(x) R(f) = E[(Y f(x)) 2 ] = (y f(x)) 2 p(x, y)dxdy R(f) = E[ Y f(x)) ] = y f(x) p(x, y)dxdy Introduction au Data-Mining p. 17/25

1 Apprentissage supervisé : les concepts (2) Regression On parle de régression quand Y est un sous-espace de R d. Les fonctions de coût typique sont (y f(x)) 2 et y f(x) y 1 0.5 0 0.5 1 Support Vector Machine Regression 1.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 x Discrimination si Y est un ensemble discret non-ordonné, (par exemple { 1, 1}), on parle de discrimination. La fonction de coût la plus usitée est : Θ( yf(x)) où Θ est la fonction échelon. 3 2 1 0 1 2 3 0 1 1 1 00 1 1 3 2 1 0 1 2 3 1 1 1 0 0 1 1 Introduction au Data-Mining p. 18/25

Apprentissage supervisé : les concepts (3) En pratique, on a un ensemble de données appelé ensemble d apprentissage obtenu par échantillonage indépendant de p(x, Y ) que l on ne connaît pas. On cherche une fonction f, appartenant à H qui minimise le risque empirique : R emp (f) = 1 l L(y i, f(x i )) l Le risque empirique ne permet pas d évaluer la pertinence d un modèle car il est possible de choisir f de sorte que le risque empirique soit nul mais que l erreur en généralisation soit élevée. On parle alors de sur-apprentissage i=1 Introduction au Data-Mining p. 19/25

Illustration du sur-apprentissage Erreur de prediction Ensemble de Test Faible Ensemble d apprentissage Complexité du modèle Elevé Introduction au Data-Mining p. 20/25

Sélection de modèles Problèmatique : On cherche une fonction f qui minimise un risque empirique donné. On suppose que f appartient à une classe de fonctions paramétrées par α. Comment choisir α pour que f minimise le risque empirique et généralise bien? Exemple : On cherche un polynôme de degré α qui minimise un risque R emp (f α ) = l i=1 (y i f α (x i )) 2. Objectifs : 1. proposer une méthode d estimation d un modèle afin de choisir (approximativement) le meilleur modèle appartenant à l espace hypothèses. 2. une fois le modèle choisi, calculer son erreur de généralisation. Introduction au Data-Mining p. 21/25

Sélection de modèles Cas idéal : On est dans un cas où les données abondent. Dans ce cas, on sépare les données en 3 ensembles : données d apprentissage, données de validation et données de test. Le premier sert à construire un modèle, le deuxième à estimer l erreur de ce modèle. Le troisième ne sert qu une fois : à estimer l erreur en généralisation du modèle final. Cas usuel : On est pauvre en données. Utilisation de méthodes analytiques (AIC, BIC, etc...) ou de rééchantillonage pour remplacer l étape de validation. Introduction au Data-Mining p. 22/25

Sélection de modèles : Validation Croisée Méthode d estimation de l erreur en généralisation d une fonction f par rééchantillonage. Principe 1. Séparer les données en K ensembles de part égales. 2. Pour chaque K, apprendre un modèle en utilisant les K 1 autres ensemble de données et évaluer le modèle sur la K-ième partie. 3. Moyenner les K estimations de l erreur obtenues pour avoir l erreur de validation croisée. K=1 K=2 K=3 K=4 K=5 APP APP TEST APP APP Introduction au Data-Mining p. 23/25

Sélection de modèles : Validation Croisée (2) Détails : CV = 1 K K k=1 1 N k N k i=1 L(y k i, f k (x k i )) où f k est le modèle f appris sur l ensemble des données sauf la k-ième partie. Propriétés : Si K = l, CV est approximativement un estimateur sans biais de l erreur en généralisation. L inconvénient est qu il faut apprendre l 1 modèle. typiquement, on choisit K = 5 ou K = 10 pour un bon compromis entre le biais et la variance de l estimateur. Introduction au Data-Mining p. 24/25

Conclusions Pour bien mener un projet de DM Identifier et énoncer clairement les besoins. Créer ou obtenir des données représentatives du problème Identifier le contexte de l apprentissage Analyser et réduire la dimension des données Choisir un algorithme et/ou un espace d hypothèses. Choisir un modèle en appliquant l algorithme aux données prétraitées. Valider les performances de la méthode. Introduction au Data-Mining p. 25/25