Introduction au Data-Mining



Documents pareils
Introduction au Data-Mining

Introduction au datamining

La classification automatique de données quantitatives

Apprentissage Automatique

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Enjeux mathématiques et Statistiques du Big Data

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Agenda de la présentation

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Identification de nouveaux membres dans des familles d'interleukines

Spécificités, Applications et Outils

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

5. Apprentissage pour le filtrage collaboratif

L apprentissage automatique

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Pourquoi l apprentissage?

Introduction Big Data

INF6304 Interfaces Intelligentes

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

4.2 Unités d enseignement du M1

BIG DATA et DONNéES SEO

Annexe 6. Notions d ordonnancement.

Programmes des classes préparatoires aux Grandes Ecoles

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Transformez vos données en opportunités. avec Microsoft Big Data

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Big Data et Graphes : Quelques pistes de recherche

Algorithmes d'apprentissage

Ne cherchez plus, soyez informés! Robert van Kommer

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Travaux pratiques avec RapidMiner

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Les technologies du Big Data

Quantification Scalaire et Prédictive

Les algorithmes de fouille de données

À PROPOS DE TALEND...

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Représentation des Nombres

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Surmonter les 5 défis opérationnels du Big Data

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

BIG DATA en Sciences et Industries de l Environnement

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

SÉRIE NOUVELLES ARCHITECTURES

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Big Data et Graphes : Quelques pistes de recherche

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Calculer avec Sage. Revision : 417 du 1 er juillet 2010


BIG Data et R: opportunités et perspectives

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Big Data On Line Analytics

TRAVAUX DE RECHERCHE DANS LE

I. Polynômes de Tchebychev

DATA ANALYTICS Des données aux connaissances et à la création de valeur

Laboratoire 4 Développement d un système intelligent

Fouille de données massives avec Hadoop

Publications, ressources, liens, logiciels,

Apprentissage statistique dans les graphes et les réseaux sociaux

Arbres binaires de décision

Big Data et Prévisions. Philippe Picard, le 24 juin Page 1

Big data* et marketing

Le potentiel et les défis du Big Data. Mardi 2 et Mercredi 3 Juillet 2013

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Accélérer l agilité de votre site de e-commerce. Cas client

Panorama des solutions analytiques existantes

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

PROFILAGE : UN DEFI POUR LA PROTECTION DES DONNEES PERSONNELLES Me Alain GROSJEAN Bonn & Schmitt

Big Data et Statistique Publique

Les datas = le fuel du 21ième sicècle

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Méthodes d apprentissage statistique «Machine Learning»

Table des matières. I Mise à niveau 11. Préface

We make your. Data Smart. Data Smart

Logiciel XLSTAT version rue Damrémont PARIS

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Anticiper et prédire les sinistres avec une approche Big Data

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE

Transcription:

Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane Canu Introduction au Data-Mining / 29

Data-Mining : Qu est-ce donc? Traduction : Fouille de données. Terme récent (995) représentant un mélange d idées et d outils provenant de la Statistique, Science de l information et l Informatique. A évolué vers le data science Machine Learning, Data-Mining Big Data (explosion des données) Formalismes de stockage et de traitement distribués des données (NoSQL, NewSQL, Hadoop, MapReduce...) Gilles Gasso, Stéphane Canu Introduction au Data-Mining 2 / 29

Data-Mining : Qu est-ce donc? Définition Le data-mining est un processus de découverte de règle, relations, corrélations et/ou dépendances à travers une grande quantité de données, grâce à des méthodes statistiques, mathématiques et de reconnaissances de formes. Définition 2 Le data-mining est un processus d extractions automatique d informations predictives à partir de grandes bases de données. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 3 / 29

Data-Mining : les raisons du développement Données Big Data : augmentation sans cesse de données générées Twitter : 50M de tweets /jour (=7 téraoctets) Facebook : 0 téraoctets /jour Youtube : 50h de vidéos uploadées /minute 2.9 million de mail /seconde Puissance de calcul Augmentation des ordinateurs (loi de Moore) Recours à du calcul massivement distribué Création de valeur ajoutée Interêt économique : du produit aux clients. Extraire de la connaissance à partir des big data Gilles Gasso, Stéphane Canu Introduction au Data-Mining 4 / 29

Exemples d applications Entreprise et Relation Clients : système de création de profils clients, ciblage de clients potentiels et nouveaux marchés Finances : minimisation de risques financiers Bioinformatique : Analyse du génome, mise au point de médicaments,... Internet : spam, e-commerce, détection d intrusion, recherche d informations etc... Sécurité Y? Gilles Gasso, Stéphane Canu Introduction au Data-Mining 5 / 29

Exemples d applications : E-commerce Dell Stocker les séquences de clicks des visiteurs, analyser les caractéristiques des acheteurs Faire du targeting lors de la visite d un client potentiel Y? Amazon Opportunité : la liste des achats des clients est stockée en mémoire ; les clients notent les produits! Comment tirer profit de ces données pour proposer des produits à un autre client? Solutions : technique dit de filtrage collaboratif pour regrouper les clients ayant les mêmes goûts. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 6 / 29

Exemples d applications : Analyse des risques Détection de fraudes pour les assurances Analyse des déclarations des assurés par un expert afin d identifier les cas de fraudes. Applications de méthodes statistiques pour identifier les déclarations fortement corrélées à la fraude. Prêt Bancaire Objectif des banques : réduire le risque des prêts bancaires. Créer un modèle à partir de caractérisques des clients pour discriminer les clients à risque des autres. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 7 / 29

Exemples d applications : Commerce Opinion mining Exemple : analyser l opinion des usagers sur les produits d une entreprise à travers les commentaires sur les réseaux sociaux et les blogs Gilles Gasso, Stéphane Canu Introduction au Data-Mining 8 / 29

Mise en oeuvre d un projet d un projet de DM Data Preprocessing Learn a Model Evaluation General Guidelines Collect data 2 Preprocess the data 3 Statistical analysis of the data 4 Identify the learning task 5 Design a model and the learning algorithm Y? 6 Check its generalization ability Gilles Gasso, Stéphane Canu Introduction au Data-Mining 9 / 29

Ensemble de données Données d un problème de DM Les informations sont des exemples avec des attributs On dispose généralement d un ensemble de N données Attributs Un attribut est un descripteur d une entité. On l appelle également variable, champs ou caratéristiques Exemple Un exemple est une entité caractérisant un objet et est constitué d attributs. synonymes : point, vecteur (souvent dans R d ) Gilles Gasso, Stéphane Canu Introduction au Data-Mining 0 / 29

Données : illustration Variables Points x citric acid residual sugar chlorides sulfur dioxide 0.9 0.076 2 0 2.6 0.098 25 3 0.04 2.3 0.092 5 Point x R 4 0.56.9 0.075 7 5 0.9 0.076 6 0.8 0.075 3 7 0.06.6 0.069 5 8 0.02 2 0.073 9 9 0.36 2.8 0.07 7 0 0.08.8 0.097 5 0. 0.095 25 Variable 3 : Chlorides 0.09 0.085 0.08 0.075 0.07 Points Moyenne des points 0.065.5 2 2.5 3 Variable 2 : Residual Sugar 20 5 0 0. 0.09 Variable 3 : Chlorides 0.08 0.07 0.06.6.8 2 2.2 2.4 2.6 Variable 2 : Residual Sugar Gilles Gasso, Stéphane Canu Introduction au Data-Mining / 29 Variable 4 : Sulfur 2.8

Type de données Capteurs variables quantitatives, qualitatives, ordinales Texte Chaîne de caractères Parole Séries temporelles Images données 2D Videos données 2D + temps Réseaux Graphes Flux Logs, coupons... Etiquettes information d évaluation Big Data (volume, vélocité, variété) Flot "continu" de données Pre-traitement des données (nettoyage, normalisation, codage...) Représentation : des données aux vecteurs Gilles Gasso, Stéphane Canu Introduction au Data-Mining 2 / 29

Données et Métriques Les algorithmes nécessitent une notion de similarité dans l espace X des données. La similarité est traduite par la notion de distance. distance euclidienne : x, z R d, on a d(x, z) = x z 2 = d j= (x j z j ) 2 = (x z) (x z) Euclidien Manhattan Mahalanobis distance de manhattan d(x, z) = x z = d j= (x j z j ) distance de mahalanobis d(x, z) = (x z) Σ (x z) Σ R d d : matrice carrée définie positive Gilles Gasso, Stéphane Canu Introduction au Data-Mining 3 / 29

Caractérisation des méthodes de Data-Mining Types d apprentissage Apprentissage supervisé Apprentissage non-supervisé Apprentissage semi-supervisé Gilles Gasso, Stéphane Canu Introduction au Data-Mining 4 / 29

Caractérisation des méthodes de Data-Mining Apprentissage supervisé Objectifs : à partir des données {(x i, y i ) X Y, i =, N}, estimer les dépendances entre X et Y. Exemple : estimer les liens entre habitudes alimentaires et risque d infarctus. x i est un patient décrit par d attributs concernant son régime et y i une catégorie (risque, pas risque). On parle d apprentissage supervisé car les y i permettent de guider le processus d estimation. Méthodes : Méthode du plus proche voisin, SVM, arbre de décision... Applications : détection de fraude, diagnostic médical... Gilles Gasso, Stéphane Canu Introduction au Data-Mining 5 / 29

Caractérisation des méthodes de Data-Mining Apprentissage non-supervisé Objectifs : seules les observations {x i X, i =, N} sont disponibles. On cherche à décrire comment les données sont organisées et en extraire des sous-ensemble homogènes. Exemple : catégoriser les clients d un supermarché. x i représente un individu à travers ses caractéristiques sociales et ses habitudes lors des courses Exemples de méthodes : Classification hierarchique, Carte de Kohonen, K-means, extractions de règles... Exemples d applications : identification de segments de marchés, catégorisation de documents similaires, Gilles Gasso, Stéphane Canu Introduction au Data-Mining 6 / 29

Caractérisation des méthodes de Data-Mining Apprentissage semi-supervisé Objectifs : parmi les observations, seulement un petit nombre ont un label i.e {(x, y ),, (x n, y n ), x n+,, N}. L objectif est le même que pour l apprentissage supervisé mais on aimerait tirer profit des observations non labelisées. Exemple : pour la discrimination de pages Web, le nombre d exemples peut être très grand mais leur associer un label est coûteux. Exemples de méthodes : méthodes bayesiennes, Séparateur à Vastes Marges, etc... Gilles Gasso, Stéphane Canu Introduction au Data-Mining 7 / 29

Apprentissage supervisé : les concepts Soit deux ensembles X et Y munis d une loi de probabilité jointe p(x, Y ). Objectifs : On cherche une fonction f : X Y qui à X associe f (X ) qui permet d estimer la valeur y associée à x. f appartient à un espace H appelé espace d hypothèses. Exemple de H : ensemble des fonctions polynomiales Gilles Gasso, Stéphane Canu Introduction au Data-Mining 8 / 29

Apprentissage supervisé : les concepts On introduit une notion de coût L(Y, f (X )) qui permet d évaluer la pertinence de la prédiction de f, et de pénaliser les erreurs. L objectif est donc de choisir la fonction f qui minimise R(f ) = E X,Y [L(Y, f (X ))] où R est appelé le risque moyen ou erreur de généralisation. Il est également noté EPE(f ) pour expected prediction error Gilles Gasso, Stéphane Canu Introduction au Data-Mining 9 / 29

Apprentissage supervisé : les concepts Exemples de fonction coût et de risque moyen associé. Coût quadratique (moindres carrés) L(Y, f (X )) = (Y f (X )) 2 R(f ) = E[(Y f (X )) 2 ] = (y f (x)) 2 p(x, y)dxdy Coût l (moindres valeurs absolues) L(Y, f (X )) = Y f (X ) R(f ) = E[ Y f (X )) ] = y f (x) p(x, y)dxdy Gilles Gasso, Stéphane Canu Introduction au Data-Mining 20 / 29

y Apprentissage supervisé : les concepts Régression On parle de régression quand Y est un sous-espace de R d. 0.5 0 Support Vector Machine Regression 0.5 Fonction de coût typique : quadratique (y f (x)) 2.5 0 0.5.5 2 2.5 3 3.5 4 4.5 5 x Gilles Gasso, Stéphane Canu Introduction au Data-Mining 2 / 29

0 Apprentissage supervisé : les concepts Discrimination si Y est un ensemble discret non-ordonné, (par exemple {, }), on parle de discrimination. 3 2 0 2 00 0 La fonction de coût la plus usitée est : Θ( yf (x)) où Θ est la fonction échelon. 3 3 2 0 2 3 0 Gilles Gasso, Stéphane Canu Introduction au Data-Mining 22 / 29

Apprentissage supervisé : les concepts En pratique, on a un ensemble de données {(x i, y i ) X Y} N i= appelé ensemble d apprentissage obtenu par échantillonnage indépendant de p(x, Y ) que l on ne connaît pas. On cherche une fonction f, appartenant à H qui minimise le risque empirique : R emp (f ) = N L(y i, f (x i )) N Le risque empirique ne permet pas d évaluer la pertinence d un modèle car il est possible de choisir f de sorte que le risque empirique soit nul mais que l erreur en généralisation soit élevée. On parle alors de sur-apprentissage i= Gilles Gasso, Stéphane Canu Introduction au Data-Mining 23 / 29

Illustration du sur-apprentissage Erreur de prediction Ensemble de Test Faible Ensemble d apprentissage Complexité du modèle Elevé Gilles Gasso, Stéphane Canu Introduction au Data-Mining 24 / 29

Sélection de modèles Problématique On cherche une fonction f qui minimise un risque empirique donné. On suppose que f appartient à une classe de fonctions paramétrées par α. Comment choisir α pour que f minimise le risque empirique et généralise bien? Exemple : On cherche un polynôme de degré α qui minimise un risque R emp (f α ) = N i= (y i f α (x i )) 2. Objectifs : proposer une méthode d estimation d un modèle afin de choisir (approximativement) le meilleur modèle appartenant à l espace hypothèses. 2 une fois le modèle choisi, calculer son erreur de généralisation. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 25 / 29

Sélection de modèles Cas idéal On est dans un cas où les données abondent. Dans ce cas, on sépare les données en 3 ensembles : données d apprentissage, données de validation et données de test. Le premier sert à construire un modèle, le deuxième à estimer l erreur de ce modèle. Le troisième ne sert qu une fois : à estimer l erreur en généralisation du modèle final. Cas usuel : On est pauvre en données. Utilisation de méthodes analytiques (AIC, BIC, etc...) ou de rééchantillonnage pour remplacer l étape de validation. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 26 / 29

Sélection de modèles : Validation Croisée Méthode d estimation de l erreur en généralisation d une fonction f par rééchantillonnage. Principe Séparer les N données en K ensembles de part égales. 2 Pour chaque k =,, K, apprendre un modèle en utilisant les K autres ensemble de données et évaluer le modèle sur la k-ième partie. 3 Moyenner les K estimations de l erreur obtenues pour avoir l erreur de validation croisée. K= K=2 K=3 K=4 K=5 APP APP TEST APP APP Gilles Gasso, Stéphane Canu Introduction au Data-Mining 27 / 29

Sélection de modèles : Validation Croisée (2) Détails : CV = K K N k N k k= i= L(y k i, f k (x k i )) où f k est le modèle f appris sur l ensemble des données sauf la k-ième partie. Propriétés : Si K = N, CV est approximativement un estimateur sans biais de l erreur en généralisation. L inconvénient est qu il faut apprendre N modèles. typiquement, on choisit K = 5 ou K = 0 pour un bon compromis entre le biais et la variance de l estimateur. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 28 / 29

Conclusions Pour bien mener un projet de DM Identifier et énoncer clairement les besoins. Créer ou obtenir des données représentatives du problème Identifier le contexte de l apprentissage Analyser et réduire la dimension des données Choisir un algorithme et/ou un espace d hypothèses. Choisir un modèle en appliquant l algorithme aux données prétraitées. Valider les performances de la méthode. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 29 / 29