Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane Canu Introduction au Data-Mining / 29
Data-Mining : Qu est-ce donc? Traduction : Fouille de données. Terme récent (995) représentant un mélange d idées et d outils provenant de la Statistique, Science de l information et l Informatique. A évolué vers le data science Machine Learning, Data-Mining Big Data (explosion des données) Formalismes de stockage et de traitement distribués des données (NoSQL, NewSQL, Hadoop, MapReduce...) Gilles Gasso, Stéphane Canu Introduction au Data-Mining 2 / 29
Data-Mining : Qu est-ce donc? Définition Le data-mining est un processus de découverte de règle, relations, corrélations et/ou dépendances à travers une grande quantité de données, grâce à des méthodes statistiques, mathématiques et de reconnaissances de formes. Définition 2 Le data-mining est un processus d extractions automatique d informations predictives à partir de grandes bases de données. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 3 / 29
Data-Mining : les raisons du développement Données Big Data : augmentation sans cesse de données générées Twitter : 50M de tweets /jour (=7 téraoctets) Facebook : 0 téraoctets /jour Youtube : 50h de vidéos uploadées /minute 2.9 million de mail /seconde Puissance de calcul Augmentation des ordinateurs (loi de Moore) Recours à du calcul massivement distribué Création de valeur ajoutée Interêt économique : du produit aux clients. Extraire de la connaissance à partir des big data Gilles Gasso, Stéphane Canu Introduction au Data-Mining 4 / 29
Exemples d applications Entreprise et Relation Clients : système de création de profils clients, ciblage de clients potentiels et nouveaux marchés Finances : minimisation de risques financiers Bioinformatique : Analyse du génome, mise au point de médicaments,... Internet : spam, e-commerce, détection d intrusion, recherche d informations etc... Sécurité Y? Gilles Gasso, Stéphane Canu Introduction au Data-Mining 5 / 29
Exemples d applications : E-commerce Dell Stocker les séquences de clicks des visiteurs, analyser les caractéristiques des acheteurs Faire du targeting lors de la visite d un client potentiel Y? Amazon Opportunité : la liste des achats des clients est stockée en mémoire ; les clients notent les produits! Comment tirer profit de ces données pour proposer des produits à un autre client? Solutions : technique dit de filtrage collaboratif pour regrouper les clients ayant les mêmes goûts. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 6 / 29
Exemples d applications : Analyse des risques Détection de fraudes pour les assurances Analyse des déclarations des assurés par un expert afin d identifier les cas de fraudes. Applications de méthodes statistiques pour identifier les déclarations fortement corrélées à la fraude. Prêt Bancaire Objectif des banques : réduire le risque des prêts bancaires. Créer un modèle à partir de caractérisques des clients pour discriminer les clients à risque des autres. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 7 / 29
Exemples d applications : Commerce Opinion mining Exemple : analyser l opinion des usagers sur les produits d une entreprise à travers les commentaires sur les réseaux sociaux et les blogs Gilles Gasso, Stéphane Canu Introduction au Data-Mining 8 / 29
Mise en oeuvre d un projet d un projet de DM Data Preprocessing Learn a Model Evaluation General Guidelines Collect data 2 Preprocess the data 3 Statistical analysis of the data 4 Identify the learning task 5 Design a model and the learning algorithm Y? 6 Check its generalization ability Gilles Gasso, Stéphane Canu Introduction au Data-Mining 9 / 29
Ensemble de données Données d un problème de DM Les informations sont des exemples avec des attributs On dispose généralement d un ensemble de N données Attributs Un attribut est un descripteur d une entité. On l appelle également variable, champs ou caratéristiques Exemple Un exemple est une entité caractérisant un objet et est constitué d attributs. synonymes : point, vecteur (souvent dans R d ) Gilles Gasso, Stéphane Canu Introduction au Data-Mining 0 / 29
Données : illustration Variables Points x citric acid residual sugar chlorides sulfur dioxide 0.9 0.076 2 0 2.6 0.098 25 3 0.04 2.3 0.092 5 Point x R 4 0.56.9 0.075 7 5 0.9 0.076 6 0.8 0.075 3 7 0.06.6 0.069 5 8 0.02 2 0.073 9 9 0.36 2.8 0.07 7 0 0.08.8 0.097 5 0. 0.095 25 Variable 3 : Chlorides 0.09 0.085 0.08 0.075 0.07 Points Moyenne des points 0.065.5 2 2.5 3 Variable 2 : Residual Sugar 20 5 0 0. 0.09 Variable 3 : Chlorides 0.08 0.07 0.06.6.8 2 2.2 2.4 2.6 Variable 2 : Residual Sugar Gilles Gasso, Stéphane Canu Introduction au Data-Mining / 29 Variable 4 : Sulfur 2.8
Type de données Capteurs variables quantitatives, qualitatives, ordinales Texte Chaîne de caractères Parole Séries temporelles Images données 2D Videos données 2D + temps Réseaux Graphes Flux Logs, coupons... Etiquettes information d évaluation Big Data (volume, vélocité, variété) Flot "continu" de données Pre-traitement des données (nettoyage, normalisation, codage...) Représentation : des données aux vecteurs Gilles Gasso, Stéphane Canu Introduction au Data-Mining 2 / 29
Données et Métriques Les algorithmes nécessitent une notion de similarité dans l espace X des données. La similarité est traduite par la notion de distance. distance euclidienne : x, z R d, on a d(x, z) = x z 2 = d j= (x j z j ) 2 = (x z) (x z) Euclidien Manhattan Mahalanobis distance de manhattan d(x, z) = x z = d j= (x j z j ) distance de mahalanobis d(x, z) = (x z) Σ (x z) Σ R d d : matrice carrée définie positive Gilles Gasso, Stéphane Canu Introduction au Data-Mining 3 / 29
Caractérisation des méthodes de Data-Mining Types d apprentissage Apprentissage supervisé Apprentissage non-supervisé Apprentissage semi-supervisé Gilles Gasso, Stéphane Canu Introduction au Data-Mining 4 / 29
Caractérisation des méthodes de Data-Mining Apprentissage supervisé Objectifs : à partir des données {(x i, y i ) X Y, i =, N}, estimer les dépendances entre X et Y. Exemple : estimer les liens entre habitudes alimentaires et risque d infarctus. x i est un patient décrit par d attributs concernant son régime et y i une catégorie (risque, pas risque). On parle d apprentissage supervisé car les y i permettent de guider le processus d estimation. Méthodes : Méthode du plus proche voisin, SVM, arbre de décision... Applications : détection de fraude, diagnostic médical... Gilles Gasso, Stéphane Canu Introduction au Data-Mining 5 / 29
Caractérisation des méthodes de Data-Mining Apprentissage non-supervisé Objectifs : seules les observations {x i X, i =, N} sont disponibles. On cherche à décrire comment les données sont organisées et en extraire des sous-ensemble homogènes. Exemple : catégoriser les clients d un supermarché. x i représente un individu à travers ses caractéristiques sociales et ses habitudes lors des courses Exemples de méthodes : Classification hierarchique, Carte de Kohonen, K-means, extractions de règles... Exemples d applications : identification de segments de marchés, catégorisation de documents similaires, Gilles Gasso, Stéphane Canu Introduction au Data-Mining 6 / 29
Caractérisation des méthodes de Data-Mining Apprentissage semi-supervisé Objectifs : parmi les observations, seulement un petit nombre ont un label i.e {(x, y ),, (x n, y n ), x n+,, N}. L objectif est le même que pour l apprentissage supervisé mais on aimerait tirer profit des observations non labelisées. Exemple : pour la discrimination de pages Web, le nombre d exemples peut être très grand mais leur associer un label est coûteux. Exemples de méthodes : méthodes bayesiennes, Séparateur à Vastes Marges, etc... Gilles Gasso, Stéphane Canu Introduction au Data-Mining 7 / 29
Apprentissage supervisé : les concepts Soit deux ensembles X et Y munis d une loi de probabilité jointe p(x, Y ). Objectifs : On cherche une fonction f : X Y qui à X associe f (X ) qui permet d estimer la valeur y associée à x. f appartient à un espace H appelé espace d hypothèses. Exemple de H : ensemble des fonctions polynomiales Gilles Gasso, Stéphane Canu Introduction au Data-Mining 8 / 29
Apprentissage supervisé : les concepts On introduit une notion de coût L(Y, f (X )) qui permet d évaluer la pertinence de la prédiction de f, et de pénaliser les erreurs. L objectif est donc de choisir la fonction f qui minimise R(f ) = E X,Y [L(Y, f (X ))] où R est appelé le risque moyen ou erreur de généralisation. Il est également noté EPE(f ) pour expected prediction error Gilles Gasso, Stéphane Canu Introduction au Data-Mining 9 / 29
Apprentissage supervisé : les concepts Exemples de fonction coût et de risque moyen associé. Coût quadratique (moindres carrés) L(Y, f (X )) = (Y f (X )) 2 R(f ) = E[(Y f (X )) 2 ] = (y f (x)) 2 p(x, y)dxdy Coût l (moindres valeurs absolues) L(Y, f (X )) = Y f (X ) R(f ) = E[ Y f (X )) ] = y f (x) p(x, y)dxdy Gilles Gasso, Stéphane Canu Introduction au Data-Mining 20 / 29
y Apprentissage supervisé : les concepts Régression On parle de régression quand Y est un sous-espace de R d. 0.5 0 Support Vector Machine Regression 0.5 Fonction de coût typique : quadratique (y f (x)) 2.5 0 0.5.5 2 2.5 3 3.5 4 4.5 5 x Gilles Gasso, Stéphane Canu Introduction au Data-Mining 2 / 29
0 Apprentissage supervisé : les concepts Discrimination si Y est un ensemble discret non-ordonné, (par exemple {, }), on parle de discrimination. 3 2 0 2 00 0 La fonction de coût la plus usitée est : Θ( yf (x)) où Θ est la fonction échelon. 3 3 2 0 2 3 0 Gilles Gasso, Stéphane Canu Introduction au Data-Mining 22 / 29
Apprentissage supervisé : les concepts En pratique, on a un ensemble de données {(x i, y i ) X Y} N i= appelé ensemble d apprentissage obtenu par échantillonnage indépendant de p(x, Y ) que l on ne connaît pas. On cherche une fonction f, appartenant à H qui minimise le risque empirique : R emp (f ) = N L(y i, f (x i )) N Le risque empirique ne permet pas d évaluer la pertinence d un modèle car il est possible de choisir f de sorte que le risque empirique soit nul mais que l erreur en généralisation soit élevée. On parle alors de sur-apprentissage i= Gilles Gasso, Stéphane Canu Introduction au Data-Mining 23 / 29
Illustration du sur-apprentissage Erreur de prediction Ensemble de Test Faible Ensemble d apprentissage Complexité du modèle Elevé Gilles Gasso, Stéphane Canu Introduction au Data-Mining 24 / 29
Sélection de modèles Problématique On cherche une fonction f qui minimise un risque empirique donné. On suppose que f appartient à une classe de fonctions paramétrées par α. Comment choisir α pour que f minimise le risque empirique et généralise bien? Exemple : On cherche un polynôme de degré α qui minimise un risque R emp (f α ) = N i= (y i f α (x i )) 2. Objectifs : proposer une méthode d estimation d un modèle afin de choisir (approximativement) le meilleur modèle appartenant à l espace hypothèses. 2 une fois le modèle choisi, calculer son erreur de généralisation. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 25 / 29
Sélection de modèles Cas idéal On est dans un cas où les données abondent. Dans ce cas, on sépare les données en 3 ensembles : données d apprentissage, données de validation et données de test. Le premier sert à construire un modèle, le deuxième à estimer l erreur de ce modèle. Le troisième ne sert qu une fois : à estimer l erreur en généralisation du modèle final. Cas usuel : On est pauvre en données. Utilisation de méthodes analytiques (AIC, BIC, etc...) ou de rééchantillonnage pour remplacer l étape de validation. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 26 / 29
Sélection de modèles : Validation Croisée Méthode d estimation de l erreur en généralisation d une fonction f par rééchantillonnage. Principe Séparer les N données en K ensembles de part égales. 2 Pour chaque k =,, K, apprendre un modèle en utilisant les K autres ensemble de données et évaluer le modèle sur la k-ième partie. 3 Moyenner les K estimations de l erreur obtenues pour avoir l erreur de validation croisée. K= K=2 K=3 K=4 K=5 APP APP TEST APP APP Gilles Gasso, Stéphane Canu Introduction au Data-Mining 27 / 29
Sélection de modèles : Validation Croisée (2) Détails : CV = K K N k N k k= i= L(y k i, f k (x k i )) où f k est le modèle f appris sur l ensemble des données sauf la k-ième partie. Propriétés : Si K = N, CV est approximativement un estimateur sans biais de l erreur en généralisation. L inconvénient est qu il faut apprendre N modèles. typiquement, on choisit K = 5 ou K = 0 pour un bon compromis entre le biais et la variance de l estimateur. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 28 / 29
Conclusions Pour bien mener un projet de DM Identifier et énoncer clairement les besoins. Créer ou obtenir des données représentatives du problème Identifier le contexte de l apprentissage Analyser et réduire la dimension des données Choisir un algorithme et/ou un espace d hypothèses. Choisir un modèle en appliquant l algorithme aux données prétraitées. Valider les performances de la méthode. Gilles Gasso, Stéphane Canu Introduction au Data-Mining 29 / 29