Fouille de données. Approches supervisées

Documents pareils
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Introduction au Data-Mining

INF6304 Interfaces Intelligentes

Arbres binaires de décision

Algorithmes d'apprentissage

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Laboratoire 4 Développement d un système intelligent

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction au Data-Mining

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Méthodes d apprentissage statistique «Machine Learning»

La classification automatique de données quantitatives

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

données en connaissance et en actions?

Sélection de Caractéristiques pour le Filtrage de Spams

Programmation linéaire

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Résolution d équations non linéaires

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Ordonnancement temps réel

Echantillonnage Non uniforme

Le modèle de Black et Scholes

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Apprentissage symbolique et statistique à l ère du mariage pour tous

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Création intuitive des éléments d un paysage

1 Modélisation d être mauvais payeur

Coup de Projecteur sur les Réseaux de Neurones

Apprentissage Automatique

Les algorithmes de base du graphisme

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Quantification Scalaire et Prédictive

Formation continue. Ensae-Ensai Formation Continue (Cepe)

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Théorie et codage de l information

Apprentissage statistique dans les graphes et les réseaux sociaux

4.2 Unités d enseignement du M1

Identification de nouveaux membres dans des familles d'interleukines

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

CHAPITRE 5. Stratégies Mixtes

Méthodologie d'évaluation des filtres anti-spam

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

choisir H 1 quand H 0 est vraie - fausse alarme

Resolution limit in community detection

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Nombres premiers. Comment reconnaître un nombre premier? Mais...

Méthodologie d'évaluation des filtres anti-spam

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

Master Modélisation Aléatoire Paris VII, Cours Méthodes de Monte Carlo en nance et C++, TP n 2.

Projet de Traitement du Signal Segmentation d images SAR

Continuité et dérivabilité d une fonction

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Problèmes arithmétiques issus de la cryptographie reposant sur les réseaux

Résolution de systèmes linéaires par des méthodes directes

I- Définitions des signaux.

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique

ANALYSE STATISTIQUE PRÉDICTIVE

Logiciel Libre Cours 3 Fondements: Génie Logiciel

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Principe d optimisation. Optimisation technico-économique. Coût. Isolation thermique. Isolation optimale

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

FIMA, 7 juillet 2005


Les algorithmes de fouille de données

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Pourquoi l apprentissage?

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Validation probabiliste d un Système de Prévision d Ensemble

Chapitre 2 Le problème de l unicité des solutions

Figure 3.1- Lancement du Gambit

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Annexe 6. Notions d ordonnancement.

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Transformations nucléaires

Quantification et hiérarchisation des incertitudes dans un processus de simulation numérique

Optimisation Discrète

Transcription:

Fouille de données Approches supervisées 1

Plan du cours 1. Le pré-traitement des données 2. Méthodes non supervisées 3. Méthodes supervisées 4. Méthodes semi-supervisées 5. Fouille de données Web 2

Approches supervisées 3

Exemple d application Société de crédit Pour chaque client qui veut emprunter : - Age - Statut marital - Salaire annuel - Dettes contractées - Faut-il accorder le crédit? 4

Apprentissage supervisé - On apprend des expériences passées - Un ordinateur n a pas d expérience - Il apprend à partir des données - Objectif: apprendre une fonction objectif pour prédire la valeur d une classe - Plusieurs noms possibles: classification, apprentissage supervisé, machine learning 5

Un processus en deux étapes 1. Apprentissage du modèle sur un jeu de données d apprentissage X Y Z Classe A C E 1 B D E 2 A C E 1 A D F 2 Données d apprentissage Modèle 2. Test du modèle sur un jeu de données test X Y Z Classe B D E? A C F? A D E? B D F? Données de test Modèle 6 X Y Z Classe prédite B D E 2 A C F 1 A D E 1 B D F 2 Prédiction

Hypothèse fondamentale Hypothèse Distribution des classes identique entre le jeu d apprentissage et le jeu de test Remarques - Ce n est jamais vraiment le cas en pratique - Si la distribution est vraiment différente alors la classification sera de mauvaise qualité - Le jeu d apprentissage doit être suffisamment représentatif du jeu de test 7

Jeu de données Choix des jeux de données de test et d apprentissage Principes Soit le jeu de données. On note le jeu d apprentissage et le jeu de test. On a : - - Objectif - Etre représentatif de l ensemble du jeu de donnée - Eviter l overfitting (sur-apprentissage) 8

Principes Jeu de données Validation simple Découpe du jeu de données en 2 : apprentissage et test A appliquer lorsque le jeu de données est large Répartition courante : - 50 % apprentissage - 50% test - 2/3 apprentissage - 1/3 test Tirage aléatoire ou en fonction de la temporalité de la donnée = 9

Jeu de données Tirage multiple aléatoire Principes Applicable si le jeu de données est petit Application n fois de la validation simple Obtention de n indicateurs de performance Efficacité moyenne = la moyenne des n indicateurs de performance = = 10

Jeu de données Validation croisée Principes Découpe du jeu de données en k (5 ou 10 généralement) parties On apprend sur k-1 parties et on teste sur la k ème partie Processus répété k fois (chaque partie sert de jeu de données de test) Calcul de l efficacité globale identique au tirage multiple aléatoire Apprentissage Test Round 1 Round 2 Round 3 Round 4 11

Evaluation des méthodes - Efficacité de la classification - Temps de calcul - Passage à l échelle: - Interprétabilité - Compacité 12

Mesures Efficacité n est qu une mesure Erreur = 1 - efficacité Pas toujours valide sur jeux de données déséquilibrés - Fouille de texte - Détection d intrusion - Détection de fraude Communément : - Classe d intérêt : classe positive - Autre classe : classe négative 13

Précision et rappel - Très utilisé en recherche d information - Utilisation d une matrice de contingence Classe prédite + - Classe réelle + VP FN - FP VN 14

Précision et rappel Precision Classe prédite Rappel F-mesure Classe réelle + - + VP FN - FP VN 15

Précision et rappel Precision Classe prédite Rappel Classe réelle + - + 1 99-0 1000 F-mesure Remarques 1. Précision et rappel ne s occupent que de la classe positive 2. Peut facilement être étendu au cas où nbclasses > 2 16

Courbe ROC Receiver Operating Characteristic - Communément utilisé pour évaluer les performances d un classifieur bi-classe - Nécessité d ordonner les instances selon la vraisemblance d appartenir à la classe positive Ratio Vrai Positif (RVP) Sensitivité Ratio Faux Positif (RFP) 1 - spécificité 17

Courbe ROC Receiver Operating Characteristic Exploitation de la courbe - Calcul de l aire sous la courbe (AUC) - AUC = 1 équivaut à un tirage aléatoire - AUC = 1 équivaut à un classifieur parfait 18

Courbe ROC Construction Rang 1 2 3 4 5 6 7 8 9 10 Classe + + - - + - - + - - VP 0 1 2 2 FP 0 0 0 1 VN 6 6 6 5 FN 4 3 2 2 RVP 0 0,25 0,5 0,5 RFP 0 0 0 0,17 19

Courbe ROC Construction Rang 1 2 3 4 5 6 7 8 9 10 Classe + + - - + - - + - - VP 0 1 2 2 2 3 3 3 4 4 4 FP 0 0 0 1 2 2 3 4 4 5 6 VN 6 6 6 5 4 4 3 2 2 1 0 FN 4 3 2 2 2 1 1 1 0 0 0 RVP 0 0,25 0,5 0,5 0,5 0,75 0,75 0,75 1 1 1 RFP 0 0 0 0,17 0,33 0,33 0,50 0,67 0,67 0,83 1 20

Arbres de décision - Une des techniques les plus utilisées - Efficacité compétitive - Rapide à construire - Résultat facile à interpréter Chaque instance du jeu d apprentissage est couverte une et une seule fois 21

Arbres de décision Algorithme C4.5 [Quinlan J.,1993] Quilan J. C4.5: programs for machine learning. 1993: Morgan Kaufmann Publishers. 22

Arbres de décision Gestion d attributs numériques - Ne gère pas nativement les attributs numériques - Nécessité de discrétiser - Deux classes sont souvent suffisantes (valeur qui maximise le gain) - Nécessite de modifier légèrement l algorithme initial (on garde l attribut numérique) - Impact négatif sur la complexité temporelle 23

Arbres de décision Elagage de l arbre - Arbre potentiellement très profond - Bruit, complexité des données, caractère aléatoire - L arbre produit ne généralise pas bien les données (surapprentissage) - Elagage nécessaire (pré ou post traitement) - Si l erreur estimée d un noeud est inférieure ou proche de l erreur estimée moyenne du sous-arbre alors on élague 24

Arbres de décision Données manquantes et classes non-équilibrées Données manquantes Situation très courante si pré-traitement mal effectué Plusieurs manières d aborder le problème - Remplacement par une valeur joker - Remplacement par la valeur la plus fréquente ou la moyenne Classes non-équilibrées Une classe apparaît significativement plus qu une autre (alarmes) Plusieurs manières d aborder le problème - Augmenter la proportion de la classe sous-représentée - Echantillonner la classe sur-représentée 25

Arbres de décision Résumé AVANTAGES - Très utilisé - Efficacité compétitive - Rapide à construire - Attributs numérique ou catégoriel - Résultats interprétables INCONVÉNIENTS - Données manquantes - Classes non-équilibrées Inconvénients 26

Classification naive bayésienne Point de vue probabiliste de l apprentissage Soit A 1,,A k des attributs discrets et C la classe à prédire On cherche la classe c telle que : Pr(C=c A 1 =a1,,a k=ak) soit maximale Fonctionne sur données catégorielles Articles fondateurs Domingos, P., & Pazzani, M. (1997). On the optimality of the simple Bayesian classifier under zero-one loss. Machine learning, 29(2-3), 103-130. Langley, P., Iba, W., & Thompson, K. (1992, July). An analysis of Bayesian classifiers. In AAAI (Vol. 90, pp. 223-228). Kohavi, R., Becker, B., & Sommerfield, D. (1997). Improving simple bayes. 27

Classification naive bayésienne Par le théorème de Bayes on a : Probabilité a priori Inutile à des fins de classification 28

Classification naive bayésienne Hypothèse d indépendance conditionnelle et de façon similaire pour les autres attributs Sous l hypothèse d indépendance conditionnelle, on a : 29

Classification naive bayésienne Classe prédite 30

Classification naive bayésienne Exercice A B C m b f m s f g q f h s f g q f g q t g s t h b t h q t m b t A = m, B = q, C =? 31

Classification naive bayésienne Attributs numériques,valeurs absentes et valeurs manquantes Attributs numériques Situation très courante On peut utiliser une technique de discrétisation vue précédemment Valeurs absentes Problème si une valeur apparaît uniquement dans le jeu de test On utilise un facteur correcteur : où nij le nombre d instances avec ai et cj, nj le nombre d instances avec cj, mi le nombre de valeurs d Ai et (n est la taille du jeu) Valeurs manquantes Elles sont ignorées dans le calcul 32

Classification naive bayésienne Résumé AVANTAGES - Implémentation aisée - Efficacité compétitive - Rapide à construire INCONVÉNIENTS - Indépendance Inconvénients - Attributs numériques - Valeurs absentes - Valeurs manquantes 33

Classification naive bayésienne sur les textes [McCallum A. et Nigam K., 1998] Classification de textes Assigner un document à une classe (e.g., Sports, Politique, Finance, ) Constat Méthode précédente assez peu efficace sur des textes Améliorations Cadre probabiliste pour les textes Idées similaires à l approche précédente McCallum, A., & Nigam, K. (1998, July). A comparison of event models for naive bayes text classification. In AAAI-98 workshop on learning for text categorization (Vol. 752, pp. 41-48). 34

CNB sur les textes Cadre probabiliste pour les textes - Modèle génératif probabiliste - Chaque document est généré par une distribution paramétrique - Estimation des paramètres via le jeu de données d apprentissage Suppositions du modèle génératif probabiliste 1. Les données (ou les textes) sont générés par un modèle de mixture 2. Correspondance une à une entre les composants de la mixture et les classes 35

CNB sur les textes Cadre probabiliste pour les textes Notations Génération de di Probabilité que di soit généré par le modèle de mixture 36

Modélisation d un texte CNB sur les textes Quelques hypothèses sur les textes Les textes sont représentés comme des sacs de mots (comme en Recherche d Information) Hypothèses - Chaque mot d un document est généré indépendamment de son contexte, i.e., des autres mots du document et de la classe - La probabilité d un mot est indépendante de sa position dans le texte - La longueur des documents est indépendante de la classe Génération de di Par une distribution multinomiale k tirages avec k la taille du document 37

CNB sur les textes Calcul de la probabilité conditionnelle Application de la fonction de probabilité d une distribution mulinomiale Indépendant de la classe Le nombre d apparitions de wt dans di 38

CNB sur les textes Estimation des paramètres Estimation à partir du jeu d apprentissage L estimation de wt sachant cj est simplement le nombre de fois que wt apparaît dans un document de la classe cj Cas des valeurs absentes 39

CNB sur les textes Probabilités a priori et classification Probabilités a priori Probabilités a priori = poids des mixtures Classification 40

Classification naive bayésienne Résumé AVANTAGES - Efficace même si violation des hypothèses (indépendance des mots et correspondance une à une entre classes et composants de la mixture) - Rapide à construire INCONVÉNIENTS Inconvénients 41

SVM Support Vector Machine Séparateur à Vaste Marge [Vapnik V., 2013] Quand? Classification binaire Attributs réels Principe Trouver un séparateur dont la marge est maximale Séparateur Marge Vapnik, V. (2013). The nature of statistical learning theory. Springer Science & Business Media. 42

SVM Pré-requis mathématiques Optimisation non-linéaire - Méthode de Lagrange, lagrangien, multiplicateur de Lagrange - Problèmes primal et dual - Problèmes convexes et leurs résolution Analyse fonctionnelle - Espaces de Hilbert - Espace de Hilbert à noyau reproduisant 43

SVM Formulation mathématique du problème Z Z Minimiser ce terme maximise la séparabilité Formulation 44

Séparateur rarement linéaire SVM Difficultés Séparateur Séparation rarement parfaite Séparateur 45

SVM SVM non linéaire «Dans une tâche de classification supervisée, plus la dimension des données est grande, i.e., plus ils ont d attributs linéairement indépendants, plus la probabilité que les classes soient linéairement séparables est grande» [Théoreme de Cover, 1965] Principe Pulvérisation des données dans un espace potentiellement infini Problème : produit scalaire en grandes dimensions est coûteux Astuce du noyau : noyau symétrique défini positif pour calculer le produit scalaire des données pulvérisées dans l espace de représentation d origine Noyaux usuels Noyau polynomial Noyau gaussien 46

SVM Cas linéairement non séparable Principe Introduction de nouvelles contraintes Nouveau problème de minimisation avec contraintes 47

Un contre tous Construction SVM Multi-classes Construction de M classifier binaires (classe + pour une classe et - pour toutes les autres) Test Le classifieur donnant la marche la plus élevée remporte le vote et sa décision sera suivie Un contre un Construction Construction de M(M-1)/2 classifieurs Test Vote majoritaire 48

SVM Données catégorielles Solutions possibles Création d une variable prenant n valeurs numériques Création de n variables binaires Remarques Meilleures performances des variables binaires Très utilisé pour la classification de documents Fonctionne très bien pour de grandes dimensions 49

SVM Résumé AVANTAGES INCONVÉNIENTS - Solides fondations théoriques - Très bonnes performances - Supporte les grandes dimensions - Attributs réels Inconvénients - Classification binaire - Modèle difficilement interprétable 50

K plus proches voisins - Pas de construction de modèle (lazy learning vs eager learning) - Nécessite une fonction de distance - Compte la classe majoritaire dans le voisinage 2 plus proches voisins 1 plus proche voisin 3 plus proches voisins 51

K plus proches voisins Classification - La classe majoritaire est élue - Possibilité de pondérer en fonction de la distance 2 plus proches voisins 1 plus proche voisin? 3 plus proches voisins Très sensible au paramètre k 52

K plus proches voisins Résumé AVANTAGES INCONVÉNIENTS - Simplicité - Efficacité - Gestion des multi-classes - Classification lente Inconvénients - Non gestion des données manquantes 53

Constat Questions Classification supervisée Approches ensemblistes Classifieurs isolés peuvent peiner à résoudre un problème de classification Mais ils peuvent chacun être efficaces sur une partie de l espace de données Ne peut on pas construire de nombreux modèles puis les combiner? Comment les combiner? Solutions Génériques : Spécifique: - Bagging - Boosting - Random forest 54

Approches ensemblistes Bagging (Bootstrap Aggregating) [Breiman L., 1996] Notations Un jeu de données D avec n exemples et un algorithme d apprentissage M Apprentissage Test 1. Création de k jeu d apprentissage, S1 à Sk, par tirage aléatoire avec remise de n exemples 2. Création de k modèles construites sur S1 Sk avec le même algorithme M - Système de vote (poids égaux) - Election de la classe majoritaire Breiman, L. (1996). Bagging predictors. Machine learning, 24(2), 123-140. 55

Bagging Forces et faiblesses AVANTAGES INCONVÉNIENTS Peut significativement augmenter les performances des méthodes instables (arbres de décision) Peut dégrader les résultats Inconvénients des méthodes stables (KPP et classification bayésienne) 56

Approches ensemblistes Boosting [Schapire R., 1990] Idée générale Un classifieur dit «faible» est exécuté à plusieurs reprises sur le jeu de données repondéré. Mécanisme A chaque itération t : 1. Pondération de chaque exemple selon s il a été bien classé précédemment (fort poids si mal classé) 2. Apprentissage d un modèle noté ht 3. Affection d une force à ce modèle noté Sortie Combinaison linéaire du vote des différents modèles pondéré par leur force Schapire, R. E. (1990). The strength of weak learnability. Machine learning, 5(2), 197-227. 57

Boosting Pondération du jeu de données Les exemples ne sont pas égaux Plus un exemple est dur à classer plus celui-ci devrait être «sur-représenté» dans le jeu de données Jeu de données pondéré On note D(i) le poids du i ème exemple (xi, yi) Interprétation : - Le i ème exemple compte pour D(i) exemples - Si on doit «resampler» le jeu de données, les exemples ayant un fort poids seront plus présents 58

Boosting AdaBoost 59

Références Ces ouvrages pointent vers de nombreuses références d articles scientifiques décrivant les approches vues en cours ou des variantes de celles-ci - Data Mining - Concepts and Techniques par J. Han et M.Kamber (ed. Morgan Kauffman) - Web Data Mining - ExploringHyperlink, Contents and Usage Data par B. Liu (ed. Springer) - Statistiques Exploratoires Multidimensionnelles par L. Lebart et al. (ed. Dunod) 60