Data Mining. Bibliographie (1) Sites (1) Bibliographie (2) Plan du cours. Sites (2) Master 2 Informatique UAG

Dimension: px
Commencer à balayer dès la page:

Download "Data Mining. Bibliographie (1) Sites (1) Bibliographie (2) Plan du cours. Sites (2) Master 2 Informatique UAG"

Transcription

1 Data Mining Master 2 Informatique UAG Bibliographie (1) U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy, editors, Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996 Gilbert Saporta, Data mining et statistique décisionnelle, Éditions Technip, Jiawei Han, Micheline Kamber, Data Mining : Concepts and Techniques, Morgan Kaufmann, David T. Connolly & C. Begg, Systèmes de bases de données, Eyrolles, Ian Witten and Eibe Frank, Data Mining, Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufman, David Hand, Heikki Mannila, Padhraic Smith, Principles of Data Mining, MIT Press, Bibliographie (2) Cynthia Gibas et Per Jambeck, Introduction à la bioinformatique, O'Reilly, Anna Tramontano, Introduction to Bioinformatics, Chapman & Hall/CRC, Jason Wang, Mohammed Zaki, Hannu Toivonen and Dennis Shasha, Data Mining in Bioinformatics, series: Advanced Information and Knowledge Processing, Springer, Marcus A. Maloof, Machine Learning and Data Mining for Computer Security: Methods and Applications (Advanced Information and Knowledge Processing), Springer, Jaideep Vaidya, Chris Clifton, Michael Zhu, Privacy Preserving Data Mining (Advances in Information Security), Springer, Sites (1) KD Nuggets The Data Mine Conférences Journaux ACM SIGKDD - Knowledge Discovery and Data Mining ACM Special Interest Group DMKD Sites (2) Systèmes SPSS (SPSS Clementine) SAS (Entreprise Miner) RapidMiner Plan du cours 1. Principes 2. Exemples d'application 3. Tâches standard 4. Datawarehousing 5. Pré-traitement 6. Classification supervisée Weka BioConductor 1

2 1.1 - Introduction Motivation Fouille de données ou : - Data Mining - Knowledge Discovery in Databases (KDD) - Extraction automatique de connaissances à partir de données (ECD) Explosion du volume des données outils et technologie de stockage performants recueil de données volumineux (transactions de ventes, cartes de crédit, images ) : giga et teraoctets Wal-Mart : 20 millions de transactions, 483 processeurs parallèles nécessité d'en tirer des connaissances utiles Domaine connexe : Data Warehousing "data rich but information poor situation" Data Warehousing : technologies comprenant extraction, pré-traitement, chargement Extract, Transform, Load (ETL) nettoyage intégration/agrégation des données interrogation des données agrégées On Line Analysis Processing (OLAP) Une définition du data mining "un processus non trivial d'extraction de modèles valides, nouveaux, potentiellement utiles et compréhensibles à partir de données " (Fayyad 1996) non pas décrire et vérifier des hypothèses mais, générer une hypothèse en recherchant des modèles Exemples d'application et types de problème (1) Domaine d'application et types de problème (2) Marketing Marketing ciblé, CRM (Customer Relationship Management), Ventes croisées, Segmentation des marchés o o o Quel type de clients achètent quels types de produits? Y-a-t-il des liens de causalité entre l achat d un produit P et d un autre produit P? Quel est le comportement des clients au cours du temps utiliser des données recueillies pour un produit similaire recherche d'associations/correlations entre produits chercher des segments parmi clients Analyse et gestion des risques, Détection de fraudes Assurance, Domaine Bancaire : cartes de crédit, accord de crédit Telecommunications Systèmes informatiques, Réseaux Peut-on caractériser les assurés qui font des déclarations d accident frauduleuses? Détecter l'utilisation de cartes de crédit frauduleuse Quels sont les clients "à risque" pour l'accord de crédit? 2

3 Domaine d'application et types de problème (3) Santé, Médécine Etude de l'influence de certaines médications sur l évolution d une maladie Recherche des médicaments les plus efficaces Astronomie Domaine d'application et types de problème (4) Sécurité informatique Détection traditionnelle basée sur des signatures connues Détecter automatiquement de nouvelles intrusions Différencier intrusion et mauvaise utilisation : Classifier les intrusions Chercher des modèles prédictifs de mauvaises utilisations Construire des profils normaux, des séquences fréquentes Identifier des déviations dans les comportements Domaine d'application et types de problème (5) Domaine d'application et types de problème (4) Biologie - Génomique Analyse des données d'expression de biopuces (micro-arrays) Identifier des similarités dans des séquences d ADN Rechercher le rôle de certains gènes dans une pathologie Rechercher le rôle de certains gènes dans l'effet de médications Rechercher des gènes qui s'expriment de la même manière Télécommunications Problème du churn Recherche d'anomalies sur un réseau Web Mining Etudier le contenu, la structure ou l usage des pages web Text mining (news group, , tous documents) E-learning Un exemple en marketing Une compagnie de téléphone mobile doit tester sur le marché un nouveau produit ; le produit ne peut être offert initialement qu'à quelques centaines d'abonnés. Il est exclus d'envoyer un courrier à tous les abonnés Il faudrait pouvoir "prédire" qui va probablement acheter le produit Expérience passée : 2 à 3% des clients sont à même de répondre positivement en achetant le produit Pour 500 réponses positives : sans modèle, il faut entre et prospects Un exemple en marketing (suite) apprentissage par l'exemple ensemble d'apprentissage : ensembles des enregistrements obtenus lors du lancement d'un produit similaire préparation des données : choix des données entre 3 bases de données (appels détaillés, marketing, données démographiques) construction de plusieurs champs ajoutés comme les minutes d'utilisation, la fréquence des appels, phase de data mining : extraction d'un modèle qui décrit les clients probables du nouveau produit évaluation et interprétation du modèle mise en œuvre (déploiement) 3

4 Les étapes du processus (1) Comprendre le problème connaissance du domaine, buts poursuivis, données disponibles, déploiment des résultats Explorer : visualiser, questionner Créer le réservoir de données Nettoyage et Intégration Réduction et Transformation Choisir la(les) fonctionnalité(s) (60% du travail) description, classification, classement, regression, association, Choisir la (les) méthodes (algorithmes) Effectuer l'extraction : recherche des modèles intéressants Evaluation du modèle Présentation des résultats CRISP-DM: Data Mining Process Deployment Business understanding Data Evaluation Data evaluation Data preparation Modeling Les étapes du processus (2) Quelles types de données sont fouillées? Data Mining Evaluation Connaissances BD relationnelles Datawarehouses : relationnel, cube multi-dimension Données de transactions BD orientées objet, spatiales, multimedia, textuelles Données temporelles et séries temporelles Données du Web Nettoyage Entrepôt Intégration Sélection et transformation mais le plus souvent, pré-traitées et intégrées dans une table sur laquelle la recherche d'un modèle est réalisée Les différentes tâches/modèles Objectif : Décrire ou Prédire Description : Caractérisation Discrimination requêtes SQL requêtes OLAP description analytique mesures statistiques Les différentes tâches/modèles (2) Analyse d'association (corrélation et causalité) : découvrir des règles d'association : X Y où X et Y sont des conjonctions de termes attributs-valeurs ou des prédicats pain=1 et café=1 beurre=1 [support = 5%, confiance = 70%] age>20 et age<29 et revenu>1000 achètepc="oui" [support = 2%, confiance = 60%] 4

5 Les différentes tâches/modèles (3) Classification ou Apprentissage non supervisé (clustering) trouver des groupes ou classes d'objets tels que la similarité intra-classe est élevée et la simlilarité inter-classes est faible (pas de variable identifiant la classe) segmentation des clients cluster de gènes Les différentes tâches/modèles (4) Classement/Prédiction ou Apprentissage supervisé (supervised classification) apprendre une fonction qui associe une donnée à une classe prédéfinie classer les clients "vagabonds" en fonction de leurs caractéristiques prédire un comportement frauduleux Autres fonctionnalités du data mining Recherche de séquences temporelles Analyse de flux Analyse de déviations Recherche de correlations Data Warehousing Qu est-ce qu un data warehouse? Un modèle de données multi-dimensions Opérations OLAP typiques Architecture d un data warehouse Qu est-ce qu un data warehouse? BD opérationnelles vs DW Un réservoir de données maintenu indépendant des BD opérationnelles, permettant d'organiser et de consolider les données disparates d une même organisation et d'en faciliter l'analyse Un DW doit être capable d'incorporer toutes les données disponibles d'une organisation Data warehousing : processus de construction (intégration) et de mise en œuvre d'un DW (outils OLAP) BD opérationnelles : OLTP et gestion des requêtes opération journalières des utilisateurs manipulent des données courantes se réfèrent souvent à un modèle conceptuel EA opèrent par transactions courtes DW : support pour l'analyse de données et l'aide à la décision manipulent des données d'archive peuvent présenter les données selon différentes dimensions permettent l'agrégation et manipulent les données à divers degrés de granularité (OLAP) se réfèrent souvent à un modèle conceptuel en étoile ou flocon 5

6 1.5 - Préparation des données Nécessité de préparer les données Données réelles endommagées Incomplètes, Bruitées, Incohérentes Nettoyage Intégration et transformation Réduction Discrétisation Tâches principales pour la préparation Nettoyage compléter les valeurs manquantes, lisser les données bruitées, supprimer les déviations, et corriger les incohérences Intégration intégrer des sources de données multiples Transformation normaliser (ex. pour le calcul de distances) Réduction réduire le volume des données (agréger, supprimer une dimension ) Discrétisation pour les attributs numériques, permet de réduire le volume Valeurs manquantes on peut ignorer le tuple compléter la valeur à la main utiliser une constante globale utiliser la valeur moyenne utiliser la valeur moyenne pour les exemples d'une même classe utiliser la valeur la plus probable Données bruitées on peut trier et partitionner (discrétiser) classifier (exceptions) appliquer un modèle de prédiction (ex : une fonction de régression) Données bruitées Partitionnement et Lissage les valeurs triées sont réparties en largeur (distance) la suite triée est partitionnée en N intervalles de même amplitude amplitude de chaque intervalle W = (max -min)/n. solution la plus simple, mais les exceptions peuvent dominer ou en profondeur (fréquence) la suite triée est partitionnée en N intervalles contenant le même nombre d'exemples Données bruitées Tri et Partitionner : un exemple données triées 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Partition en profondeur : - part 1: 4, 8, 9, 15 - part 2: 21, 21, 24, 25 - part 3: 26, 28, 29, 34 Lissage par les moyennes : chaque valeur de la partition est remplacée par la moyenne - part 1: 9, 9, 9, 9 - part 2: 23, 23, 23, 23 - part 3: 29, 29, 29, 29 Lissage par les extremes : : chaque valeur de la partition est remplacée par la valeur extreme la plus proche - part 1: 4, 4, 4, 15 - part 2: 21, 21, 25, 25 - part 3: 26, 26, 26, 34 6

7 Données bruitées Regression Intégration Données redondantes Y1 Y1 y y = x + 1 les données sont lissées de manière à approcher une fonction Régression linéaire Détection de données redondantes par analyse de corrélation par exemple : redondance entre attribut X1 x Régression linéaire multiple mesure la corrélation entre les attributs A et B r A,B >0 implique que A et B sont positivement corrélés r A,B <0 implique que A et B sont négativement corrélés Transformation Réduction Les transformations appliquées : Le lissage qui supprime les données bruitées permet d'obtenir une représentation réduite d'ensembles volumineux de données L'agrégation qui calcule des sommes, des moyennes La généralisation qui remonte dans une hiérarchie de concept La normalisation qui ramène les valeurs dans un intervalle stratégies appliquées agrégation réduction compression discrétisation donné La construction d'attributs Réduction de dimension Discrétisation suppression d'attributs : de nombreux attributs non pertinents détériorent les performances des algorithmes par ex, les algorithmes d'induction d'arbres pour assurer de bonnes performances aux algorithmes d'extraction (arbres de décision, classifieurs de bayes, ) supprimer des données non pertinentes permet de réduire le nombre de valeurs d'un attribut continue en divisant le domaine de valeurs en intervalles utile pour la classification et les arbres de décision (algorithmes qui manipulent des variables catégorielles) des techniques de discrétisation peuvent être appliquées récursivement pour fournir un partitionnement hiérarchique de l'attribut supprimer des données redondantes 7

8 Discrétisation non supervisée Discrétisation supervisée Ou discrétisation aveugle (indépendamment d'une valeur de classe) partitionnement en largeur prend en compte la classification utilise l'entropie pour mesurer l'information et obtenir un critère de "pureté" discrétise en intervalles "purs" partitionnement en profondeur Discretisation basée sur l'entropie 1.6 Classification supervisée A. Principes B. Classement par induction d arbres de décision C. Approche probabiliste - Classifieurs Bayésiens D. KNN E. Approche par rétro-propagation F. Approche évolutionnaire G. Approche par règles d association Classement (en : classification) Apprentissage supervisé tâche de prédiction prédit des variables catégorielles construit un modèle de classement (classifieur) des données en se basant sur un ensemble appelé ensemble d'apprentissage (EA) (training set) utilise le modèle pour classer de nouvelles données 8

9 Apprentissage non supervisé versus supervisé Classification (en: Clustering) : Apprentissage non-supervisé les classes ne sont pas connues étant donné un ensemble de mesures, observations,... est recherchée l'existence de groupes (classes) regroupant des données similaires Apprentissage non supervisé versus supervisé (2) Classement (en : Classification): Apprentissage supervisé supervision: les données de l'ea (observations, mesures, etc.) sont accompagnées d'étiquettes indiquant la classe de chaque donnée une nouvelle donnée est classifiée selon le modèle appris à partir de l'ea Apprentissage supervisé Modélisation prédictive Apprentissage supervisé Modélisation prédictive (2) Classement prédit des variables catégorielles construit un modèle de classification des données Régression modélise des fonctions à valeurs numériques continues prédit des valeurs inconnues ou manquantes Modèle prédictif ( versus descriptif ) une variable est exprimée comme une fonction des autres Y = f(x1,..., Xn) la valeur de cette variable cible peut être prédite à partir des valeurs des autres variables prédictives Y variable catégorielle Classement Y variable quantitative Régression Classement : Apprentissage supervisé construit un modèle de classement des données en se basant sur un ensemble appelé ensemble d'apprentissage (EA) (training set) teste sa précision sur un ensemble de test (ET) (test set) utilise le modèle pour classifier de nouvelles données Classement et Bases de données Dans une table (relationnelle) les classes sont représentées par les valeurs d'un attribut particulier : attribut-cible ou attribut de classe les autres attributs sont appelés attributs prédictifs tâche d'apprentissage ou de classement : extraire un modèle qui permette d'assigner une classe prédéfinie aux tuples selon une condition sur les attributs prédictifs 9

10 Classement - Exemple Règles de Classification de la forme IF-THEN une règle prédit une classe à partir des attributs prédictifs si A 1,..., A p sont les attributs prédictifs et G est l'attribut de classe, les règles sont de la forme : A 1 = a 1... A p = a p G= g k si on suppose que A 1,..., A p sont à valeurs discrètes Classement en deux étapes 1. Construction du modèle sur l'ensemble d'apprentissage (EA) Classement (1): Construction du modèle EA Algorithmes de Classement 2. Evaluation de la précision (accuracy) du modèle pour classifier de nouveaux objets Classifieur (Modèle) IF Age= AND Revenu = élevé THEN Achète = oui Classement étape 2 Evaluation de la précision du modèle pour classifier de nouveaux objets la valeur de l'attribut-cible connue pour chaque exemple de l'et est comparée à la classe prédite par le modèle ET doit être indépendant de EA, sinon risque de sur-évaluation (over-fitting) la valeur prédictive du modèle est évalué sur les exemples de l'et première mesure de la valeur prédictive souvent utilisée : la précision (accuracy), fréquence des exemples correctement classifiés et aussi, les faux positifs, faux négatifs 10

11 Méthodes Arbres/Règles de décision Modèles probabilistes : Naïve Bayes, Réseaux de Bayes Lazy approaches : K-Nearest Neighbor Réseaux neuronaux Algorithmes génétiques One R Classement par inférence de règles rudimentaires Règle-1 Inférence d'une ensemble de règles dont chacune teste un attribut particulier Att=val Classe Chaque règle porte sur une seule valeur d'attribut La classe prédite est celle qui apparaît le plus souvent dans l'ea On déduit toute les règles possibles pour un attribut et on choisit celle dont le taux d'erreur est le plus petit Inférence de règles rudimentaires Classification supervisée A. Principes B. Classement par induction d arbres de décision C. Approche probabiliste - Classifieurs Bayésiens D. KNN E. Approche par rétro-propagation F. Approche évolutionnaire G. Approche par règles d association Classement par induction d arbres de décision Apprentissage inductif rechercher dans un espace d'hypothèses implicitement défini par la représentation de l'hypothèse trouver la meilleure hypothèse : celle qui correspond au mieux aux exemples de l'ea conjecture : la meilleure hypothèse pour l'ea est aussi la meilleure pour les exemples non connus Arbres de décision pour variables à valeurs discrètes structure d arbre de type organigramme un noeud représente un test sur un attribut une branche correspond à un résultat de test les feuilles représentent les classes ou les distributions de classe utilisation : classement d une donnée inconnue, en comparant la valeur de ses attributs avec les noeuds de l arbre 11

12 Quand rechercher un arbre de décision? Génération d un arbre de décision Instances décrites par des attributs à valeurs discrètes Attribut de classe à valeurs discrètes Hypothèses disjointes Exemple : Prédire le risque de crédit Prédire le "churn" Prédire une pathologie En deux étapes construction au début : tous les exemples sont à la racine les exemples sont ensuite répartis selon le résultat du test effectué sur l attribut choisi élagage identifier et supprimer les branches qui contiennent bruit et exceptions Ensemble d apprentissage Résulat : un arbre de décision pour achète_ordinateur age? <= >40 etudiant oui degsolvabilité non oui excellent bon non oui non oui Extraction de règles de classification Extraction de règles de classification à partir des arbres de décision Chaque règle est de la forme IF-THEN Une règle est créée pour chaque chemin de la racine à une feuille Chaque terme attribut-valeur constitue un opérande de la conjonction en partie gauche Chaque feuille correspond à une classe à prédire non age? <= >40 etudiant oui oui degsolvabilité non oui excellent bon non oui IF age = <=30 AND etudiant = non THEN achète_ordinateur = non IF age = <=30 AND etudiant = oui THEN achète_ordinateur = oui IF age = THEN achète_ordinateur = oui IF age = >40 AND degsolvabilité = excellent THEN achète_ordinateur = non IF age = >40 AND degsolvabilité = = bon THEN achète_ordinateur = oui 12

13 Induction d'un arbre de décision ID3 [Quinlan 1986] a évolué jusqu'aux versions C4.5 et C5.0 principe de base : construire récursivement un arbre de la racine aux feuilles à chaque noeud, choisir le meilleur attribut parmi ceux restant quel est le meilleur? ID3 (2) au début, tous les exemples sont à la racine attributs catégoriels, ou continues et discrétisées les exemples sont ensuite répartis sur des branches pour chaque valeur de l'attribut choisi comme test le processus est répété sur l'ea correspondant à chaque nœud descendant ID3 (3) les attributs de test sont choisis selon un critère heuristique ou un critère statistique le processus de partitionnement (split) s arrête lorsque tous les exemples de chaque noeud appartiennent à la même classe. il ne reste aucun exemple à classifier ou il ne reste plus d attribut pour base de partitionnement le scrutin majoritaire est utilisé pour classifier le noeud Algorithmes d induction d un arbre de décision ID3 (Quinlan 1986) CART C4.5 (Quinlan 1993) et C5.0 SLIQ (Mehta et al 1996) SPRINT (Shafer et al 1996) RAINFOREST (Gehrke, Ramakrishnan & Ganti 1998) Critères de sélection d un attribut de test Information gain (ID3/C4.5) critère heuristique mesure la réduction d'entropie Index Gini (CART, SLIQ, SPRINT) critère statistique mesure l'impureté d'un noeud Sélection d un attribut de test (1) Le meilleur attribut intuitivement : celui qui partitionne le mieux les instances en classes, celui qui maximise la distance entre les groupes obtenus après partitionnement celui qui minimise l'information (le nombre de tests) nécessaire pour classifier les exemples selon la partition résultante et qui reflète le désordre minimum dans cette partition donc garantit que l'arbre résultant sera simple plus formellement : déterminer une mesure de séparabilité 13

14 Approche théorie de l'information - L'entropie Soit S l'ensemble d'exemples Supposons que l'attribut à prédire prenne M valeurs distinctes définissant M classes C 1,, C M Fonction d'entropie Entropie L'entropie E(S) est définie par où p i désigne la proportion d'exemples de S appartenant à Ci p+ Gain d'information Sélection d'un attribut par calcul de la mesure Infogain mesure d'efficacité d'un attribut A : gain d'information réduction de l'entropie obtenue en partitionnant selon A InfoGain(S, A) = E(S) k= M k=1 Sk S E(Sk) Class P: achète_ordinateur = oui Class N: achète_ordinateur = non E(S) =-9/14 log(9/14) - 5/14 log(5/14) =0.94 où A prend les valeurs a 1, a M et S k est le sous-ensemble de S pour lequels l'attribut A prend la valeur a k Inconvénient de InfoGain favorise les éclatements en un grand nombre de partitions, chacune étant pure par exemple : attribut date avec N valeurs, N grand Infogain(date) maximum si on suppose que date suffit à prédire la classe Autre mesure : Gain Ratio (C4.5) introduit une information de partitionnement SplitInfo(S, A) = k= M Sk k=1 S log 2 S GainRatio(S,A) = InfoGain(S,A) SplitInfo(S, A) ajuste InfoGain avec l'entropie du partitionnement pénalise un éclatement dans un grand nombre de petites partitions Sk 14

15 Sélection d un attribut de test (2) Index Gini Si un ensemble d'exemples S contient M classes, l'index Gini de S est défini par : Gini où p j est la fréquence relative de la classe j dans S (CART, SLIQ, SPRINT) p+ Index Gini Index Gini d'une partition C1 0 C2 6 Gini=0 C1 2 C2 4 Gini=0.444 Si un ensemble S est partitionné en sousensembles S 1 S P de tailles respectives N 1 N P, l'index Gini de la partition est défini par C1 1 C2 5 Gini=0.278 C1 3 C2 3 Gini=0.500 L'attribut qui produit l'index Gini minimum est le meilleur Index Gini d'une partition Principes de recherche dans l'espace d'hypothèses (ID3) A N1 N2 N1 N2 N1 N2 C1 0 4 C2 6 0 C1 4 2 C2 4 0 Gini=0 Gini=0.4 N1 N2 C1 6 2 N1 N2 C1 3 4 C2 2 0 C2 3 0 Gini=0.3 Gini=0.3 15

16 Principes de recherche dans l'espace d'hypothèses (ID3) Pourquoi rechercher l'arbre le plus court? Une seule hypothèse est solution Pas de backtrack Biais : recherche de l'arbre de plus court + - Règles plus courtes, plus compréhensibles, plus simples Une hypothèse courte a peu de chances d'être une coincidence Une hypothèse longue qui correspond parfaitement aux données a des chances d'être une coincidence Difficile de définir une hypothèse courte Que peut-on dire des ensembles de faible volume basés sur des hypothèses courtes? Divers problèmes Sur-évaluation (Overfitting) Eviter la sur-évaluation Traiter les variables continues Traiter les valeurs manquantes Attribuer des coûts différents pour certains attributs Si on ajoute du bruit au jeu de données Sur-évaluation (Overfitting) age? Sur-évaluation de l'ensemble d'apprentissage : une hypothèse est meilleure qu'un autre sur l'ea, mais moins bonne sur l'ensemble des données <= >40 données bruitées et d'anomalies combinatoire très importante l'arbre de décision etudiant degsolvabilité degsolvabilité arbres trop complexes, incompréhensibles qui peuvent outre-passer les données mauvaise prédiction sur des exemples nouveaux non oui excellent bon excellent bon Solution : Elaguer (pruning) non oui non oui non oui 16

17 Sur-évaluation (Overfitting) Sur-évaluation (Overfitting) Soit une hypothèse h sur l'ensemble d'apprentissage: error train (h) sur l'ensemble D des données: error D (h) Hypothese h sur-évalue l'ea s'il existe une autre hypothese h H telle que error train (h) < error train (h ) et error D (h) > error D (h ) Elagage Pré-élagage Pour éviter l'over-fitting arrêter le développement vertical de l'arbre (pré-élagage) développer l'arbre puis l'élaguer (post-élagage) Minimum description length (MDL): minimiser size(tree) + size(misclassifications(tree)) appliquer des règles qui limitent la profondeur des branches, par exemple fixer un seuil limite du nombre de noeuds au dessus duquel un chemin ne peut plus être développé fixer un seuil limite du nombre d'enregistrements en dessous duquel un nœud ne peut plus être éclaté Post-élagage Extensions de l'algorithme de base Développer l'arbre à son maximum puis, élaguer des branches jusqu'à leur taille minimum pour ne pas compromettre leur valeur, par exemple utiliser une heuristique ou l'intervention de l'utilisateur, par exemple, utiliser un ensemble de données différent de l'ensemble d'apprentissage pour tester si un sous-arbre améliore suffisamment l'exactitude entière (estimer le taux d'erreur) traiter les variables continues discrétisation en un ensemble d'intervalles gérer les valeurs manquantes les remplacer par la valeur la plus fréquente assigner une probabilité p i à chaque valeur possible, assigner une fraction p i des exemples à chaque sous-nœud 17

18 Taux d'erreur Estimation du taux d'erreur Taux d'exemples mal classés taux d'erreur apparent : sur l'ensemble d'apprentissage estimation du taux d'erreur réel : sur un ensemble de test ET doit être issu du même ensemble que EA et doit refléter la population à laquelle le classifieur doit être appliqué en termes de distribution diviser l'ensemble des données en ensemble d'apprentissage (2/3) et ensemble de test (1/3) utiliser la validation croisée (cross-validation) utiliser toutes les données dans l'ensemble d'apprentissage Un ET n'est pas toujours disponible Alternative à l'éclatement EA/ET : Validation croisée Validation croisée Différentes erreurs Principe l'ensemble des exemples est partitionné en k parties d'effectifs égaux apprentissage et test en k étapes à chaque étape : utiliser k-1 parties comme EA et 1 comme ET(k-fold cross-validation) calculer le taux d'erreur e k taux d'erreur estimé : moyenne des e k on prend souvent K=10 prédire un exemple dans C alors qu'il appartient à non C prédire un exemple dans non C alors qu'il appartient à C Vrai positif (True Positive) : exemple prédit dans C et appartenant à C Vrai négatif (True Negative) : exemple prédit dans nonc et appartenant à nonc Faux positif (False Positive) : exemple prédit dans C et appartenant à nonc Faux négatif (False Negative) : exemple prédit dans nonc et appartenant à C Matrice de confusion Matrice de confusion C C C TP FN C FP TN FP + FN TP + FP + TN + FN P N P TP FN N FP TN 18

19 Mesures et objectifs Sensibilité, Recall, Précision, diagnostic médical : classer un sujet dans la classe dans laquelle il a la probabilité la plus grande de se placer on recherche Ci de manière à avoir p(ci/h) maximum test médical : comparer le taux de sujets non malades dont le test est positif au taux des sujets malades dont le test est négatif accord de crédit : identifier la proportion des clients qui deviennent "à risque" alors que le crédit leur a été accordé A C Sensibilité (Se), Recall, Taux de TP, Spécificité (Sp), Taux de TN Taux de FP Précision Différents coûts d'erreur exemples : accord de crédit prévision de consommation électrique diagnostiques... pondérer différemment les erreurs : FN ou FP Mesures standard Correctly Classified Instances % Incorrectly Classified Instances % Total Number of Instances 683 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class diaporthe-stem-canker charcoal-rot rhizoctonia-root-rot Arbres de décision : Avantages Inconvénients sont peu coûteux à construire : ils font peu de parcours des données et supportent de nombreuses variables prédictives facilement interprétables efficaces dans le cas d'une majorité de variables qualitatives ont une valeur prédictive comparable aux autres méthodes dans la plupart des applications critère naïf pour le choix de l'attribut de partitionnement : ce critère ne tient pas compte des incidences produites sur les partitionnements ultérieurs le choix n'est pas remis en question le processus est séquentiel donc un partitionnement dépend toujours du précédent univarié (il ne s'intéresse qu'à une variable à chaque nœud) donc limitation du nombre de règles explorées et détection difficile des relations entre attributs les algorithmes comme ID3 ou C4.5 nécessitent des données stockées en mémoire 19

20 C5.0 Adaptation au Data Mining construit l'arbre " en profondeur d'abord" utilise GainRatio nécessite que la base entière réside en mémoire BD : des millions d'exemples et des centaines d'attributs Approches Data Mining: SLIQ (Mehta et al. 1996) construit un index pour chaque attribut ; seules la liste de classes et la liste-attribut courante sont en mémoire SPRINT (J. Shafer et al. 1996) construit une liste-attribut qui contient la classe RainForest (Gehrke, Ramakrishnan & Ganti 1998) s'adapte à l'espace mémoire disponible construit une liste AVC (attribut-valeur, classe) indiquant la distribution dans les classes de chaque attribut Classification supervisée A. Principes B. Classement par induction d arbres de décision C. Approche probabiliste - Classifieurs Bayésiens D. KNN E. Approche par rétro-propagation F. Approche évolutionnaire G. Approche par règles d association Approche probabiliste - Classifieurs Bayésiens Classifieur statistique qui prédit la probabilité pour un exemple d'appartenir à une classe basé sur la Théorie de Bayes (probabilités conditionnelles) approche la plus utilisée pour certains types d apprentissage, car aussi performante que arbres de décision et réseaux de neurones deux formes : Classement naïve, Classement par Réseaux bayésiens Intérêt des méthodes bayésiennes Inconvénients fournissent une perspective utile pour comprendre des algorithmes d apprentissage qui ne manipulent pas explicitement des probabilités sont incrémentales: chaque exemple dans EA peut augmenter ou réduire la probabilité qu une hypothèse soit correcte ; une hypothèse n est pas éliminée car inconsistante avec un seul exemple nécessitent une connaissance initiale de nombreuses probabilités Si elles ne sont pas connues à l avance, elles sont souvent estimées à l aide de la connaissance du contexte, des données disponibles et de suppositions sur la forme des distributions sous-jacentes nécessitent un temps de calcul important pour déterminer l hypothèse optimale 20

Data Mining. Master 1 Informatique - Mathématiques UAG

Data Mining. Master 1 Informatique - Mathématiques UAG Data Mining Master 1 Informatique - Mathématiques UAG 1.1 - Introduction Data Mining? On parle de Fouille de données Data Mining Extraction de connaissances à partir de données Knowledge Discovery in Data

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT POLYTECH'MONTPELLIER IG 5

FOUILLE DE DONNEES. Anne LAURENT POLYTECH'MONTPELLIER IG 5 FOUILLE DE DONNEES Anne LAURENT POLYTECH'MONTPELLIER IG 5 Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce

Plus en détail

Apprentissage statistique:

Apprentissage statistique: Apprentissage statistique: Arbre de décision binaire et Random Forest 1 Plan 1. Introduction 2. 3. Application à l apprentissage supervisé 4. Forêt Aléatoire (Random Forest) 2 1 Plan 1. Introduction 2.

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Classification supervisée de documents

Classification supervisée de documents Classification supervisée de documents 1. Introduction La classification automatique supervisée de document devient nécessaire à cause du volume de documents échangés et stockés sur support électronique.

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

WEKA, un logiciel libre d apprentissage et de data mining

WEKA, un logiciel libre d apprentissage et de data mining WEKA, un logiciel libre d apprentissage et de data mining Yves Lechevallier INRIA-Rocquencourt Présentation de WEKA 3.4 Format ARFF WEKA Explorer WEKA Experiment Environment WEKA KnowledgeFlow E_mail :

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

L'apprentissage supervisé. (Classification, Régression)

L'apprentissage supervisé. (Classification, Régression) L'apprentissage supervisé (Classification, Régression) Le problème L'apprentissage supervisé = apprentissage à partir d'exemples Exemples E1 S1 E2 S2 E3 S2 En Sn Entrées f Sortie On imagine les exemples

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Apprentissage supervisé

Apprentissage supervisé Apprentissage supervisé 1 Apprendre aux ordinateurs à apprendre Objectif : appliquer la démarche de l apprentissage par l exemple à l ordinateur. Montrer des exemples à l ordinateur en lui disant de quoi

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

WEKA, un logiciel libre d apprentissage et de data mining

WEKA, un logiciel libre d apprentissage et de data mining Approche Data Mining par WEKA WEKA, un logiciel libre d apprentissage et de data mining Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr Yves Lechevallier Dauphine 1 1 WEKA 3.4

Plus en détail

Les arbres de décision

Les arbres de décision Les arbres de décision 25 Septembre 2007 Datamining 1 2007-2008 Plan 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 2 2007-2008 Les données du Titanic Le partitionnement

Plus en détail

Recherche Opérationnelle et Optimisation : Quelles perspectives pour le Datamining

Recherche Opérationnelle et Optimisation : Quelles perspectives pour le Datamining Recherche Opérationnelle et Optimisation : Quelles perspectives pour le Datamining Clarisse DHAENENS LIFL Equipe OPAC INRIA Projet DOLPHIN Université de Lille 1 KESAKO Datamining Datamining : définitiond

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Les techniques d exploitation de données (Data Mining)

Les techniques d exploitation de données (Data Mining) Les techniques d exploitation de données (Data Mining) 1 Présenté par : Emer Mestiri, M.sc Finance, Data Scientist Conseiller Gestion de risque de crédit, Mouvement Desjardins Sommaire 2 I. Logiciel SAS

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Généralités sur les bases de données

Généralités sur les bases de données Généralités sur les bases de données Qu est-ce donc qu une base de données? Que peut-on attendre d un système de gestion de bases de données? Que peut-on faire avec une base de données? 1 Des données?

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Classification et caractérisation

Classification et caractérisation Classification et caractérisation Classification arbre de décision classificateur Bayésien réseau de neurones 1 Caractérisation Description des concepts Généralisation des données Induction orientée attribut

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

INTRODUCTION AU DATA MINING. Cina MOTAMED

INTRODUCTION AU DATA MINING. Cina MOTAMED INTRODUCTION AU DATA MINING Cina MOTAMED 2 Data Mining : contexte Âge numérique : explosion des volumes de données Transactions commerciales Opérations bancaires Navigation Internet Indicateurs démographiques

Plus en détail

Principes généraux de codage entropique d'une source. Cours : Compression d'images Master II: IASIG Dr. Mvogo Ngono Joseph

Principes généraux de codage entropique d'une source. Cours : Compression d'images Master II: IASIG Dr. Mvogo Ngono Joseph Principes généraux de codage entropique d'une source Cours : Compression d'images Master II: IASIG Dr. Mvogo Ngono Joseph Table des matières Objectifs 5 Introduction 7 I - Entropie d'une source 9 II -

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données.

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données. Data Mining = Knowledge Discovery in Databases (KDD) = Fouille de données 1 Définition : Processus ou méthode qui extrait des connaissances «intéressantes» ou des motifs (patterns) à partir d une grande

Plus en détail

Introduction à la programmation en variables entières Cours 3

Introduction à la programmation en variables entières Cours 3 Introduction à la programmation en variables entières Cours 3 F. Clautiaux francois.clautiaux@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 272 Sommaire Notion d heuristique Les algorithmes gloutons

Plus en détail

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7 Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques Elec 2311 : S7 1 Plan du cours Qu est-ce l optimisation? Comment l optimisation s intègre dans la conception?

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat...

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat... But du cours Vocabulaire, principes et techniques du Data Mining Méthodes et Algorithmes Interprétation des résultats. Data Mining : Concepts and Techniques J. Han, M. Kamber Morgan Kaufmann Le Data Mining

Plus en détail

PJE : Analyse de Comportements avec Twitter - Partie classification. L. Jourdan et A. Liefooghe Laetitia.jourdan@lifl.fr Arnaud.liefooghe@lifl.

PJE : Analyse de Comportements avec Twitter - Partie classification. L. Jourdan et A. Liefooghe Laetitia.jourdan@lifl.fr Arnaud.liefooghe@lifl. PJE : Analyse de Comportements avec Twitter - Partie classification L. Jourdan et A. Liefooghe Laetitia.jourdan@lifl.fr Arnaud.liefooghe@lifl.fr Structure Générale Requête GUI Affiche la tendance des tweets

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 13 L exploration des données 13.1. Présentation de la semaine L exploration de données (ou data mining) est souvent associée à l intelligence

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Classification, Apprentissage, Décision

Classification, Apprentissage, Décision Classification, Apprentissage, Décision Rémi Eyraud remi.eyraud@lif.univ-mrs.fr http://www.lif.univ-mrs.fr/~reyraud/ Cours inspiré par ceux de François Denis et Laurent Miclet. Plan général du cours Introduction

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Data Mining et Big Data

Data Mining et Big Data Data Mining et Big Data Eric Rivals LIRMM & Inst. de Biologie Computationnelle CNRS et Univ. Montpellier 14 novembre 2015 E. Rivals (LIRMM & IBC) Big Data 14 novembre 2015 1 / 30 Introduction, contexte

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

Chapitre 1. L algorithme génétique

Chapitre 1. L algorithme génétique Chapitre 1 L algorithme génétique L algorithme génétique (AG) est un algorithme de recherche basé sur les mécanismes de la sélection naturelle et de la génétique. Il combine une stratégie de survie des

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Apprentissage de structure dans les réseaux bayésiens pour

Apprentissage de structure dans les réseaux bayésiens pour Apprentissage de structure dans les réseaux bayésiens pour la détection d événements vidéo Siwar Baghdadi 1, Claire-Hélène Demarty 1, Guillaume Gravier 2, et Patrick Gros 3 1 Thomson R&D France, 1 av Belle

Plus en détail

Weka_S2D : Système de Surveillance de Diabétiques

Weka_S2D : Système de Surveillance de Diabétiques Weka_S2D : Système de Surveillance de Diabétiques TALEB ZOUGGAR Souad(*), ATMANI Baghdad(*) Souad.taleb@gmail.com, atmani.baghdad@univ-oran.dz (*) Equipe de recherche «Simulation, Intégration et fouille

Plus en détail

Une introduction aux arbres de décision

Une introduction aux arbres de décision Une introduction aux arbres de décision Stéphane Caron http://scaroninfo 31 août 2011 Les arbres de décision sont l'une des structures de données majeures de l'apprentissage statistique Leur fonctionnement

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

THÉORIE DE L'INFORMATION : RAPPELS

THÉORIE DE L'INFORMATION : RAPPELS THÉORIE DE L'INFORMATION : RAPPELS 1920 : premières tentatives de définition de mesure de l'information à partir de 1948 : travaux de Shannon Théorie de l'information discipline fondamentale qui s'applique

Plus en détail

RECHERCHE OPERATIONNELLE

RECHERCHE OPERATIONNELLE RECHERCHE OPERATIONNELLE PROBLEME DE L ARBRE RECOUVRANT MINIMAL I - INTRODUCTION (1) Définitions (2) Propriétés, Conditions d existence II ALGORITHMES (1) Algorithme de KRUSKAL (2) Algorithme de PRIM I

Plus en détail

Plan. Cours 4 : Méthodes d accès aux données. Architecture système. Objectifs des SGBD (rappel)

Plan. Cours 4 : Méthodes d accès aux données. Architecture système. Objectifs des SGBD (rappel) UPMC - UFR 99 Licence d informatique 205/206 Module 3I009 Cours 4 : Méthodes d accès aux données Plan Fonctions et structure des SGBD Structures physiques Stockage des données Organisation de fichiers

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Fouille de données Notes de cours Ph. PREUX Université de Lille 3 philippe.preux@univ-lille3.fr 26 mai 2011

Fouille de données Notes de cours Ph. PREUX Université de Lille 3 philippe.preux@univ-lille3.fr 26 mai 2011 Fouille de données Notes de cours Ph. PREUX Université de Lille 3 philippe.preux@univ-lille3.fr 26 mai 2011 http://www.grappa.univ-lille3.fr/~ppreux/fouille ii Table des matières 1 Introduction 3 1.1 Qu

Plus en détail

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln. MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.fr Plan Introduction Généralités sur les systèmes de détection d intrusion

Plus en détail

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE Paul Pașcu, Assist Prof, PhD, Ștefan cel Mare University of Suceava Abstract: This article aims to present a number

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

RAPPORT DE PROJET DATA MINING

RAPPORT DE PROJET DATA MINING DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS RAPPORT DE PROJET DATA MINING «Analyse des endettements par niveau de développement des pays» Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données.

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données. COURS DE DATA MINING 3 : MODELISATION PRESENTATION GENERALE EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET Phase 4 : Modelisation 1 Classement des techniques

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Mostafa Hanoune, Fouzia Benabbou To cite this version: Mostafa Hanoune, Fouzia Benabbou. Modélisation Informatique

Plus en détail

Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101. Travail pratique #2

Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101. Travail pratique #2 Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101 Danny Dubé Hiver 2014 Version : 11 avril Questions Travail pratique #2 Traduction orientée-syntaxe

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Fouille de données de mobilité

Fouille de données de mobilité Fouille de données de mobilité Thomas Devogele Université François Rabelais (Tours) thomas.devogele@univ-tours.fr Laurent Etienne Ecole Navale (Brest) Laurent.etienne@ecole-navale.fr La fouille de donnée

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

IBM Cognos TM1. Fiche Produit. Aperçu

IBM Cognos TM1. Fiche Produit. Aperçu Fiche Produit IBM Cognos TM1 Aperçu Cycles de planification raccourcis de 75 % et reporting ramené à quelques minutes au lieu de plusieurs jours Solution entièrement prise en charge et gérée par le département

Plus en détail

Systèmes d'informations Géographiques - Graphes

Systèmes d'informations Géographiques - Graphes Systèmes d'informations Géographiques - Graphes Institut National des Sciences Appliquées - Rouen Département Architecture des Systèmes d'information michel.mainguenaud@insa-rouen.fr Graphe et Spatialisation!

Plus en détail

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009 Le Data Mining Techniques pour exploiter l information Auteur : Dan Noël Date : 24.04.2009 Agenda de la présentation du 26.03.2009 Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un

Plus en détail

Les réseaux bayésiens

Les réseaux bayésiens Les réseaux bayésiens Un outil de modélisation des connaissances incertaines par apprentissage à partir des données par modélisation interactive 2/1/23 SAMOS - BAYESIA 1 etit exemple contre-intuitif La

Plus en détail

Introduction aux S.G.B.D.

Introduction aux S.G.B.D. NFE113 Administration et configuration des bases de données - 2010 Introduction aux S.G.B.D. Eric Boniface Sommaire L origine La gestion de fichiers Les S.G.B.D. : définition, principes et architecture

Plus en détail

Introduction au Data Mining

Introduction au Data Mining Cours GMM Introduction au Data Mining 1.0 DT_GMM3 Décembre 2009 Légende Table des matières 3 4 Introduction Ce support de cours est un complément au cours magistral et n'est en aucun cas autosuffisant.

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail