Data Mining. Bibliographie (1) Sites (1) Bibliographie (2) Plan du cours. Sites (2) Master 2 Informatique UAG
|
|
|
- Augustin Moreau
- il y a 10 ans
- Total affichages :
Transcription
1 Data Mining Master 2 Informatique UAG Bibliographie (1) U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy, editors, Advances in Knowledge Discovery and Data Mining, AAAI/MIT Press, 1996 Gilbert Saporta, Data mining et statistique décisionnelle, Éditions Technip, Jiawei Han, Micheline Kamber, Data Mining : Concepts and Techniques, Morgan Kaufmann, David T. Connolly & C. Begg, Systèmes de bases de données, Eyrolles, Ian Witten and Eibe Frank, Data Mining, Practical Machine Learning Tools and Techniques, 2nd edition, Morgan Kaufman, David Hand, Heikki Mannila, Padhraic Smith, Principles of Data Mining, MIT Press, Bibliographie (2) Cynthia Gibas et Per Jambeck, Introduction à la bioinformatique, O'Reilly, Anna Tramontano, Introduction to Bioinformatics, Chapman & Hall/CRC, Jason Wang, Mohammed Zaki, Hannu Toivonen and Dennis Shasha, Data Mining in Bioinformatics, series: Advanced Information and Knowledge Processing, Springer, Marcus A. Maloof, Machine Learning and Data Mining for Computer Security: Methods and Applications (Advanced Information and Knowledge Processing), Springer, Jaideep Vaidya, Chris Clifton, Michael Zhu, Privacy Preserving Data Mining (Advances in Information Security), Springer, Sites (1) KD Nuggets The Data Mine Conférences Journaux ACM SIGKDD - Knowledge Discovery and Data Mining ACM Special Interest Group DMKD Sites (2) Systèmes SPSS (SPSS Clementine) SAS (Entreprise Miner) RapidMiner Plan du cours 1. Principes 2. Exemples d'application 3. Tâches standard 4. Datawarehousing 5. Pré-traitement 6. Classification supervisée Weka BioConductor 1
2 1.1 - Introduction Motivation Fouille de données ou : - Data Mining - Knowledge Discovery in Databases (KDD) - Extraction automatique de connaissances à partir de données (ECD) Explosion du volume des données outils et technologie de stockage performants recueil de données volumineux (transactions de ventes, cartes de crédit, images ) : giga et teraoctets Wal-Mart : 20 millions de transactions, 483 processeurs parallèles nécessité d'en tirer des connaissances utiles Domaine connexe : Data Warehousing "data rich but information poor situation" Data Warehousing : technologies comprenant extraction, pré-traitement, chargement Extract, Transform, Load (ETL) nettoyage intégration/agrégation des données interrogation des données agrégées On Line Analysis Processing (OLAP) Une définition du data mining "un processus non trivial d'extraction de modèles valides, nouveaux, potentiellement utiles et compréhensibles à partir de données " (Fayyad 1996) non pas décrire et vérifier des hypothèses mais, générer une hypothèse en recherchant des modèles Exemples d'application et types de problème (1) Domaine d'application et types de problème (2) Marketing Marketing ciblé, CRM (Customer Relationship Management), Ventes croisées, Segmentation des marchés o o o Quel type de clients achètent quels types de produits? Y-a-t-il des liens de causalité entre l achat d un produit P et d un autre produit P? Quel est le comportement des clients au cours du temps utiliser des données recueillies pour un produit similaire recherche d'associations/correlations entre produits chercher des segments parmi clients Analyse et gestion des risques, Détection de fraudes Assurance, Domaine Bancaire : cartes de crédit, accord de crédit Telecommunications Systèmes informatiques, Réseaux Peut-on caractériser les assurés qui font des déclarations d accident frauduleuses? Détecter l'utilisation de cartes de crédit frauduleuse Quels sont les clients "à risque" pour l'accord de crédit? 2
3 Domaine d'application et types de problème (3) Santé, Médécine Etude de l'influence de certaines médications sur l évolution d une maladie Recherche des médicaments les plus efficaces Astronomie Domaine d'application et types de problème (4) Sécurité informatique Détection traditionnelle basée sur des signatures connues Détecter automatiquement de nouvelles intrusions Différencier intrusion et mauvaise utilisation : Classifier les intrusions Chercher des modèles prédictifs de mauvaises utilisations Construire des profils normaux, des séquences fréquentes Identifier des déviations dans les comportements Domaine d'application et types de problème (5) Domaine d'application et types de problème (4) Biologie - Génomique Analyse des données d'expression de biopuces (micro-arrays) Identifier des similarités dans des séquences d ADN Rechercher le rôle de certains gènes dans une pathologie Rechercher le rôle de certains gènes dans l'effet de médications Rechercher des gènes qui s'expriment de la même manière Télécommunications Problème du churn Recherche d'anomalies sur un réseau Web Mining Etudier le contenu, la structure ou l usage des pages web Text mining (news group, , tous documents) E-learning Un exemple en marketing Une compagnie de téléphone mobile doit tester sur le marché un nouveau produit ; le produit ne peut être offert initialement qu'à quelques centaines d'abonnés. Il est exclus d'envoyer un courrier à tous les abonnés Il faudrait pouvoir "prédire" qui va probablement acheter le produit Expérience passée : 2 à 3% des clients sont à même de répondre positivement en achetant le produit Pour 500 réponses positives : sans modèle, il faut entre et prospects Un exemple en marketing (suite) apprentissage par l'exemple ensemble d'apprentissage : ensembles des enregistrements obtenus lors du lancement d'un produit similaire préparation des données : choix des données entre 3 bases de données (appels détaillés, marketing, données démographiques) construction de plusieurs champs ajoutés comme les minutes d'utilisation, la fréquence des appels, phase de data mining : extraction d'un modèle qui décrit les clients probables du nouveau produit évaluation et interprétation du modèle mise en œuvre (déploiement) 3
4 Les étapes du processus (1) Comprendre le problème connaissance du domaine, buts poursuivis, données disponibles, déploiment des résultats Explorer : visualiser, questionner Créer le réservoir de données Nettoyage et Intégration Réduction et Transformation Choisir la(les) fonctionnalité(s) (60% du travail) description, classification, classement, regression, association, Choisir la (les) méthodes (algorithmes) Effectuer l'extraction : recherche des modèles intéressants Evaluation du modèle Présentation des résultats CRISP-DM: Data Mining Process Deployment Business understanding Data Evaluation Data evaluation Data preparation Modeling Les étapes du processus (2) Quelles types de données sont fouillées? Data Mining Evaluation Connaissances BD relationnelles Datawarehouses : relationnel, cube multi-dimension Données de transactions BD orientées objet, spatiales, multimedia, textuelles Données temporelles et séries temporelles Données du Web Nettoyage Entrepôt Intégration Sélection et transformation mais le plus souvent, pré-traitées et intégrées dans une table sur laquelle la recherche d'un modèle est réalisée Les différentes tâches/modèles Objectif : Décrire ou Prédire Description : Caractérisation Discrimination requêtes SQL requêtes OLAP description analytique mesures statistiques Les différentes tâches/modèles (2) Analyse d'association (corrélation et causalité) : découvrir des règles d'association : X Y où X et Y sont des conjonctions de termes attributs-valeurs ou des prédicats pain=1 et café=1 beurre=1 [support = 5%, confiance = 70%] age>20 et age<29 et revenu>1000 achètepc="oui" [support = 2%, confiance = 60%] 4
5 Les différentes tâches/modèles (3) Classification ou Apprentissage non supervisé (clustering) trouver des groupes ou classes d'objets tels que la similarité intra-classe est élevée et la simlilarité inter-classes est faible (pas de variable identifiant la classe) segmentation des clients cluster de gènes Les différentes tâches/modèles (4) Classement/Prédiction ou Apprentissage supervisé (supervised classification) apprendre une fonction qui associe une donnée à une classe prédéfinie classer les clients "vagabonds" en fonction de leurs caractéristiques prédire un comportement frauduleux Autres fonctionnalités du data mining Recherche de séquences temporelles Analyse de flux Analyse de déviations Recherche de correlations Data Warehousing Qu est-ce qu un data warehouse? Un modèle de données multi-dimensions Opérations OLAP typiques Architecture d un data warehouse Qu est-ce qu un data warehouse? BD opérationnelles vs DW Un réservoir de données maintenu indépendant des BD opérationnelles, permettant d'organiser et de consolider les données disparates d une même organisation et d'en faciliter l'analyse Un DW doit être capable d'incorporer toutes les données disponibles d'une organisation Data warehousing : processus de construction (intégration) et de mise en œuvre d'un DW (outils OLAP) BD opérationnelles : OLTP et gestion des requêtes opération journalières des utilisateurs manipulent des données courantes se réfèrent souvent à un modèle conceptuel EA opèrent par transactions courtes DW : support pour l'analyse de données et l'aide à la décision manipulent des données d'archive peuvent présenter les données selon différentes dimensions permettent l'agrégation et manipulent les données à divers degrés de granularité (OLAP) se réfèrent souvent à un modèle conceptuel en étoile ou flocon 5
6 1.5 - Préparation des données Nécessité de préparer les données Données réelles endommagées Incomplètes, Bruitées, Incohérentes Nettoyage Intégration et transformation Réduction Discrétisation Tâches principales pour la préparation Nettoyage compléter les valeurs manquantes, lisser les données bruitées, supprimer les déviations, et corriger les incohérences Intégration intégrer des sources de données multiples Transformation normaliser (ex. pour le calcul de distances) Réduction réduire le volume des données (agréger, supprimer une dimension ) Discrétisation pour les attributs numériques, permet de réduire le volume Valeurs manquantes on peut ignorer le tuple compléter la valeur à la main utiliser une constante globale utiliser la valeur moyenne utiliser la valeur moyenne pour les exemples d'une même classe utiliser la valeur la plus probable Données bruitées on peut trier et partitionner (discrétiser) classifier (exceptions) appliquer un modèle de prédiction (ex : une fonction de régression) Données bruitées Partitionnement et Lissage les valeurs triées sont réparties en largeur (distance) la suite triée est partitionnée en N intervalles de même amplitude amplitude de chaque intervalle W = (max -min)/n. solution la plus simple, mais les exceptions peuvent dominer ou en profondeur (fréquence) la suite triée est partitionnée en N intervalles contenant le même nombre d'exemples Données bruitées Tri et Partitionner : un exemple données triées 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Partition en profondeur : - part 1: 4, 8, 9, 15 - part 2: 21, 21, 24, 25 - part 3: 26, 28, 29, 34 Lissage par les moyennes : chaque valeur de la partition est remplacée par la moyenne - part 1: 9, 9, 9, 9 - part 2: 23, 23, 23, 23 - part 3: 29, 29, 29, 29 Lissage par les extremes : : chaque valeur de la partition est remplacée par la valeur extreme la plus proche - part 1: 4, 4, 4, 15 - part 2: 21, 21, 25, 25 - part 3: 26, 26, 26, 34 6
7 Données bruitées Regression Intégration Données redondantes Y1 Y1 y y = x + 1 les données sont lissées de manière à approcher une fonction Régression linéaire Détection de données redondantes par analyse de corrélation par exemple : redondance entre attribut X1 x Régression linéaire multiple mesure la corrélation entre les attributs A et B r A,B >0 implique que A et B sont positivement corrélés r A,B <0 implique que A et B sont négativement corrélés Transformation Réduction Les transformations appliquées : Le lissage qui supprime les données bruitées permet d'obtenir une représentation réduite d'ensembles volumineux de données L'agrégation qui calcule des sommes, des moyennes La généralisation qui remonte dans une hiérarchie de concept La normalisation qui ramène les valeurs dans un intervalle stratégies appliquées agrégation réduction compression discrétisation donné La construction d'attributs Réduction de dimension Discrétisation suppression d'attributs : de nombreux attributs non pertinents détériorent les performances des algorithmes par ex, les algorithmes d'induction d'arbres pour assurer de bonnes performances aux algorithmes d'extraction (arbres de décision, classifieurs de bayes, ) supprimer des données non pertinentes permet de réduire le nombre de valeurs d'un attribut continue en divisant le domaine de valeurs en intervalles utile pour la classification et les arbres de décision (algorithmes qui manipulent des variables catégorielles) des techniques de discrétisation peuvent être appliquées récursivement pour fournir un partitionnement hiérarchique de l'attribut supprimer des données redondantes 7
8 Discrétisation non supervisée Discrétisation supervisée Ou discrétisation aveugle (indépendamment d'une valeur de classe) partitionnement en largeur prend en compte la classification utilise l'entropie pour mesurer l'information et obtenir un critère de "pureté" discrétise en intervalles "purs" partitionnement en profondeur Discretisation basée sur l'entropie 1.6 Classification supervisée A. Principes B. Classement par induction d arbres de décision C. Approche probabiliste - Classifieurs Bayésiens D. KNN E. Approche par rétro-propagation F. Approche évolutionnaire G. Approche par règles d association Classement (en : classification) Apprentissage supervisé tâche de prédiction prédit des variables catégorielles construit un modèle de classement (classifieur) des données en se basant sur un ensemble appelé ensemble d'apprentissage (EA) (training set) utilise le modèle pour classer de nouvelles données 8
9 Apprentissage non supervisé versus supervisé Classification (en: Clustering) : Apprentissage non-supervisé les classes ne sont pas connues étant donné un ensemble de mesures, observations,... est recherchée l'existence de groupes (classes) regroupant des données similaires Apprentissage non supervisé versus supervisé (2) Classement (en : Classification): Apprentissage supervisé supervision: les données de l'ea (observations, mesures, etc.) sont accompagnées d'étiquettes indiquant la classe de chaque donnée une nouvelle donnée est classifiée selon le modèle appris à partir de l'ea Apprentissage supervisé Modélisation prédictive Apprentissage supervisé Modélisation prédictive (2) Classement prédit des variables catégorielles construit un modèle de classification des données Régression modélise des fonctions à valeurs numériques continues prédit des valeurs inconnues ou manquantes Modèle prédictif ( versus descriptif ) une variable est exprimée comme une fonction des autres Y = f(x1,..., Xn) la valeur de cette variable cible peut être prédite à partir des valeurs des autres variables prédictives Y variable catégorielle Classement Y variable quantitative Régression Classement : Apprentissage supervisé construit un modèle de classement des données en se basant sur un ensemble appelé ensemble d'apprentissage (EA) (training set) teste sa précision sur un ensemble de test (ET) (test set) utilise le modèle pour classifier de nouvelles données Classement et Bases de données Dans une table (relationnelle) les classes sont représentées par les valeurs d'un attribut particulier : attribut-cible ou attribut de classe les autres attributs sont appelés attributs prédictifs tâche d'apprentissage ou de classement : extraire un modèle qui permette d'assigner une classe prédéfinie aux tuples selon une condition sur les attributs prédictifs 9
10 Classement - Exemple Règles de Classification de la forme IF-THEN une règle prédit une classe à partir des attributs prédictifs si A 1,..., A p sont les attributs prédictifs et G est l'attribut de classe, les règles sont de la forme : A 1 = a 1... A p = a p G= g k si on suppose que A 1,..., A p sont à valeurs discrètes Classement en deux étapes 1. Construction du modèle sur l'ensemble d'apprentissage (EA) Classement (1): Construction du modèle EA Algorithmes de Classement 2. Evaluation de la précision (accuracy) du modèle pour classifier de nouveaux objets Classifieur (Modèle) IF Age= AND Revenu = élevé THEN Achète = oui Classement étape 2 Evaluation de la précision du modèle pour classifier de nouveaux objets la valeur de l'attribut-cible connue pour chaque exemple de l'et est comparée à la classe prédite par le modèle ET doit être indépendant de EA, sinon risque de sur-évaluation (over-fitting) la valeur prédictive du modèle est évalué sur les exemples de l'et première mesure de la valeur prédictive souvent utilisée : la précision (accuracy), fréquence des exemples correctement classifiés et aussi, les faux positifs, faux négatifs 10
11 Méthodes Arbres/Règles de décision Modèles probabilistes : Naïve Bayes, Réseaux de Bayes Lazy approaches : K-Nearest Neighbor Réseaux neuronaux Algorithmes génétiques One R Classement par inférence de règles rudimentaires Règle-1 Inférence d'une ensemble de règles dont chacune teste un attribut particulier Att=val Classe Chaque règle porte sur une seule valeur d'attribut La classe prédite est celle qui apparaît le plus souvent dans l'ea On déduit toute les règles possibles pour un attribut et on choisit celle dont le taux d'erreur est le plus petit Inférence de règles rudimentaires Classification supervisée A. Principes B. Classement par induction d arbres de décision C. Approche probabiliste - Classifieurs Bayésiens D. KNN E. Approche par rétro-propagation F. Approche évolutionnaire G. Approche par règles d association Classement par induction d arbres de décision Apprentissage inductif rechercher dans un espace d'hypothèses implicitement défini par la représentation de l'hypothèse trouver la meilleure hypothèse : celle qui correspond au mieux aux exemples de l'ea conjecture : la meilleure hypothèse pour l'ea est aussi la meilleure pour les exemples non connus Arbres de décision pour variables à valeurs discrètes structure d arbre de type organigramme un noeud représente un test sur un attribut une branche correspond à un résultat de test les feuilles représentent les classes ou les distributions de classe utilisation : classement d une donnée inconnue, en comparant la valeur de ses attributs avec les noeuds de l arbre 11
12 Quand rechercher un arbre de décision? Génération d un arbre de décision Instances décrites par des attributs à valeurs discrètes Attribut de classe à valeurs discrètes Hypothèses disjointes Exemple : Prédire le risque de crédit Prédire le "churn" Prédire une pathologie En deux étapes construction au début : tous les exemples sont à la racine les exemples sont ensuite répartis selon le résultat du test effectué sur l attribut choisi élagage identifier et supprimer les branches qui contiennent bruit et exceptions Ensemble d apprentissage Résulat : un arbre de décision pour achète_ordinateur age? <= >40 etudiant oui degsolvabilité non oui excellent bon non oui non oui Extraction de règles de classification Extraction de règles de classification à partir des arbres de décision Chaque règle est de la forme IF-THEN Une règle est créée pour chaque chemin de la racine à une feuille Chaque terme attribut-valeur constitue un opérande de la conjonction en partie gauche Chaque feuille correspond à une classe à prédire non age? <= >40 etudiant oui oui degsolvabilité non oui excellent bon non oui IF age = <=30 AND etudiant = non THEN achète_ordinateur = non IF age = <=30 AND etudiant = oui THEN achète_ordinateur = oui IF age = THEN achète_ordinateur = oui IF age = >40 AND degsolvabilité = excellent THEN achète_ordinateur = non IF age = >40 AND degsolvabilité = = bon THEN achète_ordinateur = oui 12
13 Induction d'un arbre de décision ID3 [Quinlan 1986] a évolué jusqu'aux versions C4.5 et C5.0 principe de base : construire récursivement un arbre de la racine aux feuilles à chaque noeud, choisir le meilleur attribut parmi ceux restant quel est le meilleur? ID3 (2) au début, tous les exemples sont à la racine attributs catégoriels, ou continues et discrétisées les exemples sont ensuite répartis sur des branches pour chaque valeur de l'attribut choisi comme test le processus est répété sur l'ea correspondant à chaque nœud descendant ID3 (3) les attributs de test sont choisis selon un critère heuristique ou un critère statistique le processus de partitionnement (split) s arrête lorsque tous les exemples de chaque noeud appartiennent à la même classe. il ne reste aucun exemple à classifier ou il ne reste plus d attribut pour base de partitionnement le scrutin majoritaire est utilisé pour classifier le noeud Algorithmes d induction d un arbre de décision ID3 (Quinlan 1986) CART C4.5 (Quinlan 1993) et C5.0 SLIQ (Mehta et al 1996) SPRINT (Shafer et al 1996) RAINFOREST (Gehrke, Ramakrishnan & Ganti 1998) Critères de sélection d un attribut de test Information gain (ID3/C4.5) critère heuristique mesure la réduction d'entropie Index Gini (CART, SLIQ, SPRINT) critère statistique mesure l'impureté d'un noeud Sélection d un attribut de test (1) Le meilleur attribut intuitivement : celui qui partitionne le mieux les instances en classes, celui qui maximise la distance entre les groupes obtenus après partitionnement celui qui minimise l'information (le nombre de tests) nécessaire pour classifier les exemples selon la partition résultante et qui reflète le désordre minimum dans cette partition donc garantit que l'arbre résultant sera simple plus formellement : déterminer une mesure de séparabilité 13
14 Approche théorie de l'information - L'entropie Soit S l'ensemble d'exemples Supposons que l'attribut à prédire prenne M valeurs distinctes définissant M classes C 1,, C M Fonction d'entropie Entropie L'entropie E(S) est définie par où p i désigne la proportion d'exemples de S appartenant à Ci p+ Gain d'information Sélection d'un attribut par calcul de la mesure Infogain mesure d'efficacité d'un attribut A : gain d'information réduction de l'entropie obtenue en partitionnant selon A InfoGain(S, A) = E(S) k= M k=1 Sk S E(Sk) Class P: achète_ordinateur = oui Class N: achète_ordinateur = non E(S) =-9/14 log(9/14) - 5/14 log(5/14) =0.94 où A prend les valeurs a 1, a M et S k est le sous-ensemble de S pour lequels l'attribut A prend la valeur a k Inconvénient de InfoGain favorise les éclatements en un grand nombre de partitions, chacune étant pure par exemple : attribut date avec N valeurs, N grand Infogain(date) maximum si on suppose que date suffit à prédire la classe Autre mesure : Gain Ratio (C4.5) introduit une information de partitionnement SplitInfo(S, A) = k= M Sk k=1 S log 2 S GainRatio(S,A) = InfoGain(S,A) SplitInfo(S, A) ajuste InfoGain avec l'entropie du partitionnement pénalise un éclatement dans un grand nombre de petites partitions Sk 14
15 Sélection d un attribut de test (2) Index Gini Si un ensemble d'exemples S contient M classes, l'index Gini de S est défini par : Gini où p j est la fréquence relative de la classe j dans S (CART, SLIQ, SPRINT) p+ Index Gini Index Gini d'une partition C1 0 C2 6 Gini=0 C1 2 C2 4 Gini=0.444 Si un ensemble S est partitionné en sousensembles S 1 S P de tailles respectives N 1 N P, l'index Gini de la partition est défini par C1 1 C2 5 Gini=0.278 C1 3 C2 3 Gini=0.500 L'attribut qui produit l'index Gini minimum est le meilleur Index Gini d'une partition Principes de recherche dans l'espace d'hypothèses (ID3) A N1 N2 N1 N2 N1 N2 C1 0 4 C2 6 0 C1 4 2 C2 4 0 Gini=0 Gini=0.4 N1 N2 C1 6 2 N1 N2 C1 3 4 C2 2 0 C2 3 0 Gini=0.3 Gini=0.3 15
16 Principes de recherche dans l'espace d'hypothèses (ID3) Pourquoi rechercher l'arbre le plus court? Une seule hypothèse est solution Pas de backtrack Biais : recherche de l'arbre de plus court + - Règles plus courtes, plus compréhensibles, plus simples Une hypothèse courte a peu de chances d'être une coincidence Une hypothèse longue qui correspond parfaitement aux données a des chances d'être une coincidence Difficile de définir une hypothèse courte Que peut-on dire des ensembles de faible volume basés sur des hypothèses courtes? Divers problèmes Sur-évaluation (Overfitting) Eviter la sur-évaluation Traiter les variables continues Traiter les valeurs manquantes Attribuer des coûts différents pour certains attributs Si on ajoute du bruit au jeu de données Sur-évaluation (Overfitting) age? Sur-évaluation de l'ensemble d'apprentissage : une hypothèse est meilleure qu'un autre sur l'ea, mais moins bonne sur l'ensemble des données <= >40 données bruitées et d'anomalies combinatoire très importante l'arbre de décision etudiant degsolvabilité degsolvabilité arbres trop complexes, incompréhensibles qui peuvent outre-passer les données mauvaise prédiction sur des exemples nouveaux non oui excellent bon excellent bon Solution : Elaguer (pruning) non oui non oui non oui 16
17 Sur-évaluation (Overfitting) Sur-évaluation (Overfitting) Soit une hypothèse h sur l'ensemble d'apprentissage: error train (h) sur l'ensemble D des données: error D (h) Hypothese h sur-évalue l'ea s'il existe une autre hypothese h H telle que error train (h) < error train (h ) et error D (h) > error D (h ) Elagage Pré-élagage Pour éviter l'over-fitting arrêter le développement vertical de l'arbre (pré-élagage) développer l'arbre puis l'élaguer (post-élagage) Minimum description length (MDL): minimiser size(tree) + size(misclassifications(tree)) appliquer des règles qui limitent la profondeur des branches, par exemple fixer un seuil limite du nombre de noeuds au dessus duquel un chemin ne peut plus être développé fixer un seuil limite du nombre d'enregistrements en dessous duquel un nœud ne peut plus être éclaté Post-élagage Extensions de l'algorithme de base Développer l'arbre à son maximum puis, élaguer des branches jusqu'à leur taille minimum pour ne pas compromettre leur valeur, par exemple utiliser une heuristique ou l'intervention de l'utilisateur, par exemple, utiliser un ensemble de données différent de l'ensemble d'apprentissage pour tester si un sous-arbre améliore suffisamment l'exactitude entière (estimer le taux d'erreur) traiter les variables continues discrétisation en un ensemble d'intervalles gérer les valeurs manquantes les remplacer par la valeur la plus fréquente assigner une probabilité p i à chaque valeur possible, assigner une fraction p i des exemples à chaque sous-nœud 17
18 Taux d'erreur Estimation du taux d'erreur Taux d'exemples mal classés taux d'erreur apparent : sur l'ensemble d'apprentissage estimation du taux d'erreur réel : sur un ensemble de test ET doit être issu du même ensemble que EA et doit refléter la population à laquelle le classifieur doit être appliqué en termes de distribution diviser l'ensemble des données en ensemble d'apprentissage (2/3) et ensemble de test (1/3) utiliser la validation croisée (cross-validation) utiliser toutes les données dans l'ensemble d'apprentissage Un ET n'est pas toujours disponible Alternative à l'éclatement EA/ET : Validation croisée Validation croisée Différentes erreurs Principe l'ensemble des exemples est partitionné en k parties d'effectifs égaux apprentissage et test en k étapes à chaque étape : utiliser k-1 parties comme EA et 1 comme ET(k-fold cross-validation) calculer le taux d'erreur e k taux d'erreur estimé : moyenne des e k on prend souvent K=10 prédire un exemple dans C alors qu'il appartient à non C prédire un exemple dans non C alors qu'il appartient à C Vrai positif (True Positive) : exemple prédit dans C et appartenant à C Vrai négatif (True Negative) : exemple prédit dans nonc et appartenant à nonc Faux positif (False Positive) : exemple prédit dans C et appartenant à nonc Faux négatif (False Negative) : exemple prédit dans nonc et appartenant à C Matrice de confusion Matrice de confusion C C C TP FN C FP TN FP + FN TP + FP + TN + FN P N P TP FN N FP TN 18
19 Mesures et objectifs Sensibilité, Recall, Précision, diagnostic médical : classer un sujet dans la classe dans laquelle il a la probabilité la plus grande de se placer on recherche Ci de manière à avoir p(ci/h) maximum test médical : comparer le taux de sujets non malades dont le test est positif au taux des sujets malades dont le test est négatif accord de crédit : identifier la proportion des clients qui deviennent "à risque" alors que le crédit leur a été accordé A C Sensibilité (Se), Recall, Taux de TP, Spécificité (Sp), Taux de TN Taux de FP Précision Différents coûts d'erreur exemples : accord de crédit prévision de consommation électrique diagnostiques... pondérer différemment les erreurs : FN ou FP Mesures standard Correctly Classified Instances % Incorrectly Classified Instances % Total Number of Instances 683 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class diaporthe-stem-canker charcoal-rot rhizoctonia-root-rot Arbres de décision : Avantages Inconvénients sont peu coûteux à construire : ils font peu de parcours des données et supportent de nombreuses variables prédictives facilement interprétables efficaces dans le cas d'une majorité de variables qualitatives ont une valeur prédictive comparable aux autres méthodes dans la plupart des applications critère naïf pour le choix de l'attribut de partitionnement : ce critère ne tient pas compte des incidences produites sur les partitionnements ultérieurs le choix n'est pas remis en question le processus est séquentiel donc un partitionnement dépend toujours du précédent univarié (il ne s'intéresse qu'à une variable à chaque nœud) donc limitation du nombre de règles explorées et détection difficile des relations entre attributs les algorithmes comme ID3 ou C4.5 nécessitent des données stockées en mémoire 19
20 C5.0 Adaptation au Data Mining construit l'arbre " en profondeur d'abord" utilise GainRatio nécessite que la base entière réside en mémoire BD : des millions d'exemples et des centaines d'attributs Approches Data Mining: SLIQ (Mehta et al. 1996) construit un index pour chaque attribut ; seules la liste de classes et la liste-attribut courante sont en mémoire SPRINT (J. Shafer et al. 1996) construit une liste-attribut qui contient la classe RainForest (Gehrke, Ramakrishnan & Ganti 1998) s'adapte à l'espace mémoire disponible construit une liste AVC (attribut-valeur, classe) indiquant la distribution dans les classes de chaque attribut Classification supervisée A. Principes B. Classement par induction d arbres de décision C. Approche probabiliste - Classifieurs Bayésiens D. KNN E. Approche par rétro-propagation F. Approche évolutionnaire G. Approche par règles d association Approche probabiliste - Classifieurs Bayésiens Classifieur statistique qui prédit la probabilité pour un exemple d'appartenir à une classe basé sur la Théorie de Bayes (probabilités conditionnelles) approche la plus utilisée pour certains types d apprentissage, car aussi performante que arbres de décision et réseaux de neurones deux formes : Classement naïve, Classement par Réseaux bayésiens Intérêt des méthodes bayésiennes Inconvénients fournissent une perspective utile pour comprendre des algorithmes d apprentissage qui ne manipulent pas explicitement des probabilités sont incrémentales: chaque exemple dans EA peut augmenter ou réduire la probabilité qu une hypothèse soit correcte ; une hypothèse n est pas éliminée car inconsistante avec un seul exemple nécessitent une connaissance initiale de nombreuses probabilités Si elles ne sont pas connues à l avance, elles sont souvent estimées à l aide de la connaissance du contexte, des données disponibles et de suppositions sur la forme des distributions sous-jacentes nécessitent un temps de calcul important pour déterminer l hypothèse optimale 20
21 Théorème de Bayes étant donné deux évènements X et Y, la probabilité conditionnelle de X sachant Y, notée P(X/Y) vérifie : en classement, on cherche à évaluer P(H/D) où H est une hypothèse et D représente les données de l ensemble d observations (EA) P(H) appelée probabilité a priori, interprétée comme la probabilité initiale que H soit vraie sans avoir observé l ensemble d apprentissage traduit une éventuelle connaissance du contexte Exemple Deux hypothèses H1 : contracter la maladie H2 : ne pas contracter la maladie Les observations : résultats de tests Positif ou Négatif Sur la population : 0.8% ont la maladie Le test de lab. retourne un résultat positif correct dans seulement 98% des cas un résultat négatif correct dans seulement 97% des cas Un nouveau patient pour lequel le test retourne Positif Quel diagnostic peut-on faire? Solution : P(H1/positif) maximum? P(positif/malade)=0.98 P(malade)=0.008 P(négatif/non_malade)=0.97 P(positif/non_malade)=0.03 P(négatif/malade)=0.02 Théorème de Bayes et Classement P(malade/positif)= P(positif/malade)*P(malade)/P(positif) P(positif/malade)*P(malade)=0.98*0.008 = pour le classement : l'objectif est de classifier, dans une classe C, un exemple défini par une conjonction de termes attributs-valeurs A 1,..., A p sur les attributs prédictifs i.e maximiser la probabilité suivante : P(non_malade/positif) = P(positif/non malade)*p(non_malade)/p(positif) P(positif/non malade)*p(non_malade)= 0.003*0.992= le théorème permet d écrire : H MAP =malade 21
22 Calcul des probabilités a posteriori Classifieur de Bayes naïf basée sur l'hypothèse que les variables A 1,..., A p sont indépendantes 2 à 2 P(A 1 A p ) est le même pour toutes les classes P(C) fréquence relative de chaque classe (I) P(C/A 1 A p ) maximum ssi P(A 1 A p /C) P(C) maximum mais calcul de P(A 1 A p /C) très coûteux Un exemple est classifié dans C si est maximum Classifieur de Bayes naïf réduit le temps de calcul de manière significative Le nombre de calculs à effectuer est égal au produit : Nombre de valeurs d attributs prédictifs * Nombre de valeurs d attribut-cible Algorithme - calcul des P(C j ) et P(A i /C j ) à partir des fréquences de ces éléments dans l EA pour chaque classe C j - ensuite un nouvel exemple est classifié en appliquant la formule (I) Classifieur de Bayes naïf P(achète_ordinateur/age<=30 revenu=moyen étudiant=non deg_solvabilité=bon) est maximum ssi p1=p(achète_ordinateur) *P(age<=30/achète_ordinateur) *P(revenu=moyen/achète_ordinateur) *P( étudiant=non/achète_ordinateur) *P( deg_solvabilité=bon/achète_ordinateur) est maximum p1=9/14 *2/9*4/9*3/9*6/9=0.141 Comment peut-on conclure? 22
23 Réponse On calcule p2=p( achète_ordinateur) *P(age<=30/ achète_ordinateur) *P(revenu=moyen/ achète_ordinateur) *P( étudiant=non/ achète_ordinateur) *P( deg_solvabilité=bon/ achète_ordinateur) p2 = 5/14*3/5*2/5*4/5*2/5=0.274 Le classifieur de Bayes naïf assigne la classe achète_ordinateur à cet exemple Question Une personne sur mille est un génie. Un test de QI est positif si la personne est un génie, négatif sinon. Le test n est pas fiable à 100% génie normal positif négatif Une personne passe le test, résultat positif. Quelle est la probabilité pour que cette personne soit réellement un génie? Classifieur de Bayes naïf pas de recherche explicite dans l espace des solutions mais calcul de fréquences des combinaisons variées dans l EA nécessite le calcul préalable de nombreuses probabilités repose sur l hypothèse d indépendance des variables réduit la complexité si les variables sont corrélées Réseaux bayésiens un réseau bayésien décrit des hypothèses d indépendance conditionnelle qui s appliquent à des sous-ensembles de variables, accompagnées de probabilités conditionnelles graphe orienté acyclique Nœud - variable Arc dépendance entre variables la structure du réseau peut être connue à l avance ou inférée à partir des données Réseaux bayésiens Réseaux bayésiens Un réseau bayésien est utilisé pour inférer la distribution de probabilité d une variable cible, prédisant la probabilité de chaque classe, étant donnée la valeur d autres variables P(FeuDeForet=vrai)= P(FeuDeForet=vrai/parents(FeuDeForet))= P(FeuDeForet=vrai/Orage, FeuDeCamp, Eclairs) difficile si toutes les variables n ont pas des valeurs connues solutions approximatives : méthode du gradient 23
24 Autre exemple Exemple de réseau Classification de pannes d'ordinateurs Couleur de voyant (Rouge, Vert) Équipement défaillant (UC,MC,PE) Envoie d'un dépanneur selon la classe Calcul de probabilités sur le training set Voyant Rouge Vert Rouge Panne UC MC PE Dépanneur Pierre Paul? Intérêt des classifieurs Bayésiens Classifieurs bayésiens naïfs et Réseaux bayésiens sont basés sur le calcul des probabilités a posteriori permettent de calculer une probabilité a posteriori à une hypothèse candidate en se basant sur la probabilité a priori et les données observées Classification supervisée A. Principes B. Classement par induction d arbres de décision C. Approche probabiliste - Classifieurs Bayésiens D. Lazy approaches : KNN, KBR E. Approche par rétro-propagation F. Approche évolutionnaire G. Approche par règles d association Apprentissage basé sur les instances Algorithme k-nearest Neighbor lazy evaluation methods Les exemples de l EA sont stockés et le processus d évaluation est retardé au moment où un nouvel ne construit pas un classifieur conserve tous les exemples de l'ea peut être très lent accorde la même importance à tous les attributs exemple doit être classifié Par exemple, les méthodes suivantes : k-nearest neighbors Raisonnement à base de cas Data Mining : Concepts et Techniques - 3- Modélisation prédictive
25 Algorithme k-nearest Neighbor Apprentissage par analogie chaque exemple est représenté par un point dans l espace de dim n k-nearest neighbour : pour un nouvel exemple x, l algorithme cherche k exemples de l EA les plus proches (distance euclidienne) x est classifié dans la classe la plus représentée parmi les K voisins _ + _ + _ + _ Classement Soumission d'un tuple inconnu Recherche des k plus proches voisins Assignation de la classe la plus représentative parmi les k voisins Vote majoritaire (classe la plus fréquente) Plus grande similarité à la classe Les attributs ont le même poids centrer et réduire pour éviter les biais certains peuvent être moins classant que d'autres Apprentissage paresseux rien n'est préparé avant le classement tous les calculs sont fait lors du classement nécessité de technique d'indexation pour large BD Calcul du score d'une classe peut changer les résultats; variantes possibles Raisonnement à base de cas (KBR) Apprentissage par analogie chaque exemple est représenté par une description symbolique complexe pour un nouvel exemple x, l algorithme cherche un cas identique dans l EA Si un cas identique est trouvé, il est retourné Sinon, des cas similaires sont recherchés ( en termes de sousgraphes, par exemple) et sont combinés pour proposer une solution problèmes ouverts définir des métriques de similarité, des techniques d indexation des cas de l EA, des méthodes pour combiner les solutions Classification supervisée A. Principes B. Classement par induction d arbres de décision C. Approche probabiliste - Classifieurs Bayésiens D. KNN E. Approche par rétro-propagation F. Approche évolutionnaire G. Approche par règles d association Réseaux de neurones - Retropropagation apprendre un R.N : ajuster les poids à attribuer aux connexions de manière à prédire la classe d'un exemple apprentissage connexionniste algorithme le plus utilisé : retropropagation (1980) permet l'apprentissage d'un réseau multi-couches appliqué à de nombreux cas pratiques (reconnaissances de formes, caractères, mots) 25
26 Réseau de neurones Un neurone Tentative de reproduction des structures du cerveau afin de raisonner Ensemble d'unités transformant des entrées en sorties (neurones) connectées, où chaque connexion à un poids associé La phase d'apprentissage permet d'ajuster les poids pour produire la bonne sortie (la classe en classification) Induit un ensemble de valeurs en sortie à partir d'un ensemble de valeurs en entrée Réalise une combinaison linéaire des entrées suivie d une fonction de transfert Fonction Sigma (Σ w i E i ) Biais optionnel b Fonction Sigmoïde f(σ) = 1/(1+e - Σ ) Entrée E n Entrée E i Entrée E 1 w n w i w 1 Σ w i E i +b f Sortie Un neurone Retropropagation Vecteur x en entrée x 0 x 1 x n Vecteur des poids w w 0 w 1 w n Somme pondérée Biais Fonction d'activation f Sortie y Les entrées correspondent aux attributs des exemples Elles sont placées sur une couche (input layer) et alimentées simultanément Le vecteur x en entrée est transformé en sortie y par le moyen de la fonction f Data Mining : Concepts et Techniques - 3- Modélisation prédictive 153 Les sorties du niveau entrée alimentent un niveau caché Apprentissage Découverte de modèles complexes avec affinage progressif Le réseau s'adapte lors de la phase d apprentissage Plusieurs algorithmes possibles le plus utilisé = rétropropagation modification des poids w i par rétropropagation Topologie Choix du nombre de couches entrées, 1 ou 2 couches cachées, sorties Choix du nombre de neurones par couche dépend des entrées et sorties couches cachées intermédiaires Normalisation des variables d'entrées Variable continue centrée réduite [-1,+1] Variable discrète codée ou valeurs attribuées aux entrées Sorties booléenne codant les classes 26
27 Rétropropagation Initialiser les poids et les biais tirage aléatoire sur [-1,+1] Propager les entrées en avant Un exemple est appliqué aux entrées Le réseau calcul les sorties Propager les erreurs en arrière Sortie devant délivrer T: Err = O(1-O)(T-O) Cellule cachée : Err = O(1-O) Σ k w k *Err k Corriger poids et biais de sorte à réduire les erreurs Δwij = λ*errj*oi ; Δbj = λ*errj Apprentissage par retropropagation Objectif Obtenir un ensemble de poids qui permettent de classifier correctement presque tous les exemples de l'ea Etapes initialiser les poids aléatoirement introduire un tuple à la fois pour chaque neurone calculer l'entrée comme fonction linéaire des entrées calculer la sortie à l'aide de la fonction d'activation calculer l'erreur mettre à jour les poids et le biais par retro-propagation Retropropagation des erreurs Interprétation d'un RN Interprétation difficile Oj w jk Méthodes d'extraction de règles : élagage : suppression de liens ayant un moindre effet sur l'exactitude de la Classement regroupement des valeurs d'activation communes recherche de règles liant les valeurs d'activation et la sortie recherche de règles liant les valeurs d'activation et l'entrée combinaison des deux pour obtenir des règles liant entrée et sortie Avantages Inconvénients des RN Classification supervisée Avantages valeur prédictive en général élévé robuste variable de classe à valeurs discrètes, réelles, vectorielles Inconvénients temps d'apprentissage assez long difficulté d'interprétation difficulté à incorporer la connaissance du domaine A. Principes B. Classement par induction d arbres de décision C. Approche probabiliste - Classifieurs Bayésiens D. KNN E. Approche par rétro-propagation F. Approche évolutionnaire G. Approche par règles d association 27
28 Méthodes évolutionnaires Méthodes évolutionnaires Algorithmes évolutionnaires Algorithmes évolutionnaires Algorithmes génétiques Algorithmes génétiques Algorithmes génétiques et Data Mining Algorithmes génétiques et Data Mining Algorithmes évolutionnaires Sélection naturelle inspirés de la théorie de l'évolution des espèces et de la génétique basés sur le concept de sélection naturelle élaboré par Charles Darwin (1859) vocabulaire : individu (solution potentielle, règle, ) population gènes chromosomes parents, descendants reproduction, croisement, mutation apparition, par hasard, de nouvelles espèces due à la sélection de variations individuelles les individus les plus adaptés tendent à survivre plus longtemps à se reproduire Algorithmes évolutionnaires Algorithmes évolutionnaires approche originale ne recherchent pas une solution analytique exacte ou une bonne approximation numérique, ne permettent pas de trouver à coup sûr la solution optimale de l espace de recherche, mais fournissent des solutions qui sont généralement meilleures que celles obtenues par des méthodes plus classiques, pour un même temps de calcul 28
29 Algorithmes évolutionnaires Méthodes évolutionnaires (Evolutionnary computation) Algorithmes génétiques Programmation génétique Programmation évolutionnaire Algorithmes évolutionnaires Algorithmes génétiques Algorithmes génétiques et Data Mining Stratégies d évolution Algorithmes génétiques (AG) Codage développés par J.H. Holland (années 60) variables codées en binaire basés sur la théorie de l évolution et génétique moderne utilisent un codage des paramètres et non les paramètres eux_mêmes n'utilisent que les valeurs de la fonction (d'évaluation) étudiée utilisent des règles de transition probabilistes et non déterministes sous forme de gènes dans un chromosome opérateurs génétiques (croisement, mutation) appliqués aux chromosomes Codage Codage des variables : définir et de coder le problème une variable d optimisation xi --- un gène. une allèle --- valeur d'un gène un site (locus) --- position dans le chromosome un chromosome --- ensemble de gènes un dispositif est représenté par un individu (individual) constitué d un chromosome population = ensemble de N individus qui sont destinés à évoluer Métaphore Un problème à résoudre un individu une solution fonction d'évaluation (fitness ) mesure de profit, d'utilité, de qualité à maximiser 29
30 Codage Exemples Applications Fonctionnement d'un AG optimisation de fonctions numériques difficiles (discontinues, multimodales, bruitées ), traitement d image (alignement de photos satellites, reconnaissance de suspects ), optimisation d emplois du temps, optimisation de design, optimisation de réseaux (câbles, fibres optiques, mais aussi eau, gaz ) apprentissage des réseaux de neurones apprenstissage de classifieurs data mining 1. codage du problème sous forme d'une chaîne binaire 2. génération aléatoire d'une population ( ensemble de solutions possibles) 3. calcul d'une valeur de fitness pour chaque individu 4. sélection des individus devant se reproduire selon leur valeur de fitness 5. croisement et mutation produisent un nouvelle génération 6. itération à partir de 3 avec la nouvelle population Sélection Elimination Sélection - Recombinaison génération : population à un instant t donné évaluation de la génération sélection à partir de la fonction de fitness les individus sélectionnés se reproduisent 30
31 Croisement Mutation Site de croisement reproduction et croisement à la base des AG Chaîne 1 (parent) Nouvelle chaîne 1 descendant (offspring) au sein d'un pool génétique donné, il est possible que la solution recherchée ne soit pas présente l'opérateur de mutation permet l'émergence de nouvelles configurations génétiques, en élargissant le Chaîne 2 Nouvelle chaîne 2 pool, ces mutations améliorent les possibilités de trouver une solution optimale Mutation Le croisement favorise l exploration de l espace de recherche Site de mutation considérons deux gènes A et B pouvant être améliorés par mutation Chaîne Nouvelle chaîne il est peu probable que les deux gènes améliorés A et B apparaissent par mutation dans un même individu. Mais l opérateur de croisement permettra de combiner rapidement A et B dans la descendance de deux parents portant chacun un des gènes mutants Squelette d un A.G. Démonstrations Optimisation de formes géométriques Optimisation de la forme d'une lentille optique Optimisation de Le problème du voyageur de commerce 31
32 Optimisation de la forme d'une lentille Optimisation de la forme d'une lentille Optimisation de la forme d'une lentille Problème du voyageur de commerce Problème d'optimisation classique : étant donné une liste de villes, un voyageur de commerce doit passer dans chacune une seule fois recherche du trajet le plus court possible énumération exhaustive exclue : N villes N-1 possibilités pour la seconde étape N-2 pour la troisième (N-1)! combinaisons un AG trouve trouve une très bonne solution en testant seulement quelques milliers de solutions Problème du voyageur de commerce Paramètres de l'algorithme génétique : individu : chaîne qui représente un trajet valide dans laquelle chaque gène représente une ville et deux gènes ont des valeurs différentes Algorithmes génétiques et Data Mining optimisation de paramètres pour des algorithmes d'extraction déterminer un "bon" ensemble de poids pour un RN déterminer un "bon" ensemble d'attributs pour un algorithme de classification... ou algorithmes d'extraction fitness : distance parcourue sur un trajet 32
33 AG = algo d extraction? AG et extraction de règles Découverte de règles IF... THEN classification association Quelle sorte de population est manipulée? Quels sont les individus? Comment est construite la fitness? Quels critères doit-elle optimiser? Conventions une règle candidate R ---- un individu qualité d'une règle R ---- fitness(r) les critères pris en compte dépendent de la tâche d'extraction Exemple AG et extraction de règles IF Age= AND Revenu = élevé THEN DegSolvabilité = bon IF Age= AND Revenu = élevé THEN Solvabilité = bon Age = "<=30" codé 100 Age = codé 010 Age = >40 codé 001 (codage de position) Codages des règles exemple Un individu peut représenter une règle de classification simple une formule du premier orde gène K attribut A k un ensemble de règles w k = 0 ou w k =1 permet de faire varier la longueur de la peut être de longueur fixe ou variable code un gène pour un attribut règle O k opérateur > < = V k ensemble de valeurs du domaine de l'attribut A k 33
34 Opérateurs génétiques et extraction de règles Evaluation de règles la fitness mesure en général l'exactitude et quelque fois la compréhensibilité Sites de croisement mutation Les opérateurs sont soumis à des contraintes liées au codage des règles exemples : f(r) = (support) 2 f(r) = Se * Sp avec Se=TP/(TP+FN) Sp=TN/(TN+FP) f(r) = TP * (1+ w k (1-cost)) avec cost = 2#règle + #condition Une application Conclusion Pour une base de données sur l'audience de programmes télévisés Un AG est mis en œuvre pour extraire des règles de la forme when S if C then P Avantages des AG en Data Mining ils effectuent une recherche globale ils évitent les optima locaux ils permettent de prendre en compte des règles complexes la fonction de fitness permet d'évaluer plusieurs critères La fonction de fitness utilisée Inconvénients des AG en Data Mining l'évaluation de la fitness peut être coûteuse f= S C P - ( S C * S P )/ S Classification supervisée Classement - Associations A. Principes B. Classement par induction d arbres de décision C. Approche probabiliste - Classifieurs Bayésiens D. KNN E. Approche par rétro-propagation F. Approche évolutionnaire G. Approche par règles d association Deux types de méthodes recherche de règles d association pour la Classement recherche de modèles émergents en utilisant les critères liées à l extraction de règle d association (support) 34
35 Règles d association pour la Classement Règles d association pour la Classement ARCS: Association Rule Clustering System recherche des règles de la forme A 1 A 2 => G= g k A 1 et A 2 tests sur des intervalles d attributs Les règles sont représentées par des points du plan L algorithme cherche des clusters rectangulaires : les intervalles d attributs dans un même cluster peuvent être combinés Classement associative (Liu et al 1998) recherche des règles de la forme cond_set => Y cond_set est une conjonction d items Y représente une classe S cond_set : ensemble des règles ayant le même cond_set PR(S cond_set ) : ensemble des règles de S cond_set ayant la confiance maximum Méthode en 2 étapes : - extraction des PR fréquentes - construction du classifieur où les règles sont classées selon un ordre décroissant Motifs "émergeants" Motifs "émergeants" CAEP (Classement by aggregating emerging patterns) (Dong et al 99) Emerging pattern (EP): itemset dont le support croît d'une classe à l'autre Extraction des EPs basée sur support et taux de croissance Ex : EP : age = <=30 AND etudiant = non Support de 0,2% sur C1 (achète_ordinateur="oui") Support de 57,6% sur C2 (achète_ordinateur="non") Coeff. de croissance = 288 si un exemple contient cet EP, la méthode classe l'exemple dans C2 Comment CAEP construit le classifieur? Pour chaque classe : recherche des EPs ayant un support et un taux de croissance supérieurs à des seuils donnés Pour classifier un nouvel exemple X : pour chaque classe C, les différences entre les EPs de C et X sont agrégées et déterminent un score pour l'appartenance de X à C X est classifié dans la classe de meilleur score Bilan Classification De nombreuses techniques dérivées de l'ia et des statistiques Autres techniques règles associatives, raisonnement par cas, ensembles flous, Problème de passage à l échelle arbre de décisions, réseaux Tester plusieurs techniques pour résoudre un problème Y-a-t-il une technique dominante? 1.7 Modélisation prédictive et performances des modèles 1. Performances des modèles : qualité de la prédiction 2. Performances des modèles : adéquation à l'espace de recherche 5. Performances des modèles : adéquation au volume des données 35
36 Performances des modèles : qualité de la prédiction Taux d'erreur, Elagage 1. taux d'erreur, élagage 2. mesures et objectifs 3. une technique graphique : ROC 4. facteur de lift 5. meta-modèles 6. autres mesures 7. recherches actuelles Objectif : classer correctement le plus grand nombre d'exemples mesure la plus évidente : Taux d'erreur (ou taux de mauvais classements) - à mesurer sur quel ensemble? - ne distingue pas les différents genres d'erreurs - ne prend pas en compte l'importance de l'erreur Estimation du taux d'erreur réel Taux d'erreur réel et Validation croisée Problème taux d'erreur apparent (de resubstitution) : sur l'ensemble d'apprentissage (EA) estimation du taux d'erreur réel : sur un ensemble de test (ET) ET doit être issu du même ensemble que EA et doit refléter la population à laquelle le classifieur doit être appliqué en termes de distribution et de probabilités a priori Un ET n'est pas toujours disponible Alternative à l'éclatement EA/ET : Validation croisée Principe l'ensemble des exemples est partitionné en k parties d'effectifs égaux apprentissage et test en k étapes à chaque étape : utiliser k-1 parties comme EA et 1 comme ET(kfold cross-validation) calculer le taux d'erreur e k taux d'erreur estimé : moyenne des e k on prend souvent K=10 Validation croisée : Variantes Elagage n itérations du processus : pour une estimation plus précise Leave one out : validation croisée avec des parties à un élément k=n déterministe Bootstrap : échantillon avec remplacements pour EA o.632 bootstrap car p(x EA)=(1-1/N) N = e estimation du taux d'erreur sur 63% seulement te=te ET * te ET *0.368 évite l'over-fitting pré-élagage : pour ne pas développer une branche pendant la construction de l'arbre post-élagage : peut être plus efficace remplacement d'un sous-arbre par une feuille remplacement d'un sous-arbre par un autre sousarbre (subtree raising) basés sur l'estimation du taux d'erreur au niveau des moeuds et des feuilles 36
37 Remplacement par une feuille Remplacement par un sous-arbre Elagage : estimation du taux d'erreur reduced error pruning : calcul l'estimation d'erreur sur un ET indépendant de l'ea calcul l'estimation d'erreur sur l'ea (C4.5) 0,41 0,49 0,72 0,47 0,72 0,47 0,51 Implémentation de C4.5 dans Weka Mesures et objectifs weka.classifiers.j48.j48 -U Use unpruned tree. -C confidence Set confidence threshold for pruning. (Default: 0.25) -M number Set minimum number of instances per leaf. (Default: 2) -R Use reduced error pruning. No subtree raising is performed. -N number Set number of folds for reduced error pruning. One fold is used as the pruning set. (Default: 3) -B Use binary splits for nominal attributes. -S Don't perform subtree raising. diagnostic médical : classer un sujet dans la classe dans laquelle il a la probabilité la plus grande de se placer on recherche Ci de manière à avoir p(ci/h) maximum test médical : comparer le taux de sujets non malades dont le test est positif au taux des sujets malades dont le test est négatif accord de crédit : identifier la proportion des clients qui deviennent "à risque" alors que le crédit leur a été accordé 37
38 Différentes erreurs Différents coûts d'erreur prédire un exemple dans C alors qu'il appartient à C prédire un exemple dans C alors qu'il appartient à C matrice de confusion exemples : accord de crédit prévision de consommation électrique diagnostiques vaches pondérer différemment les erreurs : FN ou FP Cost Sensistive Classifier - Weka Matrice de coût weka.classifiers.costsensitiveclassifier -M -W classname Specify the full class name of a classifier (required). -C cost file File name of a cost matrix to use. If this is not supplied, a cost matrix will be loaded on demand. The name of the on-demand file is the relation name of the training data plus ".cost", and the path to the ondemand file is specified with the -D option. -D directory Name of a directory to search for cost files when loading costs on demand (default current directory). Sensibilité, Recall, Précision, A C Sensibilité (Se), Recall, Taux de TP, Spécificité (Sp), Taux de TN Taux de FP Weka : Mesures standard Correctly Classified Instances % Incorrectly Classified Instances % Total Number of Instances 683 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class diaporthe-stem-canker charcoal-rot rhizoctonia-root-rot Précision 38
39 Interprétation des mesures Exemple : Evaluation d'un test Diagnostique médical variable X = indicateur résultat du test test positif : X<t% test+ indique que le sujet est malade test- indique que le sujet est n'est pas malade deux classes : m et m règle de classification test+ m précision : p(malade/ test+) sensibilité : p(test+/malade) spécificité : p(test-/non malade) Une configuration idéale Une configuration réelle Une technique graphique : ROC pour évaluer la qualité du modèle : courbe ROC ROC : Receiver Operating Characteristic la courbe est un ensemble de points (TauxTP;TauxFP) définis par un seuil de la variable de test exemple : diagnostique de l'hyperthyroïdie valeur du test base sur la variable X on considère que les valeurs de X inférieures à 5 indiquent un sujet malade 39
40 Questions Réponses standard Questions : quelle est la fiabilité du test? lorsque le test est positif, quelle est la probabilité que le sujet soit malade? Calcul des TP, TN, FP, FN lorsque le sujet est malade, de combien la probabilité qu'il ait un test+ est-elle plus grande que lorsqu'il est non malade? Données Différents seuils Réponses? quelle est la fiabilité du test? capacité à séparer les sujets malades et sains lorsque le test est positif, quelle est la probabilité que le sujet soit malade? avec un seuil=7 p(m/test+)= lorsque le sujet est malade, de combien la probabilité qu'il ait un test+ est-elle plus grande que lorsqu'il est non malade?? p(test+/m) = LR * p(test+/m) LR = taux de vraissemblance (Likelihood Ratio) = Se/1-Sp 40
41 Likelihood Ratio La grandeur de likelihood ratio donne l'idée intuitive de l'influence du résultat du test pour confirmer ou infirmer la vraissemblance de la maladie LR = probabilité d'un résultat de test parmi les sujets malades divisée par la probabilité du même résultat parmi les sujets non malades LR(test+) = p(test+/m) / p(test+/m) LR(test-) = p(test-/m) / p(test-/m) Courbe ROC x x x seuil=7 LR(test+) = p(test+/m) / p(test+/m) = Se/1-Sp= 4.1 LR(test-) = p(test-/m) / p(test-/m) = 7*93/32*75=0.27 Evaluation par la Courbe ROC Facteur de Lift Le facteur de lift est une mesure d'efficacité pour un modèle Il est égal au quotient du nombre de résultats obtenus avec le modèle par le nombre de résultats obtenus sans exemple : optimiser le coût du mailing 0,1 % de réponses positives sur toute la population un échantillon de sur lequel le taux est de 0.4% facteur de Lift : 4 = facteur d'augmentation du taux de réponses Gains cumulés Données pour une courbe de lift Le lift change avec la profondeur du mailing Interprétation graphique des performances les graphes de gains cumulés et les courbes de lift Un graphe de gains cumulés est constitué des points (x;y) tels que x représente le x-quantile le meilleur sur les réponses des clients y est le taux de réponses pour les clients de ce quantile 41
42 Calcul des facteurs de lift Interprétation graphique x Meta-Modèles Bagging Objectif : optimiser la qualité des modèles N ensembles d'apprentissage Principe : combiner plusieurs modèles Application d'un algorithme sur chaque EA Techniques : Bagging, Boosting, Stacking On obtient N modèles éventuellement différents Classe prédite pour un nouvel exemple : classe la plus fréquemment prédite Solution qui neutralise l'instabilité de certains algorithmes Bagging Autres mesures Génération du modèle n=nombre d'exemples dans EA Pour chaque itération t Construire un échantillon S de n exemples avec remplacement Appliquer l'algorithme d'apprentissage sur S Sauvegarder le modèle appris Classification Pour chaque modèle Mt Prédire la classe de l'exemple avec Mt Prédire la classe majoritaire Règles d'association A1 et A2 et... Et An B1 et B2 et... Bp A B Algorithme standard : APRIORI Basé sur les mesures de Support : A et B /N Confiance : A et B / A 42
43 Confiance : une mesure insuffisante Caractériser l'intérêt de A B Comparer Confiance et p(b) RI (Piatetsky-Shapiro) Conf(A B) 1 Principes : 1. RI=0 si A et B = A * B /N 2. RI monotone croissant selon A et B quand les autres paramètres sont fixés 3. RI monotone décroissant selon A ou B quand les autres paramètres sont fixés RI RI : quelle mesure?? RI(AB)= A et B - A * B /N = N * p(a) ( p(b/a)-p(b) nul si A et B sont indépendants (principe n 1) vérifie principes 2 et 3 RI(AB)= RI(BA) Lift Chi2 Lift(A B)= p(a et B)/p(A)*p(B) proportion du nombre d'exemples observés sur le nombre d'exemples attendus sous l'hypothèse d'indépendance 43
44 Coefficient de corrélation J-Mesure 44
Data Mining. Master 1 Informatique - Mathématiques UAG
Data Mining Master 1 Informatique - Mathématiques UAG 1.1 - Introduction Data Mining? On parle de Fouille de données Data Mining Extraction de connaissances à partir de données Knowledge Discovery in Data
Algorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Pourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Christophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Les algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Travaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Arbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Entrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.
Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
INF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Le Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)
MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour
L apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Apprentissage Automatique
Apprentissage Automatique Introduction-I [email protected] www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Chapitre 1 : Introduction aux bases de données
Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données
RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources
Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils
Spécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala [email protected] http://chirouble.univ-lyon2.fr/~ricco/data-mining
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion [email protected],
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Analyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Raisonnement probabiliste
Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte
Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours
Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres [email protected] LIA/Université d Avignon Cours/TP
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Introduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Introduction à l Informatique Décisionnelle - Business Intelligence (7)
Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence
Agenda de la présentation
Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining
Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar [email protected]
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar [email protected] Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Les Entrepôts de Données
Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations
1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Apprentissage. Intelligence Artificielle NFP106 Année 2012-2013. Plan. Apprentissage. Apprentissage
Intelligence Artificielle NFP106 Année 2012-2013 Apprentissage! F.-Y. Villemin! Plan! Apprentissage! Induction! Règles d'inférence inductive! Apprentissage de concepts!! Arbres de décision! ID3! Analogie
Ebauche Rapport finale
Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide
et les Systèmes Multidimensionnels
Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées
Didier MOUNIEN Samantha MOINEAUX
Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Chapitre 9 : Informatique décisionnelle
Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle
4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre [email protected] Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)
Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant
Coup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.
Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 [email protected] http://www.sas.com/france/academic SAS dans
Théories de la Business Intelligence
25 Chapitre 2 Théories de la Business Intelligence 1. Architectures des systèmes décisionnels Théories de la Business Intelligence Depuis les premières requêtes sur les sources de données OLTP consolidées
MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.
MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS Odile PAPINI, LSIS. Université de Toulon et du Var. [email protected] Plan Introduction Généralités sur les systèmes de détection d intrusion
Introduction à la Fouille de Données (Data Mining) (8)
Introduction à la Fouille de Données (Data Mining) (8) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2008 Introduction à la fouille
Bases de Données. Plan
Université Mohammed V- Agdal Ecole Mohammadia d'ingénieurs Rabat Bases de Données Mr N.EL FADDOULI 2014-2015 Plan Généralités: Définition de Bases de Données Le modèle relationnel Algèbre relationnelle
LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.
Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS [email protected] 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de
Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication
Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication R. Carlos Nana Mbinkeu 1,3, C. Tangha 1, A. Chomnoue 1, A. Kuete
Une comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»
Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI [email protected] 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :
Présentation du module Base de données spatio-temporelles
Présentation du module Base de données spatio-temporelles S. Lèbre [email protected] Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes
Algorithmes de recherche
Algorithmes de recherche 1 Résolution de problèmes par recherche On représente un problème par un espace d'états (arbre/graphe). Chaque état est une conguration possible du problème. Résoudre le problème
La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM
La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,
L'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
INTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
LE PROBLEME DU PLUS COURT CHEMIN
LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs
Transmission d informations sur le réseau électrique
Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en
I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.
EPITA SCIA PROMO 2005 14-16 rue Voltaire 94270 Kremlin-Bicêtre I.D.S. Systèmes de détection d intrusion - Link Analysis Juillet 2004 par: DEVÈZE BENJAMIN FOUQUIN MATHIEU responsable: AKLI ADJAOUTE TABLE
BI = Business Intelligence Master Data-ScienceCours 3 - Data
BI = Business Intelligence Master Data-Science Cours 3 - Datawarehouse UPMC 8 février 2015 Rappel L Informatique Décisionnelle (ID), en anglais Business Intelligence (BI), est l informatique à l usage
Entrepôts de Données
République Tunisienne Ministère de l Enseignement Supérieur Institut Supérieur des Etudes Technologique de Kef Support de Cours Entrepôts de Données Mention : Technologies de l Informatique (TI) Parcours
Application de K-means à la définition du nombre de VM optimal dans un cloud
Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février
Bases de Données Avancées
1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,
Plan. Data mining (partie 2) Data Mining : Utilisateur ou Statisticien? Data Mining : Cocktail de techniques. Master MIAGE - ENITE.
Plan Data mining (partie 2) Introduction 1. Les tâches du data mining 2. Le processus de data mining Master MIAGE - ENITE Spécialité ACSI 3. Les bases de l'analyse de données 4. Les modèles du data mining
PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES
Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.
APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE
SûretéGlobale.Org La Guitonnière 49770 La Meignanne Téléphone : +33 241 777 886 Télécopie : +33 241 200 987 Portable : +33 6 83 01 01 80 Adresse de messagerie : [email protected] APPORT DES
Business & High Technology
UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...
Chapitre 6 Apprentissage des réseaux de neurones et régularisation
Chapitre 6 : Apprentissage des réseaux de neurones et régularisation 77 Chapitre 6 Apprentissage des réseaux de neurones et régularisation Après une introduction rapide aux réseaux de neurones et à la
Optimisation de la compression fractale D images basée sur les réseaux de neurones
Optimisation de la compression fractale D images basée sur les réseaux de neurones D r BOUKELIF Aoued Communication Networks,Architectures and Mutimedia laboratory University of S.B.A [email protected]
Laboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Cours de Master Recherche
Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction
Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière
Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence
Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France
Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes
Enjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, [email protected] Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Business Intelligence : Informatique Décisionnelle
Business Intelligence : Informatique Décisionnelle On appelle «aide à la décision», «décisionnel», ou encore «business intelligence», un ensemble de solutions informatiques permettant l analyse des données
a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :
a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN
Intelligence Economique - Business Intelligence
Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit
[email protected] http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels,
Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 [email protected] http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens,
Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA
Master Exploration Informatique des données Data Mining & Business Intelligence Groupe 5 Piotr BENSALEM Ahmed BENSI Evelyne CHARIFOU Priscillia CASSANDRA Enseignant Françoise FOGELMAN Nicolas DULIAN SOMMAIRE
Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Urbanisation des SI-NFE107
OLAP Urbanisation des SI-NFE107 Fiche de lecture Karim SEKRI 20/01/2009 OLAP 1 Introduction PLAN OLAP Les différentes technologies OLAP Plate formes et Outils 20/01/2009 OLAP 2 Informatique décisionnelle
4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Chapitre 10. Architectures des systèmes de gestion de bases de données
Chapitre 10 Architectures des systèmes de gestion de bases de données Introduction Les technologies des dernières années ont amené la notion d environnement distribué (dispersions des données). Pour reliér
Qu est-ce qu une probabilité?
Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas
Jade. Projet Intelligence Artificielle «Devine à quoi je pense»
Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges
ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
WHITE PAPER Une revue de solution par Talend & Infosense
WHITE PAPER Une revue de solution par Talend & Infosense Master Data Management pour les données de référence dans le domaine de la santé Table des matières CAS D ETUDE : COLLABORATION SOCIALE ET ADMINISTRATION
Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration
Julien MATHEVET Alexandre BOISSY GSID 4 Rapport Load Balancing et migration Printemps 2001 SOMMAIRE INTRODUCTION... 3 SYNTHESE CONCERNANT LE LOAD BALANCING ET LA MIGRATION... 4 POURQUOI FAIRE DU LOAD BALANCING?...
Améliorer les performances du site par l'utilisation de techniques de Web Mining
Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN [email protected] [email protected] 2001 Sommaire
Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances
Département d Informatique MEMOIRE Présenté par : KADEM Habib Pour obtenir LE DIPLOME DE MAGISTER Spécialité : Informatique Option : Informatique & Automatique Intitulé : Conception d une Plateforme Open
Créer le schéma relationnel d une base de données ACCESS
Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...
ORACLE TUNING PACK 11G
ORACLE TUNING PACK 11G PRINCIPALES CARACTÉRISTIQUES : Conseiller d'optimisation SQL (SQL Tuning Advisor) Mode automatique du conseiller d'optimisation SQL Profils SQL Conseiller d'accès SQL (SQL Access
Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.
2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle
