Règles d'association. Définition. Processus



Documents pareils
LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

République Algérienne Démocratique et Populaire

données en connaissance et en actions?

2.4 Représentation graphique, tableau de Karnaugh

Etude d Algorithmes Parallèles de Data Mining

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

INTRODUCTION AU DATA MINING

Extraction d informations stratégiques par Analyse en Composantes Principales

Introduction au datamining

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Intégration de la dimension sémantique dans les réseaux sociaux

Apprentissage Automatique

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Visualisation en Fouille de Données

Annexe commune aux séries ES, L et S : boîtes et quantiles

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Logiciel XLSTAT version rue Damrémont PARIS

Découverte du tableur CellSheet

Introduction au Data-Mining

Pourquoi l apprentissage?

Data Mining. Master 1 Informatique - Mathématiques UAG

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Géométrie discrète Chapitre V

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

1. Vocabulaire : Introduction au tableau élémentaire

Les algorithmes de fouille de données

Sommaire. BilanStat manuel de présentation et d utilisation Page 2

IFT1215 Introduction aux systèmes informatiques

Application de K-means à la définition du nombre de VM optimal dans un cloud

Note de cours. Introduction à Excel 2007

Algorithmes d'apprentissage

IBM SPSS Direct Marketing 21

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Exercices Corrigés Premières notions sur les espaces vectoriels

Cahier des clauses techniques particulières (C.C.T.P.)

Activités numériques [13 Points]

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Business & High Technology

Entrepôt de données 1. Introduction

Bases de Données. Plan

INF6304 Interfaces Intelligentes

Introduction au Data-Mining

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Introduction à MATLAB R

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

La classification automatique de données quantitatives

Cours Premier semestre

1 Modélisation d être mauvais payeur

LE PETIT RELATION CLIENT. Les pratiques clés en 15 fiches. Nathalie Houver

Logiciel Libre Cours 3 Fondements: Génie Logiciel

Hervé Couturier EVP, SAP Technology Development

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Coup de Projecteur sur les Réseaux de Neurones

Instruments financiers et comptabilité de couverture : de nouveaux principes français en préparation

Business Intelligence

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Algèbre binaire et Circuits logiques ( )

Statistiques Descriptives à une dimension

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

et les Systèmes Multidimensionnels

Chapitre 3. Les distributions à deux variables

Business Intelligence avec Excel, Power BI et Office 365

Quatrième partie IV. Test. Test 15 février / 71

Le risque Idiosyncrasique

Big Data et Graphes : Quelques pistes de recherche

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

M06/5/COMSC/SP1/FRE/TZ0/XX INFORMATIQUE NIVEAU MOYEN ÉPREUVE 1. Mardi 2 mai 2006 (après-midi) 1 heure 30 minutes INSTRUCTIONS DESTINÉES AUX CANDIDATS

Étude des formes de pratiques de la gymnastique sportive enseignées en EPS à l école primaire

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Big Data et Graphes : Quelques pistes de recherche

Limitations of the Playstation 3 for High Performance Cluster Computing

TABLE DES MATIERES. C Exercices complémentaires 42

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

SOMMAIRE. Travailler avec les requêtes... 3

NOTATIONS PRÉLIMINAIRES

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

CHAPITRE VIII : Les circuits avec résistances ohmiques

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

LIVRE BLANC Décembre 2014

Accélérer l agilité de votre site de e-commerce. Cas client

Arbres binaires de décision

Transcription:

Data Mining «Extraction de connaissances valides et exploitables à partir de grands volumes de données hétérogènes provenant de sources et de bases diverses»

Règles d'association Définition Extraction de liens de co-occurrence des données exprimés sous forme de règles d'implication conditionnelles Processus Ensemble de données constitué d'instances (lignes) chacune constituée d'un ensemble de valeurs (items) Extraire les liens significatifs entre les occurrences de valeurs dans les mêmes instances Pour chaque règle, mesures statistiques de portée et précision 2

Association : Exemple Transactions de ventes Transaction Articles achetés 1 lait, céréales, thé 2 lait, café, céréales, sucre 3 café, céréales, sucre 4 café, sucre 5 lait, café, céréales, sucre 6 café, céréales, sucre Objectif : déterminer quels articles sont le plus souvent achetés ensemble 3

Items et Itemsets Item : valeur d'une variable café, sucre, céréales, lait, thé Itemset : ensemble d'items 0-itemset : {} 1-itemsets : {café}, {sucre}, {céréales}, {lait}, {thé} 2-itemsets : {café, sucre}, {café, céréales}, 3-itemsets : {café, sucre, céréales}, {café, sucre, lait}, 4-itemsets : {café, sucre, céréales, lait}, 5-itemset : {café, sucre, céréales, lait, thé} 4

Support des Itemsets Support d'un itemset Proportion d'instances contenant l'itemset support (L) = COUNT(L) COUNT () support(café, sucre) = COUNT(café, sucre) / COUNT() = {2, 3, 4, 5, 6} / 6 = 5/6 83.3 % Proportion : fréquence Effectif : comptage 5

Règles d'association Liens conditionnels dirigés entre itemsets café sucre «Les clients achetant du café achètent souvent du sucre en même temps» Connaissances à diverses niveaux de détail café, céréales sucre céréales café, sucre café, céréales lait, sucre Mesures statistiques calculées pour chaque règle Pertinence et utilité 6

Mesures Statistiques Support Proportion d'instances «contenant» la règle Support de l'union de l'antécédent et de la conséquence de la règle Association Support Transactions café sucre 5/6 (83.3%) 2,3,4,5,6 café, céréales sucre 4/6 (66.7%) 2,3,5,6 céréales café, sucre 4/6 (66.7%) 2,3,5,6 Fréquence de la règle dans l'ensemble de données 7

Mesures Statistiques Confiance Précision de la règle Proportion d'instances contenant la conséquence parmi celles contenant l'antécédent confiance = support (antécédent conséquence) support (antécédent) [0,1] confiance(céréales café, sucre) = support(céréales, café, sucre) / support(céréales) = COUNT(céréales, café,sucre) / COUNT(céréales) = 4/5 = 80% 8

Seuils de Support et Confiance Règles non-pertinentes et inutiles Faible support : nombre limité d'instances Faible confiance : nombreux contre-exemples Seuils minsupport et minconfiance Définition des seuils empirique Dépend des caractéristiques des données et de l'application 9

Confiance des Associations minsupport = 40 % minconfiance = 75 % Association Support Confiance café sucre 5/6 (83.3%) 5/5 (100%) café, céréales sucre 4/6 (66.7%) 4/4 (100%) céréales café, sucre 4/6 (66.7%) 4/5 (80%) café, céréales lait, sucre 2/6 (33.3%) 2/4 (50%) 10

Interprétation Probabiliste Support : probabilité simple Probabilité qu'une ligne prise au hasard contiennent les items support(café sucre) = 83,3% P(café, sucre) = 0,833 Confiance : probabilité conditionnelle Probabilité qu'une ligne contenant l'antécédent contienne aussi la conséquence confiance(céréales café, sucre) = 80% P(café, sucre céréales) = 0.8 11

Règles Exactes et Partielles Règles exactes : confiance = 100% Toutes les instances contenant l'antécédent contiennent aussi la conséquence Aucun contre-exemple Règle partielles : confiance < 100% Vérifiées par une proportion égale à leur confiance d'instances Règles d'implication qui tolèrent (100 confiance) % contre-exemples 12

Définition des Seuils Exemple : analyse de paniers d'achats «market basket analysis» Objectif : identifier les articles achetés ensemble Nombreux articles, nombreuses transactions Supports des items faibles minsupport < 10% Combinaisons identiques d'articles rares Aucune règle exacte, peu de règles de confiance > 50% minconfiance < 50% 13

Définition des Seuils Exemple : aide au diagnostic Objectif : diagnostic prévisionnel en fonction des mesures physiologiques et des données socio-démographiques Identifier tous les cas possibles Règles concernant de petits groupes intéressantes minsupport < 20% Les règles utiles représentent une majorité de cas Bonne précision requise minconfiance > 50% 14

Définition des Seuils Exemple : analyse de recensements / sondages Objectif : identifier les tendances principales d'une population Nombre d'instances important Tendances marginales (rares) ne nous intéressent pas minsupport > 20% Données fortement corrélées et denses Nombre de règles très important minconfiance > 50% 15

Processus Source de données Bases de données, SI, fichiers, ontologies/taxonomies B Pré-traitement intégration normalisation discrétisation généralisation spécialisation A D F C E Visualisation Graphes, tables, matrices, histogrammes 3D Affichage sélection représentation Matrice de données Relation binaire instances - items Association A B A C AB CD AC D supp 20% 44% 32% 25% Extraction minsupport minconfiance paramètres conf 87% 66% 80% 60% Règles d'association Ordre de tri, généralisation, spécialisation 16

Variables Numériques Données numériques continues Exemples : Age [18, 80], Revenus [0.0, 4000.0] Prendre chaque valeur comme un item Supports faibles : minsupport doit être faible Règles spécifiques à chaque valeur Age = 18 Acheteur = Oui (support 2.0%, confiance 60%) Age = 19 Acheteur = Oui (support 1.8%, confiance 61%) Age = 20 Acheteur = Oui (support 2.3%, confiance 59%) Problèmes Nombre de règles important Interprétation complexe, non généralisation 17

Discrétisation Item : intervalle ou ensemble de valeurs Exemple : Age = [18..30[, Age = [30..50[, Age = [50..80] Support des intervalles plus importants (somme) Règles par intervalles de valeurs Age = [18..30] Acheteur = Oui (support 24.0%, confiance 60%) Moins de contraintes sur minsupport Avantages Nombre de règles extraites réduit Simplification de l'interprétation Tenir compte de la sémantique de l'application 18

Intervalles Égaux «En largeur» Largeurs des intervalles identiques Exemple : [0..100], [100..200], [200..300] Paramètre : nombre d'intervalles Défini leur taille Interprétation simple Écarts importants des fréquences problématiques 19

Effectifs égaux «En profondeur» ou par quantiles Nombres d'instances proches pour chaque intervalle Poids identique des intervalles Paramètre : nombre d'intervalles Défini les supports des items résultants Découpage peut complexifier l'interprétation 20

Sémantiques Heuristiques Moyenne (μ), écart type (ε), paramètre (β) ]-, μ - β.ε[, [μ - β.ε, μ + β.ε], ]μ + β.ε, + [ Rangs, etc. Groupes sémantiques Seuils significatifs en fonction des objectifs Ex : taux remboursements = 33% revenus, age < 18 Répartition intrinsèque des valeurs Exploration des données (domaine de valeurs, effectifs, histogramme, nuage de points, etc.) 21

Discrétisation : Exemple Variable Age Histogramme des effectifs Nombre d'instances Valeurs de Age 22

Discrétisation : Exemple Répartition homogène : discrétisation en largeur Paramètre : 4 intervalles Nombre d'instances Valeurs de Age 23

Discrétisation : Exemple Proportions des valeurs Intervalle Contrainte : minsupport 23.7% Effectifs équilibrés Fréquence Nombre d'instances 24

Discrétisation : Exemple Variable Age Histogramme des effectifs Nombre d'instances Valeurs de Age 25

Discrétisation : Exemple Discrétisation en largeur Paramètre : 4 intervalles Nombre d'instances Valeurs de Age 26

Discrétisation : Exemple Proportions des valeurs Intervalle Contrainte : minsupport 3.54% Effectifs déséquilibrés Fréquence Nombre d'instances 27

Discrétisation : Exemple Paramètre : 4 quantiles Proportions des valeurs Contrainte : minsupport 23.01% Effectifs équilibrés 28

Discrétisation Hiérarchique Décomposition hiérarchique des intervalles Valeurs de Age Supports Généralisation 16-50 16-50 Spécialisation 34-50 34-50 16-33 16-33 16-24 16-24 16-19 16-19 20-24 20-24 25-33 25-33 25-29 25-29 30-33 30-33 34-42 34-42 34-37 34-37 38-42 38-42 43-50 43-50 43-46 43-46 46-50 46-50 29

Visualisations Graphiques Réseaux : graphe des liens duaux 30

Visualisations Graphiques Histogramme des liens duaux 31

Visualisations Graphiques Histogramme des liens duaux 32

Visualisations Graphiques «Bouliers» Valeurs de la mesure 33

Matrices Antécédent Conséquence 34

Visualisation Techniques graphiques Adaptées à la recherche d'informations spécifiques Peu adaptées à l'exploration de l'espace des règles Liste ordonnées de règles Tri par tailles : règle, antécédent, conséquence Tri par mesures : supports, confiance, lift, support x confiance, etc. Sélection de sous-espaces «Templates» : expression régulières Item(s) en antécédent, conséquence, les deux 35

Exploration Représentation textuelle Tri Sélection 36

Règles de Classification 37

Extraction : Difficultés Efficacité : temps d extraction Espace de recherche de taille exponentielle Pour N items : O(2N) règles potentiellement valides Taille des jeux de données importante 10 items : 1 024 règles possibles 50 items : 1 125 899 906 842 624 règles possibles Ex : Walmart, plusieurs millions de transactions quotidiennement Coût des parcours de l'ensemble de données Temps d'accès mémoires secondaires 38

Extraction : Difficultés Utilité et pertinence des règles extraites Nombre de règles très important Dépend de la densité des données (nombre moyens d'items par ligne) Dépend de la corrélation des données Souvent plusieurs milliers Règles redondantes céréales sucre lait (supp=5%, conf=50%) céréales sucre café lait (supp=5%, conf=50%) 39

Méthode Générale Approche classique 1.Extraction des itemsets fréquents et leur support Itemset L fréquent si support(l) minsupport 2.Génération des règles d association valides et leur confiance A partir des itemsets fréquents Association R valide si confiance(r) minconfiance 40

Exemple Ensemble de données Transactions Object Items 1 A C D 2 A B C 3 B C E 4 B E 5 A B C 6 B C E E E Relation binaire OID A B C D 1 1 0 1 1 2 1 1 1 0 3 0 1 1 0 4 0 1 0 0 5 1 1 1 0 6 0 1 1 0 A=lait, B=café, C=céréales, D=thé, E=sucre Ordre : A < B < C < D < E E 0 1 1 1 1 1 41

Espace de Recherche Treillis des itemsets (treillis des parties) ABCDE minsupport = 2/6 ABCE ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E D itemset fréquent Ø itemset infréquent 42

Extraction des Itemsets Méthode triviale Compter le support de tous les itemsets potentiels Un seul balayage de l'ensemble de données Inapplicable : espace de recherche trop important Nécessité de développer des algorithmes efficaces Limiter le nombre de balayages Limiter le nombre d'itemsets considérés Nombre d opérations 43

Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 1-itemsets candidats ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E 11 D itemset fréquent Ø itemset infréquent 44

Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE Supports A B C E D 3/6 5/6 5/6 5/6 1/6 11 itemset fréquent Ø itemset infréquent 45

Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 1-itemsets fréquents ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 46

Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 2-itemsets candidats ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E 3/6 5/6 5/6 5/6 22 11 D itemset fréquent Ø itemset infréquent 47

Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE Supports ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE 2/6 3/6 2/6 5/6 4/6 4/6 A B C E 3/6 5/6 5/6 5/6 22 11 D itemset fréquent Ø itemset infréquent 48

Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 3-itemsets candidats ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE 33 AB AC AE BE BC CE AD CD BD DE 2/6 3/6 2/6 5/6 4/6 4/6 22 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 49

Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE Supports ABCD ABDE ACDE BCDE ABD ACD BCD ADE BDE CDE 33 BE BC CE AD CD BD DE 5/6 4/6 4/6 22 ABC ABE ACE BCE 2/6 2/6 2/6 4/6 AB AC AE 2/6 3/6 2/6 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 50

Approche par Niveaux «levelwise approach» Itération Itération ABCDE 4-itemset candidats ABCE ABCD ABDE ACDE 44 BCDE ABD ACD BCD ADE BDE CDE 33 BE BC CE AD CD BD DE 5/6 4/6 4/6 22 ABC ABE ACE BCE 2/6 2/6 2/6 4/6 AB AC AE 2/6 3/6 2/6 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 51

Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE Support ABCD ABDE ACDE 44 BCDE 2/6 ABD ACD BCD ADE BDE CDE 33 BE BC CE AD CD BD DE 5/6 4/6 4/6 22 ABC ABE ACE BCE 2/6 2/6 2/6 4/6 AB AC AE 2/6 3/6 2/6 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 52

Algorithme Apriori 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. calculer le support de chaque item générer les 1-itemsets fréquents k 2 répéter joindre les (k-1)-itemsets fréquents pour former les k-candidats supprimer les k-candidats ayant un (k-1)-subset non-fréquent pour chaque instance o de la matrice de données faire pour chaque k-candidat inclus dans o faire support++ fin pour fin pour supprimer les k-candidats non-fréquents k++ tant que plusieurs k-candidats fréquents 53

Apriori : Génération des Candidats Exemple : k=4 3-itemsets fréquents : {ABC, ABD, ACD, ACE, BCD} Jointure des 3-itemsets de même préfixe (ligne 5.) ABC et ABD : ABCD ACD et ACE : ACDE Élagage des 3-itemsets candidats inutiles (ligne 6.) ABCD conservé : ABC, ABD, ACD, BCD fréquents ACDE supprimé : ADE non-fréquent 4-itemsets candidats : {ABCD} 54

Apriori : Exemple minsupport = 2/6 C1 C1 candidat A B C D E Balayage candidat support A B C D E 3/6 5/6 5/6 1/6 5/6 candidat Balayage support AB AC AE BC BE CE 2/6 3/6 2/6 4/6 5/6 4/6 A B C E 3/6 5/6 5/6 5/6 Suppression infréquents itemset support AB AC AE BC BE CE 2/6 3/6 2/6 4/6 5/6 4/6 Balayage F3 candidat support ABC ABE ACE BCE 2/6 2/6 2/6 4/6 C4 C4 ABCE support C3 candidat candidat itemset F2 candidat C3 ABC ABE ACE BCE Suppression infréquents C2 C2 AB AC AE BC BE CE F1 Balayage candidat support ABCE 2/6 Suppression infréquents Suppression infréquents itemset support ABC ABE ACE BCE 2/6 2/6 2/6 4/6 F4 itemset support ABCE 2/6 55

Apriori : Exemple minconfiance = 2/3 F4 itemset Règles valides F3 support ABCE 2/6 1 2 itemset support règle ABC ABE ACE BCE 2/6 2/6 2/6 4/6 ABC ABE ACE BCE F2 3 confiance E C B A 2/2 2/2 2/2 2/4 Règles valides itemset support AB AC AE BC BE CE 2/6 3/6 2/6 4/6 5/6 4/6 règle AB CE AC BE AE BC confiance 2/2 2/3 2/2 Règles valides F1 itemset support A B C E 3/6 5/6 5/6 5/6 règle A BCE confiance 2/3 56

Limites de la Confiance Items de fréquence élevée Nombreuses règles Confiance élevée Table de contingence support(dvd, livre) = 40% livre livre Σ DVD 4000 2000 6000 4000 DVD 3500 500 Σ 7500 2500 10000 support(livre) = 75% support(dvd) = 60% 10 000 instances 57

Limites de la Confiance Exemple DVD livre (support = 40%, confiance= 66%) Personnes achetant un DVD : 66% achètent un livre support(livre) = 75% livre (support = 75%, confiance= 75%) Toutes les personnes : 75% achètent un livre Achats de livres et DVD négativement corrélés Items de fréquence élevée Table de contingence Filtrage par corrélation (lift, conviction, etc.) 58

Mesure du Lift Lift : tient compte de la fréquence de la conséquence lift = P(antécédent conséquence) P(antécédent) P(conséquence) [0,+ [ Corrélation statistique entre antécédent et conséquence lift < 1 : corrélation négative lift = 1 : indépendance lift > 1 : corrélation positive Filtrage : minlift = 1.01 59

Mesure du Lift Exemple P(DVD, livre) = 0.4 livre livre Σ DVD 4000 2000 6000 4000 DVD 3500 500 Σ 7500 2500 10000 P(DVD) = 0.6 P(livre) = 0.75 P(DVD, livre) lift(dvd livre) = P(DVD) x P(livre) = 0.4 / (0.6 x 0.75) = 0.89 Règle non-pertinente 60

Mesure de la Conviction Conviction : tient compte de l'absence de la conséquence P(antécédent) P( conséquence) conviction = P(antécédent conséquence) [0,+ [ Corrélation statistique entre antécédent et conséquence conviction > 1 : corrélation positive conviction = 1 : indépendance conviction < 1 : corrélation négative Filtrage : minconviction = 1.01 61

Mesure de la Conviction Exemple livre livre Σ DVD 4000 2000 6000 4000 DVD 3500 500 Σ 7500 2500 10000 P(DVD, livre) = 0.2 P(DVD) = 0.6 P( livre) = 0.25 P(DVD) x P( livre) conviction(dvd livre) = P(DVD, livre) = (0.6 x 0.25) / 0.2 = 0.75 Règle non-pertinente 62

Lift et Conviction Lift : mesure non directionnelle Conviction : coûts des calculs lift(a C) = lift(c A) support(a C) Mesures non null-invariant Données A1 A2 A3 A4 AC 1000 1000 1000 1000 AC A C A C Règle confiance lift conviction 100 100 100000 A C 91% 83.64 10.88 100 100 10000 A C 91% 9.26 9.92 100 100 1000 A C 91% 1.82 5.50 100 100 0 A C 91% 0.99 0.92 Sensibles au nombre d'instances 63

Mesure du Cosine Cosine : mesure null-invariant, non-directionnelle P(antécédent conséquence) cosine = (P(antécédent) P(conséquence)) [0,1[ Corrélation statistique cosine > 0.5 : corrélation positive cosine = 0.5 : indépendance cosine < 0.5 : corrélation négative 64

Mesure du Cosine Null-invariant Données A1 A2 A3 A4 AC A C A C confiance lift conviction cosine 100 100 100000 91% 83.64 10.88 0.91 100 100 10000 91% 9.26 9.92 0.91 100 100 1000 91% 1.82 5.50 0.91 100 100 0 91% 0.99 0.92 0.91 COUNT(A) = COUNT(C) = 1100 AC 1000 1000 1000 1000 confiance = cosine, pas le cas général Inconvénient Mesure non-linéaire 65

Limites du Cosine Exemple P(DVD, livre) = 0.4 livre livre Σ DVD 4000 2000 6000 4000 DVD 3500 500 Σ 7500 2500 10000 P(DVD) = 0.6 P(livre) = 0.75 P(DVD, livre) SQRT(P(DVD) x P( livre)) = 0.4 / SQRT(0.75 x 0.6) = 0.6 cosine(dvd livre) = Valeurs «proches» de 0.5 non-significatives 66

Propriétés des Mesures Mesure confiance lift Corrélation Null-invariant Interprétabilité Directionnelle Supports N O O O O O N O N O χ2 O N O N N conviction cosine O O N O O N O N N O Propriété Validité statistique Evaluation indépendante des autres instances Valeurs Distingue les linéairement liens A C et proportionnel- C A les à la force du lien Calcul à partir des supports seuls 67

Quelles Mesures? Support nécessaire Taille de la population concernée Optimal : une mesure pour chaque propriété Souvent : support, confiance, lift Coût des calculs (ex : 2) Autres mesures j-mesure, i-mesure, déviation, information gain, gini index, p-value, etc. 68

Exemple : Classification «Credit scoring» Objectif : modèle de prédiction de l'accord ou refus d'un crédit Ensemble d'apprentissage Instance : client Variables Classe : accord, refus Situation familiale : genre, age, statut marital Revenus : ancienneté emploi, revenus emploi, revenus conjoint, autres revenus Passif : dette actuelle, remboursement mensuel 69

Description des Variables Variable Type Description Id Entier Numéro identifiant de la demande Genre Catégoriel Genre de la personne Age Entier Age du client en années Anciennete_emploi Entier Nombre d années d ancienneté dans l emploi (manquantes 99) Revenus_emploi Entier Salaire mensuel de l emploi (manquantes 9999) Autres_revenus Entier Revenus additionnels hors emploi Dette_actuelle Entier Montant du par le client (hypothèque exclue) au moment de la demande Remb_mensuels Entier Montant des mensualités de remboursement de la dette actuelle Revenus_conjoint Entier Revenus du conjoint (manquantes 9999) Marie Booléen Statut marital Classe Classe Accord de crédit 70

Ensemble de Données 71

Préparation des Données Sélection Suppression de Id Valeurs manquantes Variables : Ancienneté_emploi, Revenus_emploi, Revenus_conjoint Valeurs spécifiques : 99, 9999 Supprimer les lignes / variables Perte d'information Codage «valeur inconnue» Clementine : $null$, Weka/Orange/RapidMiner :? 72

Valeurs Manquantes 73

Discrétisation Variable Type Description Genre Catégoriel Genre de la personne Age Entier Age du client en années Anciennete_emploi Entier Nombre d années d ancienneté dans l emploi (manquantes 99) Revenus_emploi Entier Salaire mensuel de l emploi (manquantes 9999) Autres_revenus Entier Revenus additionnels hors emploi Dette_actuelle Entier Montant du par le client (hypothèque exclue) au moment de la demande Remb_mensuels Entier Montant des mensualités de remboursement de la dette actuelle Revenus_conjoint Entier Revenus du conjoint (manquantes 9999) Marie Booléen Statut marital Classe Classe Accord de crédit 74

Discrétisation : Revenus_emploi Histogramme Valeurs : Revenus_emploi Couleur : Classe Barres : effectifs 75

Discrétisation : Revenus_emploi Histogramme Taux de refus distincts [250, 750[ [750, 1050[ [1050, 1650[ [1650, 2500[ [2500, 4000] Groupes sémantiques 76

Effectifs des Intervalles Écarts d'effectifs [250, 750[ [750, 1050[ [1050, 1650[ [1650, 2500[ [2500, 4000] = 45 = 30 = 19 = 11 =2 (support 42 %) (support 28 %) (support 18 %) (support 10 %) (support 2 %) Découper et regrouper pour minimiser les écarts [250, 600[ [600, 750[ [750, 1050[ [1050, 1650[ [1650, 4000] = 20 = 25 = 30 = 19 = 13 (support = 19 %) (support = 23 %) (support = 28 %) (support = 18 %) (support = 12 %) 77

Discrétisation : Ancienneté_emploi Pas de groupes sémantiques Répartition nonhomogène : discrétisation en largeur inefficace Solution : quantiles Paramètre : # quantiles Détermine les supports 78

Discrétisation : Ancienneté_emploi Paramètre : 5 quantiles Proportions des intervalles Effectifs proches 79

Discrétisation : Autres_revenus Valeur 0 majoritaire Pas de groupes sémantiques Discrétisation Intervalles égaux inefficace Quantiles inefficaces Binarisation Autres_revenus = 0 Autres_revenus > 0 80

Discrétisation : Autres_revenus Proportions des valeurs booléennes Règles extraites non concluantes Revenir sur cette phase (ex : discrétisation en 2 ou 3 intervalles) 81

Discrétisation : Revenus_conjoint Statistiques Nombre de valeurs non nulles faible Si nombre élevé d'intervalles Effectifs faibles Support faibles 82

Discrétisation : Revenus_conjoint Répartition nonhomogène Discrétisation : quantiles 32 valeurs 3 intervalles Effectif moyen 10.66 83

Discrétisation : Revenus_conjoint Paramètre : 3 quantiles Effectifs proches Contrainte minsupport 8.85 84

Données Discrétisées 85

Paramètres d'extraction minsupport Détermine les items pouvant apparaître dans les règles Support minimal des items : 8,85 % minsupport = 8 % minconfiance Précision minimale des règles Taux de contre-exemples : 100% - minconfiance minconfiance = 80 % 86

Paramètres d'extraction Autres paramètres Dépendent du logiciel et des options choisies Exemple : taille maximale des règles 87

Paramètres d'extraction Type de règles Règles de classification Conséquence Valeurs de la variable de classe Classe=accordé, Classe=refusé Antécédent Valeurs des variables prédictives Genre,, Marié 88

Règles Extraites 89

Filtrage Simplification et redondances Mesures identiques, antécédents liés par inclusion Exemple Age = [39,78[ Remb. = Aucun Classe = accordé Age = [39,78[ Dette = Aucune Classe = accordé Age = [39,78[ Remb. = aucun Dette = aucune Classe = accordé Vrai pour toutes les règles extraites Lien fort entre Remb. Mensuels et Dette actuelle Revenir sur la préparation pour supprimer le moins utile Dette actuelle (cf. répartition des valeurs et sémantique) 90

Filtrage Critère : différence de confiance 30 91

Processus Itératif Règles non pertinentes Modifier les paramètres minsupport, minconfiance, taille des règles, etc. Revenir sur la préparation Autres discrétisations, variables calculées Intégrer ou supprimer des variables Parfois, les données disponibles ne permettent pas d'atteindre les objectifs 92

Perspectives Règles multi-niveaux Taxonomies d'items, hiérarchies de valeurs (discrétisation) Généralisation et spécialisation Intégration de connaissances Bases de connaissances, ontologies Classes d'équivalence des itemsets Fermeture de Galois Couvertures minimales (bases) Ensembles minimaux de règles sans perte d'information 93