Règles d'association. Définition. Processus

Transcription

1 Data Mining «Extraction de connaissances valides et exploitables à partir de grands volumes de données hétérogènes provenant de sources et de bases diverses»

2 Règles d'association Définition Extraction de liens de co-occurrence des données exprimés sous forme de règles d'implication conditionnelles Processus Ensemble de données constitué d'instances (lignes) chacune constituée d'un ensemble de valeurs (items) Extraire les liens significatifs entre les occurrences de valeurs dans les mêmes instances Pour chaque règle, mesures statistiques de portée et précision 2

3 Association : Exemple Transactions de ventes Transaction Articles achetés 1 lait, céréales, thé 2 lait, café, céréales, sucre 3 café, céréales, sucre 4 café, sucre 5 lait, café, céréales, sucre 6 café, céréales, sucre Objectif : déterminer quels articles sont le plus souvent achetés ensemble 3

4 Items et Itemsets Item : valeur d'une variable café, sucre, céréales, lait, thé Itemset : ensemble d'items 0-itemset : {} 1-itemsets : {café}, {sucre}, {céréales}, {lait}, {thé} 2-itemsets : {café, sucre}, {café, céréales}, 3-itemsets : {café, sucre, céréales}, {café, sucre, lait}, 4-itemsets : {café, sucre, céréales, lait}, 5-itemset : {café, sucre, céréales, lait, thé} 4

5 Support des Itemsets Support d'un itemset Proportion d'instances contenant l'itemset support (L) = COUNT(L) COUNT () support(café, sucre) = COUNT(café, sucre) / COUNT() = {2, 3, 4, 5, 6} / 6 = 5/ % Proportion : fréquence Effectif : comptage 5

6 Règles d'association Liens conditionnels dirigés entre itemsets café sucre «Les clients achetant du café achètent souvent du sucre en même temps» Connaissances à diverses niveaux de détail café, céréales sucre céréales café, sucre café, céréales lait, sucre Mesures statistiques calculées pour chaque règle Pertinence et utilité 6

7 Mesures Statistiques Support Proportion d'instances «contenant» la règle Support de l'union de l'antécédent et de la conséquence de la règle Association Support Transactions café sucre 5/6 (83.3%) 2,3,4,5,6 café, céréales sucre 4/6 (66.7%) 2,3,5,6 céréales café, sucre 4/6 (66.7%) 2,3,5,6 Fréquence de la règle dans l'ensemble de données 7

8 Mesures Statistiques Confiance Précision de la règle Proportion d'instances contenant la conséquence parmi celles contenant l'antécédent confiance = support (antécédent conséquence) support (antécédent) [0,1] confiance(céréales café, sucre) = support(céréales, café, sucre) / support(céréales) = COUNT(céréales, café,sucre) / COUNT(céréales) = 4/5 = 80% 8

9 Seuils de Support et Confiance Règles non-pertinentes et inutiles Faible support : nombre limité d'instances Faible confiance : nombreux contre-exemples Seuils minsupport et minconfiance Définition des seuils empirique Dépend des caractéristiques des données et de l'application 9

10 Confiance des Associations minsupport = 40 % minconfiance = 75 % Association Support Confiance café sucre 5/6 (83.3%) 5/5 (100%) café, céréales sucre 4/6 (66.7%) 4/4 (100%) céréales café, sucre 4/6 (66.7%) 4/5 (80%) café, céréales lait, sucre 2/6 (33.3%) 2/4 (50%) 10

11 Interprétation Probabiliste Support : probabilité simple Probabilité qu'une ligne prise au hasard contiennent les items support(café sucre) = 83,3% P(café, sucre) = 0,833 Confiance : probabilité conditionnelle Probabilité qu'une ligne contenant l'antécédent contienne aussi la conséquence confiance(céréales café, sucre) = 80% P(café, sucre céréales) =

12 Règles Exactes et Partielles Règles exactes : confiance = 100% Toutes les instances contenant l'antécédent contiennent aussi la conséquence Aucun contre-exemple Règle partielles : confiance < 100% Vérifiées par une proportion égale à leur confiance d'instances Règles d'implication qui tolèrent (100 confiance) % contre-exemples 12

13 Définition des Seuils Exemple : analyse de paniers d'achats «market basket analysis» Objectif : identifier les articles achetés ensemble Nombreux articles, nombreuses transactions Supports des items faibles minsupport < 10% Combinaisons identiques d'articles rares Aucune règle exacte, peu de règles de confiance > 50% minconfiance < 50% 13

14 Définition des Seuils Exemple : aide au diagnostic Objectif : diagnostic prévisionnel en fonction des mesures physiologiques et des données socio-démographiques Identifier tous les cas possibles Règles concernant de petits groupes intéressantes minsupport < 20% Les règles utiles représentent une majorité de cas Bonne précision requise minconfiance > 50% 14

15 Définition des Seuils Exemple : analyse de recensements / sondages Objectif : identifier les tendances principales d'une population Nombre d'instances important Tendances marginales (rares) ne nous intéressent pas minsupport > 20% Données fortement corrélées et denses Nombre de règles très important minconfiance > 50% 15

16 Processus Source de données Bases de données, SI, fichiers, ontologies/taxonomies B Pré-traitement intégration normalisation discrétisation généralisation spécialisation A D F C E Visualisation Graphes, tables, matrices, histogrammes 3D Affichage sélection représentation Matrice de données Relation binaire instances - items Association A B A C AB CD AC D supp 20% 44% 32% 25% Extraction minsupport minconfiance paramètres conf 87% 66% 80% 60% Règles d'association Ordre de tri, généralisation, spécialisation 16

17 Variables Numériques Données numériques continues Exemples : Age [18, 80], Revenus [0.0, ] Prendre chaque valeur comme un item Supports faibles : minsupport doit être faible Règles spécifiques à chaque valeur Age = 18 Acheteur = Oui (support 2.0%, confiance 60%) Age = 19 Acheteur = Oui (support 1.8%, confiance 61%) Age = 20 Acheteur = Oui (support 2.3%, confiance 59%) Problèmes Nombre de règles important Interprétation complexe, non généralisation 17

18 Discrétisation Item : intervalle ou ensemble de valeurs Exemple : Age = [18..30[, Age = [30..50[, Age = [50..80] Support des intervalles plus importants (somme) Règles par intervalles de valeurs Age = [18..30] Acheteur = Oui (support 24.0%, confiance 60%) Moins de contraintes sur minsupport Avantages Nombre de règles extraites réduit Simplification de l'interprétation Tenir compte de la sémantique de l'application 18

19 Intervalles Égaux «En largeur» Largeurs des intervalles identiques Exemple : [0..100], [ ], [ ] Paramètre : nombre d'intervalles Défini leur taille Interprétation simple Écarts importants des fréquences problématiques 19

20 Effectifs égaux «En profondeur» ou par quantiles Nombres d'instances proches pour chaque intervalle Poids identique des intervalles Paramètre : nombre d'intervalles Défini les supports des items résultants Découpage peut complexifier l'interprétation 20

21 Sémantiques Heuristiques Moyenne (μ), écart type (ε), paramètre (β) ]-, μ - β.ε[, [μ - β.ε, μ + β.ε], ]μ + β.ε, + [ Rangs, etc. Groupes sémantiques Seuils significatifs en fonction des objectifs Ex : taux remboursements = 33% revenus, age < 18 Répartition intrinsèque des valeurs Exploration des données (domaine de valeurs, effectifs, histogramme, nuage de points, etc.) 21

22 Discrétisation : Exemple Variable Age Histogramme des effectifs Nombre d'instances Valeurs de Age 22

23 Discrétisation : Exemple Répartition homogène : discrétisation en largeur Paramètre : 4 intervalles Nombre d'instances Valeurs de Age 23

24 Discrétisation : Exemple Proportions des valeurs Intervalle Contrainte : minsupport 23.7% Effectifs équilibrés Fréquence Nombre d'instances 24

25 Discrétisation : Exemple Variable Age Histogramme des effectifs Nombre d'instances Valeurs de Age 25

26 Discrétisation : Exemple Discrétisation en largeur Paramètre : 4 intervalles Nombre d'instances Valeurs de Age 26

27 Discrétisation : Exemple Proportions des valeurs Intervalle Contrainte : minsupport 3.54% Effectifs déséquilibrés Fréquence Nombre d'instances 27

28 Discrétisation : Exemple Paramètre : 4 quantiles Proportions des valeurs Contrainte : minsupport 23.01% Effectifs équilibrés 28

29 Discrétisation Hiérarchique Décomposition hiérarchique des intervalles Valeurs de Age Supports Généralisation Spécialisation

30 Visualisations Graphiques Réseaux : graphe des liens duaux 30

31 Visualisations Graphiques Histogramme des liens duaux 31

32 Visualisations Graphiques Histogramme des liens duaux 32

33 Visualisations Graphiques «Bouliers» Valeurs de la mesure 33

34 Matrices Antécédent Conséquence 34

35 Visualisation Techniques graphiques Adaptées à la recherche d'informations spécifiques Peu adaptées à l'exploration de l'espace des règles Liste ordonnées de règles Tri par tailles : règle, antécédent, conséquence Tri par mesures : supports, confiance, lift, support x confiance, etc. Sélection de sous-espaces «Templates» : expression régulières Item(s) en antécédent, conséquence, les deux 35

36 Exploration Représentation textuelle Tri Sélection 36

37 Règles de Classification 37

38 Extraction : Difficultés Efficacité : temps d extraction Espace de recherche de taille exponentielle Pour N items : O(2N) règles potentiellement valides Taille des jeux de données importante 10 items : règles possibles 50 items : règles possibles Ex : Walmart, plusieurs millions de transactions quotidiennement Coût des parcours de l'ensemble de données Temps d'accès mémoires secondaires 38

39 Extraction : Difficultés Utilité et pertinence des règles extraites Nombre de règles très important Dépend de la densité des données (nombre moyens d'items par ligne) Dépend de la corrélation des données Souvent plusieurs milliers Règles redondantes céréales sucre lait (supp=5%, conf=50%) céréales sucre café lait (supp=5%, conf=50%) 39

40 Méthode Générale Approche classique 1.Extraction des itemsets fréquents et leur support Itemset L fréquent si support(l) minsupport 2.Génération des règles d association valides et leur confiance A partir des itemsets fréquents Association R valide si confiance(r) minconfiance 40

41 Exemple Ensemble de données Transactions Object Items 1 A C D 2 A B C 3 B C E 4 B E 5 A B C 6 B C E E E Relation binaire OID A B C D A=lait, B=café, C=céréales, D=thé, E=sucre Ordre : A < B < C < D < E E

42 Espace de Recherche Treillis des itemsets (treillis des parties) ABCDE minsupport = 2/6 ABCE ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E D itemset fréquent Ø itemset infréquent 42

43 Extraction des Itemsets Méthode triviale Compter le support de tous les itemsets potentiels Un seul balayage de l'ensemble de données Inapplicable : espace de recherche trop important Nécessité de développer des algorithmes efficaces Limiter le nombre de balayages Limiter le nombre d'itemsets considérés Nombre d opérations 43

44 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 1-itemsets candidats ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E 11 D itemset fréquent Ø itemset infréquent 44

45 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE Supports A B C E D 3/6 5/6 5/6 5/6 1/6 11 itemset fréquent Ø itemset infréquent 45

46 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 1-itemsets fréquents ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 46

47 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 2-itemsets candidats ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E 3/6 5/6 5/6 5/ D itemset fréquent Ø itemset infréquent 47

48 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE Supports ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE 2/6 3/6 2/6 5/6 4/6 4/6 A B C E 3/6 5/6 5/6 5/ D itemset fréquent Ø itemset infréquent 48

49 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 3-itemsets candidats ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE 33 AB AC AE BE BC CE AD CD BD DE 2/6 3/6 2/6 5/6 4/6 4/6 22 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 49

50 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE Supports ABCD ABDE ACDE BCDE ABD ACD BCD ADE BDE CDE 33 BE BC CE AD CD BD DE 5/6 4/6 4/6 22 ABC ABE ACE BCE 2/6 2/6 2/6 4/6 AB AC AE 2/6 3/6 2/6 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 50

51 Approche par Niveaux «levelwise approach» Itération Itération ABCDE 4-itemset candidats ABCE ABCD ABDE ACDE 44 BCDE ABD ACD BCD ADE BDE CDE 33 BE BC CE AD CD BD DE 5/6 4/6 4/6 22 ABC ABE ACE BCE 2/6 2/6 2/6 4/6 AB AC AE 2/6 3/6 2/6 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 51

52 Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE Support ABCD ABDE ACDE 44 BCDE 2/6 ABD ACD BCD ADE BDE CDE 33 BE BC CE AD CD BD DE 5/6 4/6 4/6 22 ABC ABE ACE BCE 2/6 2/6 2/6 4/6 AB AC AE 2/6 3/6 2/6 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 52

53 Algorithme Apriori calculer le support de chaque item générer les 1-itemsets fréquents k 2 répéter joindre les (k-1)-itemsets fréquents pour former les k-candidats supprimer les k-candidats ayant un (k-1)-subset non-fréquent pour chaque instance o de la matrice de données faire pour chaque k-candidat inclus dans o faire support++ fin pour fin pour supprimer les k-candidats non-fréquents k++ tant que plusieurs k-candidats fréquents 53

54 Apriori : Génération des Candidats Exemple : k=4 3-itemsets fréquents : {ABC, ABD, ACD, ACE, BCD} Jointure des 3-itemsets de même préfixe (ligne 5.) ABC et ABD : ABCD ACD et ACE : ACDE Élagage des 3-itemsets candidats inutiles (ligne 6.) ABCD conservé : ABC, ABD, ACD, BCD fréquents ACDE supprimé : ADE non-fréquent 4-itemsets candidats : {ABCD} 54

55 Apriori : Exemple minsupport = 2/6 C1 C1 candidat A B C D E Balayage candidat support A B C D E 3/6 5/6 5/6 1/6 5/6 candidat Balayage support AB AC AE BC BE CE 2/6 3/6 2/6 4/6 5/6 4/6 A B C E 3/6 5/6 5/6 5/6 Suppression infréquents itemset support AB AC AE BC BE CE 2/6 3/6 2/6 4/6 5/6 4/6 Balayage F3 candidat support ABC ABE ACE BCE 2/6 2/6 2/6 4/6 C4 C4 ABCE support C3 candidat candidat itemset F2 candidat C3 ABC ABE ACE BCE Suppression infréquents C2 C2 AB AC AE BC BE CE F1 Balayage candidat support ABCE 2/6 Suppression infréquents Suppression infréquents itemset support ABC ABE ACE BCE 2/6 2/6 2/6 4/6 F4 itemset support ABCE 2/6 55

56 Apriori : Exemple minconfiance = 2/3 F4 itemset Règles valides F3 support ABCE 2/6 1 2 itemset support règle ABC ABE ACE BCE 2/6 2/6 2/6 4/6 ABC ABE ACE BCE F2 3 confiance E C B A 2/2 2/2 2/2 2/4 Règles valides itemset support AB AC AE BC BE CE 2/6 3/6 2/6 4/6 5/6 4/6 règle AB CE AC BE AE BC confiance 2/2 2/3 2/2 Règles valides F1 itemset support A B C E 3/6 5/6 5/6 5/6 règle A BCE confiance 2/3 56

57 Limites de la Confiance Items de fréquence élevée Nombreuses règles Confiance élevée Table de contingence support(dvd, livre) = 40% livre livre Σ DVD DVD Σ support(livre) = 75% support(dvd) = 60% instances 57

58 Limites de la Confiance Exemple DVD livre (support = 40%, confiance= 66%) Personnes achetant un DVD : 66% achètent un livre support(livre) = 75% livre (support = 75%, confiance= 75%) Toutes les personnes : 75% achètent un livre Achats de livres et DVD négativement corrélés Items de fréquence élevée Table de contingence Filtrage par corrélation (lift, conviction, etc.) 58

59 Mesure du Lift Lift : tient compte de la fréquence de la conséquence lift = P(antécédent conséquence) P(antécédent) P(conséquence) [0,+ [ Corrélation statistique entre antécédent et conséquence lift < 1 : corrélation négative lift = 1 : indépendance lift > 1 : corrélation positive Filtrage : minlift =

60 Mesure du Lift Exemple P(DVD, livre) = 0.4 livre livre Σ DVD DVD Σ P(DVD) = 0.6 P(livre) = 0.75 P(DVD, livre) lift(dvd livre) = P(DVD) x P(livre) = 0.4 / (0.6 x 0.75) = 0.89 Règle non-pertinente 60

61 Mesure de la Conviction Conviction : tient compte de l'absence de la conséquence P(antécédent) P( conséquence) conviction = P(antécédent conséquence) [0,+ [ Corrélation statistique entre antécédent et conséquence conviction > 1 : corrélation positive conviction = 1 : indépendance conviction < 1 : corrélation négative Filtrage : minconviction =

62 Mesure de la Conviction Exemple livre livre Σ DVD DVD Σ P(DVD, livre) = 0.2 P(DVD) = 0.6 P( livre) = 0.25 P(DVD) x P( livre) conviction(dvd livre) = P(DVD, livre) = (0.6 x 0.25) / 0.2 = 0.75 Règle non-pertinente 62

63 Lift et Conviction Lift : mesure non directionnelle Conviction : coûts des calculs lift(a C) = lift(c A) support(a C) Mesures non null-invariant Données A1 A2 A3 A4 AC AC A C A C Règle confiance lift conviction A C 91% A C 91% A C 91% A C 91% Sensibles au nombre d'instances 63

64 Mesure du Cosine Cosine : mesure null-invariant, non-directionnelle P(antécédent conséquence) cosine = (P(antécédent) P(conséquence)) [0,1[ Corrélation statistique cosine > 0.5 : corrélation positive cosine = 0.5 : indépendance cosine < 0.5 : corrélation négative 64

65 Mesure du Cosine Null-invariant Données A1 A2 A3 A4 AC A C A C confiance lift conviction cosine % % % % COUNT(A) = COUNT(C) = 1100 AC confiance = cosine, pas le cas général Inconvénient Mesure non-linéaire 65

66 Limites du Cosine Exemple P(DVD, livre) = 0.4 livre livre Σ DVD DVD Σ P(DVD) = 0.6 P(livre) = 0.75 P(DVD, livre) SQRT(P(DVD) x P( livre)) = 0.4 / SQRT(0.75 x 0.6) = 0.6 cosine(dvd livre) = Valeurs «proches» de 0.5 non-significatives 66

67 Propriétés des Mesures Mesure confiance lift Corrélation Null-invariant Interprétabilité Directionnelle Supports N O O O O O N O N O χ2 O N O N N conviction cosine O O N O O N O N N O Propriété Validité statistique Evaluation indépendante des autres instances Valeurs Distingue les linéairement liens A C et proportionnel- C A les à la force du lien Calcul à partir des supports seuls 67

68 Quelles Mesures? Support nécessaire Taille de la population concernée Optimal : une mesure pour chaque propriété Souvent : support, confiance, lift Coût des calculs (ex : 2) Autres mesures j-mesure, i-mesure, déviation, information gain, gini index, p-value, etc. 68

69 Exemple : Classification «Credit scoring» Objectif : modèle de prédiction de l'accord ou refus d'un crédit Ensemble d'apprentissage Instance : client Variables Classe : accord, refus Situation familiale : genre, age, statut marital Revenus : ancienneté emploi, revenus emploi, revenus conjoint, autres revenus Passif : dette actuelle, remboursement mensuel 69

70 Description des Variables Variable Type Description Id Entier Numéro identifiant de la demande Genre Catégoriel Genre de la personne Age Entier Age du client en années Anciennete_emploi Entier Nombre d années d ancienneté dans l emploi (manquantes 99) Revenus_emploi Entier Salaire mensuel de l emploi (manquantes 9999) Autres_revenus Entier Revenus additionnels hors emploi Dette_actuelle Entier Montant du par le client (hypothèque exclue) au moment de la demande Remb_mensuels Entier Montant des mensualités de remboursement de la dette actuelle Revenus_conjoint Entier Revenus du conjoint (manquantes 9999) Marie Booléen Statut marital Classe Classe Accord de crédit 70

71 Ensemble de Données 71

72 Préparation des Données Sélection Suppression de Id Valeurs manquantes Variables : Ancienneté_emploi, Revenus_emploi, Revenus_conjoint Valeurs spécifiques : 99, 9999 Supprimer les lignes / variables Perte d'information Codage «valeur inconnue» Clementine : $null$, Weka/Orange/RapidMiner :? 72

73 Valeurs Manquantes 73

74 Discrétisation Variable Type Description Genre Catégoriel Genre de la personne Age Entier Age du client en années Anciennete_emploi Entier Nombre d années d ancienneté dans l emploi (manquantes 99) Revenus_emploi Entier Salaire mensuel de l emploi (manquantes 9999) Autres_revenus Entier Revenus additionnels hors emploi Dette_actuelle Entier Montant du par le client (hypothèque exclue) au moment de la demande Remb_mensuels Entier Montant des mensualités de remboursement de la dette actuelle Revenus_conjoint Entier Revenus du conjoint (manquantes 9999) Marie Booléen Statut marital Classe Classe Accord de crédit 74

75 Discrétisation : Revenus_emploi Histogramme Valeurs : Revenus_emploi Couleur : Classe Barres : effectifs 75

76 Discrétisation : Revenus_emploi Histogramme Taux de refus distincts [250, 750[ [750, 1050[ [1050, 1650[ [1650, 2500[ [2500, 4000] Groupes sémantiques 76

77 Effectifs des Intervalles Écarts d'effectifs [250, 750[ [750, 1050[ [1050, 1650[ [1650, 2500[ [2500, 4000] = 45 = 30 = 19 = 11 =2 (support 42 %) (support 28 %) (support 18 %) (support 10 %) (support 2 %) Découper et regrouper pour minimiser les écarts [250, 600[ [600, 750[ [750, 1050[ [1050, 1650[ [1650, 4000] = 20 = 25 = 30 = 19 = 13 (support = 19 %) (support = 23 %) (support = 28 %) (support = 18 %) (support = 12 %) 77

78 Discrétisation : Ancienneté_emploi Pas de groupes sémantiques Répartition nonhomogène : discrétisation en largeur inefficace Solution : quantiles Paramètre : # quantiles Détermine les supports 78

79 Discrétisation : Ancienneté_emploi Paramètre : 5 quantiles Proportions des intervalles Effectifs proches 79

80 Discrétisation : Autres_revenus Valeur 0 majoritaire Pas de groupes sémantiques Discrétisation Intervalles égaux inefficace Quantiles inefficaces Binarisation Autres_revenus = 0 Autres_revenus > 0 80

81 Discrétisation : Autres_revenus Proportions des valeurs booléennes Règles extraites non concluantes Revenir sur cette phase (ex : discrétisation en 2 ou 3 intervalles) 81

82 Discrétisation : Revenus_conjoint Statistiques Nombre de valeurs non nulles faible Si nombre élevé d'intervalles Effectifs faibles Support faibles 82

83 Discrétisation : Revenus_conjoint Répartition nonhomogène Discrétisation : quantiles 32 valeurs 3 intervalles Effectif moyen

84 Discrétisation : Revenus_conjoint Paramètre : 3 quantiles Effectifs proches Contrainte minsupport

85 Données Discrétisées 85

86 Paramètres d'extraction minsupport Détermine les items pouvant apparaître dans les règles Support minimal des items : 8,85 % minsupport = 8 % minconfiance Précision minimale des règles Taux de contre-exemples : 100% - minconfiance minconfiance = 80 % 86

87 Paramètres d'extraction Autres paramètres Dépendent du logiciel et des options choisies Exemple : taille maximale des règles 87

88 Paramètres d'extraction Type de règles Règles de classification Conséquence Valeurs de la variable de classe Classe=accordé, Classe=refusé Antécédent Valeurs des variables prédictives Genre,, Marié 88

89 Règles Extraites 89

90 Filtrage Simplification et redondances Mesures identiques, antécédents liés par inclusion Exemple Age = [39,78[ Remb. = Aucun Classe = accordé Age = [39,78[ Dette = Aucune Classe = accordé Age = [39,78[ Remb. = aucun Dette = aucune Classe = accordé Vrai pour toutes les règles extraites Lien fort entre Remb. Mensuels et Dette actuelle Revenir sur la préparation pour supprimer le moins utile Dette actuelle (cf. répartition des valeurs et sémantique) 90

91 Filtrage Critère : différence de confiance 30 91

92 Processus Itératif Règles non pertinentes Modifier les paramètres minsupport, minconfiance, taille des règles, etc. Revenir sur la préparation Autres discrétisations, variables calculées Intégrer ou supprimer des variables Parfois, les données disponibles ne permettent pas d'atteindre les objectifs 92

93 Perspectives Règles multi-niveaux Taxonomies d'items, hiérarchies de valeurs (discrétisation) Généralisation et spécialisation Intégration de connaissances Bases de connaissances, ontologies Classes d'équivalence des itemsets Fermeture de Galois Couvertures minimales (bases) Ensembles minimaux de règles sans perte d'information 93