Data Mining «Extraction de connaissances valides et exploitables à partir de grands volumes de données hétérogènes provenant de sources et de bases diverses»
Règles d'association Définition Extraction de liens de co-occurrence des données exprimés sous forme de règles d'implication conditionnelles Processus Ensemble de données constitué d'instances (lignes) chacune constituée d'un ensemble de valeurs (items) Extraire les liens significatifs entre les occurrences de valeurs dans les mêmes instances Pour chaque règle, mesures statistiques de portée et précision 2
Association : Exemple Transactions de ventes Transaction Articles achetés 1 lait, céréales, thé 2 lait, café, céréales, sucre 3 café, céréales, sucre 4 café, sucre 5 lait, café, céréales, sucre 6 café, céréales, sucre Objectif : déterminer quels articles sont le plus souvent achetés ensemble 3
Items et Itemsets Item : valeur d'une variable café, sucre, céréales, lait, thé Itemset : ensemble d'items 0-itemset : {} 1-itemsets : {café}, {sucre}, {céréales}, {lait}, {thé} 2-itemsets : {café, sucre}, {café, céréales}, 3-itemsets : {café, sucre, céréales}, {café, sucre, lait}, 4-itemsets : {café, sucre, céréales, lait}, 5-itemset : {café, sucre, céréales, lait, thé} 4
Support des Itemsets Support d'un itemset Proportion d'instances contenant l'itemset support (L) = COUNT(L) COUNT () support(café, sucre) = COUNT(café, sucre) / COUNT() = {2, 3, 4, 5, 6} / 6 = 5/6 83.3 % Proportion : fréquence Effectif : comptage 5
Règles d'association Liens conditionnels dirigés entre itemsets café sucre «Les clients achetant du café achètent souvent du sucre en même temps» Connaissances à diverses niveaux de détail café, céréales sucre céréales café, sucre café, céréales lait, sucre Mesures statistiques calculées pour chaque règle Pertinence et utilité 6
Mesures Statistiques Support Proportion d'instances «contenant» la règle Support de l'union de l'antécédent et de la conséquence de la règle Association Support Transactions café sucre 5/6 (83.3%) 2,3,4,5,6 café, céréales sucre 4/6 (66.7%) 2,3,5,6 céréales café, sucre 4/6 (66.7%) 2,3,5,6 Fréquence de la règle dans l'ensemble de données 7
Mesures Statistiques Confiance Précision de la règle Proportion d'instances contenant la conséquence parmi celles contenant l'antécédent confiance = support (antécédent conséquence) support (antécédent) [0,1] confiance(céréales café, sucre) = support(céréales, café, sucre) / support(céréales) = COUNT(céréales, café,sucre) / COUNT(céréales) = 4/5 = 80% 8
Seuils de Support et Confiance Règles non-pertinentes et inutiles Faible support : nombre limité d'instances Faible confiance : nombreux contre-exemples Seuils minsupport et minconfiance Définition des seuils empirique Dépend des caractéristiques des données et de l'application 9
Confiance des Associations minsupport = 40 % minconfiance = 75 % Association Support Confiance café sucre 5/6 (83.3%) 5/5 (100%) café, céréales sucre 4/6 (66.7%) 4/4 (100%) céréales café, sucre 4/6 (66.7%) 4/5 (80%) café, céréales lait, sucre 2/6 (33.3%) 2/4 (50%) 10
Interprétation Probabiliste Support : probabilité simple Probabilité qu'une ligne prise au hasard contiennent les items support(café sucre) = 83,3% P(café, sucre) = 0,833 Confiance : probabilité conditionnelle Probabilité qu'une ligne contenant l'antécédent contienne aussi la conséquence confiance(céréales café, sucre) = 80% P(café, sucre céréales) = 0.8 11
Règles Exactes et Partielles Règles exactes : confiance = 100% Toutes les instances contenant l'antécédent contiennent aussi la conséquence Aucun contre-exemple Règle partielles : confiance < 100% Vérifiées par une proportion égale à leur confiance d'instances Règles d'implication qui tolèrent (100 confiance) % contre-exemples 12
Définition des Seuils Exemple : analyse de paniers d'achats «market basket analysis» Objectif : identifier les articles achetés ensemble Nombreux articles, nombreuses transactions Supports des items faibles minsupport < 10% Combinaisons identiques d'articles rares Aucune règle exacte, peu de règles de confiance > 50% minconfiance < 50% 13
Définition des Seuils Exemple : aide au diagnostic Objectif : diagnostic prévisionnel en fonction des mesures physiologiques et des données socio-démographiques Identifier tous les cas possibles Règles concernant de petits groupes intéressantes minsupport < 20% Les règles utiles représentent une majorité de cas Bonne précision requise minconfiance > 50% 14
Définition des Seuils Exemple : analyse de recensements / sondages Objectif : identifier les tendances principales d'une population Nombre d'instances important Tendances marginales (rares) ne nous intéressent pas minsupport > 20% Données fortement corrélées et denses Nombre de règles très important minconfiance > 50% 15
Processus Source de données Bases de données, SI, fichiers, ontologies/taxonomies B Pré-traitement intégration normalisation discrétisation généralisation spécialisation A D F C E Visualisation Graphes, tables, matrices, histogrammes 3D Affichage sélection représentation Matrice de données Relation binaire instances - items Association A B A C AB CD AC D supp 20% 44% 32% 25% Extraction minsupport minconfiance paramètres conf 87% 66% 80% 60% Règles d'association Ordre de tri, généralisation, spécialisation 16
Variables Numériques Données numériques continues Exemples : Age [18, 80], Revenus [0.0, 4000.0] Prendre chaque valeur comme un item Supports faibles : minsupport doit être faible Règles spécifiques à chaque valeur Age = 18 Acheteur = Oui (support 2.0%, confiance 60%) Age = 19 Acheteur = Oui (support 1.8%, confiance 61%) Age = 20 Acheteur = Oui (support 2.3%, confiance 59%) Problèmes Nombre de règles important Interprétation complexe, non généralisation 17
Discrétisation Item : intervalle ou ensemble de valeurs Exemple : Age = [18..30[, Age = [30..50[, Age = [50..80] Support des intervalles plus importants (somme) Règles par intervalles de valeurs Age = [18..30] Acheteur = Oui (support 24.0%, confiance 60%) Moins de contraintes sur minsupport Avantages Nombre de règles extraites réduit Simplification de l'interprétation Tenir compte de la sémantique de l'application 18
Intervalles Égaux «En largeur» Largeurs des intervalles identiques Exemple : [0..100], [100..200], [200..300] Paramètre : nombre d'intervalles Défini leur taille Interprétation simple Écarts importants des fréquences problématiques 19
Effectifs égaux «En profondeur» ou par quantiles Nombres d'instances proches pour chaque intervalle Poids identique des intervalles Paramètre : nombre d'intervalles Défini les supports des items résultants Découpage peut complexifier l'interprétation 20
Sémantiques Heuristiques Moyenne (μ), écart type (ε), paramètre (β) ]-, μ - β.ε[, [μ - β.ε, μ + β.ε], ]μ + β.ε, + [ Rangs, etc. Groupes sémantiques Seuils significatifs en fonction des objectifs Ex : taux remboursements = 33% revenus, age < 18 Répartition intrinsèque des valeurs Exploration des données (domaine de valeurs, effectifs, histogramme, nuage de points, etc.) 21
Discrétisation : Exemple Variable Age Histogramme des effectifs Nombre d'instances Valeurs de Age 22
Discrétisation : Exemple Répartition homogène : discrétisation en largeur Paramètre : 4 intervalles Nombre d'instances Valeurs de Age 23
Discrétisation : Exemple Proportions des valeurs Intervalle Contrainte : minsupport 23.7% Effectifs équilibrés Fréquence Nombre d'instances 24
Discrétisation : Exemple Variable Age Histogramme des effectifs Nombre d'instances Valeurs de Age 25
Discrétisation : Exemple Discrétisation en largeur Paramètre : 4 intervalles Nombre d'instances Valeurs de Age 26
Discrétisation : Exemple Proportions des valeurs Intervalle Contrainte : minsupport 3.54% Effectifs déséquilibrés Fréquence Nombre d'instances 27
Discrétisation : Exemple Paramètre : 4 quantiles Proportions des valeurs Contrainte : minsupport 23.01% Effectifs équilibrés 28
Discrétisation Hiérarchique Décomposition hiérarchique des intervalles Valeurs de Age Supports Généralisation 16-50 16-50 Spécialisation 34-50 34-50 16-33 16-33 16-24 16-24 16-19 16-19 20-24 20-24 25-33 25-33 25-29 25-29 30-33 30-33 34-42 34-42 34-37 34-37 38-42 38-42 43-50 43-50 43-46 43-46 46-50 46-50 29
Visualisations Graphiques Réseaux : graphe des liens duaux 30
Visualisations Graphiques Histogramme des liens duaux 31
Visualisations Graphiques Histogramme des liens duaux 32
Visualisations Graphiques «Bouliers» Valeurs de la mesure 33
Matrices Antécédent Conséquence 34
Visualisation Techniques graphiques Adaptées à la recherche d'informations spécifiques Peu adaptées à l'exploration de l'espace des règles Liste ordonnées de règles Tri par tailles : règle, antécédent, conséquence Tri par mesures : supports, confiance, lift, support x confiance, etc. Sélection de sous-espaces «Templates» : expression régulières Item(s) en antécédent, conséquence, les deux 35
Exploration Représentation textuelle Tri Sélection 36
Règles de Classification 37
Extraction : Difficultés Efficacité : temps d extraction Espace de recherche de taille exponentielle Pour N items : O(2N) règles potentiellement valides Taille des jeux de données importante 10 items : 1 024 règles possibles 50 items : 1 125 899 906 842 624 règles possibles Ex : Walmart, plusieurs millions de transactions quotidiennement Coût des parcours de l'ensemble de données Temps d'accès mémoires secondaires 38
Extraction : Difficultés Utilité et pertinence des règles extraites Nombre de règles très important Dépend de la densité des données (nombre moyens d'items par ligne) Dépend de la corrélation des données Souvent plusieurs milliers Règles redondantes céréales sucre lait (supp=5%, conf=50%) céréales sucre café lait (supp=5%, conf=50%) 39
Méthode Générale Approche classique 1.Extraction des itemsets fréquents et leur support Itemset L fréquent si support(l) minsupport 2.Génération des règles d association valides et leur confiance A partir des itemsets fréquents Association R valide si confiance(r) minconfiance 40
Exemple Ensemble de données Transactions Object Items 1 A C D 2 A B C 3 B C E 4 B E 5 A B C 6 B C E E E Relation binaire OID A B C D 1 1 0 1 1 2 1 1 1 0 3 0 1 1 0 4 0 1 0 0 5 1 1 1 0 6 0 1 1 0 A=lait, B=café, C=céréales, D=thé, E=sucre Ordre : A < B < C < D < E E 0 1 1 1 1 1 41
Espace de Recherche Treillis des itemsets (treillis des parties) ABCDE minsupport = 2/6 ABCE ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E D itemset fréquent Ø itemset infréquent 42
Extraction des Itemsets Méthode triviale Compter le support de tous les itemsets potentiels Un seul balayage de l'ensemble de données Inapplicable : espace de recherche trop important Nécessité de développer des algorithmes efficaces Limiter le nombre de balayages Limiter le nombre d'itemsets considérés Nombre d opérations 43
Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 1-itemsets candidats ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E 11 D itemset fréquent Ø itemset infréquent 44
Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE Supports A B C E D 3/6 5/6 5/6 5/6 1/6 11 itemset fréquent Ø itemset infréquent 45
Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 1-itemsets fréquents ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 46
Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 2-itemsets candidats ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE A B C E 3/6 5/6 5/6 5/6 22 11 D itemset fréquent Ø itemset infréquent 47
Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE Supports ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE AB AC AE BE BC CE AD CD BD DE 2/6 3/6 2/6 5/6 4/6 4/6 A B C E 3/6 5/6 5/6 5/6 22 11 D itemset fréquent Ø itemset infréquent 48
Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE 3-itemsets candidats ABCD ABDE ACDE BCDE ABC ABE ACE BCE ABD ACD BCD ADE BDE CDE 33 AB AC AE BE BC CE AD CD BD DE 2/6 3/6 2/6 5/6 4/6 4/6 22 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 49
Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE Supports ABCD ABDE ACDE BCDE ABD ACD BCD ADE BDE CDE 33 BE BC CE AD CD BD DE 5/6 4/6 4/6 22 ABC ABE ACE BCE 2/6 2/6 2/6 4/6 AB AC AE 2/6 3/6 2/6 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 50
Approche par Niveaux «levelwise approach» Itération Itération ABCDE 4-itemset candidats ABCE ABCD ABDE ACDE 44 BCDE ABD ACD BCD ADE BDE CDE 33 BE BC CE AD CD BD DE 5/6 4/6 4/6 22 ABC ABE ACE BCE 2/6 2/6 2/6 4/6 AB AC AE 2/6 3/6 2/6 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 51
Approche par Niveaux «levelwise approach» Itération Itération ABCDE ABCE Support ABCD ABDE ACDE 44 BCDE 2/6 ABD ACD BCD ADE BDE CDE 33 BE BC CE AD CD BD DE 5/6 4/6 4/6 22 ABC ABE ACE BCE 2/6 2/6 2/6 4/6 AB AC AE 2/6 3/6 2/6 A B C E 3/6 5/6 5/6 5/6 11 D itemset fréquent Ø itemset infréquent 52
Algorithme Apriori 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. calculer le support de chaque item générer les 1-itemsets fréquents k 2 répéter joindre les (k-1)-itemsets fréquents pour former les k-candidats supprimer les k-candidats ayant un (k-1)-subset non-fréquent pour chaque instance o de la matrice de données faire pour chaque k-candidat inclus dans o faire support++ fin pour fin pour supprimer les k-candidats non-fréquents k++ tant que plusieurs k-candidats fréquents 53
Apriori : Génération des Candidats Exemple : k=4 3-itemsets fréquents : {ABC, ABD, ACD, ACE, BCD} Jointure des 3-itemsets de même préfixe (ligne 5.) ABC et ABD : ABCD ACD et ACE : ACDE Élagage des 3-itemsets candidats inutiles (ligne 6.) ABCD conservé : ABC, ABD, ACD, BCD fréquents ACDE supprimé : ADE non-fréquent 4-itemsets candidats : {ABCD} 54
Apriori : Exemple minsupport = 2/6 C1 C1 candidat A B C D E Balayage candidat support A B C D E 3/6 5/6 5/6 1/6 5/6 candidat Balayage support AB AC AE BC BE CE 2/6 3/6 2/6 4/6 5/6 4/6 A B C E 3/6 5/6 5/6 5/6 Suppression infréquents itemset support AB AC AE BC BE CE 2/6 3/6 2/6 4/6 5/6 4/6 Balayage F3 candidat support ABC ABE ACE BCE 2/6 2/6 2/6 4/6 C4 C4 ABCE support C3 candidat candidat itemset F2 candidat C3 ABC ABE ACE BCE Suppression infréquents C2 C2 AB AC AE BC BE CE F1 Balayage candidat support ABCE 2/6 Suppression infréquents Suppression infréquents itemset support ABC ABE ACE BCE 2/6 2/6 2/6 4/6 F4 itemset support ABCE 2/6 55
Apriori : Exemple minconfiance = 2/3 F4 itemset Règles valides F3 support ABCE 2/6 1 2 itemset support règle ABC ABE ACE BCE 2/6 2/6 2/6 4/6 ABC ABE ACE BCE F2 3 confiance E C B A 2/2 2/2 2/2 2/4 Règles valides itemset support AB AC AE BC BE CE 2/6 3/6 2/6 4/6 5/6 4/6 règle AB CE AC BE AE BC confiance 2/2 2/3 2/2 Règles valides F1 itemset support A B C E 3/6 5/6 5/6 5/6 règle A BCE confiance 2/3 56
Limites de la Confiance Items de fréquence élevée Nombreuses règles Confiance élevée Table de contingence support(dvd, livre) = 40% livre livre Σ DVD 4000 2000 6000 4000 DVD 3500 500 Σ 7500 2500 10000 support(livre) = 75% support(dvd) = 60% 10 000 instances 57
Limites de la Confiance Exemple DVD livre (support = 40%, confiance= 66%) Personnes achetant un DVD : 66% achètent un livre support(livre) = 75% livre (support = 75%, confiance= 75%) Toutes les personnes : 75% achètent un livre Achats de livres et DVD négativement corrélés Items de fréquence élevée Table de contingence Filtrage par corrélation (lift, conviction, etc.) 58
Mesure du Lift Lift : tient compte de la fréquence de la conséquence lift = P(antécédent conséquence) P(antécédent) P(conséquence) [0,+ [ Corrélation statistique entre antécédent et conséquence lift < 1 : corrélation négative lift = 1 : indépendance lift > 1 : corrélation positive Filtrage : minlift = 1.01 59
Mesure du Lift Exemple P(DVD, livre) = 0.4 livre livre Σ DVD 4000 2000 6000 4000 DVD 3500 500 Σ 7500 2500 10000 P(DVD) = 0.6 P(livre) = 0.75 P(DVD, livre) lift(dvd livre) = P(DVD) x P(livre) = 0.4 / (0.6 x 0.75) = 0.89 Règle non-pertinente 60
Mesure de la Conviction Conviction : tient compte de l'absence de la conséquence P(antécédent) P( conséquence) conviction = P(antécédent conséquence) [0,+ [ Corrélation statistique entre antécédent et conséquence conviction > 1 : corrélation positive conviction = 1 : indépendance conviction < 1 : corrélation négative Filtrage : minconviction = 1.01 61
Mesure de la Conviction Exemple livre livre Σ DVD 4000 2000 6000 4000 DVD 3500 500 Σ 7500 2500 10000 P(DVD, livre) = 0.2 P(DVD) = 0.6 P( livre) = 0.25 P(DVD) x P( livre) conviction(dvd livre) = P(DVD, livre) = (0.6 x 0.25) / 0.2 = 0.75 Règle non-pertinente 62
Lift et Conviction Lift : mesure non directionnelle Conviction : coûts des calculs lift(a C) = lift(c A) support(a C) Mesures non null-invariant Données A1 A2 A3 A4 AC 1000 1000 1000 1000 AC A C A C Règle confiance lift conviction 100 100 100000 A C 91% 83.64 10.88 100 100 10000 A C 91% 9.26 9.92 100 100 1000 A C 91% 1.82 5.50 100 100 0 A C 91% 0.99 0.92 Sensibles au nombre d'instances 63
Mesure du Cosine Cosine : mesure null-invariant, non-directionnelle P(antécédent conséquence) cosine = (P(antécédent) P(conséquence)) [0,1[ Corrélation statistique cosine > 0.5 : corrélation positive cosine = 0.5 : indépendance cosine < 0.5 : corrélation négative 64
Mesure du Cosine Null-invariant Données A1 A2 A3 A4 AC A C A C confiance lift conviction cosine 100 100 100000 91% 83.64 10.88 0.91 100 100 10000 91% 9.26 9.92 0.91 100 100 1000 91% 1.82 5.50 0.91 100 100 0 91% 0.99 0.92 0.91 COUNT(A) = COUNT(C) = 1100 AC 1000 1000 1000 1000 confiance = cosine, pas le cas général Inconvénient Mesure non-linéaire 65
Limites du Cosine Exemple P(DVD, livre) = 0.4 livre livre Σ DVD 4000 2000 6000 4000 DVD 3500 500 Σ 7500 2500 10000 P(DVD) = 0.6 P(livre) = 0.75 P(DVD, livre) SQRT(P(DVD) x P( livre)) = 0.4 / SQRT(0.75 x 0.6) = 0.6 cosine(dvd livre) = Valeurs «proches» de 0.5 non-significatives 66
Propriétés des Mesures Mesure confiance lift Corrélation Null-invariant Interprétabilité Directionnelle Supports N O O O O O N O N O χ2 O N O N N conviction cosine O O N O O N O N N O Propriété Validité statistique Evaluation indépendante des autres instances Valeurs Distingue les linéairement liens A C et proportionnel- C A les à la force du lien Calcul à partir des supports seuls 67
Quelles Mesures? Support nécessaire Taille de la population concernée Optimal : une mesure pour chaque propriété Souvent : support, confiance, lift Coût des calculs (ex : 2) Autres mesures j-mesure, i-mesure, déviation, information gain, gini index, p-value, etc. 68
Exemple : Classification «Credit scoring» Objectif : modèle de prédiction de l'accord ou refus d'un crédit Ensemble d'apprentissage Instance : client Variables Classe : accord, refus Situation familiale : genre, age, statut marital Revenus : ancienneté emploi, revenus emploi, revenus conjoint, autres revenus Passif : dette actuelle, remboursement mensuel 69
Description des Variables Variable Type Description Id Entier Numéro identifiant de la demande Genre Catégoriel Genre de la personne Age Entier Age du client en années Anciennete_emploi Entier Nombre d années d ancienneté dans l emploi (manquantes 99) Revenus_emploi Entier Salaire mensuel de l emploi (manquantes 9999) Autres_revenus Entier Revenus additionnels hors emploi Dette_actuelle Entier Montant du par le client (hypothèque exclue) au moment de la demande Remb_mensuels Entier Montant des mensualités de remboursement de la dette actuelle Revenus_conjoint Entier Revenus du conjoint (manquantes 9999) Marie Booléen Statut marital Classe Classe Accord de crédit 70
Ensemble de Données 71
Préparation des Données Sélection Suppression de Id Valeurs manquantes Variables : Ancienneté_emploi, Revenus_emploi, Revenus_conjoint Valeurs spécifiques : 99, 9999 Supprimer les lignes / variables Perte d'information Codage «valeur inconnue» Clementine : $null$, Weka/Orange/RapidMiner :? 72
Valeurs Manquantes 73
Discrétisation Variable Type Description Genre Catégoriel Genre de la personne Age Entier Age du client en années Anciennete_emploi Entier Nombre d années d ancienneté dans l emploi (manquantes 99) Revenus_emploi Entier Salaire mensuel de l emploi (manquantes 9999) Autres_revenus Entier Revenus additionnels hors emploi Dette_actuelle Entier Montant du par le client (hypothèque exclue) au moment de la demande Remb_mensuels Entier Montant des mensualités de remboursement de la dette actuelle Revenus_conjoint Entier Revenus du conjoint (manquantes 9999) Marie Booléen Statut marital Classe Classe Accord de crédit 74
Discrétisation : Revenus_emploi Histogramme Valeurs : Revenus_emploi Couleur : Classe Barres : effectifs 75
Discrétisation : Revenus_emploi Histogramme Taux de refus distincts [250, 750[ [750, 1050[ [1050, 1650[ [1650, 2500[ [2500, 4000] Groupes sémantiques 76
Effectifs des Intervalles Écarts d'effectifs [250, 750[ [750, 1050[ [1050, 1650[ [1650, 2500[ [2500, 4000] = 45 = 30 = 19 = 11 =2 (support 42 %) (support 28 %) (support 18 %) (support 10 %) (support 2 %) Découper et regrouper pour minimiser les écarts [250, 600[ [600, 750[ [750, 1050[ [1050, 1650[ [1650, 4000] = 20 = 25 = 30 = 19 = 13 (support = 19 %) (support = 23 %) (support = 28 %) (support = 18 %) (support = 12 %) 77
Discrétisation : Ancienneté_emploi Pas de groupes sémantiques Répartition nonhomogène : discrétisation en largeur inefficace Solution : quantiles Paramètre : # quantiles Détermine les supports 78
Discrétisation : Ancienneté_emploi Paramètre : 5 quantiles Proportions des intervalles Effectifs proches 79
Discrétisation : Autres_revenus Valeur 0 majoritaire Pas de groupes sémantiques Discrétisation Intervalles égaux inefficace Quantiles inefficaces Binarisation Autres_revenus = 0 Autres_revenus > 0 80
Discrétisation : Autres_revenus Proportions des valeurs booléennes Règles extraites non concluantes Revenir sur cette phase (ex : discrétisation en 2 ou 3 intervalles) 81
Discrétisation : Revenus_conjoint Statistiques Nombre de valeurs non nulles faible Si nombre élevé d'intervalles Effectifs faibles Support faibles 82
Discrétisation : Revenus_conjoint Répartition nonhomogène Discrétisation : quantiles 32 valeurs 3 intervalles Effectif moyen 10.66 83
Discrétisation : Revenus_conjoint Paramètre : 3 quantiles Effectifs proches Contrainte minsupport 8.85 84
Données Discrétisées 85
Paramètres d'extraction minsupport Détermine les items pouvant apparaître dans les règles Support minimal des items : 8,85 % minsupport = 8 % minconfiance Précision minimale des règles Taux de contre-exemples : 100% - minconfiance minconfiance = 80 % 86
Paramètres d'extraction Autres paramètres Dépendent du logiciel et des options choisies Exemple : taille maximale des règles 87
Paramètres d'extraction Type de règles Règles de classification Conséquence Valeurs de la variable de classe Classe=accordé, Classe=refusé Antécédent Valeurs des variables prédictives Genre,, Marié 88
Règles Extraites 89
Filtrage Simplification et redondances Mesures identiques, antécédents liés par inclusion Exemple Age = [39,78[ Remb. = Aucun Classe = accordé Age = [39,78[ Dette = Aucune Classe = accordé Age = [39,78[ Remb. = aucun Dette = aucune Classe = accordé Vrai pour toutes les règles extraites Lien fort entre Remb. Mensuels et Dette actuelle Revenir sur la préparation pour supprimer le moins utile Dette actuelle (cf. répartition des valeurs et sémantique) 90
Filtrage Critère : différence de confiance 30 91
Processus Itératif Règles non pertinentes Modifier les paramètres minsupport, minconfiance, taille des règles, etc. Revenir sur la préparation Autres discrétisations, variables calculées Intégrer ou supprimer des variables Parfois, les données disponibles ne permettent pas d'atteindre les objectifs 92
Perspectives Règles multi-niveaux Taxonomies d'items, hiérarchies de valeurs (discrétisation) Généralisation et spécialisation Intégration de connaissances Bases de connaissances, ontologies Classes d'équivalence des itemsets Fermeture de Galois Couvertures minimales (bases) Ensembles minimaux de règles sans perte d'information 93