Segmentation et data mining pour l industrie.

Transcription

1 Une solution industrielle complète de data mining Segmentation et data mining pour l industrie. Johan Baltié Franck Coppola Tristan Robet Promotion 2002 Specialisation S.C.I.A. Responsable M. Adjaoute 1

2 TABLE DES MATIÈRES S.C.I.A. promo 2002 Table des matières 1 Pourquoi ce sont des problèmes important? But de ces technologies Intérêt en entreprise État de l art Le data cleaning Suppression des doublons Les autres erreurs La segmentation (clustering) Les différentes possibilité de segmentation Les algorithmes de clustering Le data mining Les algorithmes de découverte de règle d association Les treillis de Galois Proposition d une solution Contraintes posées à la solution Présentation de l architecture générale Entrées et sortie de la solution Les différentes parties L interaction des différentes modules Le module de data cleaning et de transformation de données Le data cleaning La transformation des données Le module de segmentation Formation des classes Détermination du nombre de classes Utilisation industrielle de l algorithme Détection du bruit et des valeurs abérantes Le module de data mining Les chaines, les maillons et les règles associées L usine a maillons Les règles Description d un tour de jeu Présentation détaillée Réponse aux contraintes Annexes Algorithme Expectation Maximization Références. 32 2

3 Une solution industrielle complète de data mining 1 Pourquoi ce sont des problèmes important? L industrie est tous les jours confrontée à des problèmes tels que tous les paramètres ne sont pas connus. Elle recueille des données dans des bases immenses où l unité de base est le Téraoctet avec l espoir de trouver et déterminer quelques uns de ces paramètres. En effet, une entreprise possédant des informations sur les marchés et leur fonctionnement que les autres entreprises n auraient pas posséderait un avantage considérable sur celles-ci. Imaginons une entreprise qui possède des bases de données sur tous ses produits. Toutes ces bases de données sont différentes soit dans leur format, soit dans leur conception,... Il est difficile pour l entreprise de centraliser ses informations sur ses produits car personnes ne connaît tous les produits et les responsables de chacun des produits sont bien évidement trop occupés. Il lui faut donc un outils capable d analyser une base de données sans en connaître les particularités. On ne peut pas dire quel champ peut être considéré comme une classe,... Il faut donc que l outils détermine tous ce qu il peut de la base de données avec un minimum d information. 1.1 But de ces technologies. Le but de ces technologie est d une part de découper une base de données en sous-ensembles consistants (par exemple découvrir des profils communs dans les données) et d autre part de trouver les règles qui régissent cette base de données. En règle générale les technologies faisant des choses semblable demandent des informations sur la base de données (telles que signification de certains champs (cible,... ), valeurs possibles,... ), or dans notre cas nous souhaitons effectuer un traitement sur une base de données totalement inconnues si ce n est par : Le noms de chaque champ. Les valeurs de chaque enregistrement. Le résultat attendu est une analyse de cette base qui permettent ensuite à l entreprise d en apprendre le plus possible sur son domaine. L outil doit présenté un rapport donnant les informations d une manière pratique. Cela signifie qu il doit déterminer seul la pertinence des informations pour présenter en premier les informations lui paraissant capitale. 1.2 Intérêt en entreprise. Les intérêts dans une entreprise sont multiples : Découverte de règles sur le comportement des clients. Création de profils de clients. Découverte de nouvelles modes. Création de transaction type. Découverte de catégorie de clients.... Toutes ces techniques vont donc permettre une maximisation du gain de l entreprise les utilisant. Il y a actuellement un problème et un créneau du fait de l utilisation faible du data mining dans les entreprises et du début de développement. Les entreprises classiques pensent souvent cette technologie trop moderne pour faire ces preuves. Et le fait de devoir monopoliser des gens pour préparer les données et un gros facteur de turn-over. Il est donc très intéressant pour l entreprise de ne pas avoir à expliciter le format et la sémantique de la base de données avant de la faire analyser. Cela permet aussi de diminuer ses coûts. 3

4 S.C.I.A. promo État de l art. Les technologies de data mining, segmentation et de data cleaning ne sont pas toutes très récentes. Certaines ont plus d une dizaine d années. Des travaux d importance ont donc été fait dans ces domaines, travaux qu il est intéressant de prendre en compte pour ne pas refaire les mêmes erreurs. 2.1 Le data cleaning. Un data warehouse où en français entrepôt de données est une copie des données transactionnelles structurée spécialement pour les requêtes et la génération de rapport. Le data warehousing est utilisé par les «preneurs de décisions» et est donc une chose très importante pour la stratégie de l entreprise. Donc il est absolument nécessaire d avoir des données «propres» pour que le processus de décision soit fait correctement. Cela implique que le data cleaning est une phase importante du data warehousing. Il faut voir que beaucoup de techniques de data cleaning son adaptée à la base qu elle traite et nous ne présenteront ici que les solutions qui peuvent fonctionner quelque soit la base de données. Par contre, comme les problèmes peuvent malheureusement arriver sur la plupart des bases, nous les citerons tous, même ceux n ayant actuellement pas de solutions valables. Un exemple de data cleaning particulier et pourtant déjà difficile à résoudre est le suivant : Deux personnes aux noms et adresses totalement différent ont le même numéro de sécurité sociale. Que doit-on faire : Considérer que le numéro de sécurité social est invalide pour l une des deux (dans ce cas on «efface» les deux champs ou l on demande une vérification). Considérer que c est la même personne qui a changé de nom et de domicile. Cet exemple, bien que très rare il faut le reconnaître, montre la difficulté de résolution des problèmes de consistance quand on ne connaît pas tous les paramètres. Le data cleaning est la phase qui consiste à réparer (si possible) les erreurs suivantes : Les données incomplètes, champs manquants,... Les valeurs incorrectes. Les «codes», clés et autres attributs qui doivent être spécifique à un enregistrement et qui pour un raison quelconque ne le sont pas ou sont mal calculés. Les doublons. L informations mal entrée (fautes de frappes,... ), incompréhensible. Plusieurs champs dans le même champ. Formatage de la donnée incompréhensible 1 Code inconnus (produit, postal,... ). Base inconsistante (A et A dans la même base, date et heure invalide, attributs hors domains,... ). Code différents pour la même signification Suppression des doublons La première chose que doit faire un outils de data cleaning est la suppression des doublons. Ces doublons existent parce que les données proviennent souvent de plusieurs points différents et que les contrôles de l intégrité de la base ne sont pas fait correctement. Pour cela la technique basique consiste à trier la base de données et regardé si des valeurs identiques se suivent où non. Pour que cette technique soit efficace, il faut tout d abord générer une clé pour chaque enregistrement et les trier en fonction de cette clé. Cette clé doit avoir la propriété d être identique pour deux t-uples identiques et d être le plus proche possible quand deux t-uples ne varient que très peu. Cela permet en fait de déjà repéré les t-uples potentiellement identiques modulo des erreurs de frappes ou des petites variances. 1 En général, ce type de formatage est fait pour gagner de la place. 4

5 Une solution industrielle complète de data mining 2.2 Les autres erreurs Une fois la clé générée, il suffit de classer les t-uples en fonction de cette clé et de trouver deux clés identiques. Il suffit après d une vérification pour enlever les doublons. Le fait d avoir généré la clé permet de vérifier que certains t-uples n aurait pas de fortes chances d être des versions déformés l un de l autre. Une autre technique de détection d éléments semblable est l emploi de la réduction de la dimension. Cette technique se base sur le fait qu en utilisant des propriétés mathématiques, on peut diminuer le nombre de dimension de champs numérique, on peut comparer plus rapidement les valeurs restantes. La distance obtenue entre deux t-uples réduit sera approchée, mais si l on cherche les doublon exact, la distance entre eux sera toujours de 0. De même si la distance utilisée entre les t-uples réduits est valable, alors il est possible de détecter des t-uples similaires mais non identiques. Pour que la technique de réduction de dimension soit efficace, il faut que le temps de calcul de la comparaison des t-uples complet soit inférieur au temps de calcul des t-uples réduit plus le temps de calcul des transformations. Cela implique que les transformations doivent être très rapide 2. Fig. 1 Les deux moyens de comparer et supprimer les t-uples redondant. 2.2 Les autres erreurs La plupart des autres erreurs pour lesquelles le data cleaning est efficace sont malheureusement corrigé d une façon très spécifique pour chaque base de données. En effet, la consistance demande de savoir quels champs doivent être consistants et de quelle manière, de même pour les codes invalides,... On peut tenter de corriger quelques erreurs, mais il faut à l avance savoir que la technique ne peut en aucun cas être parfaite du fait du manque de connaissances sur les champs. Ces erreurs que l on peut corriger (en plus des doublons) sont principalement les fautes de frappe et d orthographe. Cela s avère par contre très coûteux. Imaginons que l on ai beaucoup de t-uples contenant le mot «sciences» et un 3 contenant le mot «science». Il est dans ce cas raisonnable de penser que l on peut remplacer le deuxième mot par le premier. Effectivement cela peut amener le problème que l on va effacer un nom existant. il faut voir que vu le contexte de notre problème, si l on ne l avait pas effacé, il aurait été considéré comme du bruit et donc retiré. En fait le seul problème que nous soulevons est de potentiellement renforcer une règle qui n a pas lieu de l être de l ordre de ce que l utilisateur considère comme du bruit. Donc on ne génère pas une grosse erreur. 2 Par exemple une transformation rapide de Fourrier, et plus généralement toutes les méthodes de décomposition en composantes principales. 3 Ou plus d un mais dans tous les cas beaucoup moins que le premier. En général pour effectuer le choix, on se base sur un taux que l utilisateur considère comme du bruit. Par exemple, l utilisateur à spécifier que au dessus de 1% ce n est plus du bruit. 5

6 2.3 La segmentation ( clustering). S.C.I.A. promo 2002 Il est aussi possible, en utilisant la même technique d ignorer les t-uples qui nous semble être du bruit. Par exemple, la présence une fois d une valeur différente dans un champs alors que toutes les autres valeurs sont présentes très souvent. La même remarque que précédement s applique. 2.3 La segmentation (clustering) Les différentes possibilité de segmentation. La segmentation de base de données est au premier abord utile pour générer ce que l on peut appeler des «profils», que ce soit pour des être humains, ou quoique ce soit d autre. Un profil est un cas typique auquel on peut rapprocher les autres éléments de la classe générée. En terme mathématique on appelle cette notion centroïde 4, et un centroïde de la classe C est donné par la formule : ( ) min d (c, x) c C (1) x C Ces profils peuvent don permettre d économiser de la place pour stocker une base quand on a juste besoin de son modèle. En effet, il suffit de connaître les centroïdes de toutes les classes pour connaître pour tout nouvel élément la classe à laquelle il appartient. Les centroïdes ne sont pas la seule façon de sauvegarder des classes. C est le moyen de stockage le moins coûteux en place et le plus pratique pour connaître la classe d appartenance d un point mais comment faire pour savoir si une donnée arrivant ne peut pas être considérée comme du bruit? Dans ce cas, on utilise le stockage sous forme de Gaussienne à n paramètre où n est le nombre de dimensions des t-uples. Ce modèle revient en fait à stocker une «ellipse» qui va englober toutes les données que l on considère comme non bruitées. L espérance de la Gausienne est en fait notre centroïde et par contre on rajoute un paramètre sa variance en dimension n qui sera le «rayon 5» de notre ellipsoïde. Cette approche permet de connaître la probabilité qu une donnée soit du bruit avec la formules de la fonction de répartition de la Gaussienne à n dimension (avec x i la ième coordonnée du point testé, θ i la variance de notre classe et µ i son espérance) : 1 n 2 π n i=1 i=1 θ e (x i µ i )2 θ i 2 (2) i En industrie les deux modèles sont utilisés mais différemment. Le premier modèle est, nous l avons vu, utilisé quand on recherche simplement les profils de la base, on décrit en fait le Voronoï de l espace de la base. Avec ce modèle cela signifie qu un élément de la base de donnée appartient forcément à une classe. C est pour cela qu on été créé les deuxièmes type de modèles qui permettent de caractérisé le bruit. Les modèles que nous venons de voir sont qualifiés de plats, ce qui signifie que les classes obtenues forment n ont pas plus d importance les unes que les autres (cela signifie qu il n y a pas de classes contenant des classes). Dans le cas des k-moyennes, on a même une partition de l ensemble de départ, ce qui signifie que l on ne peut pas avoir deux classes C 1 et C 2 telles que x un élément de la base de données appartienne à C 1 et à C 2. Pourtant, il existe des modèles dit hiérarchiques (voir figure 3 page 7), c est-à-dire que les classes peuvent être représentées sous la forme d une forêt. Chaque noeud classe ayant pour fils d autres classes ou des éléments de la base. Les classes feuilles ont quant à elle un ensemble d éléments de la base d associés. Les modèles hiérarchiques sont très utilisés lorsqu il s agit de représenter les données par différents niveau de granularités. Cela s avère aussi très pratique lorsque l on veut un nombre très limité de classe visible en une fois (en général un nombre inférieur à 7). 4 En géométrie cette notion est appelée barycentre. 5 Le terme rayon n a le sens géométrique qu en dimension 2 et 3. 6

7 Une solution industrielle complète de data mining 2.3 La segmentation ( clustering). Fig. 2 On voit ici l intérêt de la segmentation. On a généré à partir de ces nuages de points trois centroïdes (les croix) associés chacun à une classe. Il suffit donc pour tout nouveau point (ici le carré), de calculer la distance aux centroïdes (afficher sur le schéma à coté de celui-ci) et le point appartient à la classe du centroïde le plus proche. On peut aussi y voir des formes de Gaussiennes caractérisant la distribution de la données et qui permettent de savoir quand les données arrivants sont en fait du bruit. Fig. 3 Un exemple de classification hiérarchique. Ces différents types de modèles correspondent donc à différent besoin. Nous allons maintenant voir comment les générer Les algorithmes de clustering. L approche la plus courante de la segmentation des données est algorithmique. Il existe toute fois plusieurs algorithmes différents et pour chacun des types de segmentation que nous avons vue. Pour générer des classes plates, il existe plusieurs algorithmes. Nous allons présenter le principal algorithme qui combien un nombre très important de variantes, l algorithme des k-moyennes. k-moyennes Le principe de cette algorithme est de placer n points au hasard dans l espace de la base de données. On considère ensuite ces points comme des centroïdes. Or ils ne sont pas bien placés du fait de la distribution aléatoire choisie. Le but de cet algorithme est donc de placer ces centroïdes correctement de manière à créer un Voronoï. Pour cela, on calcule pour chaque point le centroïde le plus proche. Une fois ceci fais pour tous les points, on recalcule la position de chacun des centroïdes en appliquant la formule que nous avons vu plus haut. On a donc ré-affecter les centroïdes, et l on recommence a déterminer l appartenance de chaque point à tel ou tel centroïde et l on recommence à calculer la valeur des nouveaux centroïdes. 7

8 2.3 La segmentation ( clustering). S.C.I.A. promo 2002 Le calcul s arrête quand entre deux passes un nombre de points inférieur au nombre total de point multiplier par un pourcentage p donné en paramètre ont changé de centroïde. En résumé, on effectue donc la boucle suivante : 1. Calcul du centroïde le plus proche pour le point i 2. Si il y a eu un changement de classe, on recalcul de la nouvelle position des deux centroïdes affectés par ce changement, celui de la nouvelle classe et celui de l ancienne. 3. On recommence avec le point i + 1 Les variantes de cet algorithme se situe au niveau du calcul des centroïde qui peut être progressif (c»est-à-dire qu au fur et à mesure que les point sont affecté à un centroïde, on recalcul sa position) ou alors être recalculé à la fin du parcours de la base. D autres variantes sont possibles avec l utilisation exclusive de point de la base ou non comme centroïdes,... Il existe aussi des améliorations de cet algorithme avec, par exemple, une version flou dont le but est de ne pas créer une frontière entre deux classe, mais plutôt de permettre à deux classes de se chevaucher. Cet algorithme est appelé Fuzzy k-means. Son principe est de prendre en plus un paramètre de degré de flou f [0... 1] entre les classes. Cela revient donc à changer la boucle vue précédement et la remplacer par : 1. On calcul les centroïdes des classes auxquelles le point i appartient. Pour cela, on effectue la boucle suivante : On prend le centroïde c, on calcul la distance de i à c. Si la distance pour c est la plus petite alors on remplace notre minimum et on enlève de la liste d appartenance tous centroïdes c dont la distance est supérieur à f d(c, i) > d(c, i). Si la distance pour c n est pas le minimum, que celui si est le centroïde m alors, si f d(c, i) > d(m, i), on rejette c, sinon on le met dans la liste d appartenance. 2. Ensuite on recalcule les nouveaux centroïdes de chaque classe impliquée. Pour cela on modifie légèrement la formule en associant un poids à chaque point lors de son affectation au centroïde. Ce poids pour le point i est de 1 si la distance au centroïde c de cette classe est le minimum de toutes les distances aux centroïdes et du rapport d(m,i) d(c,i) avec m le centroïde le plus proche de i : min ( x C w x d (c, x) ) c C (3) Expectation Maximization Cet algorithme (voir [EM], [EM1]) est directement issu du domaine des probabilités. Son but est de trouver la distribution de probabilité d un ensemble de données en utilisant une somme de courbe Gaussienne. Les courbes Gaussiennes sont définies par la formule que nous avons vue (voir 2 page 6). Le modèle total pour n courbes Gaussiennes, c est-à-dire la probabilité d avoir x est obtenu en faisant : p(x) = n w h f (x ψ h ) (4) h=1 Dans cette formule w h est le nombre d éléments associés à la classe et f h (x) = f (x ψ h ) est la fonction de densité de la h ième courbe dont les paramètres sont ψ h = (θ h, µ h ) avec θ h la variance et µ h l espérance de la courbe h. L algorithme trouve donc ψ = ψ 1,..., ψ n qui approxime le mieux la distribution. Pour cela il utilise l appartenance d un point x à une classe h qui est : w h (x) = w h f h (x ψ h ) n i=1 w i f i (x ψ i ) (5) 8

9 Une solution industrielle complète de data mining 2.3 La segmentation ( clustering). La qualité d un ensemble de paramètre θ est donnée par la formule (où D est la base de données) : L (ψ) = ( n ) log w i f (x ψ i ) x D i=1 (6) Contrairement à ce qui est marqué cette formule n est utilisée que pour un ensemble restreint des éléments de la base de données, car sinon le coup du calcul serait trop important. on appelle cet ensemble restreint l ensemble de test. L algorithme Expectation Maximization en lui même fonctionne comme suit : 1. On initialise les n ψ soit au hasard soit par une approximation rapide On a donc une base de données D, avec m éléments 7, à l itération i on à les paramètres des courbes ψ i. On calcule ψ i+1 pour l itération i + 1 de la manière suivante : Pour chaque éléments x D, on calcule son appartenance à chacune des classes en utilisant la formule 5 page 8, on obtient donc les valeurs wh i (x) qui mesure l appartenance du point x à la classe h pour l itération i. On met les paramètres des courbes gaussiennes à jour, pour la classe h on utilise les formules : µ i+1 h = x D wi h (x) x x D wi h (x) (7) θ i+1 h = x D wi h (x) (x µ i+1 ) (x µ j+1 h h ) T x D wi h (x) (8) x T signifie transposée de x car les paramètres sont ici de dimension d où d est le nombre de champs de la base. 3. Le critère d arrêt est ici que L ( ψ i ) L ( ψ i+a) ɛ ou ɛ est un paramètre de l algorithme. Cet algorithme n peut être efficace que si l on prend des t-uples aléatoirement dans la base. Il ne peut pas être efficace sur une base de données complète utilisée à la fois pour calculer les nouveaux ψ et pour vérifier que la condition d arrêt n est pas atteinte. Il nous faut de ce que l on appelle une base d apprentissage et une base de test. On trouvera en 4.1 page 28, le code complet de l algorithme Expectation Maximization 8 et inspiré du code sur le site [EM1]. L algorithme de segmentation hiérarchique basique Les algorithmes de segmentation hiérarchique sont aussi très nombreux. Nous allons ici présenter le plus simple d entre eux. Cet algorithme prend en paramètre le nombre de classe racine que l on souhaite avoir ainsi que la base de données. Il se déroule ensuite comme suit : 1. Si le nombre d objets dans la base est inférieur ou égal au nombre d objets racine souhaité, on s arrête. 2. Sinon, on prend les deux objets de la base qui sont les plus proches le on les fusionne en une classe, dont le centroïde va remplacer les deux éléments de la base. 3. On retourne en 1 avec la base mise à jour. Cet algorithme va donc créer un hiérarchie de classes composées chacune de deux éléments. Kohonen Kohonen est un réseaux de neurones dont le but est de segmenter un espace est Kohonen. Le but premier était de réduire le nombre de points nécessaire pour «qualifier» un ensemble sans toutefois perdre sa topologie. Le principe de ce réseau est assez algorithmique et il n a de réseaux de neurones que la liaisons entre les poids. Il n existe pas de notion de fonction d activation, retropropagation... Nous l avons toutefois classé dans les réseaux de neurones du fait de la proposition de Kohonen était dans ce domaine. 6 Une approximation rapide peut-être faite en prenant p points au hasard pour chaque classe et en calculant espérance et variance. 7 Cela signifie que l on ne prend pas forcément non plus la base de données en entier, on peut se contenter d éléments pris au hasard. 8 Ce programme de test a été fait en Java du fait de la rapidité de développement d un programme de test dans ce langage. 9

10 2.4 Le data mining. S.C.I.A. promo 2002 Le principe est le suivant : 1. En paramètre, on donne le nombre de classes désirées n ainsi que la base de données et on crée n vecteurs à d dimensions ou d est la taille d un t-uple. Ces vecteurs représenteront les centroïdes, ils sont ordonnés et numérotés. 2. On présente tour à tour tous les éléments de la base de données (ou de la base d apprentissage seulement). 3. Pour tout élément x, on cherche le centroïde de la classe la plus proche de x et on le rapproche de x proportionnellement à sa distance à x. 4. Ensuite, on prend les autres centroïdes et on les rapproche de x proportionnellement à leur distance à x et inversement proportionnellement à la valeur absolue de la différence de leur numéro de classe. On multiplie la distance de déplacement d un coefficient α qui diminue tour après tour pour atteindre 0, ce qui arrête la boucle. Cet approche est donc plus algorithmique que connexioniste. Elle est utilisée dans Intelligent Miner d I.B.M Le data mining. On peut découper le data mining en trois parties, suivant si la technique utilisée génère : Des arbres décisions, dans le cas d apprentissage supervisé où l on a un champ de la base représentant une classe «cible» et que l on souhaite apprendre comment détecter l appartenance à cette classe en posant minimum de question possible. Des règles permettant, toujours dans le cadre d apprentissage supervisé avec une classe «cible», d avoir une couverture maximale en un minimum de règles 9. Des règles d associations, dans le cas d apprentissage non supervisé, qui permette de déterminer des implications et correspondances 10. Ce type de règle est très différent du précédent dans le sens où le précédent ne donne que des informations avec en conclusion les valeurs de la classe cible et que ces règles donnent n importe quelle valeur en conclusion. Ici, nous nous intéressons au dernier types de technologies de data mining. En effet, comme dans les supposition que nous avons faites nous ne savons rien sur la base de données, il est difficile de passer tous les champs en supposant qu ils sont des champs cibles. Nous cherchons donc des moyens de découvrir des «associations rules» dans notre base de données Les algorithmes de découverte de règle d association. Le principe de ces algorithmes est simple. Pour l explicité nous allons prendre comme cas d études un supermarché. Supposons que nous avons n clients et un ensemble de produit P composé de m produits. Chaque client i achète les produits de P i qui est un sous-ensemble de P. La seule information utilisée pour déterminer des propriétés à propos des clients est la collection P 1, P 2,..., P n. Une «règle d association» est une règle de la forme A B où A et B sont des sous-ensembles de P et B 0. Un client i satisfait cette règle si et seulement si A B P i. Le support de cette règle est le nombre de clients qui satisfont cette règle divisé par le nombre total de clients. La confiance de cette est le nombre de clients qui satisfont cette règle sur le nombre total de clients i qui ont A P i. Si A B a k élément, on dit que la règle est d ordre k. Les règles d association qui ont à la fois un support et une confiance très large peuvent être construit avec de simples algorithmes. Pourtant dès que la base de données devient grande des méthodes plus efficaces sont nécessaire. 9 Ces règles sont très utiles dans le cas de systèmes experts et tout autre système dit «à base de règle» 10 Ces règles sont très utilisées dans les supermarchés et analyses de sites Web,

11 Une solution industrielle complète de data mining 2.4 Le data mining. APriori La plus simple est l algorithme connus sous le nom d «APriori». Cet algorithme est basé sur la construction de sous-ensemble de P qui sont présent chez beaucoup de client (support important), en les joignant ensuite pour obtenir des sous-ensemble de cardinalité plus importante mais avec des supports toujours aussi grand. Pour faire ceci APriori introduit la notion de k-itemset qui sont les sous-ensembles de P où k est la cardinalité. On appelle ensuite I k l ensemble des k-itemsets. Cet algorithme prend en paramètre 2 valeurs de type pourcentage et une base de données. Le premier paramètre de type pourcentage est appelé s est c est la valeur minimale du support des règles que cet algorithme doit générer. L algorithme commence par générer l ensemble S de tous les 1-itemset dont le support est supérieur ou égal à s : S = i I 1 / support(i) s (9) Ensuite il va assembler les k-itemset appartenant à S et contenant exactement k 1 éléments en commun et ne garder, parmi les k + 1-itemset générés que ceux dont le support est supérieur ou égal à s. Ainsi si l on a les 4-itemset A, B, C, D et A, B, C, E l algorithme va générer le 5-itemset A, B, C, D, E et vérifier sont support. L algorithme recommence ensuite jusqu à ne plus pouvoir générer de k-itemset. Il utilise donc le fait que si un k-itemset à un support s tout k + 1-itemset aura un support s 1 s et que donc si s est inférieur au seuil fixé, s + 1 le sera aussi. Une fois les k-itemset générés, il faut les transformer en règle. Or un k-itemset A, B, C, D peut produire les règles : A B C D (10) A B D C (11) A C D B (12) B C D A (13) Et on ne considère ici que les règles ayant pour conclusion un seul item du k-itemset, ce qui n est pas une obligation et, dans le cas contraire, on augmente alors les possibilités... Donc il nous faut ensuite supprimer les règles n exprimant pas quelque chose que l utilisateur jugera important. Cette importance accordée par l utilisateur est matérialisé par le coefficient de confiance minimal qu il rentre en deuxième paramètre de type pourcentage à l algorithme. Il ne garde ensuite que les règle ayant un taux de confiance supérieur à ce seuil. Dans APriori cette phase ne bénéficie pas d algorithmie où d heuristique qui mérite que l on s y attarde. On génère toutes les règles et l on parcours une fois la base pour calculer la confiance de chaque règle, ou l on utilise les données déjà disponible (du fait que la confiance peut s exprimer par un ratio de supports). Il faut noter que bien évidement la deuxième technique doit être employée dans le cadre d une application industrielle, bien qu elle soit un peu plus compliquée à mettre en place. Les reproches que l on fait à cet algorithmes sont que bien qu il génère moins de k-itemsets, il fait une passe pour chaque type de k-itemset (voir figure 4 page 12). Cela implique, sur les grosses bases de données des temps de calculs très important par passe. Améliorations de la séléction de k-itemset D autres algorithmes que APriori existe. Pour la première partie, la sélection de k-itemsets, ils proposent des raffinements et améliorations de l heuristique utilisée par APriori. 11

12 2.4 Le data mining. S.C.I.A. promo 2002 Fig. 4 APriori doit effectuer 3 passes pour evaluer les 3-itemset. Pruning Le pruning 11 (voir [AIS93]), qui consiste à supprimer les k-itemset dont le support est trop faible (technique de base de APriori) est étendu en anticipant les règles à faible support. Pour cela, plusieurs techniques sont utilisées, le pruning peut-être : Basé sur le nombre de t-uples qu il reste dans la base : Lors du passage en revue des t-uples dans la base, si une règle i à, à ce niveau de la base, un support s i < s et que même si tous les t-uples restant sont valide cette règle s i restera inférieur à s, alors on arrête de compter pour cette règle et ses extensions. Basé sur la détection de caractéristique : dans ce type de pruning, on effectue une phase de pré-processing où l on détermine les t-uples ayant certaines caractéristiques simple 12 (par exemple ayant p 1 comme produit). On garde en mémoire toutes les caractéristiques qui sont présente dans un nombre de t-uples tel que le support de toute règle contenant cette caractéristique sera inférieur au support s minimal. Ainsi, à la génération d un k-itemset, il suffit de vérifier qu une seule de ces caractéristiques sauvegardée est présente pour ne pas avoir à évaluer le support de cette règle et la supprimer directement. Diminution des passes Les heuristique pour la diminution des passes sont des améliorations très importantes. en effet, nous avons vu que le principal reproche fait à APriori est le fait que pour générer un k-itemset, il a fait k passes. Certains algorithmes (voir [BMUT97]) proposent des moyens de limiter ce nombres de passes. Par exemple, l algorithme de Dynamic itemset Counting propose un moyen basé sur un paramètre supplémentaire M qui représente un nombre de champs qui est jugé assez important par rapport à la base pour être significatif 13. Dans cet algorithme, les k-itemsets peuvent être qualifiés de quatre façons : Les k-itemsets dont on est sur qu il sont en dessous du seuil de support s (représentés sur les figures suivantes par des cercles). Les k-itemsets dont on est sur qu il sont au dessus du seuil de support s (représentés par des carrés). Les k-itemsets dont on suppose qu ils sont en dessous du seuil de support s (représentés par des cercles en pointillés). Les k-itemsets dont on suppose qu ils sont au dessus du seuil de support s (représentés par des carrés en pointillés). L algorithme se déroule comme suit : 1. On marque tous les 1-itemsets avec des cercles en pointillés (voir figure 5 page 13). 2. On passe M champs de la base en comptant pour tous les k-itemsets marqués en pointillés (que ce soit par un carré ou par un cercle). 11 En français «élagage». 12 Ici, on entend par simple que l on peut déterminer en une seule passe de base de données 13 Un tel nombre peut être calculé par l ordinateur par en fonctions du nombre d»éléments dans la base et de la répartition statistique des données au prix d un passage supplémentaire de la base (bien que l on puisse profiter de ce passage pour calculer les 1-itemset) 12

13 Une solution industrielle complète de data mining 2.4 Le data mining. 3. Si un cercle en pointillé à un rapport nombre de champs le vérifiant sur nombre de champs comptés actuellement supérieur à s, on le passe en carré avec des pointillés. Si un des sur-ensembles 14 de ce k-itemset n a dans ces sous-ensembles que des carrés (pointillés ou non), on le passe en cercle pointillé (voir figures 6 page 13 et 7 page 13). 4. Si un k-itemset a été compté au travers de toute la base, on le passe en ligne continue (qu il soit carré ou cercle). 5. Si on est arrivé à la fin de la base, on réinitialise la lecture de la base de manière à recommencer au début (voir figure 8 page 14). 6. On s arrête quand il n y a plus de k-itemset en pointillés, sinon on retourne en 2. Fig. 5 Le démarrage de l algorithme DIC. Fig. 6 L état du treillis après M transactions. Fig. 7 L état du treillis après 2 M transactions. La structure utilisée dans cet algorithme pour garder en mémoire les références entre champs est un treillis (représenté par un graphe). Pour avoir une implémentation efficace en terme d occupation mémoire, on ne procède pas comme sur les figures 5 page 13, 6 page 13, 7 page 13 et 8 page 14, mais on construit le treillis au fur et à mesure que des k-itemsets deviennent «accessible», c est-à-dire que l on peut commencer à les compter. En fait on travail sur des arbres de hachage, qui permettent des accès très rapide aux données. Ce sont en fait des tables de hachage imbriquées qui représente chacune un niveau d un k-itemset (voir figure 9 page 14). 14 Les sur-ensembles de E sont les ensembles dont E est un sous-ensemble. 13

14 2.4 Le data mining. S.C.I.A. promo 2002 Fig. 8 L état du treillis après une passe complète de la base. Fig. 9 La structure d arbres de hachage utilisée dans l algorithme DIC. Il peuvent être utilisé comme des tables de hachage imbriquées ou bien parcouru. Améliorations des règles En ce qui concerne la génération des règles à partir des k-itemset, des reproches ont aussi été fait. En effet les règles sont générées et gardées si et seulement si leur taux de confiance est supérieur au seuil c. Or, il s avère que ce taux de confiance n est pas forcément une bonne mesure de l intérêt d une règle pour l utilisateur. C est plutôt la mesure de la justesse d une règle. Prenons un exemple de problème lié à ce taux de confiance. Si deux variables sont totalement indépendantes au niveau statistique, cela signifie que : P (A B) P (A) P (B A) P (B) = P (B) (14) = P (A) (15) Donc La confiance de la règle A B vaut P (B). Or le fait que ces deux variables soient indépendante signifie qu il n existe pas de relations entre A et B. Donc si B est présent de manière importante, on aura une règle vrai mais qui ne signifie pas grand chose. Pour palier à ceci, il faut arriver à prendre en compte la valeur de P (B) lors du calcul de l intérêt (et non plus de la confiance) d une règle. Pour cela, il existe plusieurs mesure qui peuvent remplacer la confiance : 14

15 Une solution industrielle complète de data mining 2.4 Le data mining. La mesure de co-occurrence, son but est de mesurer la liaison entre A et B. L inconvénient de cette mesure est qu elle est totalement symétrique et que donc elle ne mesure aucunement l implication : Co(A, B) = P (A B) P (A) P (B) (16) Pour mesurer l implication, une autre formule se base sur la réécriture de A B en A B. La formule est : P (A) (1 P (B)) P (A B) Cette formule donne des valeurs dans 1 à + et possède les propriétés suivantes : Si A et B sont indépendant, alors elle retourne toujours une valeur de 1 Si A B est une règle qui arrive 100temps, alors le score retourné par cette mesure est de + obligeant sa sélection quelque soit le seuil c. Cette mesure n est pas symétrique et marque donc bien l implication. Elle possède néanmoins le défaut de devoir obliger le programmeur à gérer la division par zéro et l infini. De plus sa valeur n est que difficilement traduisible en pourcentage Les treillis de Galois issu des mathématiques, les treillis de Galois sont un domaine en pleine expansion. Encore peu formaliser, ils offrent des potentialités pour la découverte de règles d association. Le principe des treillis de Galois est de proposer une hiérarchie de concepts basés sur les propriétés des objets. On a des couples (X, X ) où X est l ensemble des objets qui ont (entre autres) les propriétés X, et X l ensemble des propriétés communes aux objets de X. On peut générer des règles en remarquant que l on a une règle A n i=1 (F i A) où A est un noeud possédant n fils numérotés de F 1 à F n et où l opération F i A retourne l ensemble F i sans les éléments appartenant à A. Dans la figure 10 page 15, on peut donc avoir la règle c a (f h). (17) Fig. 10 Un exemple de treillis de galois. Les treillis peuvent être mis à jour de manière incrémentale par des algorithmes un peu coûteux en temps, mais encore raisonnable. Cela permet donc de mettre à jour la base sans devoir tout reconstruire le treillis ou les règles comme certains algorithmes. 15

16 2.4 Le data mining. S.C.I.A. promo 2002 La pertinence des règles peut se mesurer plus facilement car avec quelques modification, on remplace les numéros des instances par des comptes du nombre de t-uples possédant la valeur. Cela permet de calculer la pertinence des règle d une manière très rapide. Un autre avantage de cet algorithme est la possibilité de générer des règles avec des «ou» dedans, ce qui permet d avoir de manière exhaustive ce qu implique d un élément. De plus, comme on ne souhaite pas toujours voir de manière exhaustive, car cela nuit à la pertinence des règles, il est possible d effectuer du prunning à la génération des règles et de ne garder que celle dont la confiance est supérieur à un certains pourcentage. Cela revient à calculer la cardinalité des fils et de multiplié celle du père par le dit pourcentage. Par contre, le gros défaut des treillis est d être presque entièrement en mémoire. Cela implique qu ils ne peuvent que difficilement fonctionner pour des grosses bases de données. 16

17 Une solution industrielle complète de data mining 3 Proposition d une solution. 3.1 Contraintes posées à la solution. Comme nous l avons déjà vu les premières contraintes sont le fait que la base de données est totalement inconnues au départ. Que ce soit au niveau du format ou du contenu, nous ne pouvons nous baser sur aucune information telle que champ cible,... Une autre contrainte est bien évidement un temps de réponse correct. Si la plupart des algorithmes de data mining sont efficaces en temps dans le cadre d apprentissage supervisé, des qu il s agit d apprentissage non supervisé, les résultats chute beaucoup. Il nous faut donc palier à cette inconvénient pour concevoir une technique permettant un temps de réponse correct. Il est aussi très important de pouvoir faire bénéficier notre solution des connaissances que quelqu un pourrait avoir sur la base de données. En effet, ce n est pas parce que nous présupposons qu il n y a pas de connaissances que c est toujours le cas. Il arrive que quelqu un ait les connaissances et le temps et la compétence pour les rentrer dans la solution. Dans ce cas, il serait bête de ne pas en profiter. De plus un point important est la non réaction de notre solution face au bruit. Cela signifie qu il ne faut pas que le bruit ou les valeurs abérantes influe sur le résultat (au niveau des règles d association principalement). 3.2 Présentation de l architecture générale. Nous allons tout d abord présenter l architecture globale de cette solution, c est-à-dire les entrées et les sorties, les différentes parties, leurs buts et comment elles interagissent entre elles Entrées et sortie de la solution. Tout d abord la solution va prendre en entrée : Une vecteur contenant le nom des champs. La base de données (où plutôt un moyen de communiquer avec, car on ne charge pas la base de données complète en mémoire). Les paramètres des différents modules. Ces paramètres sont optionnels et indépendants de toute base de données, mais comme il est possible de tuner différentes parties de la solution, autant le permettre. Ces différents paramètres seront explicités dans leurs modules respectifs. Les connaissances potentielles et totalement optionnelles sur la base de données. Comme nous l avons dit il peut être intéressant quand les connaissances existent et peuvent être fournies de les utiliser. Tous les paramètres optionnels sont, quand il ne sont pas mis, soit ignorés (pour le cas des connaissances sur la base), soit remplacés par des valeurs par défaut (pour les différents tune de chaque module). les sorties de la solutions sont, quant à elle : Une série de classes générées dans la base. Des règles d associations pour chacune des classes. Des règles d associations valables sur toutes les classes. L intérêt de sortir des règles d association par classe est de permettre de différencier les domaines d applications des règles. Par exemple, dans le cas d un magasin, on va générer des classes qui permettront de différencier les sociétés des particuliers. Il est donc stupide, maintenant que l on sait faire l différence entre eux d essayer d appliquer les règles des sociétés lorsque l on à affaire à un particulier. Toujours dans le cas d un magasin, il suffit d appliqué le modèle sortie pour savoir si un client est une société ou un particulier et donc pouvoir charger les règles qui correspondent Les différentes parties. Notre solution se compose de plusieurs parties. Chacune d entre elle à ses fonctionnalités et elles interagissent entre elles, quelque fois à plusieurs niveaux, par rapport à la sortie de la solution. 17

18 3.2 Présentation de l architecture générale. S.C.I.A. promo 2002 Le premier module est celui de data cleaning et transformation de données. Comme le data cleaning n est pas toujours rentable, cette partie est optionnelle et nous verrons que c est un paramètre de la solution pour tuner ce module. la partie transformation de la base essaye de normaliser la base de manière à ce que les algorithmes puissent ensuite travailler de manière efficace. Le module suivant est le module de segmentation. Son but est de générer les classes de la manière la plus intelligente possible. Le troisième et dernier module est celui dédier à la découverte de règle d association. Il va générer les règles à la fois pour les classes et les règles globales L interaction des différentes modules. Ces modules sont bien évidement en relation. il serait stupide de les faire travailler indépendemment. Leur agencement est montrer sur la figure 11 page 18. Fig. 11 L architecture générale de la solution. Le module de data cleaning et de transformation est bien entendu en aval de tout autre module, car sont but est de préparer et d adapter la base au processing qui seront ensuite effectués dessus. Le module de segmentation et le module de génération des règles d associations sont liés du fait que le second travail sur les résultats du premier. Par contre le module de génération des règles travail aussi sur les données nettoyées et transformées et non pas que sur les sorties du module de segmentation. Les sorties sont en provenance directes des deux derniers modules. Nous allons maintenant pouvoir détailler le fonctionnement des différents modules. 18

19 Une solution industrielle complète de data mining 3.3 Le module de data cleaning et de transformation de données. 3.3 Le module de data cleaning et de transformation de données. Comme nous l avons présenté ce module se découpe en deux partie, une optionnelle dont le but est de nettoyer la base de donnés du plus d erreurs possible, et une partie obligatoire s occupant de gérer la normalisation de la base de données de manière à travailler sur un schéma identique Le data cleaning. Les données industrielles sont souvent bruitées. Il va nous falloir déterminer le plus possible le bruit des données pour le corriger. Comme les résultats de cette phase sont quelques fois inutiles (par exemple lorsque l on connaît avec certitudes les sources des données et que l on sait qu elles sont très peu bruités), cette phase est optionnelle et la solution prend donc un paramètre spécifiant si oui ou non l on effectue ce data cleaning. Par défaut, on considère que ce data cleaning a une raison d être et nous l effectuons. Pour déterminer quelles valeurs doivent être corrigée, il faut connaître le nombre de représentant de chaque valeur pour chaque champ. Cela revient à parcourir une fois la base de données et à compter les occurrences de chaque valeur pour chaque champ. Pour diminuer la mémoire prise, à cette étape les valeurs du type entier ou flottant ne sont pas prises en compte 15. Chaque champ va donc avoir un tableau de valeurs avec leurs nombres d occurences associées. Il est donc ensuite aisé de comparé des tableaux pour voir si il ne partagerais pas une importante plage de valeur. Le pourcentage de valeurs partagées peut aussi être un paramètre de ce module. Ce pourcentage est un seuil qui signifie que s il est dépassé, les deux champs peuvent être considérés comme ayant les mêmes valeurs d utilisées. Dans ce cas la, on fusionne les tableau des deux champs en un seul pour cette phase. Dans les tableaux restant, on calcul ensuite la distance de Hamming 16 entre les chaînes de caractères que sont les valeurs. Cette distance nous permet de dire que si deux chaînes de caractères sont proche, alors l une risque d être la déformation de l autre. On procède itérativement en calculant la distance par rapport à la première valeur, puis pour la deuxième,... Par contre, quand une distance est calculée on la multiplie par la cardinalité normalisée 17 de la valeur la moins grande des deux valeurs impliquées dans la distance et on la compare à un paramètre du module qui défini en dessous de quel seuil on considère que deux données sont similaires. Cela nous permet de considérer deux valeurs très proches comme similaires même si la cardinalité de la moins représentée est importante. De la même manière des chaînes un peu plus différentes mais dont la deuxième n est pas du tout représentée seront sous le seuil. Si la valeur calculée est en dessous du seuil, on fusionne les valeurs en : 1. Mettant à jour la base de données. 2. Ajoutant le nombre d occurences de la valeur la moins représentée à la plus représentée. 3. Supprimant la valeur la moins représentée du tableau La transformation des données. Pour être exploitable par les modules suivants, notre base de données doit être normalisée. Cela signifie que l on doit respecter un format que ces modules comprennent, au moins pour le chargement de la base. Pour cela, on va se servir d une partie des informations qui ont été générée lors de la phase de data cleaning et si cette phase n a pas été faite, générer e dont nous avons besoin, c est-à-dire principalement des tableaux référençant les valeurs de chaque champs. De la même manière que l on a regroupé les valeurs lors de la phase de data cleaning si elle a été faite, ici, on cherche à éliminer des valeurs. Pour cela on considère un seuil d importance s qui est spécifié par l utilisateur si il le souhaite 18 et toutes les valeurs qui apparaissent moins de s fois la cardinalité de la valeur la plus représentée sont supprimées. 15 En effet, on ne saurait les traiter comme on le fait avec les chaînes de caractères 16 La distance de Hamming est le nombre de bits différents entre deux chaines. 17 La cardinalité normalisée d une valeur correspond à la cardinalité de cette valeur sur la cardinalité de la valeur la plus représentée pour ce champ. 18 Dans le cas contraire on prend une valeur par défaut. 19

20 3.3 Le module de data cleaning et de transformation de données. S.C.I.A. promo 2002 Une autre chose à faire est de ramener les valeurs continues entières mais présente sur des intervalles trop grand dans des domaines raisonnables, par le biais d une discrétisation. Des informations peuvent être fournies lors de cette étape pour spécifier des champs dont on veut forcer ou empêcher la discrétisation. Cela nous permet de générer des champs discrets qui sont exploitables lors de la génération de règles d association. Le but du jeu est de générer une table où les valeurs des champs sont booléennes. Un article fait ou ne fait pas partie du ticket de course, par exemple. Pour ce faire, on va générer une colonne par valeur possible. On va donc avoir un nombre de champs très important. C est pour cette raison que nous avons précédement effectuer une suppression de toutes les valeurs trop faiblement représentées, pour ne pas surcharger le nombre de champs. Il nous faut ensuite passer la table sous la nouvelle forme. pour cela plusieurs solution s offrent à nous, suivant la façon dont la table est initialement construite : 1. Si la table est déjà dans la forme que l on souhaite lui donner (c est à dire une colonne identifiant et des colonnes booléennes plus quelques colonnes annexes que l on peut ou non ignorer), on ne la modifie pas. 2. Dans beaucoup de cas, la table contient 2 colonnes : Une pour un identifiant de transaction L autre pour un identifiant de produit Dans ce cas, la transformation est basique, mais on a en général besoin de savoir quelle est la colonne de l identifiant et quelle est celle des produits. Nous verrons comment le déterminer plus loin. 3. La table peut représenter une liste de produit acheter (par exemple quand le nombre de produit acheté à un maximum connu et faible). Dans ce cas, la transformation est plus difficile et nécessite des suppositions. 4. La présence de nombre entier peut souvent dénoter un identifiant de produit mais dans ce cas, la plage n est pas importante. Elle peut aussi déterminer tout autre chose (que nous ne savons pas mais devons prendre en compte) et dans ce cas, il est possible qu une discrétisation 19 nous permette de sortir des informations. Une fois discrétisé, les différents intervalles nous servent comme des valeurs différentes pour la nouvelle table. Cette phase de détection de l utilisation d un champ est à étudier attentivement. 5. Un nombre flottant est obligatoirement discrétisé, car nous ne saurions pas comment le traiter. De même pour les entiers, la discrétisation nous permet ensuite de traiter les valeurs comme des champs pour la nouvelle table. Table à 2 champs Nous l avons vu le but du jeu est de déterminer quelle colonne est l identifiant. Pour cela nous devons nous baser sur plusieurs heuristiques : Si une colonne est un entier et l autre une chaîne de caractère, alors la première est l identifiant de transaction. Si les deux colonnes sont des entiers, on par du principe qu il y a plus de transactions que de produits 20 et la colonne ayant le plus grand nombre d éléments de valeurs différentes. Une fois la colonne de l identifiant trouvée, on procède comme sur la figure 12 page 21. Table à plus de deux champs Dans ce cas, on considère que chaque ligne est une transaction, on va donc attribuer un numéro par ligne et ensuite générer les champs à valeur booléenne comme tout à l heure (voir figure 13 page 21). Cette façon de faire est la transformation basique d une table à plus de 2 colonnes. Par exemple, il est possible qu il y ait des identifiants de transaction et dans ce cas, il nous faut des précisions de l utilisateur. On ne peut donc automatiquement détecter ceci. L utilisateur a donc la possibilité de préciser une colonne identifiant si il le souhaite, cela peut nous permettre de transformer la base de manière plus propre. 19 Au sens création d intervalles, c est-à-dire gestion d un grand nombre de valeurs ordonnées. 20 Cette hypothèse est en fait toujours vérifiée (sauf cas vraiment exceptionnels) pour la simple raison que si il a moins de transaction que de produits, cela signifie que beaucoup de produits ne se vendent pas du tout. Or un magasin type grande surface a assez de client pour vendre de tout ces produits au moins une fois. De plus un magasins ayant plus de produits différents que de client n est pas économiquement viable. 20

Montrer encore