Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique
Remerciements Je remercie les personnes, les universités et les sites Internet suivants qui m ont aidé pour la réalisation de ce probatoire Mr Nakache (http://nakache.9online.fr/) Université de Lille Université de Lyon www.decisionnel.net www.web-datamining.net www.grappa.univ-lille3.fr/polys/ Ainsi que le CNAM centre d enseignement de Valenciennes, son personnel et ses enseignants. Page 1 sur 43
Sommaire Introduction... 3 1 Les Pré-requis du Datamining... 4 1.1 Présentation du datamining... 4 1.2 L entrepôt de données... 5 1.3 Les taches... 6 1.4 Méthode d analyse de données... 7 1.5 Mise en garde... 8 2 Les algorithmes générateurs de connaissances... 9 2.1 Les règles d association... 9 2.2 Le raisonnement basé sur la mémoire...16 2.3 La détection de cluster ou segmentation...20 3 Les algorithmes destinés à l évaluation... 26 3.1 Les arbres de décision...26 3.2 Les réseaux de neurones...33 3.3 Les cartes de Kohonen...39 Conclusion... 43 Page 2 sur 43
Introduction Dans le contexte actuel de concurrence des entreprises, la mondialisation, la délocalisation, l objectif principal de l entreprise n est plus d agrandir sa clientèle, n y d optimiser ses processus mais de fidéliser ses clients, de leurs offrir des produits adaptés à leurs besoins et de leur faire naître des besoins. Au cours des dernières années les entreprises ont collecté de nombreuses informations sur leurs clients par le biais des systèmes de gestion. Aujourd hui ces informations représentent une mine d or. Des décennies de stockage de données dans des systèmes de gestion, le faible coût des espaces de stockage et la rapidité des machines, les entreprises ont une mine d or de renseignement sur ces clients. Dans l optique de progression, cette mine d or doit être explorée, fouillée, afin d en tirer des connaissances sur les clients, trouver les schémas comportementaux de ses clients et ainsi cadrer et anticiper leurs attentes. Le datamining répond aux besoins de l entreprise, il explore les données et en ressort des relations entre le client et ses comportements ou il évalue les résultats à une action future. Vous trouverez dans ce document un échantillon des méthodes du datamining. Page 3 sur 43
1 Les Pré-requis du Datamining 1.1 Présentation du datamining Traduit littéralement par «creusage des données» ou «forage des données», le Datamining est un processus plus ou moins autonome permettant de fouiller dans des grands ensembles de données afin de mettre en évidence des relations. Le parcours à travers ces grands ensembles de données, généralement stockés dans un entrepôt de données, est réalisé au moyen de méthodes mathématiques, statistiques ou algorithmiques. La méthode de parcours peut être itératif et/ou interactif en fonction des objectifs à atteindre. Le datamining est un processus qui va des données élémentaires disponibles à la décision en apportant à chaque étape une plus value informationnelle. Cette plus value peut générer, en fonction des informations de synthèse, des déclenchements automatiques d actions correctives, préventives ou amélioratrices. Les méthodes ont pour objet de découvrir des structures, des relations entre les faits. En partant d un jeu de données, la méthode va s initialiser, apprendre, soit de façon automatique (méthode non supervisée), soit de façon dirigée (méthode supervisée). Le datamining est un métissage entre l intelligence artificielle, les systèmes experts et les statistiques. Il est donc évident de retrouver au catalogue des méthodes du Datamining aussi bien les réseaux de neurones, les arbres de décisions que les méthodes de visualisation multidimensionnelle. Le datamining peut parcourir quasiment tous les types de données, cependant, dans un souci d optimisation et de performance, il est préférable de rassembler les données et de le formaliser au sein d un entrepôt de données (Datawarehouse). Page 4 sur 43
1.2 L entrepôt de données L entrepôt de données n est ni une base de données, ni un système d information, et cependant provient aussi bien de l un que de l autre. Un système d information désigne les données systématiquement collectées et les traitements réalisés sur elles pour que l entreprise puisse effectuer des opérations classiques telles que la facturation, le marketing, le contrôle de gestion, la maintenance, l exploitation. Un système d information n est pas nécessairement automatisé ou informatisé, pourtant sans cette informatisation la productivité de l entreprise serait réduite. Cette informatisation des systèmes met en jeu des bases de données, dessinées par des informaticiens à l aide de méthodes de conception de base de données donc pas exploitables par des non informaticiens, et des réseaux de communication permettant l échange des informations qu elles soient de types datas ou de courriers. Un entrepôt de données contient à la fois les données opérationnelles enregistrées au fil de l eau, les données agrégées selon toutes dimensions, les données archivées, les données de pilotage, et éventuellement toutes données externes à l entreprise mais ayant une relation possible avec ses activités. Ces données sont consignées dans une ou plusieurs bases de données et accessibles pour toutes applications par des systèmes d aide à la décision, des requêteurs de données, des systèmes de reporting, des systèmes d analyse statistique ou de Datamining. L entrepôt de données se différencie du système d information traditionnel par l orientation de ces données, elles sont uniformisées (une date est toujours au même format), concentrées, organisées, et prêtes pour être exploitées par des systèmes d aide à la décision et de Datamining. Page 5 sur 43
1.3 Les taches Lors de la fouille automatique des données le Datamining va utiliser des méthodes/algorithmes plus ou moins complexes et ainsi établir des corrélations entre ces données et définir des comportements types. Les différents algorithmes réalisent quelques opérations de base, les taches suivantes : Les définitions proviennent de : «le petit Larousse» la classification «Distribution par classes, par catégories, selon un certain ordre et une certaine méthode.» l estimation «Recherche de la valeur d un ou de plusieurs paramètres d une loi statistique à partir d observation ou de sondages». La prédiction Action de prédire. «Prédire : annoncer d avance ce qui doit se produire soit par intuition ou divination, soit par des règles certaines, soit par conjecture ou raisonnement» Association «Action d associer quelqu un à quelque chose, des choses diverses entre elles.». Il s'agit de trouver des similitudes ou des associations. Le sequencing est le terme anglais utilisé pour préciser que l'association se fera dans le temps. Page 6 sur 43
Segmentation ou clusterisation Diviser en segments. «Segment : portion bien délimitée, détachée d un ensemble.». La problématique est de trouver des groupes homogènes dans une population. description «Action de décrire, développement qui réduit». optimisation Action d optimiser. «Optimiser : donner à quelque chose, une machine, une entreprise, le rendement optimal en créant les conditions les plus favorables ou en tirant le meilleur parti possible.» 1.4 Méthode d analyse de données La mise en place d un outil de datamining passe par plusieurs étapes. En effet la simple installation d un outil ne résout pas tous les problèmes, et ne fournit pas les résultats espérés. La première étape consiste à poser la bonne question, à définir le domaine, les objectifs, le résultat attendu ainsi que les moyens de mesure du succès. La seconde étape est la recherche des données, cette étape consiste à rechercher les données utiles, exploitables, d évaluer leur fiabilité. Ensuite, les données sont normalisées, uniformisées afin de les rendre exploitables par le datamining. La troisième étape consiste à mettre en place les outils du datamining. La dernière étape est la validation des résultats, cette étape peut remettre en cause une des étapes précédentes. Dans ce cas, le cycle recommence. Page 7 sur 43
La phase de préparation des données représente la partie la plus importante en temps et en moyen de toute la mise en place d un outil de datamining. 1.5 Mise en garde Le regroupement et l exploitation de données personnelles sur un individu à des fins commerciaux posent quelques problèmes d éthique. En France, la loi informatique et liberté du 24 janvier 1978 oblige tous les organismes stockant des données d ordre personnel à faire une déclaration préalable à la Commission Nationale Informatique et Libertés (CNIL). Celle-ci émet un avis sur l'opportunité et la confidentialité de l'enregistrement de ces données. Les personnes concernées ont, quant à elles, un droit de consultation et de correction sur les informations mémorisées. L article 25 de cette loi a été modifié le 22 décembre 2004 pour intégrer «les huit catégories de traitements qui sont soumis à autorisation préalable de la CNIL.». Le datamining apparaît dans la rubrique «les traitements automatisés ayant pour objet : l interconnexion de fichier». Dorénavant, la mise en place d un datamining est soumise à l approbation de la CNIL. Page 8 sur 43
2 Les algorithmes générateurs de connaissances Les algorithmes générateurs de connaissances vont analyser les données et trouver des relations. Ils se contentent d analyser le passé, leur pouvoir de prédiction reste limité. 2.1 Les règles d association 2.1.1 Généralité Les règles d association sont traditionnellement liées au secteur de la grande distribution car leur principale application est l analyse du panier de la ménagère qui consiste à rechercher des associations entre produits sur les tickets de caisse. Le but de la méthode est d étudier les achats des clients afin d obtenir leur profil et ainsi de proposer des offres adéquates à ses clients. La méthode va rechercher les associations entre produits : si achat du produit A alors achat du produit B. Cette méthode peut être appliquée à tous types de secteurs pour lesquels il est intéressant de rechercher le groupement potentiel de produits ou de services. Elle peut également être utilisée dans le secteur médical pour la recherche de complications dues à des associations de traitement ou de médicaments ou à la détection des fraudes en recherchant les associations inhabituelles. L un des avantages de cette méthode est la clarté des résultats car les règles seront de la sorte : Association simple Si achat de plantes alors achat de terreau. Association plus complexe Si achat de vin blanc et de riz alors achat de poisson. Page 9 sur 43
Association dans le temps Si achat d un téléviseur alors achat d un lecteur DVD dans l année. Recherche de fraude Si achat d un lecteur de DVD alors possession d un téléviseur. Si possession d un téléviseur alors payement de la taxe audiovisuelle. Donc : Si achat d un lecteur DVD alors payement de la taxe audiovisuelle. Ces règles sont intuitivement faciles à interpréter car elles montrent comment des produits ou des services se situent les uns par rapport aux autres. Cependant, la méthode produit des règles intéressantes mais peut aussi produire des règles triviales ou inutiles. 2.1.2 Mise en pratique Les données disponibles dans un magasin sont les tickets de caisse, un ticket regroupe des produits. Comme un ticket est de longueur variable chaque ticket sera un enregistrement dans la table. Les produits sont donc des champs. Produit A Produit B Produit C Produit D Produit E Ticket 1 X X Ticket 2 X X X Ticket 3 X X Ticket 4 X X X Ticket 5 X X Total 4 2 1 3 2 Tableau 1 Page 10 sur 43
A partir des données brutes, on construit le tableau de cooccurrence afin d identifier les associations. Produit A Produit B Produit C Produit D Produit E Produit A 4 1 1 2 2 Produit B 1 2 1 1 0 Produit C 1 1 1 0 0 Produit D 2 1 0 3 1 Produit E 2 0 0 1 2 Tableau 2 Ce tableau permet de déterminer la fréquence d apparition de deux produits dans un achat. Le produit C n est jamais acheté en même temps que les produits D et E. Les produits A et E apparaissent simultanément dans 40% des achats. Le produit E est toujours acheté avec le produit A. 2.1.3 Évaluation des résultats Chaque règle doit être quantifiée afin d évaluer sa pertinence. 2.1.3.1 Le support Le support est la fréquence d apparition simultanée des produits de la condition dans la liste des tickets. Pour le produit A Support = Σ apparitions = 4 Σ total = 5 Équation 1 4 Support = = 0.8 = 80% 5 apparitions total Page 11 sur 43
2.1.3.2 La confiance C est le rapport entre le nombre de tickets contenant les produits de la règle et le nombre de tickets contenant les produits de la condition. Exemple 3 produits X, Y et Z Articles X Y Z X et Y X et Z Y et Z X et Y et Z Fréquence 45% 42,5% 40% 25% 20% 15% 5% Tableau 3 Le niveau de confiance pour l association X, Y et Z. Règle Confiance si X et Y alors Z 0.20 si X et Z alors Y 0.25 si Y et Z alors X 0.33 Tableau 4 La règle si Y et Z alors X possède la plus grande confiance 33%, cependant, d après le tableau des fréquences X est présent dans 45% des achats. Il est donc plus judicieux de prédire X sans prédire la règle d association si Y et Z alors X. 2.1.3.3 L amélioration L amélioration permet de comparer la confiance de la règle par rapport à la fréquence d apparition du résultat de la règle. à 1. Une règle pertinente doit avoir une amélioration supérieure Règles Confiance Fréquence du résultat Amélioration Si X et Y alors Z 0.20 40% 0.50 Si X et Z alors Y 0.25 42.5% 0.59 Si Y et Z alors X 0.33 45% 0.74 Si X alors Y 0.55 25% 1.31 Tableau 5 Page 12 sur 43
Comme la règle si X alors Y a une amélioration supérieure à 1 donc c est la règle la plus pertinente. 2.1.4 Réduction des données Dans le cas d un supermarché, des milliers d articles existent, il est impossible malgré la puissance des machines de réaliser les calculs sur tous ces articles. Il existe différentes techniques pour réduire la liste des règles voici les deux principales : L élagage par support minimum Lors de la recherche de règles pour l association de deux produits, un support minimum est introduit. Si le support de la règle est inférieur au support minimum, la règle sera éliminée ainsi que les articles. A chaque recherche des règles d association (pour 3, 4, 5 articles) l élagage reprend avec une valeur différente pour le support minimum. Le groupement d articles Les articles sont regroupés d une façon ou d une autre, leurs nombres d apparition sont additionnés. Ce regroupement doit être fait par les experts métier afin de ne pas fausser les résultats. 2.1.5 Avantages / inconvénients Résultats clairs Les règles d association sont faciles à interpréter. Elles sont faciles à appliquer pour les utilisateurs. Apprentissage non supervisé La méthode ne nécessite pas d autre information qu une série d articles et des tickets de caisse. Achat de taille variable La méthode est l une des rares à prendre en entrée des achats qui sont des listes d articles de tailles variables. Page 13 sur 43
Introduction du temps Il est possible d introduire des articles virtuels tels que le jour, la semaine etc. En limitant la forme des règles, on obtient des comportements d achat qui dépendent du temps. Simplicité de la méthode La méthode et les calculs sont élémentaires. Elle peut être programmée sur un simple tailleur et est disponible dans la plus part des logiciels de datamining. Coût de la méthode La méthode est coûteuse en temps de calcul machine. La réduction des données permet de gagner du temps mais risque d éliminer des règles importantes. Les articles rares La méthode est plus efficace pour les articles fréquents, les articles rares sont souvent écartés. La qualité des règles La méthode peut produire des règles triviales ou inutiles (ex : tous les détenteurs du permis B ont plus de 18 ans). Page 14 sur 43
2.1.6 Applications Connaissance du client et donc du panier de la ménagère. Optimisation des stocks, la découverte logique des associations de produits permet d optimiser les stocks donc les commandes ou la production. Merchandising : la découverte d association entre les produits peut entraîner une réorganisation de la surface de vente. Ventes croisées : une opération promotionnelle sur un produit entraînera l achat d un autre au tarif fort. Analyse des mouvements bancaires. Analyse des incidents dans le domaine des assurances. Analyse des communications dans les télécoms. D une façon plus générale, l analyse des associations peut s appliquer à tous les problèmes dans lesquels l apparition d un événement est conditionnée par des événements passés. Page 15 sur 43
2.2 Le raisonnement basé sur la mémoire 2.2.1 Généralité Le raisonnement basé sur la mémoire (RBM), également appelé le raisonnement à base de cas, est l équivalent de l expérience chez l homme. Le but de cet algorithme est de classer et de prédire, en s appuyant sur la comparaison d exemples proches tirés d un ensemble de cas préalablement enregistrés. Dès qu un nouveau cas se présente et qu il y a suffisamment de similitudes avec un cas stocké, les conclusions appliquées au cas stocké s appliquent au nouveau cas. La capacité de résolution augmente au fur et à mesure des cas présentés. 2.2.2 Mise en place La mise en place du RBM se décompose en 4 phases : Collecte des données Recherche des facteurs pertinents Indexation des données Tests et amélioration de la performance 2.2.2.1 Collecte des données Les données sont constituées d enregistrements représentant des cas qui eux-mêmes représentent des situations caractéristiques dans un domaine particulier. Chaque cas regroupe deux types d information : Un recueil d informations descriptives d un état particulier et cohérent dans le domaine considéré. Un ensemble de déductions ou d interprétations applicables pour le cas en cours. Page 16 sur 43
Les variables sont définies par une liste finie de modalités ou sont sous une forme textuelle libre. La collecte de données se présente sous deux formes : Soit les données existent déjà dans des bases et la collecte des données prend alors la forme d une interface. Soit les données requièrent une saisie manuelle pour construire un premier ensemble de cas pertinents. 2.2.2.2 Recherche de facteurs pertinents La première méthode est la mesure des similitudes. Cette méthode consiste à compter les exemples qui présentent le plus de mots clés en commun puis de mesurer la distance entre les exemples et le cas à étudier. Distance (a,b)= 1 ((nombre de mots clés en communs) / (le nombre de mots communs en a ou en b)) La seconde méthode consiste à décrire une hiérarchie de concepts pour décrire un problème. La structuration du problème sous forme d arborescence permet de limiter la mesure de la distance aux cas pertinents. 2.2.2.3 Indexation des données L indexation limite le nombre de cas à ceux qui sont potentiellement similaires au cas à résoudre, et identifie ainsi les cas les plus proches. Le filtrage améliore la précision et la fiabilité du diagnostique. La méthode d indexation la plus fréquente consiste à rechercher les plus proches voisins du cas à résoudre avec une fonction de similitude. Cette fonction compte le nombre de diagnostiques présents et à effectuer un simple calcul de fréquence. Une seconde mesure de similitude introduit une pondération des critères pour définir une fonction globale. Dans un premier Page 17 sur 43
temps sélection des cas qui présentent un seuil minimal de similitude, ensuite recherche des différents types de diagnostiques présents. Ce double traitement permet de présenter à l utilisateur les réponses possibles avec à la fois une fréquence et une distance. 2.2.3 Tests et amélioration de la performance. Une phase de diagnostique est lancée, les résultats prédits sont comparés aux résultats réels. Si le niveau de performance est insuffisant la phase de recherche de pertinence et/ou l indexation est à revoir. 2.2.4 Avantages / inconvénients Apprentissage simple C est l échantillon qui construit le modèle. Chaque nouveau cas présenté est automatiquement intégré dans le modèle, sans aucune reconstruction de celui-ci. Clarté des résultats Bien que la méthode ne produit pas de règle, chaque prédiction peut être justifiée en dévoilant les plus proches voisins qui ont amené à ce choix. Tout type de données La méthode peut s appliquer dés qu il est possible de définir une distance sur les champs. Il est possible de définir des distances sur des champs complexes tel que des informations géographiques, des textes, des images, des sons etc. c est parfois un critère de choix de la méthode car les autres méthodes traitent difficilement les données complexes. Page 18 sur 43
Nombre d attributs La méthode permet de traiter des problèmes avec un grand nombre d attributs. Mais, plus le nombre d attributs est important, plus le nombre d exemples doit être grand. En effet, pour que la notion de proximité soit pertinente, il faut que les exemples couvrent bien l espace et soient suffisamment proches les uns des autres. Si le nombre d attributs pertinents est faible relativement au nombre total d attributs, la méthode donnera de mauvais résultats car la proximité sur les attributs pertinents sera noyée par les distances sur des attributs non pertinents. Stocker le modèle Comme le modèle de l algorithme est l échantillon, l espace de stockage doit être important pour le stocker, de plus le temps d accès aux données doit être rapide. 2.2.5 Applications Le RBM peut être employé dans différents domaines tels que le service après vente, le diagnostique des pannes, la médecine et est également utilisé dans l estimation des éléments manquants, la détection des fraudes. Les applications du RBM sont généralement utilisées dans tous les cas où «l expérience» peut résoudre ou aider à résoudre le nouveau problème. Page 19 sur 43
2.3 La détection de cluster ou segmentation 2.3.1 Généralité La segmentation est l opération qui consiste à regrouper les individus d une population en un nombre limité de groupe (ou cluster). Ces groupes ont deux propriétés : ils ne sont pas prédéfinis, ils sont découverts automatiquement. ils regroupent des individus ayant des caractéristiques similaires et séparent les individus ayant des caractéristiques différentes en s appuyant sur des critères tels que ceux de Condorcet ou de l insertion interclasse. 2.3.2 Segmentation relationnelle 2.3.2.1 Généralité L analyse relationnelle repose sur la représentation des données sous la forme de relation d équivalence. Une segmentation est une relation d équivalence R, où arb si a et b sont dans le même segment. R est une matrice carrée qui est définie par si arb alors m ab =1, sinon m ab =0. Les trois propriétés d une relation d équivalence, réflexivité, symétrie et transitivité, se traduisent par les relations suivantes : m ab = 1 m ab = m ba m ab + m bk m ak 1 La recherche d une segmentation revient donc à la recherche d une matrice M = m ab satisfaisant aux conditions précédentes. Dans l analyse relationnelle, toutes les variables des individus de la population à segmenter doivent être catégoriques, sinon elles sont automatiquement écartées. Page 20 sur 43
A chacune des variables p catégoriques correspond une segmentation naturelle. Chaque segment est composé des individus ayant la même modalité pour la variable considérée. Le but de l analyse relationnelle est de trouver une segmentation qui fournisse un bon compromis entre les segmentations p naturelles initiales. Pour cela, on pose m ab le nombre de fois où les individus a et b ont été mis dans le même segment et on pose M = (m ab ) = 2(m ab )-p. m ab > 0 si a et b sont dans le même segment pour une majorité de variables. m ab <0 si a et b sont dans des segments différents pour une majorité de variables. m ab = 0 s il y a autant de variables pour lesquelles a et b sont réunis que de variables pour lesquelles a et b sont séparées. Ce critère ne suffit pas car il y a non transitivité de la règle majoritaire : il est possible d avoir une majorité pour a et b, b et k mais pas pour réunir a et k. Il faut rajouter des contraintes de relation d équivalence de la forme précédente pour trouver une segmentation satisfaisant au mieux la majorité des segmentations p initiales. 2.3.2.2 Avantages Détermination automatique du nombre optimal de segments au lieu de le fixer à priori. Traitement efficace d un grand nombre de données grâce à un temps d exécution croissant quasi linéairement avec le nombre de données. Obtention de segments bien différenciés. Obtention de segments stables vis-à-vis de légères modifications de données. Comparaison à chaque étape des individus deux à deux et obtention d une segmentation globale et non locale. Détention des «niches». Page 21 sur 43
2.3.2.3 Inconvénients La méthode relationnelle est affectée par la présence de variables redondantes, de ce fait le résultat de la segmentation va être orienté en faveur des ces variables qui deviendront les plus discriminantes dans la description des segments. De plus, la segmentation relationnelle est surtout destinée aux variables catégoriques puisqu elle écarte implicitement les variables continues. 2.3.3 Centres mobiles, K-moyennes et nuées dynamiques 2.3.3.1 Centres mobiles La méthode des centres mobiles suit le déroulement suivant Etape 1 - Etape 2 - Etape 3 - Choix d un nombre K d individus, c est un choix arbitraire, tirage au sort, les k premiers qui seront appelés les centres. Regroupement des autres individus autour des centres définis à l étape 1 de telle sorte que les groupes sont constitués des individus les plus proches. Remplacement des k individus choisis à l étape 1 par les barycentres des groupes définis à l étape 2. Les étapes se répètent tant que l inertie interclasse, qui décroît d une itération à l autre, ne diminue plus sensiblement. Page 22 sur 43
2.3.3.2 K-moyennes La méthode des k-moyennes est une variante de la méthode des centres mobiles. Dans cette méthode le barycentre de chaque groupe est calculé à l introduction de chaque nouvel individu dans le groupe au lieu d attendre l affectation de tous les individus. 2.3.3.3 Les nuées dynamiques Avec cette méthode, le groupe n est plus représenté par son barycentre, qui peut être extérieur à la population, mais par un sous-ensemble du groupe appelé noyau. Ce noyau composé des individus centraux sera plus représentatif du groupe que le barycentre. 2.3.3.4 Avantages / inconvénients Temps de traitement Le temps de traitement est proportionnel aux nombres d individus. Données continues La méthode ne s applique qu à des données continues, il est donc nécessaire de transformer les données si elles ne le sont pas. Le choix des bons paramètres. La méthode est sensible au choix des bons paramètres, en particulier, le choix du nombre k de groupes à constituer. Un mauvais choix de k produit de mauvais résultats. Ce choix peut être fait en combinant différentes méthodes, mais la complexité de l'algorithme augmente. Page 23 sur 43
2.3.4 Segmentation hiérarchique ascendante 2.3.4.1 Généralité Cette segmentation produit une suite de classes organisées hiérarchiquement. La classe parent regroupe toute la population, puis la population est divisée successivement en classes enfants pour finir à une classe par individu. La représentation graphique est appelée dendrogramme. 250 Tous les individus dans la classe 150 Les classes 5 et 6 sont a une distance de 150 125 0 1 2 3 4 5 6 7 8 Figure 1 Classe la plus fine, 1 individu par classe L algorithme de la segmentation hiérarchique recherche à chaque étape les deux classes les plus proches pour les fusionner. La notion de proche étant déterminée par la distance des deux classes. Ensuite vient la notion d inertie interclasse, les deux segments qui feront le moins baisser l inertie interclasse seront fusionnés. Page 24 sur 43
2.3.4.2 Avantages / inconvénients Pas de choix arbitraire des individus initiaux Pas de fixation du nombre de segments Nécessite des ressources matérielles importantes Deux individus placés dans des segments différents ne sont plus jamais comparés, certains segments naturels peuvent être occultés. 2.3.5 Applications Par son aptitude à traiter les données sans en privilégier une en particulier, à traiter des données hétérogènes et de nombreuses variables, la segmentation est utile : pour avoir une compréhension de l ensemble d une population. pour constituer des panels représentatifs. Comme préalable à d autres opérations de datamining car la segmentation évite le sur apprentissage du aux variables trop discriminantes, et le remplacement des données manquantes pour la valeur moyenne dans le segment de l individu. Page 25 sur 43
3 Les algorithmes destinés à l évaluation A la différence des algorithmes générateurs de connaissances, ces algorithmes ont la particularité de s initialiser avec un jeu de données pour créer le modèle, puis vient une phase de validation de ce modèle. Une fois le modèle calibré chaque cas présenté sera classé dans une catégorie. Les données d initialisation aussi que ceux de validation détermineront le modèle donc les résultats futurs. 3.1 Les arbres de décision 3.1.1 Généralité Les arbres de décision sont une représentation graphique d un processus de classification qui doivent répondre à une question : «la banque peut elle accorder le prêt?», «le patient est il malade?» La réponse à cette question est une classe (un champ) de la population. A la question «la banque peut elle accorder le prêt?» l échantillon de population se représente de la façon suivante : Prêt Revenu annuel Age Classe Découvert accordé? professionnel Oui 200000 25 Cadre Jamais Non 250000 45 Cadre A découvert Tableau 6 La réponse à la question se situe dans le champ «prêt accordé». En partant d un jeu de données d apprentissage et d un jeu de données de validation, l arbre se construira seul et répondra à la question posée. Page 26 sur 43
3.1.2 Représentation d un arbre X > 500 Nœud Racine OUI Z < 2000 Nœud fils Y < 200 NON OUI NON Feuilles Figure 2 Un arbre de décision est basé sur l enchaînement hiérarchique de tests, «nœud», construit automatiquement en fonction du jeu de données d apprentissage. Un arbre de décision est constitué : D un nœud racine : servant de point d entrée De nœuds fils : des questions De feuilles : état final, classification Chaque nœud est une question. Le jeu de question est itératif et débouche sur un autre nœud ou sur une feuille. Dans le cas d une question Binaire (Oui ou Non) la réponse OUI se situe a gauche. Il existe trois algorithmes pour déterminer la variable à associer à un nœud : CART, C5.0 et CHAID. Page 27 sur 43
Mis à part la simplicité pour lire et classer un enregistrement ou une situation, l arbre peut être transformé en règle. Si X > 500 alors OUI Si X < 500 et Z > 2000 alors NON Si X < 500 et Z < 2000 et Y < 200 alors OUI Si X < 500 et Z < 2000 et Y > 200 alors NON Pour chaque situation une et une seule règle s applique. La liste des règles est exhaustive et les règles sont mutuellement exclusives. 3.1.3 Mise en place Voici un algorithme générique de construction d un arbre : Création du nœud racine Non Y a-t-il des branches à ce nœud? Oui Transformer le nœud en feuille Y a-t-il un nœud précédant? Non Non Y a-t-il une branche non explorée? Oui Exploration de la branche Remonter au nœud précédant Création du nœud Est-ce le nœud racine? Oui Arbre créé Figure 3 Page 28 sur 43
Le nœud racine est le nœud qui sépare le mieux la population (les enregistrements) en deux. Y a-t-il des branches à ce nœud? Il n y a pas de branches à un nœud si il n y a pas de valeur possible au test du nœud si tous les enregistrements ont la même valeur, la même classe Les autres critères sont propres à chaque algorithme Si une classe est supérieure à un seuil prédéfini. Exemple : 98 % de la population se classent dans une catégorie. C5 utilise le critère suivant : s il n'existe pas de test ayant au moins n éléments sur deux branches alors le noeud est terminal, il n y a pas de branche à explorer, le nœud devient alors feuille. L'objectif de ce critère est d'éviter une croissance trop grande de l'arbre par l'exploration de branches comprenant trop peu d'exemples. La valeur de n est, par défaut, égale à 2, elle peut être modifiée par l'utilisateur. Transformer le nœud en feuille Le nœud devient feuille et sa classe sera la classe majoritaire du nœud. Exemple le nœud «quel est le sexe» ne dispose que de 2 classes «homme» ou «femme», si 98 % de la population est dans la classe «femme» alors le nœud devient feuille et prendra l étiquette «femme». Cependant, dans certain cas, attribuer la même classe à l ensemble de la population peut être lourd de conséquence (exemple : définir un patient comme sain alors qu il est malade), dans ce cas il est possible de définir un coût de mauvaise classification et d attribuer la classe en fonction de ce coût. Y a t il un nœud précèdent? Si oui l arbre est en train d être exploré. Si non l algorithme est remonté au nœud racine. Page 29 sur 43
Exploration d une branche et détermination du nœud suivant Le choix du test suivant le plus pertinent s avère difficile, pour cela il faut mesurer le «degré de mélange», puis le gain. La formule de calcul du degré de mélange dépend de l algorithme choisi. L algorithme CART utilise la fonction de Gini gini( x) = 4x(1 x) Équation 2 L algorithme C5 utilise la fonction d entropie entropie( x) = x log( x) (1 x) log(1 x) Équation 3 L algorithme CHIAD utilise quant à lui le test du Chi2 Où x est la proportion d élément dans l une des deux classes. Ces fonctions auront un résultat compris entre 0 et 1, 0 si aucun élément ne se trouve dans la classe et 1 lorsque tous les éléments sont dans la classe. La fonction retourne 0,5 lorsque les éléments sont repartis équitablement entre les deux classes. Le gain est la différence entre le degré de mélange du nœud courant et le degré de mélange du nouveau nœud introduit. Le nœud retenu parmi les noeuds potentiels sera le nœud qui minimise le degré de mélange ou celui qui maximise le gain. 3.1.4 Avantages / inconvénients lisibilité du résultat Un arbre de décision est facile à interpréter et est la représentation graphique d'un ensemble de règles. Si la taille de l'arbre est importante, il est difficile d'appréhender l'arbre dans sa globalité. Cependant, les outils actuels permettent une navigation aisée dans l'arbre (parcourir une branche, développer un noeud, élaguer une branche) et, le plus important est certainement de Page 30 sur 43
pouvoir expliquer comment est classé un exemple par l'arbre, ce qui peut être fait en montrant le chemin de la racine à la feuille pour l'exemple courant. tout type de données L algorithme peut prendre en compte tous les types d'attributs et les valeurs manquantes. Il est robuste au bruit. sélection des variables L arbre contient les attributs utiles pour la classification. L'algorithme peut donc être utilisé comme prétraitement qui permet de sélectionner l'ensemble des variables pertinentes pour ensuite appliquer une autre méthode. classification efficace L attribution d'une classe à un exemple à l'aide d'un arbre de décision est un processus très efficace (parcours d'un chemin dans un arbre). outil disponible Les algorithmes de génération d'arbres de décision sont disponibles dans tous les environnements de fouille de données. extensions et modifications La méthode peut être adaptée pour résoudre des tâches d'estimation et de prédiction. Des améliorations des performances des algorithmes de base sont possibles grâce aux techniques de bagging et de boosting : on génère un ensemble d'arbres qui votent pour attribuer la classe. sensible au nombre de classes Les performances tendent à se dégrader lorsque le nombre de classes devient trop important. Page 31 sur 43
évolutivité dans le temps L algorithme n'est pas incrémental, c'est-à-dire que si les données évoluent avec le temps, il est nécessaire de relancer une phase d'apprentissage sur l'échantillon complet (anciens exemples et nouveaux exemples). 3.1.5 Applications Les arbres de décision, compte tenu de la simplicité de leur formalisme de restitution, peuvent être utilisés dans de nombreux domaines. Ils peuvent être utiles d une part pour la segmentation d une population et d autre part pour l affectation d une classe à un individu à partir de certains éléments descriptifs. Les arbres de décision sont souvent utilisés dans les études marketing, la mesure de performance, l aide au diagnostique de manière générale, l analyse des risques et la gestion des stocks. Page 32 sur 43
3.2 Les réseaux de neurones 3.2.1 Généralité Le réseau de neurones est une technique avec une architecture calquée sur le cerveau humain. Il se présente comme un ensemble de nœuds connectés entre eux. Il existe deux types de réseaux de neurones : Technique prédictive Apprentissage supervisé où une ou plusieurs valeurs seront trouvées. Technique descriptive Apprentissage non supervisé où la population est segmentée en groupes distincts englobant des éléments similaires. Un réseau de neurone est constitué des composants suivants : o Neurone formel Il calcule la somme pondérée par son poids de chaque entrée qu il reçoit. o Règle d activation C est une fonction qui ouvre ou ferme la sortie du neurone. Cette fonction mathématique généralement sigmoïde a l avantage de se comporter de façon linéaire au voisinage de 0 et non linéaire au voisinage de -1 et 1, ce qui permet de modéliser des phénomènes linéaires ou non. Equation sigmoïde s( x) = 1 1 x + e Équation 4 Page 33 sur 43
o Une organisation en couches Pour la résolution de problèmes complexes, le réseau se compose de plusieurs couches de neurones enchaînés. Ces couches sont appelées des couches cachées. X1 X2 X3 Sortie X4 X5 X6 Neurones d entrée Neurones de couches cachées Neurones de sortie Règle d apprentissage Figure 4 C est la capacité du réseau à changer de forme en fonction des résultats antérieurs. Le poids des connexions est modifié en fonction des résultats pour trouver le meilleur modèle. 3.2.2 Mise en place La mise en place d un réseau de neurones passe par les étapes suivantes : Préparation des données Cette étape sert à déterminer les entrées, les sorties et la constitution de la base d exemples qui sera représentative de toutes les réponses. Ensuite, les données sont associées à des neurones, pour cela il est nécessaire de passer par un codage. Ce codage associe un neurone par type de valeur pour les variables discrètes et un neurone par variable continue. Ce travail de préparation va générer un jeu de données qui devra être optimisé. Page 34 sur 43
Définition de la structure C est la définition du nombre de couches, de neurones et de fonctions. o Fonction sommation Combine le poids des entrées, le plus souvent l opérateur somme est utilisé mais il est possible de modifier cet opérateur par les fonctions minimum, maximum, majorité et produit. o Fonction de transfert La somme des poids entrants est transformée en poids sortant par l intermédiaire de cette fonction. Elle peut être à seuil, linéaire, gaussienne mais la plus courante est la sigmoïde. o Normalisation de la sortie Transformation des données de sortie dans un format compréhensible par l utilisateur. o Transmission de sortie Evaluation des sorties pour déterminer celles qui seront actives pour le niveau suivant. o Calcul de l erreur Ecart observé entre la sortie observée et la sortie calculée. Plusieurs méthodes sont possibles : erreur quantique, erreur absolue, erreur moyenne et sens de variation de l erreur. Apprentissage Cette étape consiste à descendre le réseau itérativement en ajustant les poids à chaque passage en se reposant sur le calcul de l erreur jusqu'à ce que le réseau ne s améliore plus. L algorithme utilisé est l algorithme de rétro-propagation de l erreur. o Principe de l algorithme de rétro propagation Initialisation de la matrice des poids au hasard. Choix d un exemple en entrée. Propagation du calcul de cette entrée au travers du réseau. Calcul de la sortie de cette entrée. Page 35 sur 43
Mesure de l erreur de prédiction en effectuant la différence entre sortie réelle et sortie prévue. Calcul de la contribution d un neurone à l erreur depuis la sortie. Correction des poids des neurones pour diminuer l erreur. Réitération du processus jusqu'à obtention d une erreur quasi nulle. Performance du réseau La mesure de la performance de réseau de neurones ce fait au travers d une matrice de confusion. 3.2.3 Avantages / inconvénients Lisibilité du résultat Le résultat de l'apprentissage est un réseau constitué de cellules organisées selon une architecture, définies par une fonction d'activation et un très grand nombre de poids à valeurs réelles. Ces poids sont difficilement interprétables. Pour un vecteur d'entrée, il est difficile d'expliquer le pourquoi de la sortie calculée. Les données réelles Les réseaux traitent facilement les données réelles, préalablement normalisées, et les algorithmes sont robustes au bruit. Ce sont, par conséquent, des outils bien adaptés pour le traitement de données complexes éventuellement bruitées comme la reconnaissance de formes (son, images sur une rétine,...). Classification efficace Le réseau étant construit, le calcul d'une sortie à partir d'un vecteur d'entrée est un calcul très rapide. Outil disponible Les algorithmes de génération de réseaux de neurones sont disponibles dans tous les environnements de fouille de données. Page 36 sur 43
Paramètres d'apprentissage Il n'est pas facile, sans expérience approfondie, de choisir l'architecture et de régler les paramètres d'apprentissage. Il est possible de procéder par différents essais mais le point suivant nous montre que ce n'est pas toujours possible. Temps d'apprentissage L échantillon nécessaire à l'apprentissage doit être suffisamment grand et représentatif des sorties attendues. Il faut passer un grand nombre de fois tous les exemples de l'échantillon d'apprentissage avant de converger et donc le temps d'apprentissage peut être long. Evolutivité dans le temps Comme pour les arbres de décision, l'apprentissage n'est pas incrémental et, par conséquent, si les données évoluent avec le temps, il est nécessaire de relancer une phase d'apprentissage pour s'adapter à cette évolution. En combinaison avec d'autres méthodes Pour des problèmes contenant un grand nombre d'attributs pour les entrées, il peut être très difficile de construire un réseau de neurones. On peut, dans ce cas, utiliser les arbres de décision pour sélectionner les variables pertinentes, puis générer un réseau de neurones en se restreignant à ces entrées. Extensions Les extensions sont nombreuses pour les tâches de classification et d'estimation : autres fonctions d'activation, algorithmes d'apprentissage, apprentissage dynamique... Des modèles de réseaux de neurones existent pour les tâches de prédiction (réseaux récurrents : la sortie d'un neurone peut influer sur les neurones des couches précédentes) et pour les tâches de segmentation (réseaux associatifs, cartes de Kohonen). Page 37 sur 43
3.2.4 Applications Les réseaux de neurones sont généralement utilisés dans des domaines complexes tels que la reconnaissance de formes, le traitement de signaux électromagnétiques (signal cardiaque) prévisions boursières, météorologiques ou robotiques. Page 38 sur 43
3.3 Les cartes de Kohonen 3.3.1 Généralité Le réseau de Kohonen est une variante du réseau de neurones. Ce réseau est à apprentissage non supervisé. La grande différence avec le réseau de neurones est qu il n y a pas de variable à prédire donc pas de couche de sortie. L objectif du réseau Kohonen est «d apprendre» la structure des données pour pouvoir y distinguer des segments. Il se compose de deux niveaux : une couche d entrée, avec un nœud pour chacune des variables utilisées dans la segmentation. Une couche compétitive où les nœuds sont disposés sous la forme d une grille rectangulaire ou hexagonale. Chacun de ces nœuds étant connecté à chacun des nœuds de la couche d entrée avec un certain poids (vecteur). Représentation d un réseau de Kohonen Figure 5 Page 39 sur 43
Figure 6 Dans le cas d une couche de compétitivité rectangulaire de 8X5 donc 40 noeuds, le nœud gagnant 20 dispose de 12 voisins à une distance de 2. Figure 7 Dans le cas d une couche de compétitivité hexagonale de 19 nœuds, le noeud gagnant 6 dispose de 6 voisins à une distance de 1. Page 40 sur 43
Dans le cas d une couche hexagonale, le nœud gagnant aura plus de voisins à une distance donnée que dans le cas d une couche hexagonale. 3.3.2 Mise en place L algorithme d apprentissage du réseau de Kohonen est de type compétitif. La mise à jour des poids i w du neurone i au temps t s exprime de la façon suivante : [ P( t) w )] w( t) = η ( t) t i Équation 5 Si i Λ (t) g i Où P(t) désigne le stimulus d apprentissage au temps t et Λ g (t) représente le voisinage au temps t du neurone gagnant g. Ce dernier est déterminé simplement en retenant l indice du neurone pour lequel la distance avec le stimulus P est minimum : g( P) = argmin P w, i = 1,2,.,S i Équation 6 Où S correspond au nombre de neurones. Le taux d apprentissage η et le voisinage du neurone gagnant Λ g dépendent tous les deux du temps. L idée étant d employer au départ un grand taux d apprentissage ainsi qu un grand voisinage et de les réduire au fur et à mesure que le temps et l apprentissage progressent. Une décroissance linéaire est souvent utilisée pour le taux d apprentissage : η0 ητ η( t) = η0 t τ Équation 7 Page 41 sur 43
Où η 0 est le taux d apprentissage initial, ητ est le taux d apprentissage final, et où τ délimite la frontière entre deux phases d apprentissage. De même une décroissance linéaire est souvent utilisée pour le voisinage : t Λ ( t) = Λ 0 1 τ Équation 8 Grâce à l évolution de τ l apprentissage se déroule en deux temps : La phase d organisation : grâce à un taux d apprentissage élevé ainsi qu à un voisinage étendu, cette phase permet de déployer la carte de neurones là où les données sont concentrées. Elle permet aussi, grâce à une décroissance progressive du taux d apprentissage et du voisinage, de déplier la carte de manière à ce que sa topologie correspond au mieux à la topologie de la population. La phase de convergence : grâce à un taux d apprentissage faible et à un voisinage nul, permet quant à elle de raffiner la position des neurones de manière à les centrer sur un groupement de la population. 3.3.3 Applications Comme les réseaux de neurones, les cartes de Kohonen sont utilisées dans des cas complexes tels que le crédit scoring, la modélisation du comportement des consommateurs, le géomarketing et l analyse des dépendances dans l étude des phénomènes économiques. Page 42 sur 43
Conclusion Le datamining permet aujourd hui d explorer des années de stockages de données pour améliorer les ventes et la satisfaction des clients. Il permet aussi la recherche des fraudes. En utilisant des méthodes simples ou plus scientifiques le datamining cherche, fouille et identifie des opportunités de progressions. En étant conçu différemment il peut également repérer des fraudes. Et en lui présentant une hypothèse il prédira le résultat. Le datamining est un indicateur essentiel pour la stratégie de l entreprise. Néanmoins, les habitudes des consommateurs et leur vie sont fouillées, ils restent bien protégés en France. Cependant dans une économie de marché mondial, il est facile d acheter par l intermédiaire d Internet un produit à l autre bout de la terre. Le regroupement des «traces» laissées aux quatre coins de la planète contourne la protection mise en place par la Commission Nationale Informatique et Libertés. Page 43 sur 43