DATAMINING. Etude et analyse de la carrière d artistes chanteurs selon leurs styles musicaux.

Transcription

1 ABES Lila DEA 127 Informatique, systèmes multi-agents Université PARIS DAUPHINE DATAMINING Etude et analyse de la carrière d artistes chanteurs selon leurs styles musicaux. Professeur responsable : Présenté par : Mr. Edwin Diday. Melle Abes Lila. Promotion: 2004/2005

2 Sommaire 1. Introduction : Etat de l art : Définition du Data Mining : Domaine d utilisation et intérêt pratique : Phases générales de développement d un projet de Data Mining : Principaux logiciels : Positionnement et description de SODAS : Etude conceptuelle : Description de la base de données choisie : Contexte et objectifs de l étude : Mise en œuvre en pratique de l analyse : Création des requêtes : Extraction des données symboliques : Analyse par méthode SOE : Présentation de SOE : Mise en œuvre de SOE et interprétation: Analyse par méthode PCM : Présentation de PCM : Mise en œuvre de PCM et interprétation : Analyse par méthode TREE Présentation de TREE : en œuvre de TREE et interprétation : Analyse par méthode PYR : Présentation de PYR : en œuvre de PYR et interprétation : Analyse par méthode DIV : Présentation de DIV : en œuvre de DIV et interprétation : Analyse par méthode STAT : Présentation de STAT : en œuvre de STAT et interprétation : Conclusion :...47

3 1. Introduction Les activités de l homme, quel que soit le domaine de connaissance considéré, est avant tout basé sur un enrichissement continuel de ces mêmes connaissances qui matérialisent un continuum dans l axe d apprentissage qui conduit au peaufinement des actions entreprises le long du cycle de vie du système dans un but toujours plus optimiste (au sens optimisation). Concrètement, ceci conduit à la naissance de besoins croissants en matière d outils techniques et technologiques à mettre entre les mains de l acteur de ce système : accessibilité et maniabilité doivent en être les qualités primordiales. Paradoxalement à la croissance exponentielle de nos connaissances, l on observe une explosion des structures de représentation qui a amené à l apparition d un autre phénomène : l hétérogénéité des données du point de vue ensembliste. Concrètement, des questions du type : «comment extraire de nouvelles connaissances - plus élaborées - à partir de celles déjà acquises - plus atomiques -?» ou «comment filtrer les disparités pouvant apparaître sur des sources de connaissances hétérogènes, issues de cultures ou systèmes dénormalisés, lorsqu on a besoin de fusionner l ensemble?» deviennent de plus en plus pertinentes et des méthodes fiables doivent y apporter les éléments de réponse ; le «Data Mining» est l une de ces solutions. Dans le cadre de ce travail, nous nous consacrerons à approfondir les éléments soulevés par la première question par «l analyse des données symboliques».

4 2. Etat de l art : Définition du data Mining : «Data Mining» ou «Mining the Data» signifie littéralement «déduction de données» ; c est en fait le processus par lequel des requêtes variées sont posées sur des données brutes afin d en extraire des informations utiles et plus élaborées, ces données sont éventuellement stockées dans des bases de données et représente un volume assez important pour que l information soit pertinente. Le but du Data Mining se manifeste surtout dans les grandes fonctions de l entreprise et aide à suppléer ses activités stratégiques à long terme par l ébauche (à partir des données modélisant les connaissances ou «mémoire» de l entreprise) de scénarios futurs à partir des faits et expériences passées et détection de comportements anormaux afin de prendre les mesures à temps. Plusieurs techniques sont employées pour l implémentation d un outil «Data Mining» ; le schéma suivant démontre un croisement inter disciplines tel les statistiques, l analyse de données, l intelligence artificielle la recherche opérationnelle et la logique, ainsi que bien évidemment l informatique (SGBD, algorithmique,...) : régression linéaire Domaine de la Statistique et analyse de données multidimensionnelles analyse multi valuée analyse en composantes principales réseaux de neurones Domaine de l IA Data Mining arbres décisionnels Domaine de la logique et RO - fig 01 : outils techniques du Data Minig -

5 2. 2. Domaine d utilisation et intérêt pratique : Les bases de données ou les entrepôts de données, atteignent des volumes de plusieurs tera-octets (1 tera-octet = octets). Les grandes compagnies, comme EDF, France Telecom ou SFR, collectent annuellement plusieurs tera-octets de données relatives aux consommations de leurs clients. Dans un monde de concurrence sévère, chez les grands opérateurs téléphoniques par exemple, la connaissance des clients et de leurs comportements permet de mieux anticiper ceux qui risquent de passer chez un concurrent et de mieux adapter les opérations commerciales pour tenter de les garder. L une des grandes difficultés est de savoir comment extraire ce profil dans un si grand amas de données. Le data mining offre, entre autres, les moyens d analyse pour chercher s il existe un profil comportemental typique des clients qui changent de fournisseurs. L entreprise pourra ainsi repérer plus facilement, parmi ses clients, lesquels ont le profil pour partir vers la concurrence afin de tenter, par des actions commerciales ad hoc, de les garder. Les domaines d utilisation du Data Mining tel que nous pouvons facilement le constater par simple refléxion - sont très variés ; néanmoins, ils peuvent être répartis en 03 grandes catégories : - problèmes de classification : «trouver des règles pour le partitionnement des données en groupes homogènes fortement corrélés?» ; par exemple : répartition des clients selon certains profils dans un but d étude de marché pour l amélioration des ventes. - problèmes d association : «trouver des règles pour établir des associations entre collections de données?» ; toujours dans le même ordre d idée, trouver une (des) relation (s) entre les clients et les produits achetés pour un renforcement des stratégies de communication. - problèmes de séquencement : «trouver des règles pour ordonner des collections de données selon certains critères?» ; autre exemple : trouver des critères assez pertinents pour classer les clients dans une échelle modélisant les répercussions des effets d opérations marketing (client facile, client difficile). - détection de comportements anormaux ; par exemple : clientèle ne répondant à aucun stimulus marketing. Bien évidemment, il serait illusoire de croire que le Data Mining à lui seul (bien que faisant appel à plusieurs domaines de connaissance) pourrait résoudre tous les problèmes liés aux organisations ; et quand bien même ce serait le cas, la discipline est encore jeune et s inscrit dans la logique d évolution des systèmes d information ; néanmoins,

6 l utilisation du Data Mining a déjà fait ses preuves. Du fait même du besoin ayant conduit à son apparition, les résultats décelés peuvent se révéler déterminants dans les domaines des : - marketing, ventes et détection de fraude. - navigation sur Internet, audit de compte, contrôle de qualité et optimisation de processus organisationnels. En pratique, les plus grandes applications du Data Mining sont entre autres : a- La gestion de relation client : Dans un contexte concurrentiel de plus en plus soutenu, la capacité à conquérir et à retenir les clients repose sur une connaissance fine de leurs besoins et de leur comportement de consommateurs, d utilisateurs et d acheteurs. Créer et maintenir une relation de plus en plus personnalisée, à partir d un produit de plus en plus standardisé, est un facteur clé de succès pour les produits et services de grande consommation. Pour cela, il faut bien connaître ses clients. Les études de marché réalisées selon les méthodes classiques sont longues à mettre en œuvre, pour des résultats toujours sujets à caution en raison de la taille des échantillons pratiqués. L entreprise dispose pourtant d informations sur ses clients et leurs habitudes de consommation. Au sein de la gestion de relation client, ou customer relationship management (CRM), on peut distinguer trois dimensions : - Le CRM opérationnel concerne la gestion des relations avec les clients, qui constituent le front office du dispositif. Le CRM opérationnel permet d emmagasiner des informations permettant une connaissance approfondie des clients, et dont le stockage est désormais rendu possible par les technologies de data warehouse. - Le CRM analytique consiste en l exploitation des bases de données créées par l entreprise sur ses clients. C est à ce stade qu entrent en jeu les techniques de data mining. - Le CRM collaboratif vise à intégrer des outils communiquant dans les dispositifs de front office, afin d optimiser les échanges d informations dans la gestion quotidienne des activités commerciales. Toutes les entreprises, notamment de la grande distribution où la concurrence est forte, mettent en place des structures pour le CRM analytique. Les objectifs des analyses en data mining sont multiples : segmentation de la clientèle, fidélisation de la clientèle, organisation de rayons de magasins, etc.

7 b- L aide à la décision dans les processus industriels : L automatisation est l un des meilleurs facteurs d augmentation de la productivité. Les industriels, notamment dans la surveillance, le diagnostic et la maintenance des unités de production ont depuis longtemps fait appel aux méthodes de la statistique et de la modélisation. Il est donc naturel pour cette activité d incorporer le data mining pour mieux analyser les pannes ou organiser les ateliers. c- La génomique : Toute espèce vivante, animale ou végétale est composée de cellules. L homme en possède quelques (cent mille millions de milliard). Chaque cellule contient la totalité du génome, c est-à-dire tout ce qui forme l identité biologique de l individu, son patrimoine génétique. Toutes les cellules d un même individu contiennent ainsi la même copie du génome. Le génome de toutes les espèces est formé d une succession de quatre bases chimiques désignées par les lettres A, C, T et G. L alignement de ces bases, qui forment la molécule d ADN, peut être vu comme un texte écrit dans un alphabet de 4 lettres (A,C,T et G). Le nombre de lettres présentes dans le génome humain est de 3 milliards environs. Si on devait transcrire le code génétique d une personne sur du papier en y reportant la succession de lettres présentes sur son génome, il nous faudrait plus de 2 millions de pages comme celle ci. C est grâce à ce code génétique que les cellules se divisent, se multiplient et se spécialisent pour donner naissance à ces organes aussi divers que le cœur, les poumons ou le cerveau. Les maladies génétiques sont directement liées à la manière dont ces textes sont écrits. Le code génétique de l homme, maintenant entièrement transcrit, est même disponible en accès libre sur Internet. Celui d autres espèces est en cours de décodage. La compréhension de ce message de plusieurs millions de codes donne de nouvelles perspectives à la recherche médicale. Le décodage du génome des plantes ouvre de nouvelles perspectives dans le domaine de l agriculture. L exploitation de bases de données génomiques ne peut s envisager sans le data mining Phases générales de développement d un projet de Data Mining : Tout projet de développement d un Data Mining doit se conformer à un squelette général dans lequel sont organisées les étapes du projet, qui peuvent éventuellement s adapter au type du Data Mining et outils mis en œuvre : a- Phase d acquisition des données : La phase d acquisition vise à cibler, même de façon grossière, l espace des données qui va être exploré à partir de bases de données stockant des données locales ou distantes, homogènes ou hétérogènes, structurées ou semi structurées et de types différents. L acquisition met en œuvre des requêtes ad hoc pour

8 rapatrier les données potentiellement utiles selon le point de vue de l expert, soit e utilisant des moteurs de requêtes de bases de données comme le langage SQL. L acquisition peut aussi se faire à travers des outils de requêtes plus spécifiques aux données non structurées comme les données textuelles, les images ou le web, faisant pour cela appel à des moteurs de recherche d informations et d images auxquelles ils accèdent par le contenu. Une fois de pré numérisation est aussi parfois nécessaire dans le cas ou les techniques utilisées utilisent des données absolument numériques (par exemple par discrétisation de variables continues en intervalles connus, d associer des valeurs qualitatives peu, moyen, fort en entiers -0, 1, 2-. b- Phase de fouille de données : La fouille de données concerne le Data Mining dans son sens restreint et est au cœur du processus, c est la phase pendant laquelle les données fouillées par les méthodes appropriées donnent les résultats escomptés dans la visualisation appropriée (tableau, histogrammes,...). c- Phase de validation et de mise en forme : Les modèles extraits ne peuvent être utilisés directement en toute fiabilité. Nous devons les évaluer, c est-à-dire les soumettre à l épreuve de la réalité et apprécier leur justesse. Le procédé habituel consiste à estimer au mieux le taux d erreur du modèle par une fonction prédéfinie. Ainsi, l utilisateur décidera d appliquer ou non le modèle de prédiction en connaissance des risques qu il prend, il choisira en toute logique le modèle comportement le plus faible risque d erreurs Principaux logiciels : L offre d outils de Data Mining est aujourd hui pléthorique. Rien qu en faisant une recherche sur Internet avec les mots clés «software» et «data mining», il faudrait plusieurs jours pour dépouiller manuellement les résultats, signe de l importance prise par ce domaine. L offre de logiciels de Data Mining provient des principaux et gros constructeurs de logiciels, notamment de ceux qui proposent des systèmes de gestion de bases de données comme IBM avec Intelligent Miner, Oracle avec Darwin ou MicroSoft qui développe un environnement de Data Mining autour de SQL Server. Sur ce marché sont également présent les constructeurs de logiciels classiques de statistique comme SAS ou SPSS pour ne citer que ces deux. De nombreuses entreprises plus jeunes ont réussi sur ce marché. Le plus spectaculaire est sans doute «Business Object». Certains constructeurs se sont positionnés sur des segments spécifiques comme le web ou le texte par exemple. D autres, proposent davantage des solutions métiers, notamment pour la Gestion de la Relation Client (CRM).

9 Un mouvement de concentration important des éditeurs a eu lieu, et des produits phares du Data Mining sont apparus, répartis en quatre catégories en fonction de leurs origines, des méthodes qu ils implémentent (graphes décisionnels, méthodes d analyse de données, et autres), de leur éditeur et de leur prix. a- Les catégorie «poids lourds» : commercialisés sous licence et destinés au développement d applications en entreprise tel que : Intelligent Miner (IBM), SAS Entreprise Miner, Decision Series (NeoVista), Mineset (Silicon Graphics), Tera Miner (NCR). b- Les catégorie «outils intermédiaires» : AC2, Knowledge Seeker, Alice Pro, Kate, Netral, 4Thought. c- Les catégorie «outils pour PC de bureau» : destinés à des applications à caractère personnel de petite et moyenne envergures, tel : Scenario, Business Miner, Answer Tree, Previa Diamond. d- Les catégories «suites statistiques évolutives» : on peut citer en exemple : SPAD, Smart Miner, Knowlbox. e- Les catégories «logiciels gratuits /open source» : logiciels académiques inscrits dans le cadre de recherches scientifiques : Yale, Sipina research, Weka 3, Tanagra, ainsi que SODAS que nous allons décrire ci-dessous Positionnement et description de SODAS : Il s agit d un logiciel prototype public (catégorie e) apte à analyser des données symboliques et s appuyant sur des techniques d analyse de données multidimensionnelles (Page 2). Le logiciel SODAS est issu d un projet d EUROSTAT portant le même nom. Ce logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans le domaine de l analyse des données symboliques. L idée générale de ce projet est de construire, à partir d une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et d analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d analyse de données symboliques. Une analyse des données dans SODAS (à l image du processus général explicité pages 5 et 6) suit les étapes suivantes :

10 a- Phase d acquisition des données : Partir d une base de données relationnelle (ORACLE, ACCESS ) ; Définir ensuite un contexte par : - Des unités statistiques de premier niveau (client, fournisseur, magasin de vente,...) ; - Les variables assez pertinentes qui les décrivent (pour client : age, région,...) ; - Des concepts (profils de clients, ventes, ). Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque magasin est associé à ses ventes). Ce contexte est défini par une requête sur la base de données relationnelle. Le tableau de données symboliques peut être construit, les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associées. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables et le choix de l utilisateur. b- Phase de fouille de données : Il est alors possible de créer un fichier d objets symboliques sur lequel une douzaine de méthodes d analyse de données symboliques peut déjà s appliquer (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques ). c- Phase de validation et de mise en forme : la phase de validation ne sera pas abordé dans cette étude.

11 3. Etat de l art : Définition du data Mining : «Data Mining» ou «Mining the Data» signifie littéralement «déduction de données» ; c est en fait le processus par lequel des requêtes variées sont posées sur des données brutes afin d en extraire des informations utiles et plus élaborées, ces données sont éventuellement stockées dans des bases de données et représente un volume assez important pour que l information soit pertinente. Le but du Data Mining se manifeste surtout dans les grandes fonctions de l entreprise et aide à suppléer ses activités stratégiques à long terme par l ébauche (à partir des données modélisant les connaissances ou «mémoire» de l entreprise) de scénarios futurs à partir des faits et expériences passées et détection de comportements anormaux afin de prendre les mesures à temps. Plusieurs techniques sont employées pour l implémentation d un outil «Data Mining» ; le schéma suivant démontre un croisement inter disciplines tel les statistiques, l analyse de données, l intelligence artificielle la recherche opérationnelle et la logique, ainsi que bien évidemment l informatique (SGBD, algorithmique,...) : régression linéaire Domaine de la Statistique et analyse de données multidimensionnelles analyse multi valuée analyse en composantes principales réseaux de neurones Domaine de l IA Data Mining arbres décisionnels Domaine de la logique et RO - fig 01 : outils techniques du Data Minig -

12 3. 2. Domaine d utilisation et intérêt pratique : Les bases de données ou les entrepôts de données, atteignent des volumes de plusieurs tera-octets (1 tera-octet = octets). Les grandes compagnies, comme EDF, France Telecom ou SFR, collectent annuellement plusieurs tera-octets de données relatives aux consommations de leurs clients. Dans un monde de concurrence sévère, chez les grands opérateurs téléphoniques par exemple, la connaissance des clients et de leurs comportements permet de mieux anticiper ceux qui risquent de passer chez un concurrent et de mieux adapter les opérations commerciales pour tenter de les garder. L une des grandes difficultés est de savoir comment extraire ce profil dans un si grand amas de données. Le data mining offre, entre autres, les moyens d analyse pour chercher s il existe un profil comportemental typique des clients qui changent de fournisseurs. L entreprise pourra ainsi repérer plus facilement, parmi ses clients, lesquels ont le profil pour partir vers la concurrence afin de tenter, par des actions commerciales ad hoc, de les garder. Les domaines d utilisation du Data Mining tel que nous pouvons facilement le constater par simple refléxion - sont très variés ; néanmoins, ils peuvent être répartis en 03 grandes catégories : - problèmes de classification : «trouver des règles pour le partitionnement des données en groupes homogènes fortement corrélés?» ; par exemple : répartition des clients selon certains profils dans un but d étude de marché pour l amélioration des ventes. - problèmes d association : «trouver des règles pour établir des associations entre collections de données?» ; toujours dans le même ordre d idée, trouver une (des) relation (s) entre les clients et les produits achetés pour un renforcement des stratégies de communication. - problèmes de séquencement : «trouver des règles pour ordonner des collections de données selon certains critères?» ; autre exemple : trouver des critères assez pertinents pour classer les clients dans une échelle modélisant les répercussions des effets d opérations marketing (client facile, client difficile). - détection de comportements anormaux ; par exemple : clientèle ne répondant à aucun stimulus marketing. Bien évidemment, il serait illusoire de croire que le Data Mining à lui seul (bien que faisant appel à plusieurs domaines de connaissance) pourrait résoudre tous les problèmes liés aux organisations ; et quand bien même ce serait le cas, la discipline est encore jeune et s inscrit dans la logique d évolution des systèmes d information ; néanmoins,

13 l utilisation du Data Mining a déjà fait ses preuves. Du fait même du besoin ayant conduit à son apparition, les résultats décelés peuvent se révéler déterminants dans les domaines des : - marketing, ventes et détection de fraude. - navigation sur Internet, audit de compte, contrôle de qualité et optimisation de processus organisationnels. En pratique, les plus grandes applications du Data Mining sont entre autres : a- La gestion de relation client : Dans un contexte concurrentiel de plus en plus soutenu, la capacité à conquérir et à retenir les clients repose sur une connaissance fine de leurs besoins et de leur comportement de consommateurs, d utilisateurs et d acheteurs. Créer et maintenir une relation de plus en plus personnalisée, à partir d un produit de plus en plus standardisé, est un facteur clé de succès pour les produits et services de grande consommation. Pour cela, il faut bien connaître ses clients. Les études de marché réalisées selon les méthodes classiques sont longues à mettre en œuvre, pour des résultats toujours sujets à caution en raison de la taille des échantillons pratiqués. L entreprise dispose pourtant d informations sur ses clients et leurs habitudes de consommation. Au sein de la gestion de relation client, ou customer relationship management (CRM), on peut distinguer trois dimensions : - Le CRM opérationnel concerne la gestion des relations avec les clients, qui constituent le front office du dispositif. Le CRM opérationnel permet d emmagasiner des informations permettant une connaissance approfondie des clients, et dont le stockage est désormais rendu possible par les technologies de data warehouse. - Le CRM analytique consiste en l exploitation des bases de données créées par l entreprise sur ses clients. C est à ce stade qu entrent en jeu les techniques de data mining. - Le CRM collaboratif vise à intégrer des outils communiquant dans les dispositifs de front office, afin d optimiser les échanges d informations dans la gestion quotidienne des activités commerciales. Toutes les entreprises, notamment de la grande distribution où la concurrence est forte, mettent en place des structures pour le CRM analytique. Les objectifs des analyses en data mining sont multiples : segmentation de la clientèle, fidélisation de la clientèle, organisation de rayons de magasins, etc.

14 b- L aide à la décision dans les processus industriels : L automatisation est l un des meilleurs facteurs d augmentation de la productivité. Les industriels, notamment dans la surveillance, le diagnostic et la maintenance des unités de production ont depuis longtemps fait appel aux méthodes de la statistique et de la modélisation. Il est donc naturel pour cette activité d incorporer le data mining pour mieux analyser les pannes ou organiser les ateliers. c- La génomique : Toute espèce vivante, animale ou végétale est composée de cellules. L homme en possède quelques (cent mille millions de milliard). Chaque cellule contient la totalité du génome, c est-à-dire tout ce qui forme l identité biologique de l individu, son patrimoine génétique. Toutes les cellules d un même individu contiennent ainsi la même copie du génome. Le génome de toutes les espèces est formé d une succession de quatre bases chimiques désignées par les lettres A, C, T et G. L alignement de ces bases, qui forment la molécule d ADN, peut être vu comme un texte écrit dans un alphabet de 4 lettres (A,C,T et G). Le nombre de lettres présentes dans le génome humain est de 3 milliards environs. Si on devait transcrire le code génétique d une personne sur du papier en y reportant la succession de lettres présentes sur son génome, il nous faudrait plus de 2 millions de pages comme celle ci. C est grâce à ce code génétique que les cellules se divisent, se multiplient et se spécialisent pour donner naissance à ces organes aussi divers que le cœur, les poumons ou le cerveau. Les maladies génétiques sont directement liées à la manière dont ces textes sont écrits. Le code génétique de l homme, maintenant entièrement transcrit, est même disponible en accès libre sur Internet. Celui d autres espèces est en cours de décodage. La compréhension de ce message de plusieurs millions de codes donne de nouvelles perspectives à la recherche médicale. Le décodage du génome des plantes ouvre de nouvelles perspectives dans le domaine de l agriculture. L exploitation de bases de données génomiques ne peut s envisager sans le data mining Phases générales de développement d un projet de Data Mining : Tout projet de développement d un Data Mining doit se conformer à un squelette général dans lequel sont organisées les étapes du projet, qui peuvent éventuellement s adapter au type du Data Mining et outils mis en œuvre : a- Phase d acquisition des données : La phase d acquisition vise à cibler, même de façon grossière, l espace des données qui va être exploré à partir de bases de données stockant des données locales ou distantes, homogènes ou hétérogènes, structurées ou semi structurées et de types différents. L acquisition met en œuvre des requêtes ad hoc pour

15 rapatrier les données potentiellement utiles selon le point de vue de l expert, soit e utilisant des moteurs de requêtes de bases de données comme le langage SQL. L acquisition peut aussi se faire à travers des outils de requêtes plus spécifiques aux données non structurées comme les données textuelles, les images ou le web, faisant pour cela appel à des moteurs de recherche d informations et d images auxquelles ils accèdent par le contenu. Une fois de pré numérisation est aussi parfois nécessaire dans le cas ou les techniques utilisées utilisent des données absolument numériques (par exemple par discrétisation de variables continues en intervalles connus, d associer des valeurs qualitatives peu, moyen, fort en entiers -0, 1, 2-. b- Phase de fouille de données : La fouille de données concerne le Data Mining dans son sens restreint et est au cœur du processus, c est la phase pendant laquelle les données fouillées par les méthodes appropriées donnent les résultats escomptés dans la visualisation appropriée (tableau, histogrammes,...). c- Phase de validation et de mise en forme : Les modèles extraits ne peuvent être utilisés directement en toute fiabilité. Nous devons les évaluer, c est-à-dire les soumettre à l épreuve de la réalité et apprécier leur justesse. Le procédé habituel consiste à estimer au mieux le taux d erreur du modèle par une fonction prédéfinie. Ainsi, l utilisateur décidera d appliquer ou non le modèle de prédiction en connaissance des risques qu il prend, il choisira en toute logique le modèle comportement le plus faible risque d erreurs Principaux logiciels : L offre d outils de Data Mining est aujourd hui pléthorique. Rien qu en faisant une recherche sur Internet avec les mots clés «software» et «data mining», il faudrait plusieurs jours pour dépouiller manuellement les résultats, signe de l importance prise par ce domaine. L offre de logiciels de Data Mining provient des principaux et gros constructeurs de logiciels, notamment de ceux qui proposent des systèmes de gestion de bases de données comme IBM avec Intelligent Miner, Oracle avec Darwin ou MicroSoft qui développe un environnement de Data Mining autour de SQL Server. Sur ce marché sont également présent les constructeurs de logiciels classiques de statistique comme SAS ou SPSS pour ne citer que ces deux. De nombreuses entreprises plus jeunes ont réussi sur ce marché. Le plus spectaculaire est sans doute «Business Object». Certains constructeurs se sont positionnés sur des segments spécifiques comme le web ou le texte par exemple. D autres, proposent davantage des solutions métiers, notamment pour la Gestion de la Relation Client (CRM).

16 Un mouvement de concentration important des éditeurs a eu lieu, et des produits phares du Data Mining sont apparus, répartis en quatre catégories en fonction de leurs origines, des méthodes qu ils implémentent (graphes décisionnels, méthodes d analyse de données, et autres), de leur éditeur et de leur prix. a- Les catégorie «poids lourds» : commercialisés sous licence et destinés au développement d applications en entreprise tel que : Intelligent Miner (IBM), SAS Entreprise Miner, Decision Series (NeoVista), Mineset (Silicon Graphics), Tera Miner (NCR). b- Les catégorie «outils intermédiaires» : AC2, Knowledge Seeker, Alice Pro, Kate, Netral, 4Thought. c- Les catégorie «outils pour PC de bureau» : destinés à des applications à caractère personnel de petite et moyenne envergures, tel : Scenario, Business Miner, Answer Tree, Previa Diamond. d- Les catégories «suites statistiques évolutives» : on peut citer en exemple : SPAD, Smart Miner, Knowlbox. e- Les catégories «logiciels gratuits /open source» : logiciels académiques inscrits dans le cadre de recherches scientifiques : Yale, Sipina research, Weka 3, Tanagra, ainsi que SODAS que nous allons décrire ci-dessous Positionnement et description de SODAS : Il s agit d un logiciel prototype public (catégorie e) apte à analyser des données symboliques et s appuyant sur des techniques d analyse de données multidimensionnelles (Page 2). Le logiciel SODAS est issu d un projet d EUROSTAT portant le même nom. Ce logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans le domaine de l analyse des données symboliques. L idée générale de ce projet est de construire, à partir d une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et d analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d analyse de données symboliques. Une analyse des données dans SODAS (à l image du processus général explicité pages 5 et 6) suit les étapes suivantes :

17 a- Phase d acquisition des données : Partir d une base de données relationnelle (ORACLE, ACCESS ) ; Définir ensuite un contexte par : - Des unités statistiques de premier niveau (client, fournisseur, magasin de vente,...) ; - Les variables assez pertinentes qui les décrivent (pour client : age, région,...) ; - Des concepts (profils de clients, ventes, ). Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque magasin est associé à ses ventes). Ce contexte est défini par une requête sur la base de données relationnelle. Le tableau de données symboliques peut être construit, les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associées. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables et le choix de l utilisateur. b- Phase de fouille de données : Il est alors possible de créer un fichier d objets symboliques sur lequel une douzaine de méthodes d analyse de données symboliques peut déjà s appliquer (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques ). c- Phase de validation et de mise en forme : la phase de validation ne sera pas abordé dans cette étude.

18 3. Etude conceptuelle : Cette partie est consacrée à la présentation de la base de données choisie (tables relations et schéma relationnelle) ainsi que description des concepts retenus pour notre étude Description de la base de données choisie : La base de données «BdMusic» que nous avons choisi pour cette étude est implémentée sous Ms Access ; le schéma entité/association se présente tel que suit : - fig 02 : schéma entité/association de «BdMusic» - le schéma relationnel, quant à lui, est défini tel que suit : - tables associations: Chanteur (Chanteur_ID, nom, region_id, nationalite, date_naissance, nb_albums, recomp_chanteur) ; Album (album_id, nom, annee);

19 - tables relations : Chanson (Chanson_ID, titre, genre, duree, recomp_chanson, Chanteur_ID, Single_ID) ; Single (Single_ID, date_sortie, editeur, distributeur, vente, album_id); RegionChanteur (Region_chanteur, region, Pays_ID) ; PaysChanteur (Pays _ID, pays, Continent_ID) ; ContinentChanteur (Continent_ID, continent). Description des relations : Relation Description - Chanteur Individu caractérisé par des données d ordre personnel et quelques éléments concernant son activité professionnelle (nb_albums, recomp_chanteur). - Album Albums produits par les chanteurs. - Chanson Chansons interprétées et enregistrées par les chanteurs sur un single ou album. - Single Singles sortis séparément par les chanteurs - RegionChanteur Région d accueil du chanteur. - PaysChanteur Pays d accueil du chanteur (ou il exerce son activité professionnelle). ContinentChanteur Continent du pays chanteur. Dans le cadre de cette étude (et comme nous allons le voir dans la partie 3.2), nous aurons besoin d ajouter une table «Elem_Analyz_Chant» qui stockera les valeurs nécessaires à l analyse du profil des chanteurs par rapport à leur age, volume global de vente et ainsi que carrière (date dabut, date dernière activité calculées par rapport aux dates de sortie des single), estimation de leur fortune personnelle et genre musical des chanteurs et sera définie tel que suit : Elem_Analyz_C (Chanteur_ID_2, c_age, dat_premier_singl, dat_dernier_singl, vente_glob, c_genre, estim_fortune). Le nouveau schéma de la base se présente alors tel que suit

20 - fig 03 : nouveau schéma entité/association de «BdMusic» Nb : Notez que, dans un souci d optimisation et afin de mieux se conformer au concept de base de données, on aurait pu tout simplement créer de nouveaux attributs directement sur la table «chanteur» qui seront calculés tel que suit : - c_age = chanteur.date_courante chanteur.date_naissance si chanteur.envie=oui; chanteur.dat_deces chanteur.date_naissance si chanteur.envie = non. - dat_premier_singl = min (single.date_sortie). - dat_dernier_singl = max (single.dat_sortie). - vente_glob = libelle ( max ( count (nombre occurrences single.vente))). Si 02 éléments vente apparaissent le même nombre de fois, prendre la faible. - c_genre = genre si genre est toujours pratiqué (i-e : genre apparaît pour tous les singles sortis par le chanteur). Variable sinon.

21 D autres attributs ont été ajoutés fortuitement et qui sont : - estime_fortune : fortune estimée du chanteur. - annee_carriere : nombre d années d activités du chanteur dans le domaine de la chanson (en suppose que la carrière d un chanteur ne commence pas forcément à la sortie d un premier single car on peut lui supposer d autres formes d excercice de son métier : spectacles, concerts,...). Nous avons préféré au lieu de cela, de tout simplement créer une nouvelle table avec les attributs que l on vient de citer calculés de la me^me manière, ceci afin de ne pas altérer la structure générale de la table et donc, de la base de données Contexte et objectifs de l étude : L objectif de cette étude est d opérer une analyse de la carrière des individus «chanteurs» présents dans notre base de données selon le genre musical dans lequel ils versent ; à cet effet, nous avons retenus les éléments suivants : - Individus chanteurs : comme entité atomique ; il y a dans notre base de données «BdMusic» un total de 40 chanteur. - Variables de description : comme il nous a été demandé d en définir 8 (03 quantitatifs et 05 qualitatifs), nous avons retenu les éléments suivants : - éléments qualitatifs : vente_glob, c_genre, pays, nationalite, date_premier_singl, date_dernier_singl. - éléments quantitatifs : c_age, nb_albums, estim_fortune, annee_carriere. - Concepts : carrière des chanteurs en rapport au genre musical pratiqué, au nombre de 7 dans notre base de données actuelle : genre Variété française Variété internationale Pop Pop rock r n b Dance Bande originale variable Notons que, pour l obtention d un nombre de concepts plus important, il suffirait de croiser ces concepts avec d autres individus présents dans la base ou à définir ; exemple : un attribut modal : vivant/mort qui nous donnerait 7*2 concepts ; ou encore genre et tranches d age des chanteurs (<18 ans, ans, >40 ans) nous donnerait 7*3 concepts. Notons aussi que pour une bonne analyse, la base de données doit idéalement contenir des informations sur

22 les activités des chanteurs depuis le début de leur carrière. Le genre «variable» a été ajouté afin d exprimer le fait qu un chanteur puisse s adonner à plusieurs genres (notons que nous aurions pu dupliquer les apparitions de chanteurs dans les genres principaux). L objectif de l étude est de dessiner un profil de la carrière de nos chanteurs par rapport au genre musical pratiqué.

23 4. Mise en œuvre pratique de l analyse : Création des requêtes : La requête SQL suivante permet d extraire les données à utiliser dans notre analyse et qui sont de la forme : Individu/ concept/ variables descriptives. Select c.nom, e.c_genre, e.vente_glob, e.dat_premier_singl, e.dat_dernier_singl, p.pays, e.c_age, c.nationalite, c.nb_albums, e.estim_fortune From Chanteur as c, Elem_analyz_Chant as e, PaysChanteur as p, RegionChanteur as r Where ( e.chantur_id_2 = c.chanteur_id And c.region_id = r.region_id And r.pays_id = p.pays_id); La requête doit retourner une ligne pour chaque individu, chaque ligne ayant une structure sus et sous précisée : >> identifiant de l individu, groupe auquel appartient l individu (i-e : concept) et ensuite les différents attributs décrivant les individus.

24 4. 2. Extraction des données symboliques : Résultat de l exécution de la requête sur Access : Nom de la requête : «test»

25 Exécution sous Sodas : - visualisation du fichier après exécution de la requête Analyse par méthode SOE : Présentation de la méthode SOE : La méthode SOE permet à un utilisateur de visionner facilement dans un tableau tous les objets symboliques présents dans un fichier SODAS ainsi que d opérer quelques changements sur ces données. Ces changements sont par exemple la modification des libellés des objets, des modalités, des variables L éditeur fournit également la possibilité de visionner les objets symboliques sous une représentation graphique : l étoile zoom. L étoile zoom représente un objet symbolique. Cette représentation graphique en étoile zoom est basée sur des axes radiaux où chaque axe représente une variable. Le but de cette représentation est de fournir une image synthétique de l objet, un profil, et de comparer des profils entre eux.

26 Mise en œuvre de SOE et interprétation :

27 - visualisation des résultats sous l éditeur de SOE Interprétation : La méthode SOE va nous permettre de visualiser de façon graphique nos concepts. C est une manière intuitive de présenter le profil des chanteurs. Nous avons retenu ici tous les individus «chanteurs», Les représentations 2D et 3D que SODAS nous fournit ici présentent les premiers indices de similarité. En effet, on s aperçoit que 03 attributs dévoilent une dissimilarité entre les genres musicaux plutôt anciens (pop rock et variété française) et récents (r n b, voir dates premier et dernier single), il s agit de : age, vente globales et fortune des chanteurs dont on essaie de dessiner le profil ; en effet, on peut aisément voir que le style «r n b» regroupe des chanteurs d age assez jeune (vu que c est un style musical assez récent) allant de 22 à 38 contre 33 à 61 ans pour le style «variété française» et ans pour «pop rock» vu que c est un style plus ou moins récent ; que les chanteurs des catégories en question sont encore assez peu fortunés pour (r n b) contrairement aux chanteurs des 02 autres catégories (ce qui est en adèquation avec les tranches d ages) ; et si on jette un coup d œil sur les ventes, on se rend compte que les taux de ventes (ventes globales) des chanteurs r n b est presque aussi fort aux Etats-Unis que ceux de variété française dans les pays

28 francophones ou même pop rock dans les pays anglophones ; on en conclut donc que ce style très prisé et qu il y a des chances qu il concurrence les autres styles. Schématiquement, les résultats interprétés ci-dessus se présentent tel que suit : Représentation en étoile zoom «3D» :

29 Pour le concept «variété française» :

30 Pour le concept «pop rock» :

31 Pour le concept «r n b» :

32 Représentation en étoile zoom «2D» :

33

34 4. 4. Analyse par méthode PCM : Présentation de la méthode PCM : La méthode PCM correspond à l analyse en composantes principales classiques. Mais au lieu d obtenir une représentation par points sur un plan factoriel, la méthode PCM propose une visualisation de chaque concept par des rectangles. L objectif est d étudier l intensité des liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines. La méthode PCM est donc une méthode factorielle de réduction du nombre de caractères permettant des représentations géométriques des individus et des variables. La réduction se fait par la construction de nouveaux caractères synthétiques obtenus en combinant les variables initiales au moyen des «facteurs». Les éléments de la matrice de données sont des intervalles et chacun décrit la variation de la variable observée (minimum et maximum). La méthode n accepte que les variables continues. Pour chacune, l utilisateur choisit ainsi son maximum et son minimum Mise en œuvre de PCM et interprétation : Pour l application de la méthode PCM, nous avons retenu trois variables quantitative (age et nb_albums, estim_fortune) ; Notre requête SQL portera donc sur ces 03 éléments et se présente tel que suit : SELECT c.nom, e.c_genre, e.c_age, c.nb_albums, e.estim_fortune, e.annee_carriere FROM Chanteur AS c, Elem_analyz_Chant AS e WHERE ( e.chantur_id_2 = c. chanteur_id ); Nous aurions pu aussi identifier les éléments à intégrer dans notre étude sous TREE directement lors du paramétrage de la méthode en SODAS, les paramètres étant : c_age, nb_albums, estim_fortune, annee_carriere. Nous avons procédé de la sorte de manière à visualiser la matrice à étudier, les deux méthodes étant équivalentes.

35 Résultat sous Access : Nom de la requête : «test1»

36 Exécution sous SODAS :

37 Graphiquement, les résultats se présentent tel que suit : Avec pour axes factoriels PC1 et PC2 dont l inertie est I (PC1, PC2 ) = 24,06+40,67 65% ; PC1 = c_age ; PC2 = nombre d albums.

38

39 Matrix of input data: c_age nb_albums estim_fortune annee_carriere «pop rock» [29.00, 49.00] [2.00, 7.00] [1.00, 21.00] [1.00, 29.00] «variete francaise» [33.00, 61.00] [4.00, 58.00] [1.00, 24.00] [2.00, 40.00] «variable» [27.00, 46.00] [5.00, 13.00] [4.00, 40.00] [4.00, 11.00] «dance» [36.00, 36.00] [10.00, 10.00] [2.00, 2.00] [2.00, 2.00] «r n b» [23.00, 38.00] [2.00, 10.00] [2.00, 8.00] [3.00, 7.00] «variete internationale» [34.00, 41.00] [11.00, 14.00] [2.00, 8.00] [3.00, 7.00] «pop» [22.00, 30.00] [1.00, 4.00] [2.00, 12.00] [2.00, 4.00] Matrix Variance/Covariance : c_age nb_albums estim_fortune annee_carriere Correlations Matrix : c_age nb_albums estim_fortune annee_carriere Propers Values and inerty percentage: c_age= (40.67%) nb_albums= (16.89%) estim_fortune= (24.06%) annee_carriere= (18.38%) Factorials Descriptions of interval type upon axes: PC1,PC2,PC3,PC4 : «pop rock» [-1.31, 1.88] [-0.85, 1.41] [-1.01, 2.17] [-1.50, 0.65]

40 «variete francaise» [-0.96, 5.18] [-2.31, 1.58] [-2.91, 2.82] [-2.29, 2.86] «variable» [-1.08, 1.55] [-0.68, 2.87] [-1.33, 0.72] [-1.09, 1.00] «dance» [-0.53, -0.53] [-0.60, -0.60] [-0.28, -0.28] [-0.15, -0.15] «r n b» [-1.52, -0.02] [-0.64, 0.34] [-0.39, 0.66] [-0.66, 0.91] «variete internationale» [-0.55, 0.31] [-0.79, -0.07] [-0.59, 0.11] [-0.46, 0.28] «pop» [-1.67, -0.75] [-0.35, 0.71] [-0.17, 0.50] [-0.12, 0.70] Correlations Matrix, initiales Variables/principals components PC1...PC4 c_age nb_albums estim_fortune annee_carriere Interprétation : Tel qu on peut le voir sur le graphe, les concepts variété française et R N B (et aussi pop) se retrouvent encore une fois plus ou moins différenciées par rapport à l age et nb_albums qui représentent notre plan factoriel (voir résultats interprétation SOE) ; tandis que les autres concepts restent plus ou moins bien corrélés.

41 4. 5. Analyse par méthode TREE : Présentation de la méthode TREE : La méthode TREE propose un algorithme par agrandissement d arbre. Il s agit d une procédure récursive de partitionnement qui peut être vue comme une recherche itérative d un ensemble organisé d objets symboliques qui correspond le mieux aux données initiales. A chaque étape, le meilleur partitionnement est obtenu grâce à une mesure donnée en paramètre Mise en oeuvre de la méthode : Pour la méthode TREE, nous avons créé une classe moy_age ; d abord en SQL : SELECT c_genre, avg(c_age) AS moy_age FROM elem_analyz_chant GROUP BY c_genre; Puis, comme la requête précédente produit un résultat numérique et dans le but de l exploiter sous SODAS, nous avons créé une table (sous ACCESS) qui stocke les résultats de la requête au format text. Nous avons ainsi apporté les modifications suivantes : - Si Moy_age 0, on affecte : [-, 20] ; Si 20 <Moy_age< 30, on affecte : [20, 30] ; Si 30 < Moy_age < 40, on affecte : [30, 40] ; Si Moy_age 40, on affecte : [40,+] ; Exécution sous Access :

42

43 Tel que suggéré dans la section précédente, nous devons cette fois-ci recourir au paramétrage de la méthode TREE afin de spécifier les variables à expliquer par la variable classe «moy_age» avec comme paramètres : vente_glob, pays, nationalite. Interprétation : L étude du résultat (voir extrait page suivante) nous indique que la variable «nationalité» explique les deux autres, à savoir ventes globales et pays qui se résument dans les valeurs de la classe «moy_age» ; ainsi, lorsque nationalité se présente dans le vecteur [nationalite = ], i-e : Americain, australien ou canadien, on peut s attendre à avoir une moyenne d age pour les chanteurs qui est dans l intervalle [20,30], sinon dans l intervalle [30,40] (i -e : globalement un age assez jeune) ; ceci cadre bien avec nos résultats précédents (notamment en SOE) ou l on prédisait une forte corrélation entre age et vente_globale ainsi que age et pays (pour le concept r n b, on avait prédit une communauté de chanteurs à succès assez jeune de nationalité anglophone).

44 Exécution sous SODAS :...SPLITTING NODE: 1 VARIABLE : ( 6) nationalite SPLIT : ( 1=left node, 0=right node) MODALITIES BELONG LEFT NODE : ( 1) Americain ( 5) Australienne ( 6) Colombienne ( 7) Canadienne MODALITIES BELONG RIGHT NODE : ( 2) Americaine ( 3) Français ( 8) Anglais ( 9) Belge... PARAMETERS : Learning Set : 7 Number of variables : 3 Max. number of nodes: 3 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1.00 Frequency of test set : IF ASSERTION IS TRUE (up)! --- x [ ASSERTION ]! IF ASSERTION IS FALSE (down) < 2 >[30,40] ( )!!----1[ nationalite = ]! < 3 >[20,30] ( ) - extrait du fichier fichier\tree\ct4pc001.lst

45 Dans ce qui suit, nous allons présenter les méthodes PYR, DIV et STAT (regroupé car tiré du même fichier SDS) :

46 4. 6. Analyse par méthode PYR : Présentation de la méthode PYR : La méthode PYR est une classification pyramidale qui généralise la hiérarchisation en autorisant les classes non disjointes à un niveau donné. La pyramide constitue un modèle intermédiaire entre les arbres et les structures en treillis. Cette méthode permet de classer des données plus complexes que ce qu autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans une classification pyramidale, chaque classe formée est définie non seulement par une extension (l ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l intention de la classe). L intention est héritée d un prédécesseur vers son successeur et nous obtenons ainsi une structure d héritage. La structure d ordre permet l identification de concepts intermédiaires ; c'est-à-dire de concepts qui comblent un vide entre des classes bien identifiées. En entrée de cette méthode, l utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide. Ces variables peuvent être continues (des valeurs réelles), des intervalles de valeurs réelles ou bien des histogrammes. L utilisateur est invité à choisir entre des variables qualitatives et continues mais il lui est également possible de les mélanger Mise en œuvre de la méthode et interprétation: Comme paramètres d entrée, nous avons choisi, dans le premier cas (pyramide 1) : c_age, nb_albums et estim_fortune ; et dans le deuxième (pyramide 2) nous les avons réduit à deux afin d illustrer un degré d agrégation croissant avec la croissance des variables liées aux individus (plus le nombre de variables augmente, plus la pyramide s enrichit):

47 Interprétation : Reprenons encore une fois nos deux concepts «r n b» et «variété française» par rapport aux critères age, fortune et nb_albums, leur position sur la pyramide est assez éloigné, tandis que pop rock et r n b sont assez proches, ce qui vient nous conforter dans nos premières analyses issues des autres méthodes exposées précédemment (notamment en SOE et PCM ).

Montrer encore