DATAMINING. Etude et analyse de la carrière d artistes chanteurs selon leurs styles musicaux.
|
|
- Antonin Bouffard
- il y a 8 ans
- Total affichages :
Transcription
1 ABES Lila DEA 127 Informatique, systèmes multi-agents Université PARIS DAUPHINE DATAMINING Etude et analyse de la carrière d artistes chanteurs selon leurs styles musicaux. Professeur responsable : Présenté par : Mr. Edwin Diday. Melle Abes Lila. Promotion: 2004/2005
2 Sommaire 1. Introduction : Etat de l art : Définition du Data Mining : Domaine d utilisation et intérêt pratique : Phases générales de développement d un projet de Data Mining : Principaux logiciels : Positionnement et description de SODAS : Etude conceptuelle : Description de la base de données choisie : Contexte et objectifs de l étude : Mise en œuvre en pratique de l analyse : Création des requêtes : Extraction des données symboliques : Analyse par méthode SOE : Présentation de SOE : Mise en œuvre de SOE et interprétation: Analyse par méthode PCM : Présentation de PCM : Mise en œuvre de PCM et interprétation : Analyse par méthode TREE Présentation de TREE : en œuvre de TREE et interprétation : Analyse par méthode PYR : Présentation de PYR : en œuvre de PYR et interprétation : Analyse par méthode DIV : Présentation de DIV : en œuvre de DIV et interprétation : Analyse par méthode STAT : Présentation de STAT : en œuvre de STAT et interprétation : Conclusion :...47
3 1. Introduction Les activités de l homme, quel que soit le domaine de connaissance considéré, est avant tout basé sur un enrichissement continuel de ces mêmes connaissances qui matérialisent un continuum dans l axe d apprentissage qui conduit au peaufinement des actions entreprises le long du cycle de vie du système dans un but toujours plus optimiste (au sens optimisation). Concrètement, ceci conduit à la naissance de besoins croissants en matière d outils techniques et technologiques à mettre entre les mains de l acteur de ce système : accessibilité et maniabilité doivent en être les qualités primordiales. Paradoxalement à la croissance exponentielle de nos connaissances, l on observe une explosion des structures de représentation qui a amené à l apparition d un autre phénomène : l hétérogénéité des données du point de vue ensembliste. Concrètement, des questions du type : «comment extraire de nouvelles connaissances - plus élaborées - à partir de celles déjà acquises - plus atomiques -?» ou «comment filtrer les disparités pouvant apparaître sur des sources de connaissances hétérogènes, issues de cultures ou systèmes dénormalisés, lorsqu on a besoin de fusionner l ensemble?» deviennent de plus en plus pertinentes et des méthodes fiables doivent y apporter les éléments de réponse ; le «Data Mining» est l une de ces solutions. Dans le cadre de ce travail, nous nous consacrerons à approfondir les éléments soulevés par la première question par «l analyse des données symboliques».
4 2. Etat de l art : Définition du data Mining : «Data Mining» ou «Mining the Data» signifie littéralement «déduction de données» ; c est en fait le processus par lequel des requêtes variées sont posées sur des données brutes afin d en extraire des informations utiles et plus élaborées, ces données sont éventuellement stockées dans des bases de données et représente un volume assez important pour que l information soit pertinente. Le but du Data Mining se manifeste surtout dans les grandes fonctions de l entreprise et aide à suppléer ses activités stratégiques à long terme par l ébauche (à partir des données modélisant les connaissances ou «mémoire» de l entreprise) de scénarios futurs à partir des faits et expériences passées et détection de comportements anormaux afin de prendre les mesures à temps. Plusieurs techniques sont employées pour l implémentation d un outil «Data Mining» ; le schéma suivant démontre un croisement inter disciplines tel les statistiques, l analyse de données, l intelligence artificielle la recherche opérationnelle et la logique, ainsi que bien évidemment l informatique (SGBD, algorithmique,...) : régression linéaire Domaine de la Statistique et analyse de données multidimensionnelles analyse multi valuée analyse en composantes principales réseaux de neurones Domaine de l IA Data Mining arbres décisionnels Domaine de la logique et RO - fig 01 : outils techniques du Data Minig -
5 2. 2. Domaine d utilisation et intérêt pratique : Les bases de données ou les entrepôts de données, atteignent des volumes de plusieurs tera-octets (1 tera-octet = octets). Les grandes compagnies, comme EDF, France Telecom ou SFR, collectent annuellement plusieurs tera-octets de données relatives aux consommations de leurs clients. Dans un monde de concurrence sévère, chez les grands opérateurs téléphoniques par exemple, la connaissance des clients et de leurs comportements permet de mieux anticiper ceux qui risquent de passer chez un concurrent et de mieux adapter les opérations commerciales pour tenter de les garder. L une des grandes difficultés est de savoir comment extraire ce profil dans un si grand amas de données. Le data mining offre, entre autres, les moyens d analyse pour chercher s il existe un profil comportemental typique des clients qui changent de fournisseurs. L entreprise pourra ainsi repérer plus facilement, parmi ses clients, lesquels ont le profil pour partir vers la concurrence afin de tenter, par des actions commerciales ad hoc, de les garder. Les domaines d utilisation du Data Mining tel que nous pouvons facilement le constater par simple refléxion - sont très variés ; néanmoins, ils peuvent être répartis en 03 grandes catégories : - problèmes de classification : «trouver des règles pour le partitionnement des données en groupes homogènes fortement corrélés?» ; par exemple : répartition des clients selon certains profils dans un but d étude de marché pour l amélioration des ventes. - problèmes d association : «trouver des règles pour établir des associations entre collections de données?» ; toujours dans le même ordre d idée, trouver une (des) relation (s) entre les clients et les produits achetés pour un renforcement des stratégies de communication. - problèmes de séquencement : «trouver des règles pour ordonner des collections de données selon certains critères?» ; autre exemple : trouver des critères assez pertinents pour classer les clients dans une échelle modélisant les répercussions des effets d opérations marketing (client facile, client difficile). - détection de comportements anormaux ; par exemple : clientèle ne répondant à aucun stimulus marketing. Bien évidemment, il serait illusoire de croire que le Data Mining à lui seul (bien que faisant appel à plusieurs domaines de connaissance) pourrait résoudre tous les problèmes liés aux organisations ; et quand bien même ce serait le cas, la discipline est encore jeune et s inscrit dans la logique d évolution des systèmes d information ; néanmoins,
6 l utilisation du Data Mining a déjà fait ses preuves. Du fait même du besoin ayant conduit à son apparition, les résultats décelés peuvent se révéler déterminants dans les domaines des : - marketing, ventes et détection de fraude. - navigation sur Internet, audit de compte, contrôle de qualité et optimisation de processus organisationnels. En pratique, les plus grandes applications du Data Mining sont entre autres : a- La gestion de relation client : Dans un contexte concurrentiel de plus en plus soutenu, la capacité à conquérir et à retenir les clients repose sur une connaissance fine de leurs besoins et de leur comportement de consommateurs, d utilisateurs et d acheteurs. Créer et maintenir une relation de plus en plus personnalisée, à partir d un produit de plus en plus standardisé, est un facteur clé de succès pour les produits et services de grande consommation. Pour cela, il faut bien connaître ses clients. Les études de marché réalisées selon les méthodes classiques sont longues à mettre en œuvre, pour des résultats toujours sujets à caution en raison de la taille des échantillons pratiqués. L entreprise dispose pourtant d informations sur ses clients et leurs habitudes de consommation. Au sein de la gestion de relation client, ou customer relationship management (CRM), on peut distinguer trois dimensions : - Le CRM opérationnel concerne la gestion des relations avec les clients, qui constituent le front office du dispositif. Le CRM opérationnel permet d emmagasiner des informations permettant une connaissance approfondie des clients, et dont le stockage est désormais rendu possible par les technologies de data warehouse. - Le CRM analytique consiste en l exploitation des bases de données créées par l entreprise sur ses clients. C est à ce stade qu entrent en jeu les techniques de data mining. - Le CRM collaboratif vise à intégrer des outils communiquant dans les dispositifs de front office, afin d optimiser les échanges d informations dans la gestion quotidienne des activités commerciales. Toutes les entreprises, notamment de la grande distribution où la concurrence est forte, mettent en place des structures pour le CRM analytique. Les objectifs des analyses en data mining sont multiples : segmentation de la clientèle, fidélisation de la clientèle, organisation de rayons de magasins, etc.
7 b- L aide à la décision dans les processus industriels : L automatisation est l un des meilleurs facteurs d augmentation de la productivité. Les industriels, notamment dans la surveillance, le diagnostic et la maintenance des unités de production ont depuis longtemps fait appel aux méthodes de la statistique et de la modélisation. Il est donc naturel pour cette activité d incorporer le data mining pour mieux analyser les pannes ou organiser les ateliers. c- La génomique : Toute espèce vivante, animale ou végétale est composée de cellules. L homme en possède quelques (cent mille millions de milliard). Chaque cellule contient la totalité du génome, c est-à-dire tout ce qui forme l identité biologique de l individu, son patrimoine génétique. Toutes les cellules d un même individu contiennent ainsi la même copie du génome. Le génome de toutes les espèces est formé d une succession de quatre bases chimiques désignées par les lettres A, C, T et G. L alignement de ces bases, qui forment la molécule d ADN, peut être vu comme un texte écrit dans un alphabet de 4 lettres (A,C,T et G). Le nombre de lettres présentes dans le génome humain est de 3 milliards environs. Si on devait transcrire le code génétique d une personne sur du papier en y reportant la succession de lettres présentes sur son génome, il nous faudrait plus de 2 millions de pages comme celle ci. C est grâce à ce code génétique que les cellules se divisent, se multiplient et se spécialisent pour donner naissance à ces organes aussi divers que le cœur, les poumons ou le cerveau. Les maladies génétiques sont directement liées à la manière dont ces textes sont écrits. Le code génétique de l homme, maintenant entièrement transcrit, est même disponible en accès libre sur Internet. Celui d autres espèces est en cours de décodage. La compréhension de ce message de plusieurs millions de codes donne de nouvelles perspectives à la recherche médicale. Le décodage du génome des plantes ouvre de nouvelles perspectives dans le domaine de l agriculture. L exploitation de bases de données génomiques ne peut s envisager sans le data mining Phases générales de développement d un projet de Data Mining : Tout projet de développement d un Data Mining doit se conformer à un squelette général dans lequel sont organisées les étapes du projet, qui peuvent éventuellement s adapter au type du Data Mining et outils mis en œuvre : a- Phase d acquisition des données : La phase d acquisition vise à cibler, même de façon grossière, l espace des données qui va être exploré à partir de bases de données stockant des données locales ou distantes, homogènes ou hétérogènes, structurées ou semi structurées et de types différents. L acquisition met en œuvre des requêtes ad hoc pour
8 rapatrier les données potentiellement utiles selon le point de vue de l expert, soit e utilisant des moteurs de requêtes de bases de données comme le langage SQL. L acquisition peut aussi se faire à travers des outils de requêtes plus spécifiques aux données non structurées comme les données textuelles, les images ou le web, faisant pour cela appel à des moteurs de recherche d informations et d images auxquelles ils accèdent par le contenu. Une fois de pré numérisation est aussi parfois nécessaire dans le cas ou les techniques utilisées utilisent des données absolument numériques (par exemple par discrétisation de variables continues en intervalles connus, d associer des valeurs qualitatives peu, moyen, fort en entiers -0, 1, 2-. b- Phase de fouille de données : La fouille de données concerne le Data Mining dans son sens restreint et est au cœur du processus, c est la phase pendant laquelle les données fouillées par les méthodes appropriées donnent les résultats escomptés dans la visualisation appropriée (tableau, histogrammes,...). c- Phase de validation et de mise en forme : Les modèles extraits ne peuvent être utilisés directement en toute fiabilité. Nous devons les évaluer, c est-à-dire les soumettre à l épreuve de la réalité et apprécier leur justesse. Le procédé habituel consiste à estimer au mieux le taux d erreur du modèle par une fonction prédéfinie. Ainsi, l utilisateur décidera d appliquer ou non le modèle de prédiction en connaissance des risques qu il prend, il choisira en toute logique le modèle comportement le plus faible risque d erreurs Principaux logiciels : L offre d outils de Data Mining est aujourd hui pléthorique. Rien qu en faisant une recherche sur Internet avec les mots clés «software» et «data mining», il faudrait plusieurs jours pour dépouiller manuellement les résultats, signe de l importance prise par ce domaine. L offre de logiciels de Data Mining provient des principaux et gros constructeurs de logiciels, notamment de ceux qui proposent des systèmes de gestion de bases de données comme IBM avec Intelligent Miner, Oracle avec Darwin ou MicroSoft qui développe un environnement de Data Mining autour de SQL Server. Sur ce marché sont également présent les constructeurs de logiciels classiques de statistique comme SAS ou SPSS pour ne citer que ces deux. De nombreuses entreprises plus jeunes ont réussi sur ce marché. Le plus spectaculaire est sans doute «Business Object». Certains constructeurs se sont positionnés sur des segments spécifiques comme le web ou le texte par exemple. D autres, proposent davantage des solutions métiers, notamment pour la Gestion de la Relation Client (CRM).
9 Un mouvement de concentration important des éditeurs a eu lieu, et des produits phares du Data Mining sont apparus, répartis en quatre catégories en fonction de leurs origines, des méthodes qu ils implémentent (graphes décisionnels, méthodes d analyse de données, et autres), de leur éditeur et de leur prix. a- Les catégorie «poids lourds» : commercialisés sous licence et destinés au développement d applications en entreprise tel que : Intelligent Miner (IBM), SAS Entreprise Miner, Decision Series (NeoVista), Mineset (Silicon Graphics), Tera Miner (NCR). b- Les catégorie «outils intermédiaires» : AC2, Knowledge Seeker, Alice Pro, Kate, Netral, 4Thought. c- Les catégorie «outils pour PC de bureau» : destinés à des applications à caractère personnel de petite et moyenne envergures, tel : Scenario, Business Miner, Answer Tree, Previa Diamond. d- Les catégories «suites statistiques évolutives» : on peut citer en exemple : SPAD, Smart Miner, Knowlbox. e- Les catégories «logiciels gratuits /open source» : logiciels académiques inscrits dans le cadre de recherches scientifiques : Yale, Sipina research, Weka 3, Tanagra, ainsi que SODAS que nous allons décrire ci-dessous Positionnement et description de SODAS : Il s agit d un logiciel prototype public (catégorie e) apte à analyser des données symboliques et s appuyant sur des techniques d analyse de données multidimensionnelles (Page 2). Le logiciel SODAS est issu d un projet d EUROSTAT portant le même nom. Ce logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans le domaine de l analyse des données symboliques. L idée générale de ce projet est de construire, à partir d une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et d analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d analyse de données symboliques. Une analyse des données dans SODAS (à l image du processus général explicité pages 5 et 6) suit les étapes suivantes :
10 a- Phase d acquisition des données : Partir d une base de données relationnelle (ORACLE, ACCESS ) ; Définir ensuite un contexte par : - Des unités statistiques de premier niveau (client, fournisseur, magasin de vente,...) ; - Les variables assez pertinentes qui les décrivent (pour client : age, région,...) ; - Des concepts (profils de clients, ventes, ). Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque magasin est associé à ses ventes). Ce contexte est défini par une requête sur la base de données relationnelle. Le tableau de données symboliques peut être construit, les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associées. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables et le choix de l utilisateur. b- Phase de fouille de données : Il est alors possible de créer un fichier d objets symboliques sur lequel une douzaine de méthodes d analyse de données symboliques peut déjà s appliquer (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques ). c- Phase de validation et de mise en forme : la phase de validation ne sera pas abordé dans cette étude.
11 3. Etat de l art : Définition du data Mining : «Data Mining» ou «Mining the Data» signifie littéralement «déduction de données» ; c est en fait le processus par lequel des requêtes variées sont posées sur des données brutes afin d en extraire des informations utiles et plus élaborées, ces données sont éventuellement stockées dans des bases de données et représente un volume assez important pour que l information soit pertinente. Le but du Data Mining se manifeste surtout dans les grandes fonctions de l entreprise et aide à suppléer ses activités stratégiques à long terme par l ébauche (à partir des données modélisant les connaissances ou «mémoire» de l entreprise) de scénarios futurs à partir des faits et expériences passées et détection de comportements anormaux afin de prendre les mesures à temps. Plusieurs techniques sont employées pour l implémentation d un outil «Data Mining» ; le schéma suivant démontre un croisement inter disciplines tel les statistiques, l analyse de données, l intelligence artificielle la recherche opérationnelle et la logique, ainsi que bien évidemment l informatique (SGBD, algorithmique,...) : régression linéaire Domaine de la Statistique et analyse de données multidimensionnelles analyse multi valuée analyse en composantes principales réseaux de neurones Domaine de l IA Data Mining arbres décisionnels Domaine de la logique et RO - fig 01 : outils techniques du Data Minig -
12 3. 2. Domaine d utilisation et intérêt pratique : Les bases de données ou les entrepôts de données, atteignent des volumes de plusieurs tera-octets (1 tera-octet = octets). Les grandes compagnies, comme EDF, France Telecom ou SFR, collectent annuellement plusieurs tera-octets de données relatives aux consommations de leurs clients. Dans un monde de concurrence sévère, chez les grands opérateurs téléphoniques par exemple, la connaissance des clients et de leurs comportements permet de mieux anticiper ceux qui risquent de passer chez un concurrent et de mieux adapter les opérations commerciales pour tenter de les garder. L une des grandes difficultés est de savoir comment extraire ce profil dans un si grand amas de données. Le data mining offre, entre autres, les moyens d analyse pour chercher s il existe un profil comportemental typique des clients qui changent de fournisseurs. L entreprise pourra ainsi repérer plus facilement, parmi ses clients, lesquels ont le profil pour partir vers la concurrence afin de tenter, par des actions commerciales ad hoc, de les garder. Les domaines d utilisation du Data Mining tel que nous pouvons facilement le constater par simple refléxion - sont très variés ; néanmoins, ils peuvent être répartis en 03 grandes catégories : - problèmes de classification : «trouver des règles pour le partitionnement des données en groupes homogènes fortement corrélés?» ; par exemple : répartition des clients selon certains profils dans un but d étude de marché pour l amélioration des ventes. - problèmes d association : «trouver des règles pour établir des associations entre collections de données?» ; toujours dans le même ordre d idée, trouver une (des) relation (s) entre les clients et les produits achetés pour un renforcement des stratégies de communication. - problèmes de séquencement : «trouver des règles pour ordonner des collections de données selon certains critères?» ; autre exemple : trouver des critères assez pertinents pour classer les clients dans une échelle modélisant les répercussions des effets d opérations marketing (client facile, client difficile). - détection de comportements anormaux ; par exemple : clientèle ne répondant à aucun stimulus marketing. Bien évidemment, il serait illusoire de croire que le Data Mining à lui seul (bien que faisant appel à plusieurs domaines de connaissance) pourrait résoudre tous les problèmes liés aux organisations ; et quand bien même ce serait le cas, la discipline est encore jeune et s inscrit dans la logique d évolution des systèmes d information ; néanmoins,
13 l utilisation du Data Mining a déjà fait ses preuves. Du fait même du besoin ayant conduit à son apparition, les résultats décelés peuvent se révéler déterminants dans les domaines des : - marketing, ventes et détection de fraude. - navigation sur Internet, audit de compte, contrôle de qualité et optimisation de processus organisationnels. En pratique, les plus grandes applications du Data Mining sont entre autres : a- La gestion de relation client : Dans un contexte concurrentiel de plus en plus soutenu, la capacité à conquérir et à retenir les clients repose sur une connaissance fine de leurs besoins et de leur comportement de consommateurs, d utilisateurs et d acheteurs. Créer et maintenir une relation de plus en plus personnalisée, à partir d un produit de plus en plus standardisé, est un facteur clé de succès pour les produits et services de grande consommation. Pour cela, il faut bien connaître ses clients. Les études de marché réalisées selon les méthodes classiques sont longues à mettre en œuvre, pour des résultats toujours sujets à caution en raison de la taille des échantillons pratiqués. L entreprise dispose pourtant d informations sur ses clients et leurs habitudes de consommation. Au sein de la gestion de relation client, ou customer relationship management (CRM), on peut distinguer trois dimensions : - Le CRM opérationnel concerne la gestion des relations avec les clients, qui constituent le front office du dispositif. Le CRM opérationnel permet d emmagasiner des informations permettant une connaissance approfondie des clients, et dont le stockage est désormais rendu possible par les technologies de data warehouse. - Le CRM analytique consiste en l exploitation des bases de données créées par l entreprise sur ses clients. C est à ce stade qu entrent en jeu les techniques de data mining. - Le CRM collaboratif vise à intégrer des outils communiquant dans les dispositifs de front office, afin d optimiser les échanges d informations dans la gestion quotidienne des activités commerciales. Toutes les entreprises, notamment de la grande distribution où la concurrence est forte, mettent en place des structures pour le CRM analytique. Les objectifs des analyses en data mining sont multiples : segmentation de la clientèle, fidélisation de la clientèle, organisation de rayons de magasins, etc.
14 b- L aide à la décision dans les processus industriels : L automatisation est l un des meilleurs facteurs d augmentation de la productivité. Les industriels, notamment dans la surveillance, le diagnostic et la maintenance des unités de production ont depuis longtemps fait appel aux méthodes de la statistique et de la modélisation. Il est donc naturel pour cette activité d incorporer le data mining pour mieux analyser les pannes ou organiser les ateliers. c- La génomique : Toute espèce vivante, animale ou végétale est composée de cellules. L homme en possède quelques (cent mille millions de milliard). Chaque cellule contient la totalité du génome, c est-à-dire tout ce qui forme l identité biologique de l individu, son patrimoine génétique. Toutes les cellules d un même individu contiennent ainsi la même copie du génome. Le génome de toutes les espèces est formé d une succession de quatre bases chimiques désignées par les lettres A, C, T et G. L alignement de ces bases, qui forment la molécule d ADN, peut être vu comme un texte écrit dans un alphabet de 4 lettres (A,C,T et G). Le nombre de lettres présentes dans le génome humain est de 3 milliards environs. Si on devait transcrire le code génétique d une personne sur du papier en y reportant la succession de lettres présentes sur son génome, il nous faudrait plus de 2 millions de pages comme celle ci. C est grâce à ce code génétique que les cellules se divisent, se multiplient et se spécialisent pour donner naissance à ces organes aussi divers que le cœur, les poumons ou le cerveau. Les maladies génétiques sont directement liées à la manière dont ces textes sont écrits. Le code génétique de l homme, maintenant entièrement transcrit, est même disponible en accès libre sur Internet. Celui d autres espèces est en cours de décodage. La compréhension de ce message de plusieurs millions de codes donne de nouvelles perspectives à la recherche médicale. Le décodage du génome des plantes ouvre de nouvelles perspectives dans le domaine de l agriculture. L exploitation de bases de données génomiques ne peut s envisager sans le data mining Phases générales de développement d un projet de Data Mining : Tout projet de développement d un Data Mining doit se conformer à un squelette général dans lequel sont organisées les étapes du projet, qui peuvent éventuellement s adapter au type du Data Mining et outils mis en œuvre : a- Phase d acquisition des données : La phase d acquisition vise à cibler, même de façon grossière, l espace des données qui va être exploré à partir de bases de données stockant des données locales ou distantes, homogènes ou hétérogènes, structurées ou semi structurées et de types différents. L acquisition met en œuvre des requêtes ad hoc pour
15 rapatrier les données potentiellement utiles selon le point de vue de l expert, soit e utilisant des moteurs de requêtes de bases de données comme le langage SQL. L acquisition peut aussi se faire à travers des outils de requêtes plus spécifiques aux données non structurées comme les données textuelles, les images ou le web, faisant pour cela appel à des moteurs de recherche d informations et d images auxquelles ils accèdent par le contenu. Une fois de pré numérisation est aussi parfois nécessaire dans le cas ou les techniques utilisées utilisent des données absolument numériques (par exemple par discrétisation de variables continues en intervalles connus, d associer des valeurs qualitatives peu, moyen, fort en entiers -0, 1, 2-. b- Phase de fouille de données : La fouille de données concerne le Data Mining dans son sens restreint et est au cœur du processus, c est la phase pendant laquelle les données fouillées par les méthodes appropriées donnent les résultats escomptés dans la visualisation appropriée (tableau, histogrammes,...). c- Phase de validation et de mise en forme : Les modèles extraits ne peuvent être utilisés directement en toute fiabilité. Nous devons les évaluer, c est-à-dire les soumettre à l épreuve de la réalité et apprécier leur justesse. Le procédé habituel consiste à estimer au mieux le taux d erreur du modèle par une fonction prédéfinie. Ainsi, l utilisateur décidera d appliquer ou non le modèle de prédiction en connaissance des risques qu il prend, il choisira en toute logique le modèle comportement le plus faible risque d erreurs Principaux logiciels : L offre d outils de Data Mining est aujourd hui pléthorique. Rien qu en faisant une recherche sur Internet avec les mots clés «software» et «data mining», il faudrait plusieurs jours pour dépouiller manuellement les résultats, signe de l importance prise par ce domaine. L offre de logiciels de Data Mining provient des principaux et gros constructeurs de logiciels, notamment de ceux qui proposent des systèmes de gestion de bases de données comme IBM avec Intelligent Miner, Oracle avec Darwin ou MicroSoft qui développe un environnement de Data Mining autour de SQL Server. Sur ce marché sont également présent les constructeurs de logiciels classiques de statistique comme SAS ou SPSS pour ne citer que ces deux. De nombreuses entreprises plus jeunes ont réussi sur ce marché. Le plus spectaculaire est sans doute «Business Object». Certains constructeurs se sont positionnés sur des segments spécifiques comme le web ou le texte par exemple. D autres, proposent davantage des solutions métiers, notamment pour la Gestion de la Relation Client (CRM).
16 Un mouvement de concentration important des éditeurs a eu lieu, et des produits phares du Data Mining sont apparus, répartis en quatre catégories en fonction de leurs origines, des méthodes qu ils implémentent (graphes décisionnels, méthodes d analyse de données, et autres), de leur éditeur et de leur prix. a- Les catégorie «poids lourds» : commercialisés sous licence et destinés au développement d applications en entreprise tel que : Intelligent Miner (IBM), SAS Entreprise Miner, Decision Series (NeoVista), Mineset (Silicon Graphics), Tera Miner (NCR). b- Les catégorie «outils intermédiaires» : AC2, Knowledge Seeker, Alice Pro, Kate, Netral, 4Thought. c- Les catégorie «outils pour PC de bureau» : destinés à des applications à caractère personnel de petite et moyenne envergures, tel : Scenario, Business Miner, Answer Tree, Previa Diamond. d- Les catégories «suites statistiques évolutives» : on peut citer en exemple : SPAD, Smart Miner, Knowlbox. e- Les catégories «logiciels gratuits /open source» : logiciels académiques inscrits dans le cadre de recherches scientifiques : Yale, Sipina research, Weka 3, Tanagra, ainsi que SODAS que nous allons décrire ci-dessous Positionnement et description de SODAS : Il s agit d un logiciel prototype public (catégorie e) apte à analyser des données symboliques et s appuyant sur des techniques d analyse de données multidimensionnelles (Page 2). Le logiciel SODAS est issu d un projet d EUROSTAT portant le même nom. Ce logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans le domaine de l analyse des données symboliques. L idée générale de ce projet est de construire, à partir d une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et d analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d analyse de données symboliques. Une analyse des données dans SODAS (à l image du processus général explicité pages 5 et 6) suit les étapes suivantes :
17 a- Phase d acquisition des données : Partir d une base de données relationnelle (ORACLE, ACCESS ) ; Définir ensuite un contexte par : - Des unités statistiques de premier niveau (client, fournisseur, magasin de vente,...) ; - Les variables assez pertinentes qui les décrivent (pour client : age, région,...) ; - Des concepts (profils de clients, ventes, ). Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque magasin est associé à ses ventes). Ce contexte est défini par une requête sur la base de données relationnelle. Le tableau de données symboliques peut être construit, les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associées. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables et le choix de l utilisateur. b- Phase de fouille de données : Il est alors possible de créer un fichier d objets symboliques sur lequel une douzaine de méthodes d analyse de données symboliques peut déjà s appliquer (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques ). c- Phase de validation et de mise en forme : la phase de validation ne sera pas abordé dans cette étude.
18 3. Etude conceptuelle : Cette partie est consacrée à la présentation de la base de données choisie (tables relations et schéma relationnelle) ainsi que description des concepts retenus pour notre étude Description de la base de données choisie : La base de données «BdMusic» que nous avons choisi pour cette étude est implémentée sous Ms Access ; le schéma entité/association se présente tel que suit : - fig 02 : schéma entité/association de «BdMusic» - le schéma relationnel, quant à lui, est défini tel que suit : - tables associations: Chanteur (Chanteur_ID, nom, region_id, nationalite, date_naissance, nb_albums, recomp_chanteur) ; Album (album_id, nom, annee);
19 - tables relations : Chanson (Chanson_ID, titre, genre, duree, recomp_chanson, Chanteur_ID, Single_ID) ; Single (Single_ID, date_sortie, editeur, distributeur, vente, album_id); RegionChanteur (Region_chanteur, region, Pays_ID) ; PaysChanteur (Pays _ID, pays, Continent_ID) ; ContinentChanteur (Continent_ID, continent). Description des relations : Relation Description - Chanteur Individu caractérisé par des données d ordre personnel et quelques éléments concernant son activité professionnelle (nb_albums, recomp_chanteur). - Album Albums produits par les chanteurs. - Chanson Chansons interprétées et enregistrées par les chanteurs sur un single ou album. - Single Singles sortis séparément par les chanteurs - RegionChanteur Région d accueil du chanteur. - PaysChanteur Pays d accueil du chanteur (ou il exerce son activité professionnelle). ContinentChanteur Continent du pays chanteur. Dans le cadre de cette étude (et comme nous allons le voir dans la partie 3.2), nous aurons besoin d ajouter une table «Elem_Analyz_Chant» qui stockera les valeurs nécessaires à l analyse du profil des chanteurs par rapport à leur age, volume global de vente et ainsi que carrière (date dabut, date dernière activité calculées par rapport aux dates de sortie des single), estimation de leur fortune personnelle et genre musical des chanteurs et sera définie tel que suit : Elem_Analyz_C (Chanteur_ID_2, c_age, dat_premier_singl, dat_dernier_singl, vente_glob, c_genre, estim_fortune). Le nouveau schéma de la base se présente alors tel que suit
20 - fig 03 : nouveau schéma entité/association de «BdMusic» Nb : Notez que, dans un souci d optimisation et afin de mieux se conformer au concept de base de données, on aurait pu tout simplement créer de nouveaux attributs directement sur la table «chanteur» qui seront calculés tel que suit : - c_age = chanteur.date_courante chanteur.date_naissance si chanteur.envie=oui; chanteur.dat_deces chanteur.date_naissance si chanteur.envie = non. - dat_premier_singl = min (single.date_sortie). - dat_dernier_singl = max (single.dat_sortie). - vente_glob = libelle ( max ( count (nombre occurrences single.vente))). Si 02 éléments vente apparaissent le même nombre de fois, prendre la faible. - c_genre = genre si genre est toujours pratiqué (i-e : genre apparaît pour tous les singles sortis par le chanteur). Variable sinon.
21 D autres attributs ont été ajoutés fortuitement et qui sont : - estime_fortune : fortune estimée du chanteur. - annee_carriere : nombre d années d activités du chanteur dans le domaine de la chanson (en suppose que la carrière d un chanteur ne commence pas forcément à la sortie d un premier single car on peut lui supposer d autres formes d excercice de son métier : spectacles, concerts,...). Nous avons préféré au lieu de cela, de tout simplement créer une nouvelle table avec les attributs que l on vient de citer calculés de la me^me manière, ceci afin de ne pas altérer la structure générale de la table et donc, de la base de données Contexte et objectifs de l étude : L objectif de cette étude est d opérer une analyse de la carrière des individus «chanteurs» présents dans notre base de données selon le genre musical dans lequel ils versent ; à cet effet, nous avons retenus les éléments suivants : - Individus chanteurs : comme entité atomique ; il y a dans notre base de données «BdMusic» un total de 40 chanteur. - Variables de description : comme il nous a été demandé d en définir 8 (03 quantitatifs et 05 qualitatifs), nous avons retenu les éléments suivants : - éléments qualitatifs : vente_glob, c_genre, pays, nationalite, date_premier_singl, date_dernier_singl. - éléments quantitatifs : c_age, nb_albums, estim_fortune, annee_carriere. - Concepts : carrière des chanteurs en rapport au genre musical pratiqué, au nombre de 7 dans notre base de données actuelle : genre Variété française Variété internationale Pop Pop rock r n b Dance Bande originale variable Notons que, pour l obtention d un nombre de concepts plus important, il suffirait de croiser ces concepts avec d autres individus présents dans la base ou à définir ; exemple : un attribut modal : vivant/mort qui nous donnerait 7*2 concepts ; ou encore genre et tranches d age des chanteurs (<18 ans, ans, >40 ans) nous donnerait 7*3 concepts. Notons aussi que pour une bonne analyse, la base de données doit idéalement contenir des informations sur
22 les activités des chanteurs depuis le début de leur carrière. Le genre «variable» a été ajouté afin d exprimer le fait qu un chanteur puisse s adonner à plusieurs genres (notons que nous aurions pu dupliquer les apparitions de chanteurs dans les genres principaux). L objectif de l étude est de dessiner un profil de la carrière de nos chanteurs par rapport au genre musical pratiqué.
23 4. Mise en œuvre pratique de l analyse : Création des requêtes : La requête SQL suivante permet d extraire les données à utiliser dans notre analyse et qui sont de la forme : Individu/ concept/ variables descriptives. Select c.nom, e.c_genre, e.vente_glob, e.dat_premier_singl, e.dat_dernier_singl, p.pays, e.c_age, c.nationalite, c.nb_albums, e.estim_fortune From Chanteur as c, Elem_analyz_Chant as e, PaysChanteur as p, RegionChanteur as r Where ( e.chantur_id_2 = c.chanteur_id And c.region_id = r.region_id And r.pays_id = p.pays_id); La requête doit retourner une ligne pour chaque individu, chaque ligne ayant une structure sus et sous précisée : >> identifiant de l individu, groupe auquel appartient l individu (i-e : concept) et ensuite les différents attributs décrivant les individus.
24 4. 2. Extraction des données symboliques : Résultat de l exécution de la requête sur Access : Nom de la requête : «test»
25 Exécution sous Sodas : - visualisation du fichier après exécution de la requête Analyse par méthode SOE : Présentation de la méthode SOE : La méthode SOE permet à un utilisateur de visionner facilement dans un tableau tous les objets symboliques présents dans un fichier SODAS ainsi que d opérer quelques changements sur ces données. Ces changements sont par exemple la modification des libellés des objets, des modalités, des variables L éditeur fournit également la possibilité de visionner les objets symboliques sous une représentation graphique : l étoile zoom. L étoile zoom représente un objet symbolique. Cette représentation graphique en étoile zoom est basée sur des axes radiaux où chaque axe représente une variable. Le but de cette représentation est de fournir une image synthétique de l objet, un profil, et de comparer des profils entre eux.
26 Mise en œuvre de SOE et interprétation :
27 - visualisation des résultats sous l éditeur de SOE Interprétation : La méthode SOE va nous permettre de visualiser de façon graphique nos concepts. C est une manière intuitive de présenter le profil des chanteurs. Nous avons retenu ici tous les individus «chanteurs», Les représentations 2D et 3D que SODAS nous fournit ici présentent les premiers indices de similarité. En effet, on s aperçoit que 03 attributs dévoilent une dissimilarité entre les genres musicaux plutôt anciens (pop rock et variété française) et récents (r n b, voir dates premier et dernier single), il s agit de : age, vente globales et fortune des chanteurs dont on essaie de dessiner le profil ; en effet, on peut aisément voir que le style «r n b» regroupe des chanteurs d age assez jeune (vu que c est un style musical assez récent) allant de 22 à 38 contre 33 à 61 ans pour le style «variété française» et ans pour «pop rock» vu que c est un style plus ou moins récent ; que les chanteurs des catégories en question sont encore assez peu fortunés pour (r n b) contrairement aux chanteurs des 02 autres catégories (ce qui est en adèquation avec les tranches d ages) ; et si on jette un coup d œil sur les ventes, on se rend compte que les taux de ventes (ventes globales) des chanteurs r n b est presque aussi fort aux Etats-Unis que ceux de variété française dans les pays
28 francophones ou même pop rock dans les pays anglophones ; on en conclut donc que ce style très prisé et qu il y a des chances qu il concurrence les autres styles. Schématiquement, les résultats interprétés ci-dessus se présentent tel que suit : Représentation en étoile zoom «3D» :
29 Pour le concept «variété française» :
30 Pour le concept «pop rock» :
31 Pour le concept «r n b» :
32 Représentation en étoile zoom «2D» :
33
34 4. 4. Analyse par méthode PCM : Présentation de la méthode PCM : La méthode PCM correspond à l analyse en composantes principales classiques. Mais au lieu d obtenir une représentation par points sur un plan factoriel, la méthode PCM propose une visualisation de chaque concept par des rectangles. L objectif est d étudier l intensité des liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines. La méthode PCM est donc une méthode factorielle de réduction du nombre de caractères permettant des représentations géométriques des individus et des variables. La réduction se fait par la construction de nouveaux caractères synthétiques obtenus en combinant les variables initiales au moyen des «facteurs». Les éléments de la matrice de données sont des intervalles et chacun décrit la variation de la variable observée (minimum et maximum). La méthode n accepte que les variables continues. Pour chacune, l utilisateur choisit ainsi son maximum et son minimum Mise en œuvre de PCM et interprétation : Pour l application de la méthode PCM, nous avons retenu trois variables quantitative (age et nb_albums, estim_fortune) ; Notre requête SQL portera donc sur ces 03 éléments et se présente tel que suit : SELECT c.nom, e.c_genre, e.c_age, c.nb_albums, e.estim_fortune, e.annee_carriere FROM Chanteur AS c, Elem_analyz_Chant AS e WHERE ( e.chantur_id_2 = c. chanteur_id ); Nous aurions pu aussi identifier les éléments à intégrer dans notre étude sous TREE directement lors du paramétrage de la méthode en SODAS, les paramètres étant : c_age, nb_albums, estim_fortune, annee_carriere. Nous avons procédé de la sorte de manière à visualiser la matrice à étudier, les deux méthodes étant équivalentes.
35 Résultat sous Access : Nom de la requête : «test1»
36 Exécution sous SODAS :
37 Graphiquement, les résultats se présentent tel que suit : Avec pour axes factoriels PC1 et PC2 dont l inertie est I (PC1, PC2 ) = 24,06+40,67 65% ; PC1 = c_age ; PC2 = nombre d albums.
38
39 Matrix of input data: c_age nb_albums estim_fortune annee_carriere «pop rock» [29.00, 49.00] [2.00, 7.00] [1.00, 21.00] [1.00, 29.00] «variete francaise» [33.00, 61.00] [4.00, 58.00] [1.00, 24.00] [2.00, 40.00] «variable» [27.00, 46.00] [5.00, 13.00] [4.00, 40.00] [4.00, 11.00] «dance» [36.00, 36.00] [10.00, 10.00] [2.00, 2.00] [2.00, 2.00] «r n b» [23.00, 38.00] [2.00, 10.00] [2.00, 8.00] [3.00, 7.00] «variete internationale» [34.00, 41.00] [11.00, 14.00] [2.00, 8.00] [3.00, 7.00] «pop» [22.00, 30.00] [1.00, 4.00] [2.00, 12.00] [2.00, 4.00] Matrix Variance/Covariance : c_age nb_albums estim_fortune annee_carriere Correlations Matrix : c_age nb_albums estim_fortune annee_carriere Propers Values and inerty percentage: c_age= (40.67%) nb_albums= (16.89%) estim_fortune= (24.06%) annee_carriere= (18.38%) Factorials Descriptions of interval type upon axes: PC1,PC2,PC3,PC4 : «pop rock» [-1.31, 1.88] [-0.85, 1.41] [-1.01, 2.17] [-1.50, 0.65]
40 «variete francaise» [-0.96, 5.18] [-2.31, 1.58] [-2.91, 2.82] [-2.29, 2.86] «variable» [-1.08, 1.55] [-0.68, 2.87] [-1.33, 0.72] [-1.09, 1.00] «dance» [-0.53, -0.53] [-0.60, -0.60] [-0.28, -0.28] [-0.15, -0.15] «r n b» [-1.52, -0.02] [-0.64, 0.34] [-0.39, 0.66] [-0.66, 0.91] «variete internationale» [-0.55, 0.31] [-0.79, -0.07] [-0.59, 0.11] [-0.46, 0.28] «pop» [-1.67, -0.75] [-0.35, 0.71] [-0.17, 0.50] [-0.12, 0.70] Correlations Matrix, initiales Variables/principals components PC1...PC4 c_age nb_albums estim_fortune annee_carriere Interprétation : Tel qu on peut le voir sur le graphe, les concepts variété française et R N B (et aussi pop) se retrouvent encore une fois plus ou moins différenciées par rapport à l age et nb_albums qui représentent notre plan factoriel (voir résultats interprétation SOE) ; tandis que les autres concepts restent plus ou moins bien corrélés.
41 4. 5. Analyse par méthode TREE : Présentation de la méthode TREE : La méthode TREE propose un algorithme par agrandissement d arbre. Il s agit d une procédure récursive de partitionnement qui peut être vue comme une recherche itérative d un ensemble organisé d objets symboliques qui correspond le mieux aux données initiales. A chaque étape, le meilleur partitionnement est obtenu grâce à une mesure donnée en paramètre Mise en oeuvre de la méthode : Pour la méthode TREE, nous avons créé une classe moy_age ; d abord en SQL : SELECT c_genre, avg(c_age) AS moy_age FROM elem_analyz_chant GROUP BY c_genre; Puis, comme la requête précédente produit un résultat numérique et dans le but de l exploiter sous SODAS, nous avons créé une table (sous ACCESS) qui stocke les résultats de la requête au format text. Nous avons ainsi apporté les modifications suivantes : - Si Moy_age 0, on affecte : [-, 20] ; Si 20 <Moy_age< 30, on affecte : [20, 30] ; Si 30 < Moy_age < 40, on affecte : [30, 40] ; Si Moy_age 40, on affecte : [40,+] ; Exécution sous Access :
42
43 Tel que suggéré dans la section précédente, nous devons cette fois-ci recourir au paramétrage de la méthode TREE afin de spécifier les variables à expliquer par la variable classe «moy_age» avec comme paramètres : vente_glob, pays, nationalite. Interprétation : L étude du résultat (voir extrait page suivante) nous indique que la variable «nationalité» explique les deux autres, à savoir ventes globales et pays qui se résument dans les valeurs de la classe «moy_age» ; ainsi, lorsque nationalité se présente dans le vecteur [nationalite = ], i-e : Americain, australien ou canadien, on peut s attendre à avoir une moyenne d age pour les chanteurs qui est dans l intervalle [20,30], sinon dans l intervalle [30,40] (i -e : globalement un age assez jeune) ; ceci cadre bien avec nos résultats précédents (notamment en SOE) ou l on prédisait une forte corrélation entre age et vente_globale ainsi que age et pays (pour le concept r n b, on avait prédit une communauté de chanteurs à succès assez jeune de nationalité anglophone).
44 Exécution sous SODAS :...SPLITTING NODE: 1 VARIABLE : ( 6) nationalite SPLIT : ( 1=left node, 0=right node) MODALITIES BELONG LEFT NODE : ( 1) Americain ( 5) Australienne ( 6) Colombienne ( 7) Canadienne MODALITIES BELONG RIGHT NODE : ( 2) Americaine ( 3) Français ( 8) Anglais ( 9) Belge... PARAMETERS : Learning Set : 7 Number of variables : 3 Max. number of nodes: 3 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1.00 Frequency of test set : IF ASSERTION IS TRUE (up)! --- x [ ASSERTION ]! IF ASSERTION IS FALSE (down) < 2 >[30,40] ( )!!----1[ nationalite = ]! < 3 >[20,30] ( ) - extrait du fichier fichier\tree\ct4pc001.lst
45 Dans ce qui suit, nous allons présenter les méthodes PYR, DIV et STAT (regroupé car tiré du même fichier SDS) :
46 4. 6. Analyse par méthode PYR : Présentation de la méthode PYR : La méthode PYR est une classification pyramidale qui généralise la hiérarchisation en autorisant les classes non disjointes à un niveau donné. La pyramide constitue un modèle intermédiaire entre les arbres et les structures en treillis. Cette méthode permet de classer des données plus complexes que ce qu autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans une classification pyramidale, chaque classe formée est définie non seulement par une extension (l ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l intention de la classe). L intention est héritée d un prédécesseur vers son successeur et nous obtenons ainsi une structure d héritage. La structure d ordre permet l identification de concepts intermédiaires ; c'est-à-dire de concepts qui comblent un vide entre des classes bien identifiées. En entrée de cette méthode, l utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide. Ces variables peuvent être continues (des valeurs réelles), des intervalles de valeurs réelles ou bien des histogrammes. L utilisateur est invité à choisir entre des variables qualitatives et continues mais il lui est également possible de les mélanger Mise en œuvre de la méthode et interprétation: Comme paramètres d entrée, nous avons choisi, dans le premier cas (pyramide 1) : c_age, nb_albums et estim_fortune ; et dans le deuxième (pyramide 2) nous les avons réduit à deux afin d illustrer un degré d agrégation croissant avec la croissance des variables liées aux individus (plus le nombre de variables augmente, plus la pyramide s enrichit):
47 Interprétation : Reprenons encore une fois nos deux concepts «r n b» et «variété française» par rapport aux critères age, fortune et nb_albums, leur position sur la pyramide est assez éloigné, tandis que pop rock et r n b sont assez proches, ce qui vient nous conforter dans nos premières analyses issues des autres méthodes exposées précédemment (notamment en SOE et PCM ).
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailDATA MINING - Analyses de données symboliques sur les restaurants
Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailAnalyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Plus en détailTravailler avec les télécommunications
Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la
Plus en détailChapitre 9 : Informatique décisionnelle
Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailAgenda de la présentation
Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détail4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
Plus en détailIntroduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailLes 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie
Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Découvrir les stratégies ayant fait leurs preuves et les meilleures pratiques Points clés : Planifier
Plus en détailEntrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Plus en détailIntroduction à l Informatique Décisionnelle - Business Intelligence (7)
Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence
Plus en détailet les Systèmes Multidimensionnels
Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées
Plus en détailQU EST-CE QUE LE DECISIONNEL?
La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce
Plus en détailMéthodologie de conceptualisation BI
Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information
Plus en détailLes Entrepôts de Données
Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailEvry - M2 MIAGE Entrepôt de données
Evry - M2 MIAGE Entrepôt de données Introduction D. Ploix - M2 Miage - EDD - Introduction 1 Plan Positionnement du BI dans l entreprise Déclinaison fonctionnelle du décisionnel dans l entreprise Intégration
Plus en détailINTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Plus en détailBusiness Intelligence
avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................
Plus en détailIBM SPSS Direct Marketing
IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailWHITE PAPER Une revue de solution par Talend & Infosense
WHITE PAPER Une revue de solution par Talend & Infosense Master Data Management pour les données de référence dans le domaine de la santé Table des matières CAS D ETUDE : COLLABORATION SOCIALE ET ADMINISTRATION
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détailExtraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction
Plus en détailSpécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC
Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailDEMANDE D INFORMATION RFI (Request for information)
DOD SEICAM RFI Demande d information EVDEC Réf. : RFI_EVDEC- GT5_Outil_reporting_BI_v4.doc Page 1/11 DEMANDE D INFORMATION RFI (Request for information) OUTIL INTÉGRÉ DE REPORTING ET D ANALYSE DÉCISIONNELLE
Plus en détailDes données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox
Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.
Plus en détailDossier I Découverte de Base d Open Office
ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire
Plus en détailPrésentation du module Base de données spatio-temporelles
Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailBusiness Intelligence avec Excel, Power BI et Office 365
Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10
Plus en détailUE 8 Systèmes d information de gestion Le programme
UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications
Plus en détailPentaho Business Analytics Intégrer > Explorer > Prévoir
Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux
Plus en détailDidier MOUNIEN Samantha MOINEAUX
Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?
Plus en détailBusiness Intelligence
Pour aller plus loin Tous les détails de l offre Microsoft Business Intelligence : www.microsoft.com/france/decisionnel Contact Microsoft France : msfrance@microsoft.com Business Intelligence Votre Infrastructure
Plus en détailWe make your. Data Smart. Data Smart
We make your We make your Data Smart Data Smart Une société Une société du du groupe Le groupe NP6 SPECIALISTE LEADER SECTEURS EFFECTIFS SaaS Marketing : 50% Data intelligence : 50% 15 sociétés du CAC
Plus en détailCréer le schéma relationnel d une base de données ACCESS
Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...
Plus en détailBusiness & High Technology
UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...
Plus en détailLe CRM en BFI : une approche du pilotage stratégique
Le CRM en BFI : une approche du pilotage stratégique Sébastien Pasquet, Responsable de missions Le CRM (Customer Relationship Management) s est développé depuis 10 ans essentiellement par l intégration
Plus en détailFournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement
Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données
Plus en détailDatamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E.
Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ Sommaire Introduction...
Plus en détailTHOT - Extraction de données et de schémas d un SGBD
THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système
Plus en détailIntroduction Big Data
Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue
Plus en détailMagasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)
Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant
Plus en détailSQL SERVER 2008, BUSINESS INTELLIGENCE
SGBD / Aide à la décision SQL SERVER 2008, BUSINESS INTELLIGENCE Réf: QLI Durée : 5 jours (7 heures) OBJECTIFS DE LA FORMATION Cette formation vous apprendra à concevoir et à déployer une solution de Business
Plus en détailAnalyse prédictive. L essor et la valeur de l analyse prédictive dans la prise de décisions
ÉTUDE TECHNIQUE Analyse prédictive L essor et la valeur de l analyse prédictive dans la prise de décisions «Donnez-moi un point d appui et un levier et je soulèverai le monde.» Archimède, 250 av. J.-C.
Plus en détailBUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise
BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la
Plus en détailBI = Business Intelligence Master Data-Science
BI = Business Intelligence Master Data-Science UPMC 25 janvier 2015 Organisation Horaire Cours : Lundi de 13h30 à 15h30 TP : Vendredi de 13h30 à 17h45 Intervenants : Divers industriels (en cours de construction)
Plus en détailLE DISPLAY RÉVOLUTION. De l achat d espace publicitaire classique à la gestion d audience ciblée. Janvier 2012 LIVRE BLANC ACXIOM.
LIVRE BLANC ACXIOM LE DISPLAY EN PLEINE RÉVOLUTION De l achat d espace publicitaire classique à la gestion d audience ciblée Janvier 2012 Frédéric GRELIER Directeur Europe développement produits Acxiom
Plus en détailEcole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales
Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire
Plus en détailComment réussir son projet de Master Data Management?
Comment réussir son projet MDM? Table des matières Comment réussir son projet de Master Data Management?...... 2 Un marché en croissance..... 2 Les démarches qui réussissent... 2 A quels projets métiers
Plus en détailGuide d exploration de base de données de IBM SPSS Modeler 15
Guide d exploration de base de données de IBM SPSS Modeler 15 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p.. Cette
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailAXIAD Conseil pour décider en toute intelligence
AXIAD Conseil pour décider en toute intelligence Gestion de la Performance, Business Intelligence, Big Data Domaine d expertise «Business Intelligence» Un accompagnement adapté à votre métier dans toutes
Plus en détailFilière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.
Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.fr Plan Motivations Débouchés Formation UVs spécifiques UVs connexes Enseignants
Plus en détailLicence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)
Université de Lille 2 - Droit et Santé Ecole Supérieure des Affaires & Institut Universitaire de Technologie (IUT-C) Département Statistique et Traitement Informatique des Données Licence Professionnelle
Plus en détail1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données
1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données Votre interlocuteur Didier Gaultier Directeur Data Science Business & Decision Professeur de Statistique à l
Plus en détailLes compétences clés en 2015 La révolution du Big Data souffle sur les métiers du commerce et du marketing
Communiqué de presse Les compétences clés en 2015 La révolution du Big Data souffle sur les métiers du commerce et du marketing Paris, le 7 avril 2015 A la recherche de leviers permettant de soutenir le
Plus en détail.id. _la solution de pilotage de votre entreprise ERP / CRM / BPM. www.groupeid.ch. informatique & développement
.id informatique & développement _la solution de pilotage de votre entreprise ERP / CRM / BPM marketing & crm \ ventes \ achats \ \ \ www.groupeid.ch Un outil performant basé sur des connaissances «métiers»
Plus en détailLa gestion des données de référence ou comment exploiter toutes vos informations
La gestion des données de référence ou comment exploiter toutes vos informations La tour de Babel numérique La gestion des données de référence (appelée MDM pour Master Data Management) se veut la réponse
Plus en détailLes dessous des moteurs de recommandation
Les dessous des moteurs de recommandation La personnalisation est un enjeu majeur du e-commerce aujourd hui. Elle réveille l esprit commerçant dans les boutiques en ligne en remettant le visiteur au cœur
Plus en détailChap 3 : La connaissance du client. I. Les fondements de la connaissance du client. Les principales évolutions sont résumées dans le tableau suivant :
Chap 3 : La connaissance du client I. Les fondements de la connaissance du client A. D une société de consommation à une société de consommateurs Depuis les années 1980, les mutations sociales ont eu d
Plus en détailVotre Infrastructure est-elle? Business Intelligence. Améliorer la capacité d analyse et de décision de vos équipes
Votre Infrastructure est-elle? Business Intelligence Améliorer la capacité d analyse et de décision de vos équipes Sommaire Introduction : Les domaines d application de la Business Intelligence p. 4 Vue
Plus en détailLa problématique. La philosophie ' ) * )
La problématique!" La philosophie #$ % La philosophie &'( ' ) * ) 1 La philosophie +, -) *. Mise en oeuvre Data warehouse ou Datamart /01-2, / 3 13 4,$ / 5 23, 2 * $3 3 63 3 #, 7 Datawarehouse Data warehouse
Plus en détailINF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude
INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude
Plus en détailAlphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.
1 Du même auteur chez le même éditeur Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012. AFNOR 2013 Couverture : création AFNOR Éditions Crédit photo 2011 Fotolia
Plus en détailLe data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires
Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies
Plus en détailL apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Plus en détailIBM Tivoli Monitoring, version 6.1
Superviser et administrer à partir d une unique console l ensemble de vos ressources, plates-formes et applications. IBM Tivoli Monitoring, version 6.1 Points forts! Surveillez de façon proactive les éléments
Plus en détailEn route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne
Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille
Plus en détailIntroduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours
Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP
Plus en détailCATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012
CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE Edition 2012 AGENDA Qui sommes nous? Présentation de Keyrus Keyrus : Expert en formations BI Nos propositions de formation 3 modes de formations Liste des
Plus en détailSélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Plus en détailLe géomarketing - Page 1 sur 7
Le géomarketing - Page 1 sur 7 LES DOSSIERS MADWATCH.net méthodes Le Géomarketing Novembre 2003 Nb de pages : 7 Le géomarketing - Page 2 sur 7 Créé dans les années 80, la plupart des applications du géomarketing
Plus en détailLe langage SQL Rappels
Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,
Plus en détailSGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)
SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients
Plus en détailDOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?
DOSSIER SOLUTION CA ERwin Modeling Comment gérer la complexité des données et améliorer l agilité métier? CA ERwin Modeling fournit une vue centralisée des définitions de données clés afin de mieux comprendre
Plus en détailUniversité Paris IX DAUPHINE DATE : 24/04/06
Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE
Plus en détailPlan d action SMB d une Approche Agile de la BITM Pour les PME
Plan d action SMB d une Approche Agile de la BITM Pour les PME Personnel, processus et technologie nécessaires pour élaborer une solution rapide, souple et économique Copyright 2013 Pentaho Corporation.
Plus en détailQuels outils pour prévoir?
modeledition SA Quels outils pour prévoir? Les modèles de prévisions sont des outils irremplaçables pour la prise de décision. Pour cela les entreprises ont le choix entre Excel et les outils classiques
Plus en détailArchitectures d'intégration de données
Architectures d'intégration de données Dan VODISLAV Université de Cergy-ontoise Master Informatique M1 Cours IED lan Intégration de données Objectifs, principes, caractéristiques Architectures type d'intégration
Plus en détailAtelier Symposium MicroStrategy
Atelier Symposium MicroStrategy Présentation de Soft Computing «De l'usage de MicroStrategy pour la Connaissance Client dans le secteur de la Distribution» G.MANGEON Soft Computing 16 Juin 2016 Soft Computing
Plus en détailThème 2 : Cycle de vie des projets d innovation: ambigüité, incertitude, production de savoir et dynamisme
Thème 2 : Cycle de vie des projets d innovation: ambigüité, incertitude, production de savoir et dynamisme Serghei Floricel Dans l introduction nous avons mentionné que les projets d innovation suivent
Plus en détailJade. Projet Intelligence Artificielle «Devine à quoi je pense»
Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges
Plus en détailWHITEPAPER. Quatre indices pour identifier une intégration ERP inefficace
Quatre indices pour identifier une intégration ERP inefficace 1 Table of Contents 3 Manque de centralisation 4 Manque de données en temps réel 6 Implémentations fastidieuses et manquant de souplesse 7
Plus en détailChapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème
Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration
Plus en détailPrestations de conseil en SRM (Storage Ressource Management)
Prestations de conseil en SRM (Storage Ressource Management) Sommaire 1 BUTS DE LA PRESTATION 2 PRESENTATION DE LA PRESTATION 3 3 3 ETAPE 1 : ELEMENTS TECHNIQUES SUR LESQUELS S APPUIE LA PRESTATION DE
Plus en détail2 Serveurs OLAP et introduction au Data Mining
2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité
Plus en détailInformation utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/
Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/
Plus en détailGestion de la Relation Client (GRC)
Techniques de DM pour la GRC dans les banques Page 2 I.1 Introduction La gestion de la relation client est devenue un processus essentiel dans les institutions bancaires. Ils essaient toujours d améliorer
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailBASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98. J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES
BASES DE DONNÉES CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98 J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES III. LES SYSTÈMES RÉSEAU IV. LES SYSTÈMES RELATIONNELS V. LE LANGAGE
Plus en détail#BigData Dossier de presse Mai 2014
#BigData Dossier de presse Mai 2014 La valeur du Big Data pour l entreprise Comment permettre l avènement d une culture de la donnée pour tous? Dans un monde porté par la mobilité et le Cloud, non seulement
Plus en détail