DATAMINING. Etude et analyse de la carrière d artistes chanteurs selon leurs styles musicaux.

Dimension: px
Commencer à balayer dès la page:

Download "DATAMINING. Etude et analyse de la carrière d artistes chanteurs selon leurs styles musicaux."

Transcription

1 ABES Lila DEA 127 Informatique, systèmes multi-agents Université PARIS DAUPHINE DATAMINING Etude et analyse de la carrière d artistes chanteurs selon leurs styles musicaux. Professeur responsable : Présenté par : Mr. Edwin Diday. Melle Abes Lila. Promotion: 2004/2005

2 Sommaire 1. Introduction : Etat de l art : Définition du Data Mining : Domaine d utilisation et intérêt pratique : Phases générales de développement d un projet de Data Mining : Principaux logiciels : Positionnement et description de SODAS : Etude conceptuelle : Description de la base de données choisie : Contexte et objectifs de l étude : Mise en œuvre en pratique de l analyse : Création des requêtes : Extraction des données symboliques : Analyse par méthode SOE : Présentation de SOE : Mise en œuvre de SOE et interprétation: Analyse par méthode PCM : Présentation de PCM : Mise en œuvre de PCM et interprétation : Analyse par méthode TREE Présentation de TREE : en œuvre de TREE et interprétation : Analyse par méthode PYR : Présentation de PYR : en œuvre de PYR et interprétation : Analyse par méthode DIV : Présentation de DIV : en œuvre de DIV et interprétation : Analyse par méthode STAT : Présentation de STAT : en œuvre de STAT et interprétation : Conclusion :...47

3 1. Introduction Les activités de l homme, quel que soit le domaine de connaissance considéré, est avant tout basé sur un enrichissement continuel de ces mêmes connaissances qui matérialisent un continuum dans l axe d apprentissage qui conduit au peaufinement des actions entreprises le long du cycle de vie du système dans un but toujours plus optimiste (au sens optimisation). Concrètement, ceci conduit à la naissance de besoins croissants en matière d outils techniques et technologiques à mettre entre les mains de l acteur de ce système : accessibilité et maniabilité doivent en être les qualités primordiales. Paradoxalement à la croissance exponentielle de nos connaissances, l on observe une explosion des structures de représentation qui a amené à l apparition d un autre phénomène : l hétérogénéité des données du point de vue ensembliste. Concrètement, des questions du type : «comment extraire de nouvelles connaissances - plus élaborées - à partir de celles déjà acquises - plus atomiques -?» ou «comment filtrer les disparités pouvant apparaître sur des sources de connaissances hétérogènes, issues de cultures ou systèmes dénormalisés, lorsqu on a besoin de fusionner l ensemble?» deviennent de plus en plus pertinentes et des méthodes fiables doivent y apporter les éléments de réponse ; le «Data Mining» est l une de ces solutions. Dans le cadre de ce travail, nous nous consacrerons à approfondir les éléments soulevés par la première question par «l analyse des données symboliques».

4 2. Etat de l art : Définition du data Mining : «Data Mining» ou «Mining the Data» signifie littéralement «déduction de données» ; c est en fait le processus par lequel des requêtes variées sont posées sur des données brutes afin d en extraire des informations utiles et plus élaborées, ces données sont éventuellement stockées dans des bases de données et représente un volume assez important pour que l information soit pertinente. Le but du Data Mining se manifeste surtout dans les grandes fonctions de l entreprise et aide à suppléer ses activités stratégiques à long terme par l ébauche (à partir des données modélisant les connaissances ou «mémoire» de l entreprise) de scénarios futurs à partir des faits et expériences passées et détection de comportements anormaux afin de prendre les mesures à temps. Plusieurs techniques sont employées pour l implémentation d un outil «Data Mining» ; le schéma suivant démontre un croisement inter disciplines tel les statistiques, l analyse de données, l intelligence artificielle la recherche opérationnelle et la logique, ainsi que bien évidemment l informatique (SGBD, algorithmique,...) : régression linéaire Domaine de la Statistique et analyse de données multidimensionnelles analyse multi valuée analyse en composantes principales réseaux de neurones Domaine de l IA Data Mining arbres décisionnels Domaine de la logique et RO - fig 01 : outils techniques du Data Minig -

5 2. 2. Domaine d utilisation et intérêt pratique : Les bases de données ou les entrepôts de données, atteignent des volumes de plusieurs tera-octets (1 tera-octet = octets). Les grandes compagnies, comme EDF, France Telecom ou SFR, collectent annuellement plusieurs tera-octets de données relatives aux consommations de leurs clients. Dans un monde de concurrence sévère, chez les grands opérateurs téléphoniques par exemple, la connaissance des clients et de leurs comportements permet de mieux anticiper ceux qui risquent de passer chez un concurrent et de mieux adapter les opérations commerciales pour tenter de les garder. L une des grandes difficultés est de savoir comment extraire ce profil dans un si grand amas de données. Le data mining offre, entre autres, les moyens d analyse pour chercher s il existe un profil comportemental typique des clients qui changent de fournisseurs. L entreprise pourra ainsi repérer plus facilement, parmi ses clients, lesquels ont le profil pour partir vers la concurrence afin de tenter, par des actions commerciales ad hoc, de les garder. Les domaines d utilisation du Data Mining tel que nous pouvons facilement le constater par simple refléxion - sont très variés ; néanmoins, ils peuvent être répartis en 03 grandes catégories : - problèmes de classification : «trouver des règles pour le partitionnement des données en groupes homogènes fortement corrélés?» ; par exemple : répartition des clients selon certains profils dans un but d étude de marché pour l amélioration des ventes. - problèmes d association : «trouver des règles pour établir des associations entre collections de données?» ; toujours dans le même ordre d idée, trouver une (des) relation (s) entre les clients et les produits achetés pour un renforcement des stratégies de communication. - problèmes de séquencement : «trouver des règles pour ordonner des collections de données selon certains critères?» ; autre exemple : trouver des critères assez pertinents pour classer les clients dans une échelle modélisant les répercussions des effets d opérations marketing (client facile, client difficile). - détection de comportements anormaux ; par exemple : clientèle ne répondant à aucun stimulus marketing. Bien évidemment, il serait illusoire de croire que le Data Mining à lui seul (bien que faisant appel à plusieurs domaines de connaissance) pourrait résoudre tous les problèmes liés aux organisations ; et quand bien même ce serait le cas, la discipline est encore jeune et s inscrit dans la logique d évolution des systèmes d information ; néanmoins,

6 l utilisation du Data Mining a déjà fait ses preuves. Du fait même du besoin ayant conduit à son apparition, les résultats décelés peuvent se révéler déterminants dans les domaines des : - marketing, ventes et détection de fraude. - navigation sur Internet, audit de compte, contrôle de qualité et optimisation de processus organisationnels. En pratique, les plus grandes applications du Data Mining sont entre autres : a- La gestion de relation client : Dans un contexte concurrentiel de plus en plus soutenu, la capacité à conquérir et à retenir les clients repose sur une connaissance fine de leurs besoins et de leur comportement de consommateurs, d utilisateurs et d acheteurs. Créer et maintenir une relation de plus en plus personnalisée, à partir d un produit de plus en plus standardisé, est un facteur clé de succès pour les produits et services de grande consommation. Pour cela, il faut bien connaître ses clients. Les études de marché réalisées selon les méthodes classiques sont longues à mettre en œuvre, pour des résultats toujours sujets à caution en raison de la taille des échantillons pratiqués. L entreprise dispose pourtant d informations sur ses clients et leurs habitudes de consommation. Au sein de la gestion de relation client, ou customer relationship management (CRM), on peut distinguer trois dimensions : - Le CRM opérationnel concerne la gestion des relations avec les clients, qui constituent le front office du dispositif. Le CRM opérationnel permet d emmagasiner des informations permettant une connaissance approfondie des clients, et dont le stockage est désormais rendu possible par les technologies de data warehouse. - Le CRM analytique consiste en l exploitation des bases de données créées par l entreprise sur ses clients. C est à ce stade qu entrent en jeu les techniques de data mining. - Le CRM collaboratif vise à intégrer des outils communiquant dans les dispositifs de front office, afin d optimiser les échanges d informations dans la gestion quotidienne des activités commerciales. Toutes les entreprises, notamment de la grande distribution où la concurrence est forte, mettent en place des structures pour le CRM analytique. Les objectifs des analyses en data mining sont multiples : segmentation de la clientèle, fidélisation de la clientèle, organisation de rayons de magasins, etc.

7 b- L aide à la décision dans les processus industriels : L automatisation est l un des meilleurs facteurs d augmentation de la productivité. Les industriels, notamment dans la surveillance, le diagnostic et la maintenance des unités de production ont depuis longtemps fait appel aux méthodes de la statistique et de la modélisation. Il est donc naturel pour cette activité d incorporer le data mining pour mieux analyser les pannes ou organiser les ateliers. c- La génomique : Toute espèce vivante, animale ou végétale est composée de cellules. L homme en possède quelques (cent mille millions de milliard). Chaque cellule contient la totalité du génome, c est-à-dire tout ce qui forme l identité biologique de l individu, son patrimoine génétique. Toutes les cellules d un même individu contiennent ainsi la même copie du génome. Le génome de toutes les espèces est formé d une succession de quatre bases chimiques désignées par les lettres A, C, T et G. L alignement de ces bases, qui forment la molécule d ADN, peut être vu comme un texte écrit dans un alphabet de 4 lettres (A,C,T et G). Le nombre de lettres présentes dans le génome humain est de 3 milliards environs. Si on devait transcrire le code génétique d une personne sur du papier en y reportant la succession de lettres présentes sur son génome, il nous faudrait plus de 2 millions de pages comme celle ci. C est grâce à ce code génétique que les cellules se divisent, se multiplient et se spécialisent pour donner naissance à ces organes aussi divers que le cœur, les poumons ou le cerveau. Les maladies génétiques sont directement liées à la manière dont ces textes sont écrits. Le code génétique de l homme, maintenant entièrement transcrit, est même disponible en accès libre sur Internet. Celui d autres espèces est en cours de décodage. La compréhension de ce message de plusieurs millions de codes donne de nouvelles perspectives à la recherche médicale. Le décodage du génome des plantes ouvre de nouvelles perspectives dans le domaine de l agriculture. L exploitation de bases de données génomiques ne peut s envisager sans le data mining Phases générales de développement d un projet de Data Mining : Tout projet de développement d un Data Mining doit se conformer à un squelette général dans lequel sont organisées les étapes du projet, qui peuvent éventuellement s adapter au type du Data Mining et outils mis en œuvre : a- Phase d acquisition des données : La phase d acquisition vise à cibler, même de façon grossière, l espace des données qui va être exploré à partir de bases de données stockant des données locales ou distantes, homogènes ou hétérogènes, structurées ou semi structurées et de types différents. L acquisition met en œuvre des requêtes ad hoc pour

8 rapatrier les données potentiellement utiles selon le point de vue de l expert, soit e utilisant des moteurs de requêtes de bases de données comme le langage SQL. L acquisition peut aussi se faire à travers des outils de requêtes plus spécifiques aux données non structurées comme les données textuelles, les images ou le web, faisant pour cela appel à des moteurs de recherche d informations et d images auxquelles ils accèdent par le contenu. Une fois de pré numérisation est aussi parfois nécessaire dans le cas ou les techniques utilisées utilisent des données absolument numériques (par exemple par discrétisation de variables continues en intervalles connus, d associer des valeurs qualitatives peu, moyen, fort en entiers -0, 1, 2-. b- Phase de fouille de données : La fouille de données concerne le Data Mining dans son sens restreint et est au cœur du processus, c est la phase pendant laquelle les données fouillées par les méthodes appropriées donnent les résultats escomptés dans la visualisation appropriée (tableau, histogrammes,...). c- Phase de validation et de mise en forme : Les modèles extraits ne peuvent être utilisés directement en toute fiabilité. Nous devons les évaluer, c est-à-dire les soumettre à l épreuve de la réalité et apprécier leur justesse. Le procédé habituel consiste à estimer au mieux le taux d erreur du modèle par une fonction prédéfinie. Ainsi, l utilisateur décidera d appliquer ou non le modèle de prédiction en connaissance des risques qu il prend, il choisira en toute logique le modèle comportement le plus faible risque d erreurs Principaux logiciels : L offre d outils de Data Mining est aujourd hui pléthorique. Rien qu en faisant une recherche sur Internet avec les mots clés «software» et «data mining», il faudrait plusieurs jours pour dépouiller manuellement les résultats, signe de l importance prise par ce domaine. L offre de logiciels de Data Mining provient des principaux et gros constructeurs de logiciels, notamment de ceux qui proposent des systèmes de gestion de bases de données comme IBM avec Intelligent Miner, Oracle avec Darwin ou MicroSoft qui développe un environnement de Data Mining autour de SQL Server. Sur ce marché sont également présent les constructeurs de logiciels classiques de statistique comme SAS ou SPSS pour ne citer que ces deux. De nombreuses entreprises plus jeunes ont réussi sur ce marché. Le plus spectaculaire est sans doute «Business Object». Certains constructeurs se sont positionnés sur des segments spécifiques comme le web ou le texte par exemple. D autres, proposent davantage des solutions métiers, notamment pour la Gestion de la Relation Client (CRM).

9 Un mouvement de concentration important des éditeurs a eu lieu, et des produits phares du Data Mining sont apparus, répartis en quatre catégories en fonction de leurs origines, des méthodes qu ils implémentent (graphes décisionnels, méthodes d analyse de données, et autres), de leur éditeur et de leur prix. a- Les catégorie «poids lourds» : commercialisés sous licence et destinés au développement d applications en entreprise tel que : Intelligent Miner (IBM), SAS Entreprise Miner, Decision Series (NeoVista), Mineset (Silicon Graphics), Tera Miner (NCR). b- Les catégorie «outils intermédiaires» : AC2, Knowledge Seeker, Alice Pro, Kate, Netral, 4Thought. c- Les catégorie «outils pour PC de bureau» : destinés à des applications à caractère personnel de petite et moyenne envergures, tel : Scenario, Business Miner, Answer Tree, Previa Diamond. d- Les catégories «suites statistiques évolutives» : on peut citer en exemple : SPAD, Smart Miner, Knowlbox. e- Les catégories «logiciels gratuits /open source» : logiciels académiques inscrits dans le cadre de recherches scientifiques : Yale, Sipina research, Weka 3, Tanagra, ainsi que SODAS que nous allons décrire ci-dessous Positionnement et description de SODAS : Il s agit d un logiciel prototype public (catégorie e) apte à analyser des données symboliques et s appuyant sur des techniques d analyse de données multidimensionnelles (Page 2). Le logiciel SODAS est issu d un projet d EUROSTAT portant le même nom. Ce logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans le domaine de l analyse des données symboliques. L idée générale de ce projet est de construire, à partir d une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et d analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d analyse de données symboliques. Une analyse des données dans SODAS (à l image du processus général explicité pages 5 et 6) suit les étapes suivantes :

10 a- Phase d acquisition des données : Partir d une base de données relationnelle (ORACLE, ACCESS ) ; Définir ensuite un contexte par : - Des unités statistiques de premier niveau (client, fournisseur, magasin de vente,...) ; - Les variables assez pertinentes qui les décrivent (pour client : age, région,...) ; - Des concepts (profils de clients, ventes, ). Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque magasin est associé à ses ventes). Ce contexte est défini par une requête sur la base de données relationnelle. Le tableau de données symboliques peut être construit, les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associées. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables et le choix de l utilisateur. b- Phase de fouille de données : Il est alors possible de créer un fichier d objets symboliques sur lequel une douzaine de méthodes d analyse de données symboliques peut déjà s appliquer (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques ). c- Phase de validation et de mise en forme : la phase de validation ne sera pas abordé dans cette étude.

11 3. Etat de l art : Définition du data Mining : «Data Mining» ou «Mining the Data» signifie littéralement «déduction de données» ; c est en fait le processus par lequel des requêtes variées sont posées sur des données brutes afin d en extraire des informations utiles et plus élaborées, ces données sont éventuellement stockées dans des bases de données et représente un volume assez important pour que l information soit pertinente. Le but du Data Mining se manifeste surtout dans les grandes fonctions de l entreprise et aide à suppléer ses activités stratégiques à long terme par l ébauche (à partir des données modélisant les connaissances ou «mémoire» de l entreprise) de scénarios futurs à partir des faits et expériences passées et détection de comportements anormaux afin de prendre les mesures à temps. Plusieurs techniques sont employées pour l implémentation d un outil «Data Mining» ; le schéma suivant démontre un croisement inter disciplines tel les statistiques, l analyse de données, l intelligence artificielle la recherche opérationnelle et la logique, ainsi que bien évidemment l informatique (SGBD, algorithmique,...) : régression linéaire Domaine de la Statistique et analyse de données multidimensionnelles analyse multi valuée analyse en composantes principales réseaux de neurones Domaine de l IA Data Mining arbres décisionnels Domaine de la logique et RO - fig 01 : outils techniques du Data Minig -

12 3. 2. Domaine d utilisation et intérêt pratique : Les bases de données ou les entrepôts de données, atteignent des volumes de plusieurs tera-octets (1 tera-octet = octets). Les grandes compagnies, comme EDF, France Telecom ou SFR, collectent annuellement plusieurs tera-octets de données relatives aux consommations de leurs clients. Dans un monde de concurrence sévère, chez les grands opérateurs téléphoniques par exemple, la connaissance des clients et de leurs comportements permet de mieux anticiper ceux qui risquent de passer chez un concurrent et de mieux adapter les opérations commerciales pour tenter de les garder. L une des grandes difficultés est de savoir comment extraire ce profil dans un si grand amas de données. Le data mining offre, entre autres, les moyens d analyse pour chercher s il existe un profil comportemental typique des clients qui changent de fournisseurs. L entreprise pourra ainsi repérer plus facilement, parmi ses clients, lesquels ont le profil pour partir vers la concurrence afin de tenter, par des actions commerciales ad hoc, de les garder. Les domaines d utilisation du Data Mining tel que nous pouvons facilement le constater par simple refléxion - sont très variés ; néanmoins, ils peuvent être répartis en 03 grandes catégories : - problèmes de classification : «trouver des règles pour le partitionnement des données en groupes homogènes fortement corrélés?» ; par exemple : répartition des clients selon certains profils dans un but d étude de marché pour l amélioration des ventes. - problèmes d association : «trouver des règles pour établir des associations entre collections de données?» ; toujours dans le même ordre d idée, trouver une (des) relation (s) entre les clients et les produits achetés pour un renforcement des stratégies de communication. - problèmes de séquencement : «trouver des règles pour ordonner des collections de données selon certains critères?» ; autre exemple : trouver des critères assez pertinents pour classer les clients dans une échelle modélisant les répercussions des effets d opérations marketing (client facile, client difficile). - détection de comportements anormaux ; par exemple : clientèle ne répondant à aucun stimulus marketing. Bien évidemment, il serait illusoire de croire que le Data Mining à lui seul (bien que faisant appel à plusieurs domaines de connaissance) pourrait résoudre tous les problèmes liés aux organisations ; et quand bien même ce serait le cas, la discipline est encore jeune et s inscrit dans la logique d évolution des systèmes d information ; néanmoins,

13 l utilisation du Data Mining a déjà fait ses preuves. Du fait même du besoin ayant conduit à son apparition, les résultats décelés peuvent se révéler déterminants dans les domaines des : - marketing, ventes et détection de fraude. - navigation sur Internet, audit de compte, contrôle de qualité et optimisation de processus organisationnels. En pratique, les plus grandes applications du Data Mining sont entre autres : a- La gestion de relation client : Dans un contexte concurrentiel de plus en plus soutenu, la capacité à conquérir et à retenir les clients repose sur une connaissance fine de leurs besoins et de leur comportement de consommateurs, d utilisateurs et d acheteurs. Créer et maintenir une relation de plus en plus personnalisée, à partir d un produit de plus en plus standardisé, est un facteur clé de succès pour les produits et services de grande consommation. Pour cela, il faut bien connaître ses clients. Les études de marché réalisées selon les méthodes classiques sont longues à mettre en œuvre, pour des résultats toujours sujets à caution en raison de la taille des échantillons pratiqués. L entreprise dispose pourtant d informations sur ses clients et leurs habitudes de consommation. Au sein de la gestion de relation client, ou customer relationship management (CRM), on peut distinguer trois dimensions : - Le CRM opérationnel concerne la gestion des relations avec les clients, qui constituent le front office du dispositif. Le CRM opérationnel permet d emmagasiner des informations permettant une connaissance approfondie des clients, et dont le stockage est désormais rendu possible par les technologies de data warehouse. - Le CRM analytique consiste en l exploitation des bases de données créées par l entreprise sur ses clients. C est à ce stade qu entrent en jeu les techniques de data mining. - Le CRM collaboratif vise à intégrer des outils communiquant dans les dispositifs de front office, afin d optimiser les échanges d informations dans la gestion quotidienne des activités commerciales. Toutes les entreprises, notamment de la grande distribution où la concurrence est forte, mettent en place des structures pour le CRM analytique. Les objectifs des analyses en data mining sont multiples : segmentation de la clientèle, fidélisation de la clientèle, organisation de rayons de magasins, etc.

14 b- L aide à la décision dans les processus industriels : L automatisation est l un des meilleurs facteurs d augmentation de la productivité. Les industriels, notamment dans la surveillance, le diagnostic et la maintenance des unités de production ont depuis longtemps fait appel aux méthodes de la statistique et de la modélisation. Il est donc naturel pour cette activité d incorporer le data mining pour mieux analyser les pannes ou organiser les ateliers. c- La génomique : Toute espèce vivante, animale ou végétale est composée de cellules. L homme en possède quelques (cent mille millions de milliard). Chaque cellule contient la totalité du génome, c est-à-dire tout ce qui forme l identité biologique de l individu, son patrimoine génétique. Toutes les cellules d un même individu contiennent ainsi la même copie du génome. Le génome de toutes les espèces est formé d une succession de quatre bases chimiques désignées par les lettres A, C, T et G. L alignement de ces bases, qui forment la molécule d ADN, peut être vu comme un texte écrit dans un alphabet de 4 lettres (A,C,T et G). Le nombre de lettres présentes dans le génome humain est de 3 milliards environs. Si on devait transcrire le code génétique d une personne sur du papier en y reportant la succession de lettres présentes sur son génome, il nous faudrait plus de 2 millions de pages comme celle ci. C est grâce à ce code génétique que les cellules se divisent, se multiplient et se spécialisent pour donner naissance à ces organes aussi divers que le cœur, les poumons ou le cerveau. Les maladies génétiques sont directement liées à la manière dont ces textes sont écrits. Le code génétique de l homme, maintenant entièrement transcrit, est même disponible en accès libre sur Internet. Celui d autres espèces est en cours de décodage. La compréhension de ce message de plusieurs millions de codes donne de nouvelles perspectives à la recherche médicale. Le décodage du génome des plantes ouvre de nouvelles perspectives dans le domaine de l agriculture. L exploitation de bases de données génomiques ne peut s envisager sans le data mining Phases générales de développement d un projet de Data Mining : Tout projet de développement d un Data Mining doit se conformer à un squelette général dans lequel sont organisées les étapes du projet, qui peuvent éventuellement s adapter au type du Data Mining et outils mis en œuvre : a- Phase d acquisition des données : La phase d acquisition vise à cibler, même de façon grossière, l espace des données qui va être exploré à partir de bases de données stockant des données locales ou distantes, homogènes ou hétérogènes, structurées ou semi structurées et de types différents. L acquisition met en œuvre des requêtes ad hoc pour

15 rapatrier les données potentiellement utiles selon le point de vue de l expert, soit e utilisant des moteurs de requêtes de bases de données comme le langage SQL. L acquisition peut aussi se faire à travers des outils de requêtes plus spécifiques aux données non structurées comme les données textuelles, les images ou le web, faisant pour cela appel à des moteurs de recherche d informations et d images auxquelles ils accèdent par le contenu. Une fois de pré numérisation est aussi parfois nécessaire dans le cas ou les techniques utilisées utilisent des données absolument numériques (par exemple par discrétisation de variables continues en intervalles connus, d associer des valeurs qualitatives peu, moyen, fort en entiers -0, 1, 2-. b- Phase de fouille de données : La fouille de données concerne le Data Mining dans son sens restreint et est au cœur du processus, c est la phase pendant laquelle les données fouillées par les méthodes appropriées donnent les résultats escomptés dans la visualisation appropriée (tableau, histogrammes,...). c- Phase de validation et de mise en forme : Les modèles extraits ne peuvent être utilisés directement en toute fiabilité. Nous devons les évaluer, c est-à-dire les soumettre à l épreuve de la réalité et apprécier leur justesse. Le procédé habituel consiste à estimer au mieux le taux d erreur du modèle par une fonction prédéfinie. Ainsi, l utilisateur décidera d appliquer ou non le modèle de prédiction en connaissance des risques qu il prend, il choisira en toute logique le modèle comportement le plus faible risque d erreurs Principaux logiciels : L offre d outils de Data Mining est aujourd hui pléthorique. Rien qu en faisant une recherche sur Internet avec les mots clés «software» et «data mining», il faudrait plusieurs jours pour dépouiller manuellement les résultats, signe de l importance prise par ce domaine. L offre de logiciels de Data Mining provient des principaux et gros constructeurs de logiciels, notamment de ceux qui proposent des systèmes de gestion de bases de données comme IBM avec Intelligent Miner, Oracle avec Darwin ou MicroSoft qui développe un environnement de Data Mining autour de SQL Server. Sur ce marché sont également présent les constructeurs de logiciels classiques de statistique comme SAS ou SPSS pour ne citer que ces deux. De nombreuses entreprises plus jeunes ont réussi sur ce marché. Le plus spectaculaire est sans doute «Business Object». Certains constructeurs se sont positionnés sur des segments spécifiques comme le web ou le texte par exemple. D autres, proposent davantage des solutions métiers, notamment pour la Gestion de la Relation Client (CRM).

16 Un mouvement de concentration important des éditeurs a eu lieu, et des produits phares du Data Mining sont apparus, répartis en quatre catégories en fonction de leurs origines, des méthodes qu ils implémentent (graphes décisionnels, méthodes d analyse de données, et autres), de leur éditeur et de leur prix. a- Les catégorie «poids lourds» : commercialisés sous licence et destinés au développement d applications en entreprise tel que : Intelligent Miner (IBM), SAS Entreprise Miner, Decision Series (NeoVista), Mineset (Silicon Graphics), Tera Miner (NCR). b- Les catégorie «outils intermédiaires» : AC2, Knowledge Seeker, Alice Pro, Kate, Netral, 4Thought. c- Les catégorie «outils pour PC de bureau» : destinés à des applications à caractère personnel de petite et moyenne envergures, tel : Scenario, Business Miner, Answer Tree, Previa Diamond. d- Les catégories «suites statistiques évolutives» : on peut citer en exemple : SPAD, Smart Miner, Knowlbox. e- Les catégories «logiciels gratuits /open source» : logiciels académiques inscrits dans le cadre de recherches scientifiques : Yale, Sipina research, Weka 3, Tanagra, ainsi que SODAS que nous allons décrire ci-dessous Positionnement et description de SODAS : Il s agit d un logiciel prototype public (catégorie e) apte à analyser des données symboliques et s appuyant sur des techniques d analyse de données multidimensionnelles (Page 2). Le logiciel SODAS est issu d un projet d EUROSTAT portant le même nom. Ce logiciel a pour vocation de fournir un cadre aux différentes avancées récentes et futures dans le domaine de l analyse des données symboliques. L idée générale de ce projet est de construire, à partir d une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et d analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d analyse de données symboliques. Une analyse des données dans SODAS (à l image du processus général explicité pages 5 et 6) suit les étapes suivantes :

17 a- Phase d acquisition des données : Partir d une base de données relationnelle (ORACLE, ACCESS ) ; Définir ensuite un contexte par : - Des unités statistiques de premier niveau (client, fournisseur, magasin de vente,...) ; - Les variables assez pertinentes qui les décrivent (pour client : age, région,...) ; - Des concepts (profils de clients, ventes, ). Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque magasin est associé à ses ventes). Ce contexte est défini par une requête sur la base de données relationnelle. Le tableau de données symboliques peut être construit, les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associées. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables et le choix de l utilisateur. b- Phase de fouille de données : Il est alors possible de créer un fichier d objets symboliques sur lequel une douzaine de méthodes d analyse de données symboliques peut déjà s appliquer (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques ). c- Phase de validation et de mise en forme : la phase de validation ne sera pas abordé dans cette étude.

18 3. Etude conceptuelle : Cette partie est consacrée à la présentation de la base de données choisie (tables relations et schéma relationnelle) ainsi que description des concepts retenus pour notre étude Description de la base de données choisie : La base de données «BdMusic» que nous avons choisi pour cette étude est implémentée sous Ms Access ; le schéma entité/association se présente tel que suit : - fig 02 : schéma entité/association de «BdMusic» - le schéma relationnel, quant à lui, est défini tel que suit : - tables associations: Chanteur (Chanteur_ID, nom, region_id, nationalite, date_naissance, nb_albums, recomp_chanteur) ; Album (album_id, nom, annee);

19 - tables relations : Chanson (Chanson_ID, titre, genre, duree, recomp_chanson, Chanteur_ID, Single_ID) ; Single (Single_ID, date_sortie, editeur, distributeur, vente, album_id); RegionChanteur (Region_chanteur, region, Pays_ID) ; PaysChanteur (Pays _ID, pays, Continent_ID) ; ContinentChanteur (Continent_ID, continent). Description des relations : Relation Description - Chanteur Individu caractérisé par des données d ordre personnel et quelques éléments concernant son activité professionnelle (nb_albums, recomp_chanteur). - Album Albums produits par les chanteurs. - Chanson Chansons interprétées et enregistrées par les chanteurs sur un single ou album. - Single Singles sortis séparément par les chanteurs - RegionChanteur Région d accueil du chanteur. - PaysChanteur Pays d accueil du chanteur (ou il exerce son activité professionnelle). ContinentChanteur Continent du pays chanteur. Dans le cadre de cette étude (et comme nous allons le voir dans la partie 3.2), nous aurons besoin d ajouter une table «Elem_Analyz_Chant» qui stockera les valeurs nécessaires à l analyse du profil des chanteurs par rapport à leur age, volume global de vente et ainsi que carrière (date dabut, date dernière activité calculées par rapport aux dates de sortie des single), estimation de leur fortune personnelle et genre musical des chanteurs et sera définie tel que suit : Elem_Analyz_C (Chanteur_ID_2, c_age, dat_premier_singl, dat_dernier_singl, vente_glob, c_genre, estim_fortune). Le nouveau schéma de la base se présente alors tel que suit

20 - fig 03 : nouveau schéma entité/association de «BdMusic» Nb : Notez que, dans un souci d optimisation et afin de mieux se conformer au concept de base de données, on aurait pu tout simplement créer de nouveaux attributs directement sur la table «chanteur» qui seront calculés tel que suit : - c_age = chanteur.date_courante chanteur.date_naissance si chanteur.envie=oui; chanteur.dat_deces chanteur.date_naissance si chanteur.envie = non. - dat_premier_singl = min (single.date_sortie). - dat_dernier_singl = max (single.dat_sortie). - vente_glob = libelle ( max ( count (nombre occurrences single.vente))). Si 02 éléments vente apparaissent le même nombre de fois, prendre la faible. - c_genre = genre si genre est toujours pratiqué (i-e : genre apparaît pour tous les singles sortis par le chanteur). Variable sinon.

21 D autres attributs ont été ajoutés fortuitement et qui sont : - estime_fortune : fortune estimée du chanteur. - annee_carriere : nombre d années d activités du chanteur dans le domaine de la chanson (en suppose que la carrière d un chanteur ne commence pas forcément à la sortie d un premier single car on peut lui supposer d autres formes d excercice de son métier : spectacles, concerts,...). Nous avons préféré au lieu de cela, de tout simplement créer une nouvelle table avec les attributs que l on vient de citer calculés de la me^me manière, ceci afin de ne pas altérer la structure générale de la table et donc, de la base de données Contexte et objectifs de l étude : L objectif de cette étude est d opérer une analyse de la carrière des individus «chanteurs» présents dans notre base de données selon le genre musical dans lequel ils versent ; à cet effet, nous avons retenus les éléments suivants : - Individus chanteurs : comme entité atomique ; il y a dans notre base de données «BdMusic» un total de 40 chanteur. - Variables de description : comme il nous a été demandé d en définir 8 (03 quantitatifs et 05 qualitatifs), nous avons retenu les éléments suivants : - éléments qualitatifs : vente_glob, c_genre, pays, nationalite, date_premier_singl, date_dernier_singl. - éléments quantitatifs : c_age, nb_albums, estim_fortune, annee_carriere. - Concepts : carrière des chanteurs en rapport au genre musical pratiqué, au nombre de 7 dans notre base de données actuelle : genre Variété française Variété internationale Pop Pop rock r n b Dance Bande originale variable Notons que, pour l obtention d un nombre de concepts plus important, il suffirait de croiser ces concepts avec d autres individus présents dans la base ou à définir ; exemple : un attribut modal : vivant/mort qui nous donnerait 7*2 concepts ; ou encore genre et tranches d age des chanteurs (<18 ans, ans, >40 ans) nous donnerait 7*3 concepts. Notons aussi que pour une bonne analyse, la base de données doit idéalement contenir des informations sur

22 les activités des chanteurs depuis le début de leur carrière. Le genre «variable» a été ajouté afin d exprimer le fait qu un chanteur puisse s adonner à plusieurs genres (notons que nous aurions pu dupliquer les apparitions de chanteurs dans les genres principaux). L objectif de l étude est de dessiner un profil de la carrière de nos chanteurs par rapport au genre musical pratiqué.

23 4. Mise en œuvre pratique de l analyse : Création des requêtes : La requête SQL suivante permet d extraire les données à utiliser dans notre analyse et qui sont de la forme : Individu/ concept/ variables descriptives. Select c.nom, e.c_genre, e.vente_glob, e.dat_premier_singl, e.dat_dernier_singl, p.pays, e.c_age, c.nationalite, c.nb_albums, e.estim_fortune From Chanteur as c, Elem_analyz_Chant as e, PaysChanteur as p, RegionChanteur as r Where ( e.chantur_id_2 = c.chanteur_id And c.region_id = r.region_id And r.pays_id = p.pays_id); La requête doit retourner une ligne pour chaque individu, chaque ligne ayant une structure sus et sous précisée : >> identifiant de l individu, groupe auquel appartient l individu (i-e : concept) et ensuite les différents attributs décrivant les individus.

24 4. 2. Extraction des données symboliques : Résultat de l exécution de la requête sur Access : Nom de la requête : «test»

25 Exécution sous Sodas : - visualisation du fichier après exécution de la requête Analyse par méthode SOE : Présentation de la méthode SOE : La méthode SOE permet à un utilisateur de visionner facilement dans un tableau tous les objets symboliques présents dans un fichier SODAS ainsi que d opérer quelques changements sur ces données. Ces changements sont par exemple la modification des libellés des objets, des modalités, des variables L éditeur fournit également la possibilité de visionner les objets symboliques sous une représentation graphique : l étoile zoom. L étoile zoom représente un objet symbolique. Cette représentation graphique en étoile zoom est basée sur des axes radiaux où chaque axe représente une variable. Le but de cette représentation est de fournir une image synthétique de l objet, un profil, et de comparer des profils entre eux.

26 Mise en œuvre de SOE et interprétation :

27 - visualisation des résultats sous l éditeur de SOE Interprétation : La méthode SOE va nous permettre de visualiser de façon graphique nos concepts. C est une manière intuitive de présenter le profil des chanteurs. Nous avons retenu ici tous les individus «chanteurs», Les représentations 2D et 3D que SODAS nous fournit ici présentent les premiers indices de similarité. En effet, on s aperçoit que 03 attributs dévoilent une dissimilarité entre les genres musicaux plutôt anciens (pop rock et variété française) et récents (r n b, voir dates premier et dernier single), il s agit de : age, vente globales et fortune des chanteurs dont on essaie de dessiner le profil ; en effet, on peut aisément voir que le style «r n b» regroupe des chanteurs d age assez jeune (vu que c est un style musical assez récent) allant de 22 à 38 contre 33 à 61 ans pour le style «variété française» et ans pour «pop rock» vu que c est un style plus ou moins récent ; que les chanteurs des catégories en question sont encore assez peu fortunés pour (r n b) contrairement aux chanteurs des 02 autres catégories (ce qui est en adèquation avec les tranches d ages) ; et si on jette un coup d œil sur les ventes, on se rend compte que les taux de ventes (ventes globales) des chanteurs r n b est presque aussi fort aux Etats-Unis que ceux de variété française dans les pays

28 francophones ou même pop rock dans les pays anglophones ; on en conclut donc que ce style très prisé et qu il y a des chances qu il concurrence les autres styles. Schématiquement, les résultats interprétés ci-dessus se présentent tel que suit : Représentation en étoile zoom «3D» :

29 Pour le concept «variété française» :

30 Pour le concept «pop rock» :

31 Pour le concept «r n b» :

32 Représentation en étoile zoom «2D» :

33

34 4. 4. Analyse par méthode PCM : Présentation de la méthode PCM : La méthode PCM correspond à l analyse en composantes principales classiques. Mais au lieu d obtenir une représentation par points sur un plan factoriel, la méthode PCM propose une visualisation de chaque concept par des rectangles. L objectif est d étudier l intensité des liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines. La méthode PCM est donc une méthode factorielle de réduction du nombre de caractères permettant des représentations géométriques des individus et des variables. La réduction se fait par la construction de nouveaux caractères synthétiques obtenus en combinant les variables initiales au moyen des «facteurs». Les éléments de la matrice de données sont des intervalles et chacun décrit la variation de la variable observée (minimum et maximum). La méthode n accepte que les variables continues. Pour chacune, l utilisateur choisit ainsi son maximum et son minimum Mise en œuvre de PCM et interprétation : Pour l application de la méthode PCM, nous avons retenu trois variables quantitative (age et nb_albums, estim_fortune) ; Notre requête SQL portera donc sur ces 03 éléments et se présente tel que suit : SELECT c.nom, e.c_genre, e.c_age, c.nb_albums, e.estim_fortune, e.annee_carriere FROM Chanteur AS c, Elem_analyz_Chant AS e WHERE ( e.chantur_id_2 = c. chanteur_id ); Nous aurions pu aussi identifier les éléments à intégrer dans notre étude sous TREE directement lors du paramétrage de la méthode en SODAS, les paramètres étant : c_age, nb_albums, estim_fortune, annee_carriere. Nous avons procédé de la sorte de manière à visualiser la matrice à étudier, les deux méthodes étant équivalentes.

35 Résultat sous Access : Nom de la requête : «test1»

36 Exécution sous SODAS :

37 Graphiquement, les résultats se présentent tel que suit : Avec pour axes factoriels PC1 et PC2 dont l inertie est I (PC1, PC2 ) = 24,06+40,67 65% ; PC1 = c_age ; PC2 = nombre d albums.

38

39 Matrix of input data: c_age nb_albums estim_fortune annee_carriere «pop rock» [29.00, 49.00] [2.00, 7.00] [1.00, 21.00] [1.00, 29.00] «variete francaise» [33.00, 61.00] [4.00, 58.00] [1.00, 24.00] [2.00, 40.00] «variable» [27.00, 46.00] [5.00, 13.00] [4.00, 40.00] [4.00, 11.00] «dance» [36.00, 36.00] [10.00, 10.00] [2.00, 2.00] [2.00, 2.00] «r n b» [23.00, 38.00] [2.00, 10.00] [2.00, 8.00] [3.00, 7.00] «variete internationale» [34.00, 41.00] [11.00, 14.00] [2.00, 8.00] [3.00, 7.00] «pop» [22.00, 30.00] [1.00, 4.00] [2.00, 12.00] [2.00, 4.00] Matrix Variance/Covariance : c_age nb_albums estim_fortune annee_carriere Correlations Matrix : c_age nb_albums estim_fortune annee_carriere Propers Values and inerty percentage: c_age= (40.67%) nb_albums= (16.89%) estim_fortune= (24.06%) annee_carriere= (18.38%) Factorials Descriptions of interval type upon axes: PC1,PC2,PC3,PC4 : «pop rock» [-1.31, 1.88] [-0.85, 1.41] [-1.01, 2.17] [-1.50, 0.65]

40 «variete francaise» [-0.96, 5.18] [-2.31, 1.58] [-2.91, 2.82] [-2.29, 2.86] «variable» [-1.08, 1.55] [-0.68, 2.87] [-1.33, 0.72] [-1.09, 1.00] «dance» [-0.53, -0.53] [-0.60, -0.60] [-0.28, -0.28] [-0.15, -0.15] «r n b» [-1.52, -0.02] [-0.64, 0.34] [-0.39, 0.66] [-0.66, 0.91] «variete internationale» [-0.55, 0.31] [-0.79, -0.07] [-0.59, 0.11] [-0.46, 0.28] «pop» [-1.67, -0.75] [-0.35, 0.71] [-0.17, 0.50] [-0.12, 0.70] Correlations Matrix, initiales Variables/principals components PC1...PC4 c_age nb_albums estim_fortune annee_carriere Interprétation : Tel qu on peut le voir sur le graphe, les concepts variété française et R N B (et aussi pop) se retrouvent encore une fois plus ou moins différenciées par rapport à l age et nb_albums qui représentent notre plan factoriel (voir résultats interprétation SOE) ; tandis que les autres concepts restent plus ou moins bien corrélés.

41 4. 5. Analyse par méthode TREE : Présentation de la méthode TREE : La méthode TREE propose un algorithme par agrandissement d arbre. Il s agit d une procédure récursive de partitionnement qui peut être vue comme une recherche itérative d un ensemble organisé d objets symboliques qui correspond le mieux aux données initiales. A chaque étape, le meilleur partitionnement est obtenu grâce à une mesure donnée en paramètre Mise en oeuvre de la méthode : Pour la méthode TREE, nous avons créé une classe moy_age ; d abord en SQL : SELECT c_genre, avg(c_age) AS moy_age FROM elem_analyz_chant GROUP BY c_genre; Puis, comme la requête précédente produit un résultat numérique et dans le but de l exploiter sous SODAS, nous avons créé une table (sous ACCESS) qui stocke les résultats de la requête au format text. Nous avons ainsi apporté les modifications suivantes : - Si Moy_age 0, on affecte : [-, 20] ; Si 20 <Moy_age< 30, on affecte : [20, 30] ; Si 30 < Moy_age < 40, on affecte : [30, 40] ; Si Moy_age 40, on affecte : [40,+] ; Exécution sous Access :

42

43 Tel que suggéré dans la section précédente, nous devons cette fois-ci recourir au paramétrage de la méthode TREE afin de spécifier les variables à expliquer par la variable classe «moy_age» avec comme paramètres : vente_glob, pays, nationalite. Interprétation : L étude du résultat (voir extrait page suivante) nous indique que la variable «nationalité» explique les deux autres, à savoir ventes globales et pays qui se résument dans les valeurs de la classe «moy_age» ; ainsi, lorsque nationalité se présente dans le vecteur [nationalite = ], i-e : Americain, australien ou canadien, on peut s attendre à avoir une moyenne d age pour les chanteurs qui est dans l intervalle [20,30], sinon dans l intervalle [30,40] (i -e : globalement un age assez jeune) ; ceci cadre bien avec nos résultats précédents (notamment en SOE) ou l on prédisait une forte corrélation entre age et vente_globale ainsi que age et pays (pour le concept r n b, on avait prédit une communauté de chanteurs à succès assez jeune de nationalité anglophone).

44 Exécution sous SODAS :...SPLITTING NODE: 1 VARIABLE : ( 6) nationalite SPLIT : ( 1=left node, 0=right node) MODALITIES BELONG LEFT NODE : ( 1) Americain ( 5) Australienne ( 6) Colombienne ( 7) Canadienne MODALITIES BELONG RIGHT NODE : ( 2) Americaine ( 3) Français ( 8) Anglais ( 9) Belge... PARAMETERS : Learning Set : 7 Number of variables : 3 Max. number of nodes: 3 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1.00 Frequency of test set : IF ASSERTION IS TRUE (up)! --- x [ ASSERTION ]! IF ASSERTION IS FALSE (down) < 2 >[30,40] ( )!!----1[ nationalite = ]! < 3 >[20,30] ( ) - extrait du fichier fichier\tree\ct4pc001.lst

45 Dans ce qui suit, nous allons présenter les méthodes PYR, DIV et STAT (regroupé car tiré du même fichier SDS) :

46 4. 6. Analyse par méthode PYR : Présentation de la méthode PYR : La méthode PYR est une classification pyramidale qui généralise la hiérarchisation en autorisant les classes non disjointes à un niveau donné. La pyramide constitue un modèle intermédiaire entre les arbres et les structures en treillis. Cette méthode permet de classer des données plus complexes que ce qu autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans une classification pyramidale, chaque classe formée est définie non seulement par une extension (l ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l intention de la classe). L intention est héritée d un prédécesseur vers son successeur et nous obtenons ainsi une structure d héritage. La structure d ordre permet l identification de concepts intermédiaires ; c'est-à-dire de concepts qui comblent un vide entre des classes bien identifiées. En entrée de cette méthode, l utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide. Ces variables peuvent être continues (des valeurs réelles), des intervalles de valeurs réelles ou bien des histogrammes. L utilisateur est invité à choisir entre des variables qualitatives et continues mais il lui est également possible de les mélanger Mise en œuvre de la méthode et interprétation: Comme paramètres d entrée, nous avons choisi, dans le premier cas (pyramide 1) : c_age, nb_albums et estim_fortune ; et dans le deuxième (pyramide 2) nous les avons réduit à deux afin d illustrer un degré d agrégation croissant avec la croissance des variables liées aux individus (plus le nombre de variables augmente, plus la pyramide s enrichit):

47 Interprétation : Reprenons encore une fois nos deux concepts «r n b» et «variété française» par rapport aux critères age, fortune et nb_albums, leur position sur la pyramide est assez éloigné, tandis que pop rock et r n b sont assez proches, ce qui vient nous conforter dans nos premières analyses issues des autres méthodes exposées précédemment (notamment en SOE et PCM ).

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

DATA MINING - Analyses de données symboliques sur les restaurants

DATA MINING - Analyses de données symboliques sur les restaurants Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Découvrir les stratégies ayant fait leurs preuves et les meilleures pratiques Points clés : Planifier

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Introduction à l Informatique Décisionnelle - Business Intelligence (7) Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Evry - M2 MIAGE Entrepôt de données

Evry - M2 MIAGE Entrepôt de données Evry - M2 MIAGE Entrepôt de données Introduction D. Ploix - M2 Miage - EDD - Introduction 1 Plan Positionnement du BI dans l entreprise Déclinaison fonctionnelle du décisionnel dans l entreprise Intégration

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

IBM SPSS Direct Marketing

IBM SPSS Direct Marketing IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

WHITE PAPER Une revue de solution par Talend & Infosense

WHITE PAPER Une revue de solution par Talend & Infosense WHITE PAPER Une revue de solution par Talend & Infosense Master Data Management pour les données de référence dans le domaine de la santé Table des matières CAS D ETUDE : COLLABORATION SOCIALE ET ADMINISTRATION

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

DEMANDE D INFORMATION RFI (Request for information)

DEMANDE D INFORMATION RFI (Request for information) DOD SEICAM RFI Demande d information EVDEC Réf. : RFI_EVDEC- GT5_Outil_reporting_BI_v4.doc Page 1/11 DEMANDE D INFORMATION RFI (Request for information) OUTIL INTÉGRÉ DE REPORTING ET D ANALYSE DÉCISIONNELLE

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

Dossier I Découverte de Base d Open Office

Dossier I Découverte de Base d Open Office ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Business Intelligence avec Excel, Power BI et Office 365

Business Intelligence avec Excel, Power BI et Office 365 Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10

Plus en détail

UE 8 Systèmes d information de gestion Le programme

UE 8 Systèmes d information de gestion Le programme UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications

Plus en détail

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

Business Intelligence

Business Intelligence Pour aller plus loin Tous les détails de l offre Microsoft Business Intelligence : www.microsoft.com/france/decisionnel Contact Microsoft France : msfrance@microsoft.com Business Intelligence Votre Infrastructure

Plus en détail

We make your. Data Smart. Data Smart

We make your. Data Smart. Data Smart We make your We make your Data Smart Data Smart Une société Une société du du groupe Le groupe NP6 SPECIALISTE LEADER SECTEURS EFFECTIFS SaaS Marketing : 50% Data intelligence : 50% 15 sociétés du CAC

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Le CRM en BFI : une approche du pilotage stratégique

Le CRM en BFI : une approche du pilotage stratégique Le CRM en BFI : une approche du pilotage stratégique Sébastien Pasquet, Responsable de missions Le CRM (Customer Relationship Management) s est développé depuis 10 ans essentiellement par l intégration

Plus en détail

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données

Plus en détail

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E.

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E. Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ Sommaire Introduction...

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

Introduction Big Data

Introduction Big Data Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue

Plus en détail

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant

Plus en détail

SQL SERVER 2008, BUSINESS INTELLIGENCE

SQL SERVER 2008, BUSINESS INTELLIGENCE SGBD / Aide à la décision SQL SERVER 2008, BUSINESS INTELLIGENCE Réf: QLI Durée : 5 jours (7 heures) OBJECTIFS DE LA FORMATION Cette formation vous apprendra à concevoir et à déployer une solution de Business

Plus en détail

Analyse prédictive. L essor et la valeur de l analyse prédictive dans la prise de décisions

Analyse prédictive. L essor et la valeur de l analyse prédictive dans la prise de décisions ÉTUDE TECHNIQUE Analyse prédictive L essor et la valeur de l analyse prédictive dans la prise de décisions «Donnez-moi un point d appui et un levier et je soulèverai le monde.» Archimède, 250 av. J.-C.

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

BI = Business Intelligence Master Data-Science

BI = Business Intelligence Master Data-Science BI = Business Intelligence Master Data-Science UPMC 25 janvier 2015 Organisation Horaire Cours : Lundi de 13h30 à 15h30 TP : Vendredi de 13h30 à 17h45 Intervenants : Divers industriels (en cours de construction)

Plus en détail

LE DISPLAY RÉVOLUTION. De l achat d espace publicitaire classique à la gestion d audience ciblée. Janvier 2012 LIVRE BLANC ACXIOM.

LE DISPLAY RÉVOLUTION. De l achat d espace publicitaire classique à la gestion d audience ciblée. Janvier 2012 LIVRE BLANC ACXIOM. LIVRE BLANC ACXIOM LE DISPLAY EN PLEINE RÉVOLUTION De l achat d espace publicitaire classique à la gestion d audience ciblée Janvier 2012 Frédéric GRELIER Directeur Europe développement produits Acxiom

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

Comment réussir son projet de Master Data Management?

Comment réussir son projet de Master Data Management? Comment réussir son projet MDM? Table des matières Comment réussir son projet de Master Data Management?...... 2 Un marché en croissance..... 2 Les démarches qui réussissent... 2 A quels projets métiers

Plus en détail

Guide d exploration de base de données de IBM SPSS Modeler 15

Guide d exploration de base de données de IBM SPSS Modeler 15 Guide d exploration de base de données de IBM SPSS Modeler 15 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p.. Cette

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

AXIAD Conseil pour décider en toute intelligence

AXIAD Conseil pour décider en toute intelligence AXIAD Conseil pour décider en toute intelligence Gestion de la Performance, Business Intelligence, Big Data Domaine d expertise «Business Intelligence» Un accompagnement adapté à votre métier dans toutes

Plus en détail

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc. Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.fr Plan Motivations Débouchés Formation UVs spécifiques UVs connexes Enseignants

Plus en détail

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.) Université de Lille 2 - Droit et Santé Ecole Supérieure des Affaires & Institut Universitaire de Technologie (IUT-C) Département Statistique et Traitement Informatique des Données Licence Professionnelle

Plus en détail

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données 1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données Votre interlocuteur Didier Gaultier Directeur Data Science Business & Decision Professeur de Statistique à l

Plus en détail

Les compétences clés en 2015 La révolution du Big Data souffle sur les métiers du commerce et du marketing

Les compétences clés en 2015 La révolution du Big Data souffle sur les métiers du commerce et du marketing Communiqué de presse Les compétences clés en 2015 La révolution du Big Data souffle sur les métiers du commerce et du marketing Paris, le 7 avril 2015 A la recherche de leviers permettant de soutenir le

Plus en détail

.id. _la solution de pilotage de votre entreprise ERP / CRM / BPM. www.groupeid.ch. informatique & développement

.id. _la solution de pilotage de votre entreprise ERP / CRM / BPM. www.groupeid.ch. informatique & développement .id informatique & développement _la solution de pilotage de votre entreprise ERP / CRM / BPM marketing & crm \ ventes \ achats \ \ \ www.groupeid.ch Un outil performant basé sur des connaissances «métiers»

Plus en détail

La gestion des données de référence ou comment exploiter toutes vos informations

La gestion des données de référence ou comment exploiter toutes vos informations La gestion des données de référence ou comment exploiter toutes vos informations La tour de Babel numérique La gestion des données de référence (appelée MDM pour Master Data Management) se veut la réponse

Plus en détail

Les dessous des moteurs de recommandation

Les dessous des moteurs de recommandation Les dessous des moteurs de recommandation La personnalisation est un enjeu majeur du e-commerce aujourd hui. Elle réveille l esprit commerçant dans les boutiques en ligne en remettant le visiteur au cœur

Plus en détail

Chap 3 : La connaissance du client. I. Les fondements de la connaissance du client. Les principales évolutions sont résumées dans le tableau suivant :

Chap 3 : La connaissance du client. I. Les fondements de la connaissance du client. Les principales évolutions sont résumées dans le tableau suivant : Chap 3 : La connaissance du client I. Les fondements de la connaissance du client A. D une société de consommation à une société de consommateurs Depuis les années 1980, les mutations sociales ont eu d

Plus en détail

Votre Infrastructure est-elle? Business Intelligence. Améliorer la capacité d analyse et de décision de vos équipes

Votre Infrastructure est-elle? Business Intelligence. Améliorer la capacité d analyse et de décision de vos équipes Votre Infrastructure est-elle? Business Intelligence Améliorer la capacité d analyse et de décision de vos équipes Sommaire Introduction : Les domaines d application de la Business Intelligence p. 4 Vue

Plus en détail

La problématique. La philosophie ' ) * )

La problématique. La philosophie ' ) * ) La problématique!" La philosophie #$ % La philosophie &'( ' ) * ) 1 La philosophie +, -) *. Mise en oeuvre Data warehouse ou Datamart /01-2, / 3 13 4,$ / 5 23, 2 * $3 3 63 3 #, 7 Datawarehouse Data warehouse

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012. 1 Du même auteur chez le même éditeur Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012. AFNOR 2013 Couverture : création AFNOR Éditions Crédit photo 2011 Fotolia

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

IBM Tivoli Monitoring, version 6.1

IBM Tivoli Monitoring, version 6.1 Superviser et administrer à partir d une unique console l ensemble de vos ressources, plates-formes et applications. IBM Tivoli Monitoring, version 6.1 Points forts! Surveillez de façon proactive les éléments

Plus en détail

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012 CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE Edition 2012 AGENDA Qui sommes nous? Présentation de Keyrus Keyrus : Expert en formations BI Nos propositions de formation 3 modes de formations Liste des

Plus en détail

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Plus en détail

Le géomarketing - Page 1 sur 7

Le géomarketing - Page 1 sur 7 Le géomarketing - Page 1 sur 7 LES DOSSIERS MADWATCH.net méthodes Le Géomarketing Novembre 2003 Nb de pages : 7 Le géomarketing - Page 2 sur 7 Créé dans les années 80, la plupart des applications du géomarketing

Plus en détail

Le langage SQL Rappels

Le langage SQL Rappels Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,

Plus en détail

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles) SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients

Plus en détail

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier? DOSSIER SOLUTION CA ERwin Modeling Comment gérer la complexité des données et améliorer l agilité métier? CA ERwin Modeling fournit une vue centralisée des définitions de données clés afin de mieux comprendre

Plus en détail

Université Paris IX DAUPHINE DATE : 24/04/06

Université Paris IX DAUPHINE DATE : 24/04/06 Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE

Plus en détail

Plan d action SMB d une Approche Agile de la BITM Pour les PME

Plan d action SMB d une Approche Agile de la BITM Pour les PME Plan d action SMB d une Approche Agile de la BITM Pour les PME Personnel, processus et technologie nécessaires pour élaborer une solution rapide, souple et économique Copyright 2013 Pentaho Corporation.

Plus en détail

Quels outils pour prévoir?

Quels outils pour prévoir? modeledition SA Quels outils pour prévoir? Les modèles de prévisions sont des outils irremplaçables pour la prise de décision. Pour cela les entreprises ont le choix entre Excel et les outils classiques

Plus en détail

Architectures d'intégration de données

Architectures d'intégration de données Architectures d'intégration de données Dan VODISLAV Université de Cergy-ontoise Master Informatique M1 Cours IED lan Intégration de données Objectifs, principes, caractéristiques Architectures type d'intégration

Plus en détail

Atelier Symposium MicroStrategy

Atelier Symposium MicroStrategy Atelier Symposium MicroStrategy Présentation de Soft Computing «De l'usage de MicroStrategy pour la Connaissance Client dans le secteur de la Distribution» G.MANGEON Soft Computing 16 Juin 2016 Soft Computing

Plus en détail

Thème 2 : Cycle de vie des projets d innovation: ambigüité, incertitude, production de savoir et dynamisme

Thème 2 : Cycle de vie des projets d innovation: ambigüité, incertitude, production de savoir et dynamisme Thème 2 : Cycle de vie des projets d innovation: ambigüité, incertitude, production de savoir et dynamisme Serghei Floricel Dans l introduction nous avons mentionné que les projets d innovation suivent

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

WHITEPAPER. Quatre indices pour identifier une intégration ERP inefficace

WHITEPAPER. Quatre indices pour identifier une intégration ERP inefficace Quatre indices pour identifier une intégration ERP inefficace 1 Table of Contents 3 Manque de centralisation 4 Manque de données en temps réel 6 Implémentations fastidieuses et manquant de souplesse 7

Plus en détail

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration

Plus en détail

Prestations de conseil en SRM (Storage Ressource Management)

Prestations de conseil en SRM (Storage Ressource Management) Prestations de conseil en SRM (Storage Ressource Management) Sommaire 1 BUTS DE LA PRESTATION 2 PRESENTATION DE LA PRESTATION 3 3 3 ETAPE 1 : ELEMENTS TECHNIQUES SUR LESQUELS S APPUIE LA PRESTATION DE

Plus en détail

2 Serveurs OLAP et introduction au Data Mining

2 Serveurs OLAP et introduction au Data Mining 2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Gestion de la Relation Client (GRC)

Gestion de la Relation Client (GRC) Techniques de DM pour la GRC dans les banques Page 2 I.1 Introduction La gestion de la relation client est devenue un processus essentiel dans les institutions bancaires. Ils essaient toujours d améliorer

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98. J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98. J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES BASES DE DONNÉES CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98 J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES III. LES SYSTÈMES RÉSEAU IV. LES SYSTÈMES RELATIONNELS V. LE LANGAGE

Plus en détail

#BigData Dossier de presse Mai 2014

#BigData Dossier de presse Mai 2014 #BigData Dossier de presse Mai 2014 La valeur du Big Data pour l entreprise Comment permettre l avènement d une culture de la donnée pour tous? Dans un monde porté par la mobilité et le Cloud, non seulement

Plus en détail