WEBSELL. Projet DATAMINING

Dimension: px
Commencer à balayer dès la page:

Download "WEBSELL. Projet DATAMINING"

Transcription

1 WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ]

2 SOMMAIRE 1. INTRODUCTION METHODES ET OUTILS MODÈLES DE NOUVEAUX GISEMENTS Textmining Webmining Données symboliques SOLUTIONS INDUSTRIELLES SAS Enterprise Miner SPSS Clementine Oracle Darwin IBM Intelligent Miner Synthèse des offres des principaux éditeurs CAS D UTILISATION Grande distribution Banques et Assurances Opérateurs de téléphonie mobile VPC ETUDE STATISTIQUE WEBSELL CONTEXTE DE L ETUDE ET PRESENTATION DES DONNEES Les sources L'es objectifs Les données L ANALYSE Individus et concepts Variables SOE : Symbolic Objects Editor Présentation de la méthode SOE Mise en oeuvre de la méthode SOE Analyse des «Marques» Analyse des «Produits» STAT Présentation de la méthode STAT Mise en oeuvre de la méthode STAT Les fréquences relatives pour les variables intervalles Les capacités pour les variables multi nominale probabilistes Biplot pour les variables intervalles DIV : Divisive Clustering on Symbolic Objects Présentation de la méthode DIV Mise en oeuvre de la méthode DIV Les variables qualitatives : Description des marques Les variables intervalle: Description des marques Les variables qualitatives : Description des groupes de produits Les variables intervalle : Description des groupes de produits CONCLUSIONS...ERREUR! SIGNET NON DEFINI. [ Page 2 ]

3 1. INTRODUCTION L information est la ressource du XXI siècle et la statistique un des métiers essentiels de son traitement. Le Data Mining (synonymes: Fouille de données, extraction de connaissances ou KDD) en est un avatar: nouveau champ d application à l interface de la statistique et des technologies de l information (bases de données, intelligence artificielle, apprentissage etc.). La métaphore du Data Mining signifie qu il y a des trésors ou pépites cachés sous des montagnes de données que l on peut découvrir avec des outils spécialisés. Le Data Mining analyse des données recueillies à d autres fins: c est une analyse secondaire de bases de données, souvent conçues pour la gestion de données individuelles 1. Le Data Mining ne se préoccupe donc pas de collecter des données de manière efficace (sondages, plans d expériences) 2. L idée de découvrir des faits à partir des données est aussi vieille que la statistique Statisticsis the science of learning from data. Statistics is essential for theproperrunning of government, central to decisionmakingin industry,anda corecomponent of modern educational curricula atalllevels 3. Dans les années 60 on a l Analyse Exploratoire : «L analyse des données est un outil pour dégager de la gangue des données le pur diamant de la véridique nature.»4 Le Data Mining est né de : L évolution des SGBD vers l informatique décisionnelle avec les entrepôts de données (Data Warehouse). La constitution de giga bases de données : transactions de cartes de crédit, appels téléphoniques, factures de supermarchés. Développement de la Gestion de la Relation Client (CRM) Marketing client au lieu de marketing produit Attrition, satisfaction, etc. Recherches en Intelligence artificielle, apprentissage, extraction de connaissances Mais aussi une entreprise commerciale... 1 Kardaun, T.Alanko,1998) 2 Hand, J.Kettenring, 1997, ancien président de l ASA. 4 J.P.Benzécri1973 [ Page 3 ]

4 2. METHODES ET OUTILS 2.1. MODÈLES Construire des modèles a toujours été une activité des statisticiens.unmodèle est un résumé global des relations entre variables, permettant de comprendre des phénomènes, et d émettre des prévisions. «Tous les modèles sont faux, certains sont utiles» 5 Le Data Mining ne traite pas d estimation et de tests de modèlespréspécifiés, mais de la découverte de modèles à l aide d un processus de recherche algorithmique d exploration de modèles: linéaires ou non, explicites ou implicites: réseaux de neurones, arbres de décision, SVM, régression logistique. Les modèles ne sont pas issus d une théorie mais de l exploration des données DE NOUVEAUX GISEMENTS Textmining Extraire de l information de textes. Une part croissante de l information se présente sous forme digitalisée: documents électroniques, nouvelles, brevets, réclamations, s etc. Des techniques spéciales de classification supervisée ou non sont développées Webmining Analyse de la fréquentation de sites webet du comportement des utilisateurs. Applications : fidélisation mesures d efficacité de campagnes de promotion click analysis : optimisation des sites Données symboliques Sortir du cadre du tableau rectangulaire, avoir des données floues ou intervalles, avec ou sans probabilités. Eurostat a financé le projet SODAS (symbolicdata analysisfor official statistics), un consortium de 17 équipes européennes dont le laboratoire Ceremade de l université de Paris-Dauphine. 5 (G.Box) [ Page 4 ]

5 La spécificité du projet SODAS est d étendre le champ d application du Datamining au traitement de concepts, et non plus seulement aux individus statistiques classiques. Les concepts sont des objets statistiques de haut niveau définis à la fois par intension (description) et par extension (ensemble des éléments, individus ou sous-concepts représentés par le concept). La modélisation des concepts nécessite un mode de représentation particulier, dit symbolique, la représentation ne pouvant se réduire à une information numérique élémentaire. Le projet SODAS a donné lieu à la mise en oeuvre d un progiciel du même nom, adaptant dans le cas des données symboliques les algorithmes classiques des statistiques exploratoires et du Datamining. Le projet décrit dans la suite de ce mémoire a été réalisé avec SODAS SOLUTIONS INDUSTRIELLES SAS Enterprise Miner La solution de Datamining de SAS est caractérisée par un référentiel partagé des modèles. Les modèles de scoring peuvent être déployés dans des environnements d exécution divers, avec un runtime SAS ou au sein même de la base de données relationnelle. SEM propose un processus global intégré de traitementde données : échantillonnage, exploration, modification, modélisation et validation (SEMMA). Les algorithmes de Datamining suivants sont disponible : Statistiques descriptives Segmentation Analyse de séquences Analyse factorielle Séries temporelles Régression linéaire et logistique Arbres de décision Réseaux neuronaux Induction de règles Classification SPSS Clementine Autre solution client-serveur basée sur un référentiel centralisé, Clementine, la solution de Data Mining de l éditeur britanique SPSS propose un panel d algorithmes de Datamining très riche. Le modèle de processus CRISP-DM (CRoss- Industry Standard Process for Data Mining), d initiative principalement européenne, et dont SPSS est un des principaux initiateurs, se veut un effort de standardisation de la démarche de mise en oeuvre du Datamining en entreprise. On a vu que SAS proposait son propre modèle de processus, SEMMA, qui se place donc en concurrence de CRISP- DM. Ce dernier est évidemment implémenté dans Clementine et mis en avant comme un des [ Page 5 ]

6 points forts de la solution. A noter la capacité de Clementine à exploiter les algorithmes disponibles au niveau des SGBDR DB2,Oracle ou SQL Server, selon ce que proposent ces éditeurs, et les possibilités de déploiement PMML des modèles. Clementine propose les algorithmes suivants : Arbres de décision Régression Segmentation Apprentissage bayésien Classification Réseaux neuronaux Induction de règles Régression linéaire et logistique Analyse factorielle Oracle Darwin Moins riche sur le plan des algorithmes proposés que les deux précédents pure player, mais probablement plus abordable dès lors que l on dispose déjà du SGBDR de l éditeur, la solution d Oracle est présentée comme une alternative assez complète, dont l atout principal réside dans l intégration supposée au plus près du SGBDR et la disponibilité des données que cette intégration est censé apporter. Elle propose les algorithmes suivants : Réseaux neuronaux Régression linéaire Régression logistique Arbres de décision Règles d association Apprentissage bayésien Segmentation et analyse de données exploratoire IBM Intelligent Miner Il s agit en réalité d une suite de produits sous la forme d extension des SGBDR [ Page 6 ]

7 associés à une interface de programmation (Intelligent Miner Scoring ou Intelligent Miner Modeling), de composants applicatifs (Intelligent Miner Vizualization) ou bien d application indépendante (Intelligent Miner for Data). L approche est similaire à celle d Oracle du point de vue de la proximité de la solution avec le SGBDR et la simplicité relative, avec l utilisation de la norme PMML comme format d échange. Algorithmes proposés : Associations Classification (neuronale ou hiérarchique) Segmentation Prédiction Synthèse des offres des principaux éditeurs 2.4. CAS D UTILISATION Voici un rapide et non-exhaustif aperçu par secteur d activité des types de besoin et des approches mises en oeuvre pour les résoudre Grande distribution Les modèles de Datamining sont invoqués dans la grande distribution en marketing client, dans le cadre de la mise en service des cartes de fidélité. Les grandes enseignes comme Auchan ou la Fnac ont compris que la carte de fidélité et les systèmes de points leur permettaient de collecter les habitudes d achat de leur clientèle et d exploiter ces informations à des fins promotionnelles ciblées Banques et Assurances Aussi bien les banques que les assurances ont par nature une très bonne connaissance de leur clientèle et sont à même d exploiter cette information. La premier intérêt est, là encore, au niveau des directions en charge du marketing, la segmentation restant l outil de base. Les directions en [ Page 7 ]

8 charge du risque (de crédit bancaire par exemple) sont également intéressées par les modèles de notation faisant appel à l analyse discriminante. Le caractère central du système d information comme principal outil de production dans le secteur banque-assurances milite pour une mise en oeuvre s appuyant sur de riches infrastructures client-serveur, au plus près des données de production. Il n est donc pas rare de retrouver l offre des grands éditeurs spécialisés du Datamining dans ces entreprises Opérateurs de téléphonie mobile Ce secteur d activité doit gérer la problématique d un marché déjà pratiquement saturé. L enjeu est ici plus dans la capacité à conserver sa clientèle que dans la conquête de nouveaux clients. Une méthode particulière appelée churn, qui consiste à détecter les clients en partance à partir de l analyse de leurs habitudes de consommation (baisse d activité notamment) a été mise en oeuvre chez Bouygues-Télécom par exemple. Ce type de méthode s appuie sur des modèles de régression ou de réduction d axes. Mais leur mise en oeuvre, assez spécialisée fait l objet de solutions dédiées (ex. Churn-CPS) VPC Deux types de processus d analyse sont mis en oeuvre pour répondre aux problématiques spécifiques de la VPC, comme c est par exemple le cas aux 3Suisses. 1) Un processus de segmentation de la clientèle, basé sur des méthodes de partitionnement, est utilisé notamment pour optimiser les envois coûteux de catalogue de produits complets, en ciblant les segments de clientèles pour lesquels cet envoi se traduira vraisemblablement en actes d achat. 2)Un processus de scoring, basé sur des méthodes d analyse discriminante, pour le marketing événementiel : par exemple l envoi ciblé et à moindre coût de petits catalogues associés à des opérations promotionnelles ponctuelles. Du point de vue de l implémentation, une forte culture statistique dans ce genre de structure autorise le développement en interne des algorithmes à partir de SAS par exemple, sans que l acquisition complémentaire de solutions dédiées soit nécessairement consentie. [ Page 8 ]

9 3. ETUDE STATISTIQUE WEBSELL 3.1. CONTEXTE DE L ETUDE ET PRESENTATION DES DONNEES Les sources L étude a été établie sur la base de données e-commerce que j'ai créée à travers l extrapolation des données du site pendant la période des soldes. Spécialisée dans la vente de produits pour enfants de 0 à 14 ans via quatre catalogues par an et plusieurs boutiques, Vertbaudet, vend également en ligne depuis janvier "Aujourd'hui, Internet représente 15% de notre chiffre d'affaires et les commandes en ligne s'élèvent à par semaine", indique Isabelle Le Corre, responsable Internet de Vertbaudet. Des chiffres en progression constante puisqu'au mois d'octobre 2002, le site annonçait qu'internet représentait 8 % du chiffre d'affaires de la marque et commandes par semaine. Vertbaudet.fr propose l'intégralité des catalogues de la marque, soit actuellement références organisées en neuf rubriques L'es objectifs L étude a la finalité de réaliser l action du benchmarking en effectuant l analyse des choix du marketing adoptes par la Direction du Vertbaudet dans le cadre de la distribution des via web site et d en déduire les goûts des clients par rapports des différentes marques et leurs comportements en fonctions des actions promotionnelles lancées et réductions appliquées pendant la periode des soldes Les données En effet je ne dispose pas des données d analyse des ventes classiques telles que les «quantités vendus» ou «les marges par produit». L analyse est basées sur les données telles que : les prix, les réductions appliquées pendant les soldes, les promotions réalisées dans le cours du semestre avant les soldes, la disponibilité des produits une semaine après le début des soldes. La base Access sur laquelle j ai travaillé, est composé d une table «globale» que contient toutes les informations que j ai réussit de récupérer sur le web site et de plusieurs tables et requêtes que j ai construite a fin d avoir une vision systématique des données. [ Page 9 ]

10 La table «Référentiel» contient les numéros des références des produits, une leurs désignation (description), un leurs appartenance au group spécifique de produit et à la collection données. GROUPES DE PRODUITS CARDIGANS CHEMISES ENSEMBLE JUPES MANTEAUX ET BLOUSONS PANTALONS PULL ET SWEATS TEE-SHIRTS Les groupes des produits font objet du mon étude dans une première partie. COLLECTIONS FILLE GARCON La table «Catalogue» contient les données relatives à l offre complète des produits (autre que la description, on a les tailles, les prix, les promotions, les réductions, la disponibilité et l appartenance à une marque). MARQUES A&Felicie Mia blue OKIDS TODAY VBS Les marques font objet du mon étude dans la deuxième partie. Tailles commercialisées par marque A&Felicie mia blue OKIDS TODAY VBS 2 ans ans ans ans ans ans ans ans ans ans ans [ Page 10 ]

11 La table «Taxonomie» contient la classification des articles selon les groupes des produits DESIGNATION CACHE-COEUR CARDIGAN CARDIGAN POLAIRE CARDIGAN WESTERN GILET LOT 2 CARDIGANS BLOUSE CHEMISE CARREAUX CHEMISE RAYEE CHEMISIER SURCHEMISE SURCHEMISE RAYEE WESTERN SURCHEMISE WESTERN CARDIGAN+PANTALON ENSEMBLE CARDIGAN + JUPE ENSEMBLE CARDIGAN + PANTALON ENSEMBLE TOP + CALECON JUPE JUPE BACHETTE JUPE CULOTTE JUPE ETHNIC JUPE PLISSEE JUPE POLE NORD JUPE SO BRITTISH LOT 2 JUPES CULOTTES BLOUSON BLOUSON HOCKEY COUPE VENT DOUDOUNE DOUDOUNE IDOLE DUFFLE COAT LONGUE DOUDOUNE MANTEAU MANTEAU DOUDOUNE PARKA 3 EN 1 PARKA CAPUCHE PARKA POLE NORD PARKA RUSTIC VESTE ETHNIC VESTE FILLE CALECON LOT 2 CALECONS LOT 2 PANTALONS PANTACOURT PANTALON PANTALON ETHNIC PANTALON HOCKEY PANTALON IDOLE PANTALON POLE NORD PANTALON RUSTIC CARDIGANS CHEMISES ENSEMBLE JUPES GROUP MANTEAUX ET BLOUSONS PANTALONS [ Page 11 ]

12 DESIGNATION PANTALON SO BRITTISH PANTALON WORKER LOT 2 PULLS LOT 2 SWEATS POLO POLO RUGBY PULL PULL PULL CHAUSSETTE PULL COL ROULE PULL COUNTRY PULL HOCKEY PULL JERSEY PULL RUSTIC PULL SCOTTISH SWEAT SWEAT GRAND FROID SWEAT HOCKEY SWEAT POLAIRE SWEAT RAS DE COU SWEAT WESTERN SWEAT WORKER PULL SWEAT ROBE LOT 2 TEE-SHIRTS LOT 2 TEE-SHIRTS LOT 2 TEE-SHIRTS RUSTIC LOT 2 TEE-SHIRTS SCOTTISH LOT 2 TEE-SHIRTS WORKER LOT 3 SOUS-PULLS LOT 3 TEE-SHIRTS TEE-SHIRT TEE-SHIRT TEE-SHIRT HOCKEY GROUP PANTALONS PULL ET SWEATS ROBES TEE-SHIRTS Les requêtes «Catégories» et «Marques» me permettons de sélectionner les données nécessaires pour l analyse des mes concepts. [ Page 12 ]

13 3.2. L ANALYSE Individus et concepts Du point de vue de l analyse de données symboliques, mes concepts seront donc les groupes de produites et les marques Variables Les variables ordinales sont décrites par les désignations des produits (numéro de référence) qui constituent l extension de nos concepts crus. Il s agit : de la couleur de la disponibilité du type de promotion applique avant la période des soldes de la marque (dans le cas d analyse des concepts «groupes des produits») du groupe de produits (dans le cas d analyse des concepts «marques»). Trois variables d intervalles sont décrites par les désignations. Il s agit : de la taille du prix de la réduction appliquée pendant les soldes [ Page 13 ]

14 SOE : Symbolic Objects Editor Présentation de la méthode SOE L éditeur d objets symboliques (SOE) permet aux utilisateurs de visualiser, dans un tableau, tous les objets symboliques présents dans un fichier SODAS. Cet éditeur permet aussi de visualiser des représentations graphiques en 2 et 3 dimensions et une représentation SOL (Symbolic Object Language) de chaque objet symbolique se trouvant dans le tableau Mise en oeuvre de la méthode SOE L étoile Zoom en 3 dimensions, représente les variables qualitatives sous forme d histogrammes et les variables quantitatives par un intervalle, matérialisé par un trait épais sur un axe (avec mention également des valeurs extrêmes rencontrées pour l ensemble des concepts) Analyse des «Marques» Une étoile superposée a permit de confronter les différentes variables caractérisants les politiques marketing des 5 marques différentes vendu via web sur Vertbaudet. Cette méthode a permit déjà d avoir les premières idées sur les promotions exercices et les gammes d offre existante dans les différents groupes des produits, en particulier : [ Page 14 ]

15 La marque OKIDS a exercée le majeur nombre des promotions avant soldes (les prix malice et les promotions en achetant 2 articles on le 3 en cadeaux) par rapport aux autres marques. Ainsi que la disponibilité des produits OKIDS est mineure au début des soldes. Successivement ça sera intéressant de vérifier est ce que il y a une liaison entre l effet d avoir le produits épuises et l application des promotions avant les soldes. La marque A & Felicie se positionne plutôt dans la niche de prix assez cher, L offre des produits de la marque Mia Blue est concentrée plutôt dans la collection filles. Par rapport aux groupes des produits, la gamme d offre est plus riche pour les groupes pantalons, robes et pulls Analyse des «Produits» L information la plus intéressante qui ont peut tiré de l étoile superpose des concepts «produits» est que pour les groupes cardigans, pull, robes et ensemble malgré l absence de promotions avant les soldes la quantités des produits épuises est significative. Donc dans un premier lieu, on peut : exclure la dépendance entre les promotions et la disponibilité des produite et de nous nous concentrer sur les autres variables, commencer à mieux comprendre les goûts des acheteurs par rapport a des groupes des produits. [ Page 15 ]

16 Par exemple l approfondissement sur le groupe robes nous a permit d identifier que l offre de produits est repartie principalement entre les 3 marques : OKIDS, TODAY et A&Felicie STAT Présentation de la méthode STAT La méthode Stats adapte les méthodes mono-dimensionnelles classiques de l analyse exploratoire à l analyse de données symboliques. Elle permet entre autres la représentation des données symboliques sous forme : d histogramme des variables modales ou intervalles, avec dans le dernier cas un découpage en classes de l échelle de valeur considérée ; de «boîte à moustache» pour les variables modales, indiquant les valeurs minimale, maximale et moyenne de chaque modalité ; graphique à deux dimensions (biplot), chaque concept étant représenté par le rectangle induit par ses deux intervalles pour les deux variables intervalles choisies comme axes. [ Page 16 ]

17 Mise en oeuvre de la méthode STAT Les fréquences relatives pour les variables intervalles Grâce à cette méthode il est possible de visualiser le prix et les réductions. Il est évident que plus de réductions dont le % se situe entre 45 et 55%. Pour ce que concerne le prix, la majorité des produits ont le prix entre le 19 et Les capacités pour les variables multi nominale probabilistes La méthode permet de construire un histogramme des capacités des différentes modalités de la variable considérée. Les graphiques successives ont permit d identifier les points suivants : la collection fille est plus riche par rapport à la collection garçon, l offre pour les débardeurs, ensembles et robes est beaucoup mois différentié par rapport aux autres groupes des produits (d ici on peut expliquer «les produits épuises» dans cette groupes), les couleurs les plus utilisées sont : rouge, kaki, écru, ciel, beige, rose, marron ; ainsi que les moins utilisées sont pruneau, violette, jaune, fuchsia, mauve. [ Page 17 ]

18 Par rapports aux marques, on constante que les deux les plus représentativités sont OKIDS et TODAY. [ Page 18 ]

19 Biplot pour les variables intervalles Afin d obtenir des informations supplémentaires sur prix et réductions deux biplots ont été analysé. Le premier concerne le concept «marque». On constate un certain alignement dans l application des réductions pour toutes les marques concernées. En revanche ils sont des différences assez évidents entre les intervalles des prix pratiques pour les différentes marques. Le deuxième biplot concerne les concepts «groupes des produits». On constate : la fourchette des réductions pour les jupes et robes comporte les % superieures par rapports aux autres groupes des produits, les manteaux et blousons appartiennent à la catégorie la plus chère et le groupe tee-shirts à la catégorie la mois chère. [ Page 19 ]

20 Dans cette première étape du notre benchmarking les valeurs numériques a retenir sont : NUMERIC CHARACTERISTICS mean std dev. best correlated prix REDUCTION (0.400) REDUCTION prix (0.400) SYMBOLIC CHARACTERISTICS mean std dev. prix REDUCTION [ Page 20 ]

21 DIV : Divisive Clustering on Symbolic Objects Présentation de la méthode DIV DIV est une méthode de classification hiérarchique qui part de tous les objets symboliques réunis dans une seule classe et procède ensuite par division successive de chaque classe. A chaque étape, une classe est divisée en deux classes suivant une question binaire ; ceci permet d obtenir le meilleur partitionnement en deux classes, conformément à l extension du critère d inertie. L algorithme s arrête après avoir effectuer k-1 division ; k étant le nombre de classes donné, en entrée, à la méthode par l utilisateur Mise en oeuvre de la méthode DIV La méthode DIV a permit de réaliser une classification des marques et des groupes de produits par division successive de chaque classe, en partant d une seule classe réunissant tous les marques et toutes les groupes de produits Les variables qualitatives : Description des marques Les variables à la base de la méthode : Group des produits Les promotions avant les soldes La disponibilité La collection On a: PARTITION IN 3 CLUSTERS : : Cluster 1 (n=1) : mia blue Cluster 2 (n=2) : A&Felicie TODAY Cluster 3 (n=2) : OKIDS VBS Explicated inertia : La marque Mia Blue se distingue des autres. Par contre, les autres classes montrent un regroupement des marques sur les critères choisis [ Page 21 ]

22 Les variables intervalle: Description des marques Une autre étude a été fait en choisissant d autres paramètres en entrée : taille prix réduction On a : VARIANCE OF THE CRITERTION-VARIABLES : taille : prix : REDUCTION : PARTITION IN 3 CLUSTERS : : Cluster 1 (n=2) : mia blue VBS Cluster 2 (n=1) : OKIDS Cluster 3 (n=2) : A&Felicie TODAY Explicated inertia : La marque OKIDS se distingue des autres. Dans ce cas, l arbre de décision révèle, des différences entre les marques sont du aux prix Classe 1 (Ng=2)!! [prix <= ]!! Classe 2 (Ng=1)!!! [prix <= ]! Classe 3 (Nd=2) [ Page 22 ]

23 Les variables qualitatives : Description des groupes de produits Les variables à la base de la méthode : disponibilité promotion avant soldes On a : PARTITION IN 3 CLUSTERS : : Cluster 1 (n=3) : (Disponible immédiatement, aucune promotion avant soldes) CHEMISES PANTALONS PULL ET SWEATS Cluster 2 (n=1) : (promotion avant soldes) TEE-SHIRTS Cluster 3 (n=5) : (disponibilité diffère ou épuise et aucune promotion avant soldes) CARDIGANS ENSEMBLE JUPES ROBES MANTEAUX ET BLOUSONS Explicated inertia : Dans ce cas, l arbre de décision révèle, des différences entre les groupes des produits sont du à la disponibilité et aux promotions avant les soldes : Classe 1 (Ng=3)!! [disponibilité = 001]!!! Classe 3 (Nd=5)!! [promotion_avant_soldes = 001]! Classe 2 (Nd=1) NB. On retrouve toujours CARDIGANS ENSEMBLE JUPES ROBES (Cluster 3) dans les articles épuises Les variables intervalle : Description des groupes de produits On a les variables taille prix réduction [ Page 23 ]

24 VARIANCE OF THE CRITERTION-VARIABLES : taille : prix : REDUCTION : PARTITION IN 3 CLUSTERS : : Cluster 1 (n=5) : CHEMISES JUPES PANTALONS PULL ET SWEATS TEE-SHIRTS Cluster 2 (n=1) : MANTEAUX ET BLOUSONS Cluster 3 (n=3) : CARDIGANS ENSEMBLE ROBES Explicated inertia : Dans ce cas, l arbre de décision révèle, des différences entre les groupes des produits sont du aux prix : Classe 1 (Ng=5)!! [prix <= ]!!! Classe 3 (Nd=3)!! [prix <= ]! Classe 2 (Nd=1) [ Page 24 ]

25 4. CONCLUSIONS L analyse à révélé certaines informations regardant les comportements des «marques» et des «groupes de produites». En particulier, que la politique des réductions des prix pendant les soldes est assez homogène par les groupes de produits. Les réductions sont corrèles aux prix initiales. Le marque ont une légère différentiation dans la politique des prix et de promotions appliques avant la période des soldes. La disponibilité des groupes des produits apparemment n est pas corrélée à des promotions avant les soldes ne aux prix. Vus que groupes des produits épuises sont toujours les mêmes on peut avoir pour l hypothèse que sont les groupes des produits préfères par les acheteurs ou que l offre n est pas suffisante. Le couleurs le plus utilisées ont été identifies. L Analyse des Composantes principales traditionnellement appliquée aux individus n a pas été effectué a cause de l indisponibilité des données (par définition, elle ne s applique qu aux variables quantitatives et nécessite de disposer de plus de deux variables puisqu elle a précisément pour objectif une réduction du nombre d axes, idéalement à deux pour permettre une représentation dans le plan des objets : individus ou concepts). La construction d une pyramide na pas donné des résultats satisfaisants, ça fait donc pensé que les variables choisis ne sont pas représentatifs. [ Page 25 ]

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

DESS Informatique Décisionnelle Université Paris Dauphine. Projet Datamining. Offres de location d appartements à Paris

DESS Informatique Décisionnelle Université Paris Dauphine. Projet Datamining. Offres de location d appartements à Paris DESS Informatique Décisionnelle Université Paris Dauphine Projet Datamining Offres de location d appartements à Paris Encadrant : Mr. DIDAY Mai 2004 VILLE Clarisse VIVIER Julien SOMMAIRE INTRODUCTION...

Plus en détail

DATA MINING : ANALYSE DE LA BASE DE DONNEES «ACTIFS.MDB»

DATA MINING : ANALYSE DE LA BASE DE DONNEES «ACTIFS.MDB» EUZENADE Anne-Laure DESS 220 Informatique de gestion Université de Paris Dauphine DATA MINING : ANALYSE DE LA BASE DE DONNEES «ACTIFS.MDB» ANALYSE DE DONNEES E. DIDAY SOMMAIRE INTRODUCTION...1 I. PRESENTATION

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

RAPPORT DE PROJET DATA MINING

RAPPORT DE PROJET DATA MINING DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS RAPPORT DE PROJET DATA MINING «Analyse des endettements par niveau de développement des pays» Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

DATA MINING - Analyses de données symboliques sur les restaurants

DATA MINING - Analyses de données symboliques sur les restaurants Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.) Université de Lille 2 - Droit et Santé Ecole Supérieure des Affaires & Institut Universitaire de Technologie (IUT-C) Département Statistique et Traitement Informatique des Données Licence Professionnelle

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Antonio Rodrigues (DESS SITN)

Antonio Rodrigues (DESS SITN) : Etude d une base de données sur les plantes d eau douce Février 2004 A l attention de Mr Diday SOMMAIRE I. INTRODUCTION 3 II. PRESENTATION GENERALE 4 II.1. LE DATAMINING 4 II.1.1. PRESENTATION 4 II.1.2.

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E.

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E. Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ Sommaire Introduction...

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Apprentissage Statistique. Bureau d étude :

Apprentissage Statistique. Bureau d étude : Apprentissage Statistique Bureau d étude : Score d appétence en GRC Hélène Milhem IUP SID M2 2011/2012 Institut de Mathématiques de Toulouse UMR CNRS C5219 Equipe de Statistique et Probabilités Université

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 18/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 18/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Cybermarché et analyse comportementale

Cybermarché et analyse comportementale Cybermarché et analyse comportementale Antoine-Eric Sammartino aesammartino@e-laser.fr Séminaire Data Mining - Educasoft Formations 18 juin 2001-1- MENU Le Groupe LaSer Le processus Data Mining L industrialisation

Plus en détail

Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS 1er semestre UE1-01 E Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS Introduction au système SAS 25,5

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Accélérer l agilité de votre site de e-commerce. Cas client

Accélérer l agilité de votre site de e-commerce. Cas client Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Introduction à l Informatique Décisionnelle - Business Intelligence (7) Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! "##$ % &!

 # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! ##$ % &! "# $ %%& ' ( )*+, '()*+,'+''-++.+/0112134+1.50*406 "##$ %& 8CC "#$%& ' ( )* +,-./ 0 123 456+7 3 7-55-89.*/ 0 +3 *+:3 ;< =3 3-3 8 0 23 >-8-3 >5? //*/*0;* @A: *53,,3 / * $/ >B+? - 5, 2 34*56 7 /+#** //8

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Université Paris IX DAUPHINE DATE : 24/04/06

Université Paris IX DAUPHINE DATE : 24/04/06 Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

Améliorer la précision des modèles avec des données non structurées

Améliorer la précision des modèles avec des données non structurées IBM SPSS Modeler Premium Améliorer la précision des modèles avec des données non structurées Points clés Consultez, préparez et intégrez facilement des données structurées ainsi que des données tirées

Plus en détail

Les dessous des moteurs de recommandation

Les dessous des moteurs de recommandation Les dessous des moteurs de recommandation La personnalisation est un enjeu majeur du e-commerce aujourd hui. Elle réveille l esprit commerçant dans les boutiques en ligne en remettant le visiteur au cœur

Plus en détail

Généralités sur les bases de données

Généralités sur les bases de données Généralités sur les bases de données Qu est-ce donc qu une base de données? Que peut-on attendre d un système de gestion de bases de données? Que peut-on faire avec une base de données? 1 Des données?

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Présentation de l auteur En charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 dans

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html Option Deux thèmes : La recherche opérationnelle : Traiter des problèmes d optimisation, d aide à la décision et d évaluation de performances

Plus en détail

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Découvrir les stratégies ayant fait leurs preuves et les meilleures pratiques Points clés : Planifier

Plus en détail

Critères pour avoir la meilleure équipe!

Critères pour avoir la meilleure équipe! PROJET DATAMINING Basket-ball professionnel "NBA" : Critères pour avoir la meilleure équipe! Réalisé par : Anasse LAHLOU KASSI Houssam Eddine HOUBAINE DESS TIO DESS ID Année Scolaire : SOMMAIRE INTRODUCTION...

Plus en détail

Guide d exploration de base de données de IBM SPSS Modeler 15

Guide d exploration de base de données de IBM SPSS Modeler 15 Guide d exploration de base de données de IBM SPSS Modeler 15 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p.. Cette

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Master 2 ème Année Ingénierie Statistique et financière Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Réalisé par : Nicolas CHAIGNEAUD Nora SLIMANI Année universitaire 2007-2008

Plus en détail

L analyse de la gestion de la clientèle

L analyse de la gestion de la clientèle chapitre 1 - La connaissance du client * Techniques utilisées : observation, recherche documentaire, études de cas, études qualitatives (entretiens de groupes ou individuels, tests projectifs, analyses

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

We make your. Data Smart. Data Smart

We make your. Data Smart. Data Smart We make your We make your Data Smart Data Smart Une société Une société du du groupe Le groupe NP6 SPECIALISTE LEADER SECTEURS EFFECTIFS SaaS Marketing : 50% Data intelligence : 50% 15 sociétés du CAC

Plus en détail

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données.

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données. Data Mining = Knowledge Discovery in Databases (KDD) = Fouille de données 1 Définition : Processus ou méthode qui extrait des connaissances «intéressantes» ou des motifs (patterns) à partir d une grande

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Les solutions SAS pour les Petites et Moyennes Entreprises

Les solutions SAS pour les Petites et Moyennes Entreprises BROCHURE SOLUTION Les solutions SAS pour les Petites et Moyennes Entreprises Sur un marché aussi compétitif que celui des Petites et Moyennes Entreprises, le temps et l efficacité sont deux valeurs prioritaires

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Coheris est agréé organisme de formation, n d agrément 11 92 19507 92.

Coheris est agréé organisme de formation, n d agrément 11 92 19507 92. Formations 2015 Coheris est agréé organisme de formation, n d agrément 11 92 19507 92. Introduction La formation est une préoccupation constante de Coheris vis-à-vis de ses clients et de ses partenaires,

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

Dans ce qui suit nous présenterons les concepts de base du data mining

Dans ce qui suit nous présenterons les concepts de base du data mining V - V Dans ce qui suit nous présenterons les concepts de base du data mining A. Concepts de base Définition Le data mining est un procédé d'exploration et d'analyse de grands volumes de données en vue

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

SCP BOISSEAU POMEZ COMMISSAIRES PRISEURS JUDICIAIRES 38 RUE FURIER 10260 ST PARRES LES VAUDES TEL 03 25 40 73 97 FAX 03 25 40 76 57

SCP BOISSEAU POMEZ COMMISSAIRES PRISEURS JUDICIAIRES 38 RUE FURIER 10260 ST PARRES LES VAUDES TEL 03 25 40 73 97 FAX 03 25 40 76 57 SCP BOISSEAU POMEZ COMMISSAIRES PRISEURS JUDICIAIRES 38 RUE FURIER 10260 ST PARRES LES VAUDES TEL 03 25 40 73 97 FAX 03 25 40 76 57 400 LOTS STOCKS TEXTILES CONFECTION,TISSUS,DECORATION SOUS VETEMENTS,CHAUSSANTS

Plus en détail

FutureSight. FutureSight! Document préparé pour Les vinitiques #3. 25 avril 2013. A Software and Service Company! Analytics & Complex Event Solving!

FutureSight. FutureSight! Document préparé pour Les vinitiques #3. 25 avril 2013. A Software and Service Company! Analytics & Complex Event Solving! nalytics & Complex Event Solving! FutureSight Document préparé pour Les vinitiques #3 25 avril 2013 Software and Service Company! «FutureSight permet à ses clients de délivrer, de façon répétable et continue,

Plus en détail

L INTÉGRATION ENTRE BUSINESS INTELLIGENCE ET WEB ANALYTICS

L INTÉGRATION ENTRE BUSINESS INTELLIGENCE ET WEB ANALYTICS L INTÉGRATION ENTRE BUSINESS INTELLIGENCE ET WEB ANALYTICS Julien Coquet Consultant Sénior Hub Sales Philippe Nieuwbourg Analyste Decideo.fr Notre partenaire : Naissance du terme «Business Intelligence»

Plus en détail

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc. Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.fr Plan Motivations Débouchés Formation UVs spécifiques UVs connexes Enseignants

Plus en détail

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données 1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données Votre interlocuteur Didier Gaultier Directeur Data Science Business & Decision Professeur de Statistique à l

Plus en détail

Chap 3 : La connaissance du client. I. Les fondements de la connaissance du client. Les principales évolutions sont résumées dans le tableau suivant :

Chap 3 : La connaissance du client. I. Les fondements de la connaissance du client. Les principales évolutions sont résumées dans le tableau suivant : Chap 3 : La connaissance du client I. Les fondements de la connaissance du client A. D une société de consommation à une société de consommateurs Depuis les années 1980, les mutations sociales ont eu d

Plus en détail

Fouille de Données Médicales

Fouille de Données Médicales Journée Romande d Hygiène Hospitalière Fouille de Données Médicales Michèle Sebag Laboratoire de Recherche en Informatique, Université Paris-Sud http://www.lri.fr/ sebag/ Genève, 21 novembre 2002 MIT Technology

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

Gestion de la relation client : l expérience du Crédit du Nord

Gestion de la relation client : l expérience du Crédit du Nord Gestion de la relation client : l expérience du Crédit du Nord Etat des lieux des processus de DataMining mis en place au Crédit du Nord, des premiers essais de score automatisé à la construction d un

Plus en détail

La Business Intelligence & le monde des assurances

La Business Intelligence & le monde des assurances Conseil National des Assurances Séminaire - Atelier L information au service de tous Le 09 Novembre 2005 La Business Intelligence & le monde des assurances Karim NAFIE Regional Presales Manager EEMEA Operations

Plus en détail

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN 1. DÉVELOPPEMENT D'APPLICATION (CONCEPTEUR ANALYSTE) 1.1 ARCHITECTURE MATÉRIELLE DU SYSTÈME INFORMATIQUE 1.1.1 Architecture d'un ordinateur Processeur,

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions Exemple accessible via une interface Web Une base de données consultable en ligne : Bases de données et systèmes de gestion de bases de données The Trans-atlantic slave trade database: http://www.slavevoyages.org/tast/index.faces

Plus en détail

Fouille de données dans des bases parcellaires (cadre projet PayOTe)

Fouille de données dans des bases parcellaires (cadre projet PayOTe) Fouille de données dans des bases parcellaires (cadre projet PayOTe) Thomas Guyet AGROCAMPUS-OUEST IRISA Équipe DREAM 01 mars 2010, Nancy Équipe DREAM : axes de recherche Diagnosing, recommending actions

Plus en détail

Groupe Eyrolles, 2004 ISBN : 2-212-11331-5

Groupe Eyrolles, 2004 ISBN : 2-212-11331-5 Groupe Eyrolles, 2004 ISBN : 2-212-11331-5 Table des matières Préface........................................................ V Remerciements................................................ VII Introduction...................................................

Plus en détail

La problématique. La philosophie ' ) * )

La problématique. La philosophie ' ) * ) La problématique!" La philosophie #$ % La philosophie &'( ' ) * ) 1 La philosophie +, -) *. Mise en oeuvre Data warehouse ou Datamart /01-2, / 3 13 4,$ / 5 23, 2 * $3 3 63 3 #, 7 Datawarehouse Data warehouse

Plus en détail

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données

Plus en détail

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes. SAS, Cognos, Stata, Eviews, conseil, expertise, formation, mining, datamining, statistique, connaissance Changer la source d'une requête dans SAS Enterprise Guide client, valeur client, CRM, fidélisation,

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

AXIAD Conseil pour décider en toute intelligence

AXIAD Conseil pour décider en toute intelligence AXIAD Conseil pour décider en toute intelligence Gestion de la Performance, Business Intelligence, Big Data Domaine d expertise «Business Intelligence» Un accompagnement adapté à votre métier dans toutes

Plus en détail

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux Plan Objectifs Débouchés Formation UVs spécifiques UVs connexes Enseignants et partenaires Structure générale des études à l UTC Règlement

Plus en détail

Circulaire du 7 juillet 2009

Circulaire du 7 juillet 2009 RÉPUBLIQUE FRANÇAISE Ministère de l économie, de l industrie et de l emploi NOR : ECEC0907743C Circulaire du 7 juillet 2009 concernant les conditions d application de l arrêté du 31 décembre 2008 relatif

Plus en détail

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche

Plus en détail

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT Remarque : Tous les cours sont en français, sauf contre-indication. Pour des traductions anglaises des titres, des descriptifs, et plus de renseignements, consultez l intégralité du Programme des enseignements

Plus en détail

DEMANDE D INFORMATION RFI (Request for information)

DEMANDE D INFORMATION RFI (Request for information) DOD SEICAM RFI Demande d information EVDEC Réf. : RFI_EVDEC- GT5_Outil_reporting_BI_v4.doc Page 1/11 DEMANDE D INFORMATION RFI (Request for information) OUTIL INTÉGRÉ DE REPORTING ET D ANALYSE DÉCISIONNELLE

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

Intégrer le CRM : quelle utilité, quels profits pour ma PME?

Intégrer le CRM : quelle utilité, quels profits pour ma PME? Conférence Applica - 22 avril 2002 Intégrer le CRM : quelle utilité, quels profits pour ma PME? Stéphanie WAILLIEZ Analyste CRM, CXP swailliez@cxp-international.com CXP en quelques mots et quelques chiffres

Plus en détail