WEBSELL. Projet DATAMINING

Dimension: px
Commencer à balayer dès la page:

Download "WEBSELL. Projet DATAMINING"

Transcription

1 WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ]

2 SOMMAIRE 1. INTRODUCTION METHODES ET OUTILS MODÈLES DE NOUVEAUX GISEMENTS Textmining Webmining Données symboliques SOLUTIONS INDUSTRIELLES SAS Enterprise Miner SPSS Clementine Oracle Darwin IBM Intelligent Miner Synthèse des offres des principaux éditeurs CAS D UTILISATION Grande distribution Banques et Assurances Opérateurs de téléphonie mobile VPC ETUDE STATISTIQUE WEBSELL CONTEXTE DE L ETUDE ET PRESENTATION DES DONNEES Les sources L'es objectifs Les données L ANALYSE Individus et concepts Variables SOE : Symbolic Objects Editor Présentation de la méthode SOE Mise en oeuvre de la méthode SOE Analyse des «Marques» Analyse des «Produits» STAT Présentation de la méthode STAT Mise en oeuvre de la méthode STAT Les fréquences relatives pour les variables intervalles Les capacités pour les variables multi nominale probabilistes Biplot pour les variables intervalles DIV : Divisive Clustering on Symbolic Objects Présentation de la méthode DIV Mise en oeuvre de la méthode DIV Les variables qualitatives : Description des marques Les variables intervalle: Description des marques Les variables qualitatives : Description des groupes de produits Les variables intervalle : Description des groupes de produits CONCLUSIONS...ERREUR! SIGNET NON DEFINI. [ Page 2 ]

3 1. INTRODUCTION L information est la ressource du XXI siècle et la statistique un des métiers essentiels de son traitement. Le Data Mining (synonymes: Fouille de données, extraction de connaissances ou KDD) en est un avatar: nouveau champ d application à l interface de la statistique et des technologies de l information (bases de données, intelligence artificielle, apprentissage etc.). La métaphore du Data Mining signifie qu il y a des trésors ou pépites cachés sous des montagnes de données que l on peut découvrir avec des outils spécialisés. Le Data Mining analyse des données recueillies à d autres fins: c est une analyse secondaire de bases de données, souvent conçues pour la gestion de données individuelles 1. Le Data Mining ne se préoccupe donc pas de collecter des données de manière efficace (sondages, plans d expériences) 2. L idée de découvrir des faits à partir des données est aussi vieille que la statistique Statisticsis the science of learning from data. Statistics is essential for theproperrunning of government, central to decisionmakingin industry,anda corecomponent of modern educational curricula atalllevels 3. Dans les années 60 on a l Analyse Exploratoire : «L analyse des données est un outil pour dégager de la gangue des données le pur diamant de la véridique nature.»4 Le Data Mining est né de : L évolution des SGBD vers l informatique décisionnelle avec les entrepôts de données (Data Warehouse). La constitution de giga bases de données : transactions de cartes de crédit, appels téléphoniques, factures de supermarchés. Développement de la Gestion de la Relation Client (CRM) Marketing client au lieu de marketing produit Attrition, satisfaction, etc. Recherches en Intelligence artificielle, apprentissage, extraction de connaissances Mais aussi une entreprise commerciale... 1 Kardaun, T.Alanko,1998) 2 Hand, J.Kettenring, 1997, ancien président de l ASA. 4 J.P.Benzécri1973 [ Page 3 ]

4 2. METHODES ET OUTILS 2.1. MODÈLES Construire des modèles a toujours été une activité des statisticiens.unmodèle est un résumé global des relations entre variables, permettant de comprendre des phénomènes, et d émettre des prévisions. «Tous les modèles sont faux, certains sont utiles» 5 Le Data Mining ne traite pas d estimation et de tests de modèlespréspécifiés, mais de la découverte de modèles à l aide d un processus de recherche algorithmique d exploration de modèles: linéaires ou non, explicites ou implicites: réseaux de neurones, arbres de décision, SVM, régression logistique. Les modèles ne sont pas issus d une théorie mais de l exploration des données DE NOUVEAUX GISEMENTS Textmining Extraire de l information de textes. Une part croissante de l information se présente sous forme digitalisée: documents électroniques, nouvelles, brevets, réclamations, s etc. Des techniques spéciales de classification supervisée ou non sont développées Webmining Analyse de la fréquentation de sites webet du comportement des utilisateurs. Applications : fidélisation mesures d efficacité de campagnes de promotion click analysis : optimisation des sites Données symboliques Sortir du cadre du tableau rectangulaire, avoir des données floues ou intervalles, avec ou sans probabilités. Eurostat a financé le projet SODAS (symbolicdata analysisfor official statistics), un consortium de 17 équipes européennes dont le laboratoire Ceremade de l université de Paris-Dauphine. 5 (G.Box) [ Page 4 ]

5 La spécificité du projet SODAS est d étendre le champ d application du Datamining au traitement de concepts, et non plus seulement aux individus statistiques classiques. Les concepts sont des objets statistiques de haut niveau définis à la fois par intension (description) et par extension (ensemble des éléments, individus ou sous-concepts représentés par le concept). La modélisation des concepts nécessite un mode de représentation particulier, dit symbolique, la représentation ne pouvant se réduire à une information numérique élémentaire. Le projet SODAS a donné lieu à la mise en oeuvre d un progiciel du même nom, adaptant dans le cas des données symboliques les algorithmes classiques des statistiques exploratoires et du Datamining. Le projet décrit dans la suite de ce mémoire a été réalisé avec SODAS SOLUTIONS INDUSTRIELLES SAS Enterprise Miner La solution de Datamining de SAS est caractérisée par un référentiel partagé des modèles. Les modèles de scoring peuvent être déployés dans des environnements d exécution divers, avec un runtime SAS ou au sein même de la base de données relationnelle. SEM propose un processus global intégré de traitementde données : échantillonnage, exploration, modification, modélisation et validation (SEMMA). Les algorithmes de Datamining suivants sont disponible : Statistiques descriptives Segmentation Analyse de séquences Analyse factorielle Séries temporelles Régression linéaire et logistique Arbres de décision Réseaux neuronaux Induction de règles Classification SPSS Clementine Autre solution client-serveur basée sur un référentiel centralisé, Clementine, la solution de Data Mining de l éditeur britanique SPSS propose un panel d algorithmes de Datamining très riche. Le modèle de processus CRISP-DM (CRoss- Industry Standard Process for Data Mining), d initiative principalement européenne, et dont SPSS est un des principaux initiateurs, se veut un effort de standardisation de la démarche de mise en oeuvre du Datamining en entreprise. On a vu que SAS proposait son propre modèle de processus, SEMMA, qui se place donc en concurrence de CRISP- DM. Ce dernier est évidemment implémenté dans Clementine et mis en avant comme un des [ Page 5 ]

6 points forts de la solution. A noter la capacité de Clementine à exploiter les algorithmes disponibles au niveau des SGBDR DB2,Oracle ou SQL Server, selon ce que proposent ces éditeurs, et les possibilités de déploiement PMML des modèles. Clementine propose les algorithmes suivants : Arbres de décision Régression Segmentation Apprentissage bayésien Classification Réseaux neuronaux Induction de règles Régression linéaire et logistique Analyse factorielle Oracle Darwin Moins riche sur le plan des algorithmes proposés que les deux précédents pure player, mais probablement plus abordable dès lors que l on dispose déjà du SGBDR de l éditeur, la solution d Oracle est présentée comme une alternative assez complète, dont l atout principal réside dans l intégration supposée au plus près du SGBDR et la disponibilité des données que cette intégration est censé apporter. Elle propose les algorithmes suivants : Réseaux neuronaux Régression linéaire Régression logistique Arbres de décision Règles d association Apprentissage bayésien Segmentation et analyse de données exploratoire IBM Intelligent Miner Il s agit en réalité d une suite de produits sous la forme d extension des SGBDR [ Page 6 ]

7 associés à une interface de programmation (Intelligent Miner Scoring ou Intelligent Miner Modeling), de composants applicatifs (Intelligent Miner Vizualization) ou bien d application indépendante (Intelligent Miner for Data). L approche est similaire à celle d Oracle du point de vue de la proximité de la solution avec le SGBDR et la simplicité relative, avec l utilisation de la norme PMML comme format d échange. Algorithmes proposés : Associations Classification (neuronale ou hiérarchique) Segmentation Prédiction Synthèse des offres des principaux éditeurs 2.4. CAS D UTILISATION Voici un rapide et non-exhaustif aperçu par secteur d activité des types de besoin et des approches mises en oeuvre pour les résoudre Grande distribution Les modèles de Datamining sont invoqués dans la grande distribution en marketing client, dans le cadre de la mise en service des cartes de fidélité. Les grandes enseignes comme Auchan ou la Fnac ont compris que la carte de fidélité et les systèmes de points leur permettaient de collecter les habitudes d achat de leur clientèle et d exploiter ces informations à des fins promotionnelles ciblées Banques et Assurances Aussi bien les banques que les assurances ont par nature une très bonne connaissance de leur clientèle et sont à même d exploiter cette information. La premier intérêt est, là encore, au niveau des directions en charge du marketing, la segmentation restant l outil de base. Les directions en [ Page 7 ]

8 charge du risque (de crédit bancaire par exemple) sont également intéressées par les modèles de notation faisant appel à l analyse discriminante. Le caractère central du système d information comme principal outil de production dans le secteur banque-assurances milite pour une mise en oeuvre s appuyant sur de riches infrastructures client-serveur, au plus près des données de production. Il n est donc pas rare de retrouver l offre des grands éditeurs spécialisés du Datamining dans ces entreprises Opérateurs de téléphonie mobile Ce secteur d activité doit gérer la problématique d un marché déjà pratiquement saturé. L enjeu est ici plus dans la capacité à conserver sa clientèle que dans la conquête de nouveaux clients. Une méthode particulière appelée churn, qui consiste à détecter les clients en partance à partir de l analyse de leurs habitudes de consommation (baisse d activité notamment) a été mise en oeuvre chez Bouygues-Télécom par exemple. Ce type de méthode s appuie sur des modèles de régression ou de réduction d axes. Mais leur mise en oeuvre, assez spécialisée fait l objet de solutions dédiées (ex. Churn-CPS) VPC Deux types de processus d analyse sont mis en oeuvre pour répondre aux problématiques spécifiques de la VPC, comme c est par exemple le cas aux 3Suisses. 1) Un processus de segmentation de la clientèle, basé sur des méthodes de partitionnement, est utilisé notamment pour optimiser les envois coûteux de catalogue de produits complets, en ciblant les segments de clientèles pour lesquels cet envoi se traduira vraisemblablement en actes d achat. 2)Un processus de scoring, basé sur des méthodes d analyse discriminante, pour le marketing événementiel : par exemple l envoi ciblé et à moindre coût de petits catalogues associés à des opérations promotionnelles ponctuelles. Du point de vue de l implémentation, une forte culture statistique dans ce genre de structure autorise le développement en interne des algorithmes à partir de SAS par exemple, sans que l acquisition complémentaire de solutions dédiées soit nécessairement consentie. [ Page 8 ]

9 3. ETUDE STATISTIQUE WEBSELL 3.1. CONTEXTE DE L ETUDE ET PRESENTATION DES DONNEES Les sources L étude a été établie sur la base de données e-commerce que j'ai créée à travers l extrapolation des données du site pendant la période des soldes. Spécialisée dans la vente de produits pour enfants de 0 à 14 ans via quatre catalogues par an et plusieurs boutiques, Vertbaudet, vend également en ligne depuis janvier "Aujourd'hui, Internet représente 15% de notre chiffre d'affaires et les commandes en ligne s'élèvent à par semaine", indique Isabelle Le Corre, responsable Internet de Vertbaudet. Des chiffres en progression constante puisqu'au mois d'octobre 2002, le site annonçait qu'internet représentait 8 % du chiffre d'affaires de la marque et commandes par semaine. Vertbaudet.fr propose l'intégralité des catalogues de la marque, soit actuellement références organisées en neuf rubriques L'es objectifs L étude a la finalité de réaliser l action du benchmarking en effectuant l analyse des choix du marketing adoptes par la Direction du Vertbaudet dans le cadre de la distribution des via web site et d en déduire les goûts des clients par rapports des différentes marques et leurs comportements en fonctions des actions promotionnelles lancées et réductions appliquées pendant la periode des soldes Les données En effet je ne dispose pas des données d analyse des ventes classiques telles que les «quantités vendus» ou «les marges par produit». L analyse est basées sur les données telles que : les prix, les réductions appliquées pendant les soldes, les promotions réalisées dans le cours du semestre avant les soldes, la disponibilité des produits une semaine après le début des soldes. La base Access sur laquelle j ai travaillé, est composé d une table «globale» que contient toutes les informations que j ai réussit de récupérer sur le web site et de plusieurs tables et requêtes que j ai construite a fin d avoir une vision systématique des données. [ Page 9 ]

10 La table «Référentiel» contient les numéros des références des produits, une leurs désignation (description), un leurs appartenance au group spécifique de produit et à la collection données. GROUPES DE PRODUITS CARDIGANS CHEMISES ENSEMBLE JUPES MANTEAUX ET BLOUSONS PANTALONS PULL ET SWEATS TEE-SHIRTS Les groupes des produits font objet du mon étude dans une première partie. COLLECTIONS FILLE GARCON La table «Catalogue» contient les données relatives à l offre complète des produits (autre que la description, on a les tailles, les prix, les promotions, les réductions, la disponibilité et l appartenance à une marque). MARQUES A&Felicie Mia blue OKIDS TODAY VBS Les marques font objet du mon étude dans la deuxième partie. Tailles commercialisées par marque A&Felicie mia blue OKIDS TODAY VBS 2 ans ans ans ans ans ans ans ans ans ans ans [ Page 10 ]

11 La table «Taxonomie» contient la classification des articles selon les groupes des produits DESIGNATION CACHE-COEUR CARDIGAN CARDIGAN POLAIRE CARDIGAN WESTERN GILET LOT 2 CARDIGANS BLOUSE CHEMISE CARREAUX CHEMISE RAYEE CHEMISIER SURCHEMISE SURCHEMISE RAYEE WESTERN SURCHEMISE WESTERN CARDIGAN+PANTALON ENSEMBLE CARDIGAN + JUPE ENSEMBLE CARDIGAN + PANTALON ENSEMBLE TOP + CALECON JUPE JUPE BACHETTE JUPE CULOTTE JUPE ETHNIC JUPE PLISSEE JUPE POLE NORD JUPE SO BRITTISH LOT 2 JUPES CULOTTES BLOUSON BLOUSON HOCKEY COUPE VENT DOUDOUNE DOUDOUNE IDOLE DUFFLE COAT LONGUE DOUDOUNE MANTEAU MANTEAU DOUDOUNE PARKA 3 EN 1 PARKA CAPUCHE PARKA POLE NORD PARKA RUSTIC VESTE ETHNIC VESTE FILLE CALECON LOT 2 CALECONS LOT 2 PANTALONS PANTACOURT PANTALON PANTALON ETHNIC PANTALON HOCKEY PANTALON IDOLE PANTALON POLE NORD PANTALON RUSTIC CARDIGANS CHEMISES ENSEMBLE JUPES GROUP MANTEAUX ET BLOUSONS PANTALONS [ Page 11 ]

12 DESIGNATION PANTALON SO BRITTISH PANTALON WORKER LOT 2 PULLS LOT 2 SWEATS POLO POLO RUGBY PULL PULL PULL CHAUSSETTE PULL COL ROULE PULL COUNTRY PULL HOCKEY PULL JERSEY PULL RUSTIC PULL SCOTTISH SWEAT SWEAT GRAND FROID SWEAT HOCKEY SWEAT POLAIRE SWEAT RAS DE COU SWEAT WESTERN SWEAT WORKER PULL SWEAT ROBE LOT 2 TEE-SHIRTS LOT 2 TEE-SHIRTS LOT 2 TEE-SHIRTS RUSTIC LOT 2 TEE-SHIRTS SCOTTISH LOT 2 TEE-SHIRTS WORKER LOT 3 SOUS-PULLS LOT 3 TEE-SHIRTS TEE-SHIRT TEE-SHIRT TEE-SHIRT HOCKEY GROUP PANTALONS PULL ET SWEATS ROBES TEE-SHIRTS Les requêtes «Catégories» et «Marques» me permettons de sélectionner les données nécessaires pour l analyse des mes concepts. [ Page 12 ]

13 3.2. L ANALYSE Individus et concepts Du point de vue de l analyse de données symboliques, mes concepts seront donc les groupes de produites et les marques Variables Les variables ordinales sont décrites par les désignations des produits (numéro de référence) qui constituent l extension de nos concepts crus. Il s agit : de la couleur de la disponibilité du type de promotion applique avant la période des soldes de la marque (dans le cas d analyse des concepts «groupes des produits») du groupe de produits (dans le cas d analyse des concepts «marques»). Trois variables d intervalles sont décrites par les désignations. Il s agit : de la taille du prix de la réduction appliquée pendant les soldes [ Page 13 ]

14 SOE : Symbolic Objects Editor Présentation de la méthode SOE L éditeur d objets symboliques (SOE) permet aux utilisateurs de visualiser, dans un tableau, tous les objets symboliques présents dans un fichier SODAS. Cet éditeur permet aussi de visualiser des représentations graphiques en 2 et 3 dimensions et une représentation SOL (Symbolic Object Language) de chaque objet symbolique se trouvant dans le tableau Mise en oeuvre de la méthode SOE L étoile Zoom en 3 dimensions, représente les variables qualitatives sous forme d histogrammes et les variables quantitatives par un intervalle, matérialisé par un trait épais sur un axe (avec mention également des valeurs extrêmes rencontrées pour l ensemble des concepts) Analyse des «Marques» Une étoile superposée a permit de confronter les différentes variables caractérisants les politiques marketing des 5 marques différentes vendu via web sur Vertbaudet. Cette méthode a permit déjà d avoir les premières idées sur les promotions exercices et les gammes d offre existante dans les différents groupes des produits, en particulier : [ Page 14 ]

15 La marque OKIDS a exercée le majeur nombre des promotions avant soldes (les prix malice et les promotions en achetant 2 articles on le 3 en cadeaux) par rapport aux autres marques. Ainsi que la disponibilité des produits OKIDS est mineure au début des soldes. Successivement ça sera intéressant de vérifier est ce que il y a une liaison entre l effet d avoir le produits épuises et l application des promotions avant les soldes. La marque A & Felicie se positionne plutôt dans la niche de prix assez cher, L offre des produits de la marque Mia Blue est concentrée plutôt dans la collection filles. Par rapport aux groupes des produits, la gamme d offre est plus riche pour les groupes pantalons, robes et pulls Analyse des «Produits» L information la plus intéressante qui ont peut tiré de l étoile superpose des concepts «produits» est que pour les groupes cardigans, pull, robes et ensemble malgré l absence de promotions avant les soldes la quantités des produits épuises est significative. Donc dans un premier lieu, on peut : exclure la dépendance entre les promotions et la disponibilité des produite et de nous nous concentrer sur les autres variables, commencer à mieux comprendre les goûts des acheteurs par rapport a des groupes des produits. [ Page 15 ]

16 Par exemple l approfondissement sur le groupe robes nous a permit d identifier que l offre de produits est repartie principalement entre les 3 marques : OKIDS, TODAY et A&Felicie STAT Présentation de la méthode STAT La méthode Stats adapte les méthodes mono-dimensionnelles classiques de l analyse exploratoire à l analyse de données symboliques. Elle permet entre autres la représentation des données symboliques sous forme : d histogramme des variables modales ou intervalles, avec dans le dernier cas un découpage en classes de l échelle de valeur considérée ; de «boîte à moustache» pour les variables modales, indiquant les valeurs minimale, maximale et moyenne de chaque modalité ; graphique à deux dimensions (biplot), chaque concept étant représenté par le rectangle induit par ses deux intervalles pour les deux variables intervalles choisies comme axes. [ Page 16 ]

17 Mise en oeuvre de la méthode STAT Les fréquences relatives pour les variables intervalles Grâce à cette méthode il est possible de visualiser le prix et les réductions. Il est évident que plus de réductions dont le % se situe entre 45 et 55%. Pour ce que concerne le prix, la majorité des produits ont le prix entre le 19 et Les capacités pour les variables multi nominale probabilistes La méthode permet de construire un histogramme des capacités des différentes modalités de la variable considérée. Les graphiques successives ont permit d identifier les points suivants : la collection fille est plus riche par rapport à la collection garçon, l offre pour les débardeurs, ensembles et robes est beaucoup mois différentié par rapport aux autres groupes des produits (d ici on peut expliquer «les produits épuises» dans cette groupes), les couleurs les plus utilisées sont : rouge, kaki, écru, ciel, beige, rose, marron ; ainsi que les moins utilisées sont pruneau, violette, jaune, fuchsia, mauve. [ Page 17 ]

18 Par rapports aux marques, on constante que les deux les plus représentativités sont OKIDS et TODAY. [ Page 18 ]

19 Biplot pour les variables intervalles Afin d obtenir des informations supplémentaires sur prix et réductions deux biplots ont été analysé. Le premier concerne le concept «marque». On constate un certain alignement dans l application des réductions pour toutes les marques concernées. En revanche ils sont des différences assez évidents entre les intervalles des prix pratiques pour les différentes marques. Le deuxième biplot concerne les concepts «groupes des produits». On constate : la fourchette des réductions pour les jupes et robes comporte les % superieures par rapports aux autres groupes des produits, les manteaux et blousons appartiennent à la catégorie la plus chère et le groupe tee-shirts à la catégorie la mois chère. [ Page 19 ]

20 Dans cette première étape du notre benchmarking les valeurs numériques a retenir sont : NUMERIC CHARACTERISTICS mean std dev. best correlated prix REDUCTION (0.400) REDUCTION prix (0.400) SYMBOLIC CHARACTERISTICS mean std dev. prix REDUCTION [ Page 20 ]

21 DIV : Divisive Clustering on Symbolic Objects Présentation de la méthode DIV DIV est une méthode de classification hiérarchique qui part de tous les objets symboliques réunis dans une seule classe et procède ensuite par division successive de chaque classe. A chaque étape, une classe est divisée en deux classes suivant une question binaire ; ceci permet d obtenir le meilleur partitionnement en deux classes, conformément à l extension du critère d inertie. L algorithme s arrête après avoir effectuer k-1 division ; k étant le nombre de classes donné, en entrée, à la méthode par l utilisateur Mise en oeuvre de la méthode DIV La méthode DIV a permit de réaliser une classification des marques et des groupes de produits par division successive de chaque classe, en partant d une seule classe réunissant tous les marques et toutes les groupes de produits Les variables qualitatives : Description des marques Les variables à la base de la méthode : Group des produits Les promotions avant les soldes La disponibilité La collection On a: PARTITION IN 3 CLUSTERS : : Cluster 1 (n=1) : mia blue Cluster 2 (n=2) : A&Felicie TODAY Cluster 3 (n=2) : OKIDS VBS Explicated inertia : La marque Mia Blue se distingue des autres. Par contre, les autres classes montrent un regroupement des marques sur les critères choisis [ Page 21 ]

22 Les variables intervalle: Description des marques Une autre étude a été fait en choisissant d autres paramètres en entrée : taille prix réduction On a : VARIANCE OF THE CRITERTION-VARIABLES : taille : prix : REDUCTION : PARTITION IN 3 CLUSTERS : : Cluster 1 (n=2) : mia blue VBS Cluster 2 (n=1) : OKIDS Cluster 3 (n=2) : A&Felicie TODAY Explicated inertia : La marque OKIDS se distingue des autres. Dans ce cas, l arbre de décision révèle, des différences entre les marques sont du aux prix Classe 1 (Ng=2)!! [prix <= ]!! Classe 2 (Ng=1)!!! [prix <= ]! Classe 3 (Nd=2) [ Page 22 ]

23 Les variables qualitatives : Description des groupes de produits Les variables à la base de la méthode : disponibilité promotion avant soldes On a : PARTITION IN 3 CLUSTERS : : Cluster 1 (n=3) : (Disponible immédiatement, aucune promotion avant soldes) CHEMISES PANTALONS PULL ET SWEATS Cluster 2 (n=1) : (promotion avant soldes) TEE-SHIRTS Cluster 3 (n=5) : (disponibilité diffère ou épuise et aucune promotion avant soldes) CARDIGANS ENSEMBLE JUPES ROBES MANTEAUX ET BLOUSONS Explicated inertia : Dans ce cas, l arbre de décision révèle, des différences entre les groupes des produits sont du à la disponibilité et aux promotions avant les soldes : Classe 1 (Ng=3)!! [disponibilité = 001]!!! Classe 3 (Nd=5)!! [promotion_avant_soldes = 001]! Classe 2 (Nd=1) NB. On retrouve toujours CARDIGANS ENSEMBLE JUPES ROBES (Cluster 3) dans les articles épuises Les variables intervalle : Description des groupes de produits On a les variables taille prix réduction [ Page 23 ]

24 VARIANCE OF THE CRITERTION-VARIABLES : taille : prix : REDUCTION : PARTITION IN 3 CLUSTERS : : Cluster 1 (n=5) : CHEMISES JUPES PANTALONS PULL ET SWEATS TEE-SHIRTS Cluster 2 (n=1) : MANTEAUX ET BLOUSONS Cluster 3 (n=3) : CARDIGANS ENSEMBLE ROBES Explicated inertia : Dans ce cas, l arbre de décision révèle, des différences entre les groupes des produits sont du aux prix : Classe 1 (Ng=5)!! [prix <= ]!!! Classe 3 (Nd=3)!! [prix <= ]! Classe 2 (Nd=1) [ Page 24 ]

25 4. CONCLUSIONS L analyse à révélé certaines informations regardant les comportements des «marques» et des «groupes de produites». En particulier, que la politique des réductions des prix pendant les soldes est assez homogène par les groupes de produits. Les réductions sont corrèles aux prix initiales. Le marque ont une légère différentiation dans la politique des prix et de promotions appliques avant la période des soldes. La disponibilité des groupes des produits apparemment n est pas corrélée à des promotions avant les soldes ne aux prix. Vus que groupes des produits épuises sont toujours les mêmes on peut avoir pour l hypothèse que sont les groupes des produits préfères par les acheteurs ou que l offre n est pas suffisante. Le couleurs le plus utilisées ont été identifies. L Analyse des Composantes principales traditionnellement appliquée aux individus n a pas été effectué a cause de l indisponibilité des données (par définition, elle ne s applique qu aux variables quantitatives et nécessite de disposer de plus de deux variables puisqu elle a précisément pour objectif une réduction du nombre d axes, idéalement à deux pour permettre une représentation dans le plan des objets : individus ou concepts). La construction d une pyramide na pas donné des résultats satisfaisants, ça fait donc pensé que les variables choisis ne sont pas représentatifs. [ Page 25 ]

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Projet Data Mining. Projet SODAS :

Projet Data Mining. Projet SODAS : UNIVERSITE PARIS DAUPHINE DEA 127 : SYSTEME INTELLIGENT Projet Data Mining décembre 2004 Projet SODAS : Etude sur les footballeurs évoluant en Ligue 1 durant la saison 2002-2003 Responsable : Edwin DIDAY

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009

Le Data Mining Techniques pour exploiter l information. Auteur : Dan Noël Date : 24.04.2009 Le Data Mining Techniques pour exploiter l information Auteur : Dan Noël Date : 24.04.2009 Agenda de la présentation du 26.03.2009 Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un

Plus en détail

DESS Informatique Décisionnelle Université Paris Dauphine. Projet Datamining. Offres de location d appartements à Paris

DESS Informatique Décisionnelle Université Paris Dauphine. Projet Datamining. Offres de location d appartements à Paris DESS Informatique Décisionnelle Université Paris Dauphine Projet Datamining Offres de location d appartements à Paris Encadrant : Mr. DIDAY Mai 2004 VILLE Clarisse VIVIER Julien SOMMAIRE INTRODUCTION...

Plus en détail

Projet Data Mining L Analyse des contrats d assurance vie DESS-ID 2004-2005. Projet Data Mining. L Analyse des contrats d Assurance Vie

Projet Data Mining L Analyse des contrats d assurance vie DESS-ID 2004-2005. Projet Data Mining. L Analyse des contrats d Assurance Vie DESS-ID 2004-2005 Projet Data Mining L Analyse des contrats d Assurance Vie Sous la direction de M.DIDAY Edwin M.ZHOU Zhiqiang Travaux réalisés par CHRIRAA Mostafat SUN Yue Feng - 1 - Sommaire 1. Introduction..

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

DATA MINING : ANALYSE DE LA BASE DE DONNEES «ACTIFS.MDB»

DATA MINING : ANALYSE DE LA BASE DE DONNEES «ACTIFS.MDB» EUZENADE Anne-Laure DESS 220 Informatique de gestion Université de Paris Dauphine DATA MINING : ANALYSE DE LA BASE DE DONNEES «ACTIFS.MDB» ANALYSE DE DONNEES E. DIDAY SOMMAIRE INTRODUCTION...1 I. PRESENTATION

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Programme détaillé des enseignements

Programme détaillé des enseignements Programme détaillé des enseignements SEMESTRE S1 STATISTIQUES Méthodes d'estimation ponctuelle (méthodes des moments, du maximum de vraisemblances, bayésienne) et par intervalles de confiance. Statistiques

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

DATAMINING. Etude et analyse des ventes d une chaîne de magasins

DATAMINING. Etude et analyse des ventes d une chaîne de magasins SILVI Stéphanie WAREMBOURG Pierre-Alexandre DESS 220 Informatique de Gestion Université Paris Dauphine DATAMINING Etude et analyse des ventes d une chaîne de magasins Tuteur : Monsieur Edwin DIDAY Promotion

Plus en détail

DATA MINING - Analyses de données symboliques sur les restaurants

DATA MINING - Analyses de données symboliques sur les restaurants Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...

Plus en détail

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.) Université de Lille 2 - Droit et Santé Ecole Supérieure des Affaires & Institut Universitaire de Technologie (IUT-C) Département Statistique et Traitement Informatique des Données Licence Professionnelle

Plus en détail

RAPPORT DE PROJET DATA MINING

RAPPORT DE PROJET DATA MINING DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS RAPPORT DE PROJET DATA MINING «Analyse des endettements par niveau de développement des pays» Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Data Mining Location de voiture

Data Mining Location de voiture Pôle Info 3 Master ID Data Mining Location de voiture Responsables : M. DIDAY Réalisé par: Fatimaezzahra HOUDAF Fatima LANSEUR Année universitaire:2oo5/2006 Page 1 sur 34 Table des Matières Table des Matières...

Plus en détail

Antonio Rodrigues (DESS SITN)

Antonio Rodrigues (DESS SITN) : Etude d une base de données sur les plantes d eau douce Février 2004 A l attention de Mr Diday SOMMAIRE I. INTRODUCTION 3 II. PRESENTATION GENERALE 4 II.1. LE DATAMINING 4 II.1.1. PRESENTATION 4 II.1.2.

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Carine Krier Lise Moro DESS Informatique Décisionnelle. Quels facteurs justifient la réussite d un étudiant au poleinfo3 de dauphine?

Carine Krier Lise Moro DESS Informatique Décisionnelle. Quels facteurs justifient la réussite d un étudiant au poleinfo3 de dauphine? Carine Krier Lise Moro DESS Informatique Décisionnelle Quels facteurs justifient la réussite d un étudiant au poleinfo3 de dauphine? Enseignant : Edwin Diday Mars 2005 SOMMAIRE 1 Etat de l art... 3 1.1

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

PROJET DATAMINING. Recherche des profils patients dépassant la durée normale de séjour au centre hospitalier de Poissy-St Germain en Laye

PROJET DATAMINING. Recherche des profils patients dépassant la durée normale de séjour au centre hospitalier de Poissy-St Germain en Laye 2007-2008 Master MIAGE & DECISION Spécialité : Informatique décisionnelle PROJET DATAMINING Recherche des profils patients dépassant la durée normale de séjour au centre hospitalier de Poissy-St Germain

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Cybermarché et analyse comportementale

Cybermarché et analyse comportementale Cybermarché et analyse comportementale Antoine-Eric Sammartino aesammartino@e-laser.fr Séminaire Data Mining - Educasoft Formations 18 juin 2001-1- MENU Le Groupe LaSer Le processus Data Mining L industrialisation

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

PROJET DE DATA MINING SUR DES DONNEES CINEMATOGRAPHIQUES AVEC LE LOGICIEL SODAS

PROJET DE DATA MINING SUR DES DONNEES CINEMATOGRAPHIQUES AVEC LE LOGICIEL SODAS UNIVERSITE PARIS-IX - Novembre 2004- DAUPHINE PROJET DE DATA MINING SUR DES DONNEES CINEMATOGRAPHIQUES AVEC LE LOGICIEL SODAS Réalisé par : Sonia GUEHIS -DEA 127- Encadré par: Mr Edwin DIDAY TABLE DES

Plus en détail

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

DESS ID JUIN 2004. Tinseaux Benoit

DESS ID JUIN 2004. Tinseaux Benoit DESS ID JUIN 2004 Tinseaux Benoit Concept Données Data «Ce qui est donné, connu, déterminé à l avance dans l énoncé d un problème, et qui sert à découvrir ce qui est inconnu» «Ce qui est admis, connu ou

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

1. Vue rapide des logiciels disponibles

1. Vue rapide des logiciels disponibles Voici une revue rapide des progiciels gratuits accessibles [FREE AND SHAREWARE] dans la section SUITES du site KDNUGGETS (http://www.kdnuggets.com/software/suites.html). L étude sera approfondie pour les

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 18/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 18/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Accélérer l agilité de votre site de e-commerce. Cas client

Accélérer l agilité de votre site de e-commerce. Cas client Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible

Plus en détail

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E.

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E. Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ Sommaire Introduction...

Plus en détail

Université Paris IX DAUPHINE DATE : 24/04/06

Université Paris IX DAUPHINE DATE : 24/04/06 Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat...

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat... But du cours Vocabulaire, principes et techniques du Data Mining Méthodes et Algorithmes Interprétation des résultats. Data Mining : Concepts and Techniques J. Han, M. Kamber Morgan Kaufmann Le Data Mining

Plus en détail

Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI

Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI Introduction On assiste de plus en plus à la création d entrepôts de données. Les raisons sont multiples : 1. le tout numérique

Plus en détail

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! "##$ % &!

 # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' -+ - +.+. /0 / 1 0 12 1 1 2 34+ 4 1 +. 50 5 * 0 4 * 0 6! ##$ % &! "# $ %%& ' ( )*+, '()*+,'+''-++.+/0112134+1.50*406 "##$ %& 8CC "#$%& ' ( )* +,-./ 0 123 456+7 3 7-55-89.*/ 0 +3 *+:3 ;< =3 3-3 8 0 23 >-8-3 >5? //*/*0;* @A: *53,,3 / * $/ >B+? - 5, 2 34*56 7 /+#** //8

Plus en détail

Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS 1er semestre UE1-01 E Algèbre 40 Analyse 26 14 Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS Introduction au système SAS 25,5

Plus en détail

Leçon 4 : Typologie des SI

Leçon 4 : Typologie des SI Leçon 4 : Typologie des SI Typologie des SI Système formel Système informel Typologie des SI Chaque jour au sein d une organisation Le système d info stocke, traie ou restitue des quantités importantes

Plus en détail

Généralités sur les bases de données

Généralités sur les bases de données Généralités sur les bases de données Qu est-ce donc qu une base de données? Que peut-on attendre d un système de gestion de bases de données? Que peut-on faire avec une base de données? 1 Des données?

Plus en détail

Se préparer à l examen. La gestion des stocks. Travail 1 Déterminer la vitesse de rotation de chaque famille de produits

Se préparer à l examen. La gestion des stocks. Travail 1 Déterminer la vitesse de rotation de chaque famille de produits Cas n 1 La gestion des stocks Votre situation professionnelle Dans le cadre de votre baccalauréat professionnel commerce, vous faites une période de formation dans le magasin Toutcomptefait de Royan (17).

Plus en détail

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant

Plus en détail

Améliorer la précision des modèles avec des données non structurées

Améliorer la précision des modèles avec des données non structurées IBM SPSS Modeler Premium Améliorer la précision des modèles avec des données non structurées Points clés Consultez, préparez et intégrez facilement des données structurées ainsi que des données tirées

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE

TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET TP n 2 de DATA MINING : Modélisation 1 Jeu de données

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Les solutions SAS pour les Petites et Moyennes Entreprises

Les solutions SAS pour les Petites et Moyennes Entreprises BROCHURE SOLUTION Les solutions SAS pour les Petites et Moyennes Entreprises Sur un marché aussi compétitif que celui des Petites et Moyennes Entreprises, le temps et l efficacité sont deux valeurs prioritaires

Plus en détail

INTRODUCTION AU DATA MINING. Cina MOTAMED

INTRODUCTION AU DATA MINING. Cina MOTAMED INTRODUCTION AU DATA MINING Cina MOTAMED 2 Data Mining : contexte Âge numérique : explosion des volumes de données Transactions commerciales Opérations bancaires Navigation Internet Indicateurs démographiques

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Alzennyr Da Silva, Yves Lechevallier Projet AxIS, INRIA Paris-Rocquencourt Domaine de Voluceau,

Plus en détail

CRM : Le Client au cœur

CRM : Le Client au cœur 3 septembre 2008 1 CRM : Le Client au cœur 3 septembre 2008 Frédéric Leclercq - Cylande 3 septembre 2008 2 Cylande \ Editeur de progiciels dédiés à la distribution GD Grande Distribution Distribution Spécialisée

Plus en détail

INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET

INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Introduction 3 Qu est-ce que le data mining... 3 Fantasmes

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Apprentissage Statistique. Bureau d étude :

Apprentissage Statistique. Bureau d étude : Apprentissage Statistique Bureau d étude : Score d appétence en GRC Hélène Milhem IUP SID M2 2011/2012 Institut de Mathématiques de Toulouse UMR CNRS C5219 Equipe de Statistique et Probabilités Université

Plus en détail

CAHIER DES CHARGES POUR APPLICATION MOBILE GRC

CAHIER DES CHARGES POUR APPLICATION MOBILE GRC CAHIER DES CHARGES POUR APPLICATION MOBILE GRC Alexandre CADIC Mathis BAKARY 27/02/2013 Sommaire I. Présentation... 3 1. Contexte... 3 a. Implémentation :... 3 b. Direction Générale :... 3 2. Périmètre

Plus en détail

Formation Actuaire Data-Scientist PROGRAMME

Formation Actuaire Data-Scientist PROGRAMME Formation Actuaire Data-Scientist PROGRAMME 15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 Programme Séance inaugurale : révolu-on numérique besoins des entreprises cadre

Plus en détail

Pour les entreprises de taille moyenne. Descriptif Produit Oracle Oracle Business Intelligence Standard Edition One

Pour les entreprises de taille moyenne. Descriptif Produit Oracle Oracle Business Intelligence Standard Edition One Pour les entreprises de taille moyenne Descriptif Produit Oracle Edition One POURQUOI VOTRE ENTREPRISE A BESOIN D UNE SOLUTION DE BUSINESS INTELLIGENCE (BI) Des quantités toujours plus importantes de données

Plus en détail

Orchestration des campagnes

Orchestration des campagnes Orchestration des campagnes Vecteur de connaissance et de croissance 1 Abilis Présentation de la société Société de conseil IT fondé en 1996 à Montréal par Eric Le Goff et Alain Elbaz Le siège à Montréal

Plus en détail

Offre de formation de troisième cycle (LMD)

Offre de formation de troisième cycle (LMD) Offre de formation de troisième cycle (LMD) (Arrêté n 250 du 28 juillet 2009, fixant l organisation de la formation de troisième en vue de l obtention du diplôme de doctorat) Etablissement Faculté / Institut

Plus en détail

Module 3 : Introduction à la Modélisation SOUS MODELER

Module 3 : Introduction à la Modélisation SOUS MODELER Module 3 : Introduction à la Modélisation SOUS MODELER 1 Techniques prédictives Passé pour prédire l avenir 2 Concepts de la modélisation Données test / apprentissage Généralement créées par l utilisateur

Plus en détail

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Introduction à l Informatique Décisionnelle - Business Intelligence (7) Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence

Plus en détail

Critères pour avoir la meilleure équipe!

Critères pour avoir la meilleure équipe! PROJET DATAMINING Basket-ball professionnel "NBA" : Critères pour avoir la meilleure équipe! Réalisé par : Anasse LAHLOU KASSI Houssam Eddine HOUBAINE DESS TIO DESS ID Année Scolaire : SOMMAIRE INTRODUCTION...

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Les techniques d exploitation de données (Data Mining)

Les techniques d exploitation de données (Data Mining) Les techniques d exploitation de données (Data Mining) 1 Présenté par : Emer Mestiri, M.sc Finance, Data Scientist Conseiller Gestion de risque de crédit, Mouvement Desjardins Sommaire 2 I. Logiciel SAS

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html Option Deux thèmes : La recherche opérationnelle : Traiter des problèmes d optimisation, d aide à la décision et d évaluation de performances

Plus en détail

SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44

SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44 SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44 Le CRM (GRC) est la clef de votre succès Les Principes généraux de la Gestion de la Relation Clients Confidentiel

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Université Ibn Zohr Faculté des Sciences Juridiques, Économiques et Sociales Exposé sous le thème : Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Plan : Introduction : L

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Utilisations des mathématiques à des fins opérationnelles

Utilisations des mathématiques à des fins opérationnelles Utilisations des mathématiques à des fins opérationnelles Michael Vandenbossche mvn@softcomputing.com Soft Computing 165 avenue de Bretagne 59000 Lille 1. Présentation 2. Indicateurs statistiques de base

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données.

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données. Data Mining = Knowledge Discovery in Databases (KDD) = Fouille de données 1 Définition : Processus ou méthode qui extrait des connaissances «intéressantes» ou des motifs (patterns) à partir d une grande

Plus en détail

Technologie data distribution Cas d usage. www.gamma-soft.com

Technologie data distribution Cas d usage. www.gamma-soft.com Technologie data distribution Cas d usage www.gamma-soft.com Applications stratégiques (ETL, EAI, extranet) Il s agit d une entreprise industrielle, leader français dans son domaine. Cette entreprise est

Plus en détail

COURS DE DATA MINING 1 : INTRODUCTION

COURS DE DATA MINING 1 : INTRODUCTION COURS DE DATA MINING 1 : INTRODUCTION EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET introduction 2 Qu est-ce que le data mining...2 5 difficultés techniques du data mining...6

Plus en détail

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM alain.darmon@fr.ibm.

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM alain.darmon@fr.ibm. WEB15 IBM Software for Business Process Management un offre complète et modulaire Alain DARMON consultant avant-vente BPM alain.darmon@fr.ibm.com Claude Perrin ECM Client Technical Professional Manager

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail