V.COSTENTIN && F.MOSKAWITZ MIAGE IUP PROJET DATA MANING. Réalisé par. Véronique COSTENTIN et Fabien MOSKAWITZ. Professeur : M.

Dimension: px
Commencer à balayer dès la page:

Download "V.COSTENTIN && F.MOSKAWITZ MIAGE IUP 3 2003-2004 PROJET DATA MANING. Réalisé par. Véronique COSTENTIN et Fabien MOSKAWITZ. Professeur : M."

Transcription

1 PROJET DATA MANING Réalisé par Véronique COSTENTIN et Fabien MOSKAWITZ Professeur : M. DIDAY 1

2 Sommaire INTRODUCTION PRESENTATION DU DATA MINING... 4 a) Historique... 4 b) Les raisons du succès actuel du Data mining... 5 c) L objet du data mining... 6 d) Les solutions de data mining offertes sur le marché... 7 e) Exemples d applications du Data mining dans le domaine du marketing... 7 II- PRESENTATION DES DONNEES... 8 a) Sélection des données... 8 b) La base de données relationnelle... 8 c) Présentation de la vue étudiée... 9 d) Les variables... 9 III- ANALYSE a) La méthode STAT Présentation Résultats obtenus et interprétation b) La méthode DIV Présentation Résultats obtenus et interprétation c) La méthode SOE Présentation Résultats obtenus et interprétation d) La méthode PCM Présentation Résultats obtenus et interprétation e) La méthode PYRAMIDE Présentation Résultats obtenus et interprétation CONCLUSION ET SYNTHESE ANNEXES

3 Introduction Le data mining peut être défini comme l'extraction d informations ou de connaissances originales, auparavant inconnues, potentiellement utiles à partir de gros volumes de données (d après Frawley et Piateski-Shapiro). On peut voir le data mining comme une nécessité imposée par le besoin des entreprises de valoriser les données qu elles accumulent dans leurs bases. En effet, le développement des capacités de stockage et les vitesses de transmission des réseaux ont conduit les utilisateurs à accumuler de plus en plus de données. Certains experts estiment que le volume des données double tous les ans. Que doit-on faire avec des données coûteuses à collecter et à conserver? Le data mining correspond à l'ensemble des techniques et des méthodes qui à partir de données permettent d'obtenir des connaissances exploitables. Son utilité est grande dès lors que l'entreprise possède un grand nombre d'informations stockées sous forme de bases de données. D autre part, une confusion subsiste encore entre data mining, que nous appelons en français «fouille de données», et knowledge discovery in data bases (KDD), que nous appelons en français «extraction des connaissances à partir des données» (ECD). Le data mining est l un des maillons de la chaîne de traitement pour la découverte des connaissances à partir des données. Entrepôt de données Data Mining Découverte de modèles connaissances Compréhension Prédiction Le data mining vise à découvrir des modèles à partir de grandes bases de faits connues (datawarehouse). Le processus de construction des modèles est complexe : - préparer les données - modéliser - valider - expérimenter plusieurs modèles Les applications du data mining sont multiples, elles concernent: la grande distribution, la vente par correspondance, les opérateurs de télécommunications, les banques et assurances, etc. Le domaine majeur où le data mining a prouvé son efficacité est la gestion de la relation client (CRM ou Customer Relationship Management). En effet, le data mining permet par une meilleure connaissance de la clientèle d'accroître les ventes. 3

4 1- Présentation du data mining Le data mining est un outil de prédilection pour étudier le comportement du consommateur. La traduction littérale du terme data mining est «forage de données». Comme dans tout forage, son but est d extraire à partir des données disponibles au sein de toute entreprise, des informations exploitables d un point de vue commercial. Dans le contexte actuel où le consommateur est considéré comme volatile, ou la concurrence s'intensifie et où les marchés deviennent saturés, le client devient l'acteur principal de l'entreprise. Des milliers d'informations sont collectées sur les comportements des clients mais sont le plus souvent mal exploitées. Le data mining intervient alors pour exploiter au mieux ces données. En effet, le data mining est l art d extraire des connaissances à partir des données. Les données peuvent être stockées dans des entrepôts (datawarehouse), dans des bases de données distribuées ou sur Internet : web mining. Le data mining ne se limite pas au traitement des données structurées sous forme de tables numériques ; il offre des moyens pour aborder les corpus en langage naturel (text mining), les images (image mining), le son (sound mining) ou la vidéo et dans ce cas, on parle alors plus généralement de multimedia mining. vise : Par analogie à la recherche des pépites d or dans un gisement, la fouille de données - à extraire des informations cachées par analyse globale - à découvrir des modèles difficiles à percevoir car le volume des données est très grand et le nombre de variables à considérer est important. Le data mining utilise une démarche statistique mais ses outils sont appelés à être utilisés par des non-statisticiens spécialistes. Pour cela, il faut mettre en place et utiliser des progiciels spécialisés. Pour la réalisation de notre étude, nous emploierons le logiciel SODAS. a) Historique L expression «data mining» est apparue vers le début des années 1960 et avait, à cette époque, un sens péjoratif. En effet, les ordinateurs étaient de plus en plus utilisés pour toutes sortes de calculs qu il n était pas envisageable d effectuer manuellement jusque là. Certains chercheurs ont commencé à traiter sans a priori statistique les tableaux de données relatifs à des enquêtes ou des expériences dont ils disposaient. Comme ils constataient que les résultats obtenus, loin d être aberrants, étaient tout au contraire prometteurs, ils furent incités à systématiser cette approche opportuniste. Les statisticiens officiels considéraient toutefois cette démarche comme peu scientifique et utilisèrent alors les termes «data mining» ou «data fishing» pour les critiquer. Cette attitude opportuniste face aux données coïncida en France avec la diffusion dans le grand public de l analyse de données dont les promoteurs, comme Jean-Paul Benzecri, ont également dû subir dans les premiers temps les critiques venant des membres de la communauté des statisticiens. Le succès de cette démarche empirique ne s est pas démenti malgré tout. L analyse des données s est développée et son intérêt grandissait en même temps que la taille des bases 4

5 de données. Vers la fin des années 1980, des chercheurs en base de données, tel que Rakesh Agrawal, ont commencé à travailler sur l exploitation du contenu des bases de données volumineuses comme par exemple celles des tickets de caisses de grandes surfaces, convaincus de pouvoir valoriser ces masses de données dormantes. Ils utilisèrent l expression «database mining» mais, celle-ci étant déjà déposée par une entreprise (Database mining workstation), ce fut «data mining» qui s imposa. En mars 1989, Shapiro Piatetski proposa le terme «knowledge discovery» à l occasion d un atelier sur la découverte des connaissances dans les bases de données. La communauté de «data mining» a initié sa première conférence en 1995 à la suite de nombreux workshops sur le KDD entre 1989 et En 1998 s est créé, sous les auspices de l ACM, un chapitre spécial baptisé ACM-SIGKDD, qui réunit la communauté internationale du KDD. La première revue du domaine «Data mining and knowledge discovery journal» publiée par «Kluwers» a été lancée en b) Les raisons du succès actuel du data mining Au-delà de l origine de la paternité de l expression «data mining», nous allons maintenant nous intéresser à l émergence de ce champ à la fois technologique et scientifique. L exploitation des données pour en extraire des connaissances est une préoccupation constante de l être humain car elle est une condition essentielle de son évolution. L homme a toujours mémorisé sur des supports différents des informations qui lui ont permis d inférer des lois. La biologie, la physique, la chimie ou la sociologie, pour ne citer que ces disciplines, font largement usage de l approche empirique pour découvrir des lois ou faire ressortir des éléments structurants dans des populations. La statistique est devenue une science dont l objet est de donner un cadre rigoureux à la démarche empirique. C est au sein de la statistique et du domaine des bases de données que le data mining a puisé ses outils. Dans sa forme actuelle, le data mining est né d un besoin : valoriser les bases de données dont la taille croît de manière exponentielle afin de mieux maîtriser la compétitivité. Par exemple l exploitation de l historique des achats des clients permet d optimiser qualitativement et quantitativement les campagnes de marketing. L'intensification de la concurrence et de la volatilité du consommateur doublée du développement des systèmes d'informations ont permis l'émergence du data mining dans les entreprises. Cet engouement récent ne semble pas être un effet de mode puisque le développement des datawarehouse a entraîné un accroissement de l'information disponible. Par ailleurs, pour assurer aux clients un produit de qualité, les entreprises sont passées d un marketing de masse à un marketing individualisé. Cela est possible grâce à l exploitation des données collectées qui permettent d anticiper et de satisfaire les besoins des consommateurs. Par conséquent, les principaux facteurs d émergence du data mining sont : - le volume des bases de données - le rapport à la clientèle 5

6 c) L objet du data mining Les bases de données ou les entrepôts de données, atteignent des volumes de plusieurs tera-octets (1 tera-octet = octets). Les grandes compagnies, comme EDF, France Telecom ou SFR, collectent annuellement plusieurs tera-octets de données relatives aux consommations de leurs clients. Dans un monde de concurrence sévère, chez les grands opérateurs téléphoniques par exemple, la connaissance des clients et de leurs comportements permet de mieux anticiper ceux qui risquent de passer chez un concurrent et de mieux adapter les opérations commerciales pour tenter de les garder. L une des grandes difficultés est de savoir comment extraire ce profil dans un si grand amas de données. Le data mining offre, entre autres, les moyens d analyse pour chercher s il existe un profil comportemental typique des clients qui changent de fournisseurs. L entreprise pourra ainsi repérer plus facilement, parmi ses clients, lesquels ont le profil pour partir vers la concurrence afin de tenter, par des actions commerciales, de les garder. Le data mining est un processus qui fait intervenir des méthodes et des outils issus de différents domaines de l informatique, de la statistique ou de l intelligence artificielle en vue de découvrir des connaissances utiles. Technologies et modèle général La définition proposée par Fayyad en 1996 est «l extraction de connaissances à partir des données est un processus non trivial d identification de structures inconnues, valides et potentiellement exploitables dans les bases de données». Le data mining est une discipline qui met en œuvre un ensemble de techniques provenant des bases de données, de la statistique, de l intelligence artificielle, de l analyse des données, des interfaces de communication homme-machine. Le data mining vise à transformer des données (volumineuses, multiformes, stockées sous différents formats sur des supports pouvant être distribués) en connaissances. Celles-ci peuvent s exprimer sous forme d un concept général qui enrichit le champ sémantique de l usager par rapport à une question qui le préoccupe. Elles peuvent prendre la forme d un rapport ou d un graphique. Elles peuvent s exprimer comme un modèle mathématique ou logique pour la prise de décision. Les modèles explicites, quelle que soit leur forme, peuvent alimenter un système à base de connaissances ou un système expert. 6

7 d) Les solutions de data mining offertes sur le marché Sur ce marché vaste et en pleine expansion, de nombreux éditeurs de logiciels proposent des solutions de data mining. Ce type d'applications appartient aux outils d'aide à la décision des années 80. Mais actuellement, vu la masse des données traitées, elles permettent un véritable pilotage de la fonction marketing par une connaissance beaucoup plus étoffée et fine du comportement des consommateurs. Les logiciels de data mining doivent offrir des richesses analytiques importantes, doivent pouvoir être utilisés par des non-spécialistes des méthodes statistiques, doivent être conviviaux, faciles à mettre en œuvre, offrir une certaine ergonomie et permettre l'accès aux datawarehouse. Les différents outils proposés par les éditeurs de logiciels reposent sur des techniques différentes. On retrouve principalement les arbres de décision, les règles d'associations, les réseaux de neurones, les grilles de score e) Exemples d applications du data mining dans le domaine du marketing Les applications du data mining sont multiples ; elles concernent : la grande distribution, la vente par correspondance, le marketing direct, la gestion de la relation client. Marketing direct Le data mining répond aux besoins de comprendre la relation client, de connaître les comportements des clients, d'optimiser et de rentabiliser les opérations de prospection afin de diminuer les coûts d'acquisition des clients. Les solutions de data mining vont faire des prédictions de comportement et indiquer quels types de prospects devront en priorité être contactés par des opérations de marketing direct afin d'augmenter le taux de retour. Par exemple, les sociétés de vente par correspondance réalisent à coté de leur catalogue généraliste des catalogues spécialisés. L utilisation du data mining permet de sélectionner parmi les clients principaux, ceux pour lesquels il est utile de leur envoyer un catalogue spécialisé en terme de ciblage. Cela augmente le taux de retour. C est en effet grâce à l historique des achats que les vépécistes peuvent déterminer quel client est susceptible d acheter un article sur catalogue spécialisé. Comportement des clients de grandes surfaces spécialisées Les grandes surfaces spécialisées utilisent les techniques d'associations de produits pour anticiper le comportement futur de ses clients. Un client qui achète une baignoire va probablement envisager l'achat de robinets. Par conséquent, les outils de data mining peuvent permettre de sélectionner selon les achats antérieurs des clients vers qui l'envoi d'un mailing sera efficace. 7

8 II- Présentation des données a) Sélection des données Afin de réaliser notre mémoire de data mining, nous avons décidé de travailler sur des données du secteur immobilier. Par conséquent, nous avons construit notre base de données relationnelle à partir de petites annonces que nous avons sélectionnées. La première difficulté de ce projet consistait à déterminer une liste de variables et de choisir des individus (ici des biens immobiliers) pour lesquels la valeur de ces variables était précisée dans l annonce. Le but de notre analyse sera de déterminer s il existe ou non une variable qui permet d expliquer le prix de vente d un bien immobilier. Nous tenterons de mettre en évidence des relations existantes entre les individus, entre les variables ou entre les individus et les variables. L étude qui va suivre sera basée sur une centaine d habitations qui seront nos individus. Les concepts auxquels nous nous intéresserons seront les villes. En effet, notre base de données relationnelle initiale comporte, pour une ville donnée, un ensemble de biens immobiliers. b) La base de données relationnelle Le schéma ci-dessous présente notre base de données relationnelle : 8

9 c) Présentation de la vue étudiée Afin de pouvoir exploiter nos données à l aide du logiciel SODAS, nous avons créé une vue à partir de la requête SQL suivante : SELECT habitation.id, ville.nom, habitation.libelle, habitation.habitable, habitation.terrain, habitation.prix, habitation.chambres, habitation.sejour, habitation.[salle de bain], parking.type AS parking, environnement.type, cuisine.type AS cuisine FROM ville INNER JOIN (parking INNER JOIN (environnement INNER JOIN (cuisine INNER JOIN habitation ON cuisine.id = habitation.cuisine) ON environnement.id = habitation.environnement) ON parking.id = habitation.parking) ON ville.id = habitation.ville ORDER BY ville.nom; Nous obtenons ainsi l identifiant de nos biens immobiliers dans la première colonne ce qui correspond à nos individus. Dans la seconde colonne, nous trouvons la ville dans laquelle se situe l appartement ou la maison. Par conséquent, cette deuxième colonne représente les différents concepts. Ensuite, nous trouvons la description de chaque individu par des variables classiques. Cette vue est présentée de telle sorte à pouvoir être prise en compte par DB2SO. Ce dernier va la convertir en un tableau de données exploitable par SODAS. Dans ce tableau, nous ne verront plus apparaître les individus mais nous aurons des concepts à la place (c està-dire les villes). Chacun de nos concepts sera décrit par des variables symboliques. Ces dernières auront pour valeur une agrégation des valeurs des différents biens immobiliers qui appartenaient à cette ville dans notre base de données relationnelle initiale. Par ailleurs, nous allons importer les données propres aux concepts des villes par l intermédiaire de la requête suivante : SELECT ville.nom, ville.département, ville.superficie, ville.population FROM ville ORDER BY ville.nom; d) Les variables Avant de sélectionner nos individus dans les petites annonces, nous avions déterminé une liste de variables qui permettent de décrire et de modéliser un bien immobilier. Les variables que nous avions retenues sont les suivantes : - le type de logement, - la ville dans laquelle il est situé, - la superficie habitable (en m²), - la superficie du terrain (en m²), - le prix de vente (en ), - le nombre de chambres, - la superficie du séjour (en m²), - le nombre de salles de bains, - le type de parking proposé (intérieur, extérieur), - l environnement dans lequel est situé le bien immobilier (centre ville, à proximité des transports, des commerces, au calme), - le type de cuisine (indépendante, équipée, américaine, kitchenette). 9

10 Par conséquent, nos individus sont décrits par des variables hétérogènes puisque ces dernières ne sont pas toutes de même type. Le tableau ci-dessous présente le type de chacune de nos variables : Nom de la variable Type Ville Superficie habitable Superficie du terrain Prix de vente Nombre de chambres Taille du séjour Nombre de salles de bains Parking Environnement Cuisine Type Qualitative nominale Qualitative nominale Quantitative mesurable Quantitative mesurable Quantitative mesurable Quantitative ordinale Quantitative mesurable Quantitative ordinale Qualitative nominale Qualitative nominale Qualitative nominale Le tableau obtenu à partir de DB2SO comporte des données symboliques. Nous observons parmi celles-ci des variables taxonomiques comme par exemple l environnement. En effet, les valeurs de cette variable sont sur différents niveaux puisque le centre ville comprend la proximité des transports et des commerces. D autre part, nous pouvons observer des dépendances hiérarchiques entre nos variables puisque la superficie du terrain n a de sens que dans le cas où le type de bien immobilier que nous traitons est «maison». Par ailleurs, aucune de nos variables ne présente de dépendance logique. Enfin, nous possédons également des variables propres à nos concepts, c est-à-dire les villes, qui sont le nombre d habitants, la superficie de la ville et le département dans lequel elle se trouve. Nom de la variable Département Superficie de la commune Nombre d habitants Type Qualitative nominale Quantitative mesurable Quantitative mesurable 10

11 III- Analyse a) La méthode STAT Présentation Entrées Sorties Objectif Sélection des variables à étudier parmi des variables inter-continues et nominales Un fichier texte, dans lequel se trouve pour chaque variable, le minimum et le maximum observé sur les concepts. Répartition des concepts dans k classes représentées graphiquement dans un histogramme. Indicateur de la tendance centrale c est-à-dire de la moyenne ainsi que de l écart type. Obtenir des statistiques générales et focalisées sur les variables décrivant nos concepts. Permet d avoir une première vision de la répartition de nos données. Résultats obtenus et interprétation Nous ne présenterons pas dans cette partie tous les résultats fournis par SODAS mais seulement un exemple pour une variable quantitative et un autre pour une variable qualitative. Prenons par exemple, les statistiques concernant la variable quantitative nommée «habitable» qui représente la surface habitable d un bien immobilier. Nous avons choisi de réaliser notre étude sur 6 classes pour cette variable quantitative mesurable. Nous obtenons un fichier WordPad comprenant les statistiques des variables quantitatives. L extrait suivant s intéresse plus particulièrement à la variable que nous souhaitons étudier : SODAS - STAT RELATIVE FREQUENCIES (INTERVAL) May :52 File: PROJET.SDS Title: projet habitable limits: class width: class class class class class class Central tendancy: Dispersion: Par conséquent, nous apprenons par ce fichier que la surface habitable est comprise entre 20 et 268 m². Nous avons demandé à SODAS de répartir nos données en 6 classes et le logiciel nous présente les résultats obtenus en fonction de 6 classes. 11

12 Ainsi, ce fichier nous indique que chaque classe a une largeur de Ainsi nous en déduisons que la première classe comprend les surfaces habitables inclues dans la fourchette [20 ; 61.33]. D autre part, nous pouvons constater que 10.75% de nos données appartiennent à cette première classe. De plus, nous apprenons que la 3 ème classe est celle qui comporte le plus grand nombre de nos surfaces habitables puisqu elles sont 31.45% à en faire partie ce qui signifie que près du tiers de nos données ont une surface habitable comprise entre et 144 m². Enfin, ce fichier nous informe que la moyenne des surfaces habitables vaut 119,72m² et que la variable étudiée a un écart type de D autre part, SODAS nous permet de visualiser ces résultats sous forme d histogramme. Ainsi, nous obtenons pour la variable «habitable» le schéma suivant : Nous constatons que cet histogramme est une représentation graphique exacte des résultats fournis dans le fichier texte. En effet, nous obtenons 6 classes de largeur identique à savoir La représentation graphique met en évidence très rapidement qu environ 60% de nos données ont une surface habitable comprise en et 144m² puisque la 2 ème et la 3 ème classe regroupent à elles seules 60% des observations. Par ailleurs, nous avons également voulu étudier une variable qualitative nominale intitulée «cuisine». Cette dernière comporte 4 modalités. Lorsque nous souhaitons étudier une variable qualitative, le logiciel réalise ses statistiques sur chacune des modalités que peut prendre la variable. En effet, nous ne pouvons choisir un nombre de classes. Un extrait du fichier WordPad obtenu se trouve ci-dessous SODAS - STAT CAPACITIES May :49 File: PROJET.SDS Title: projet 12

13 cuisine capa mini maxi mean AK01 équipée AK02 indépendante AK03 américaine AK04 kitchenette Tout d abord, nous pouvons constater que SODAS affecte un code à chacune des modalités de la variable. Ensuite, il présente les résultats en 4 colonnes. Il semble important de noter qu après l importation des données à partir d Access, DB2SO réalise un fichier qui décrit les concepts (ici les villes) à partir de variables symboliques. La variable «cuisine» est une variable qualitative comprenant 4 modalités. Pour chaque concept SODAS associe un pourcentage à chaque modalité de la variable. Par exemple, pour le concept nommé «Vincennes», SODAS nous fournit les informations suivantes concernant la variable «cuisine» : ^[cuisine = {"equipée"( ), "indépendante"( )}] Ceci signifie que 83.33% des biens immobiliers situés à Vincennes comportent une cuisine équipée et que 16.67% d entre eux ont une cuisine indépendante. Par conséquent, il n y a aucun biens immobiliers sur Vincennes qui dispose d une cuisine américaine ou d une kitchenette. La colonne mini de la méthode STAT appliquée à la variable cuisine nous indique le pourcentage minimum observé pour une modalité sur l ensemble des concepts. Ainsi, nous en déduisons que la ville ayant le moins de cuisines équipées en a 12.5%. En revanche, la colonne maxi indique le pourcentage maximum relevé pour une modalité de la variable. Ainsi nous apprenons qu un de nos concepts dispose de 60% de kitchenettes et que ce dernier est la ville qui dispose de la plus grande proportion de kitchenettes parmi toutes les villes que nous étudions. Par ailleurs, la colonne intitulée mean indique la moyenne observée pour chaque modalité. Ainsi, nous avons 5.26% de cuisine américaine sur l ensemble de nos concepts. En effet, SODAS additionne tous les pourcentages correspondants à cette modalité puis divise le résultat par 18 ce qui correspond au nombre total de concepts. Par conséquent, nous constatons qu en moyenne une ville a 47.95% de biens immobiliers en vente possédant une cuisine indépendante et seulement 3.33% de biens comportant une kitchenette. De plus, SODAS permet d obtenir une représentation graphique de ces résultats qui est la suivante : 13

14 Ce schéma, représente fidèlement les résultats fournis par le fichier WordPad. En effet, il indique pour chacune des modalités de la variable, le pourcentage minimum observé parmi tous les concepts étudiés ainsi que le pourcentage maximum. De plus, le trait situé au milieu des barres indique la localisation de la moyenne. Par exemple, après observation du résultat fourni pour la modalité équipée, nous constatons qu au minimum une ville dispose de 12.5% de cuisines équipées et en a 83.33% au maximum. Nous observons également que la moyenne se situe aux alentours de 44% ce qui correspond parfaitement aux résultats obtenus précédemment. b) La méthode DIV Présentation Entrées Sorties Objectif Sélection des variables à étudier parmi des variables qualitatives ou continues. Ces variables seront utilisées pour calculer la matrice de dissimilarité et l extension du critère d inertie. Un fichier WordPad présentant un arbre de classification hiérarchique par le haut en fonction des variables préalablement sélectionnées. Pour chaque partition de 2 à k classes, une liste des concepts contenus dans chaque classe ainsi que l inertie expliquée relative à la partition de l arbre de classification hiérarchique par le haut. Réaliser une classification hiérarchique par le haut c est-à-dire qui part de tous les objets symboliques réunis dans une seule classe et procède ensuite par divisions successives. 14

15 Résultats obtenus et interprétation Lorsque nous avons utilisé SODAS pour appliquer la méthode DIV, nous avons réalisé une classification hiérarchique sur les variables qualitatives et une autre à partir des variables quantitatives. Le schéma ci-après présente la classification hiérarchique obtenue selon les variables qualitatives. THE SELECTED VARIABLES ARE : (Verify the order of the modality) ( 1) :libelle (Initial order) 1- Maison 2- Appartement ( 8) :parking (Initial order) 1- Inconnu 2- Interieur 3- Exterieur ( 9) :type (Initial order) 1- calme 2- centre ville 3- inconnu 4- commerces 5- transports ( 10) :cuisine (Initial order) 1- equipée 2- indépendante 3- américaine 4- kitchenette PARTITION IN 5 CLUSTERS : : Cluster 1 (n=4) : "bry-sur-marne" "chennevieres-sur-marne" "limeil-brévannes" "montfermeil" Cluster 2 (n=1) : "paris 18" Cluster 3 (n=4) : "fontenay-sous-bois" "paris 10" "paris 14" "paris 16" Cluster 4 (n=7) : "charenton" "clichy-sous-bois" "livry-gargan" "nogent-sur-marne" "paris 20" "saint-mandé" "vincennes" Cluster 5 (n=2) : "montreuil" "villemomble" Explicated inertia : THE CLUSTERING TREE : the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no Classe 1 (Ng=4) [type <= calme] Classe 5 (Nd=2) [libelle = Maison] Classe 3 (Ng=4) [parking <= Inconnu] Classe 4 (Nd=7) [cuisine <= indépendante] Classe 2 (Nd=1) La partie intitulée «partition in 5 clusters» nous permet de savoir quels sont les concepts que SODAS a regroupés. Par exemple, les villes de Montreuil et Villemomble ont été rassemblées dans la classe 5. La partie «clustering tree» permet de savoir quelles sont les variables qui ont permis de distinguer les concepts entre eux. Ainsi, cet arbre de classification donne une information sur les éléments qui servent à regrouper les concepts en classe. 15

16 Tout d abord, nous pouvons constater que la première distinction s établie à partir du type de cuisine. En effet, les concepts appartenant à la classe 2 disposent de cuisine de type supérieur au type «indépendante». Or le premier tableau que fourni SODAS lors de la réalisation de la méthode DIV, indique que la modalité «indépendante» porte le numéro 2. D autre part, la modalité «américaine» est numérotée 3 et «kitchenette» 4. Par conséquent, on en déduit que SODAS à séparer les concepts selon le type de cuisine et que la classe 2 comporte les concepts qui disposent principalement de cuisines américaines ou de kitchenettes. Nous pouvons ajouter que seul le concept Paris 18 fait partie de la classe 2 et est caractérisé par des cuisines américaines ou par des kitchenettes. Ensuite, le second critère est celui de savoir si c est une maison ou un appartement. A la vue de cet arbre, nous avons 11 concepts majoritairement représentés par des appartements et seulement 6 où les maisons sont plus importantes. Prenons le coté de l arbre où les appartements sont regroupés et voyons quel critère intervient après. Le troisième critère qui a de l importance pour un appartement, est le fait d avoir ou pas un parking. Les 7/11 ème ont un parking intérieur ou extérieur et donc seulement 4 concepts parmi 11 ont en grande partie la modalité «inconnu» pour le critère «parking». Dans le premier cas, nous trouvons entre autre les concepts suivants : «charenton» et «clichy-sous-bois» et pour le second : «fontenay-sous-bois» et «paris 10». Prenons maintenant le coté où les maisons sont regroupées. Le troisième critère qui arrive est l environnement à savoir s il est calme ou non. La proportion de nos concepts ayant un environnement calme est deux fois plus grande que nos concepts n ayant pas cette modalité pour majorité dans le critère «environnement», respectivement 4 contre 2. Les 4 concepts ayant comme caractéristiques principales «maison» et «calme» sont les suivants : «bry-sur-marne», «chennevieres-sur-marne», «limeil-brévannes» et «montfermeil» tandis que ceux ayant un environnement autre que calme sont : «montreuil» et «villemomble». En résumé, le premier critère est de savoir si la cuisine est indépendante ou pas, le second porte sur le type d habitation, maison ou appartement. Les critères suivants sont : un environnement calme pour les maisons et la présence d un parking pour les appartements. Le premier critère peut paraître surprenant en revanche, le second lui semble logique et les critères suivants également. En effet, la distinction entre maison et appartement nous paraît tout à fait triviale du fait que certaines villes sont plus destinées à la construction de zones pavillonnaires tandis que d autres sont plus concernées par la construction d immeubles. Les critères portant sur l environnement et le parking sont eux aussi tout à fait légitime. Lorsque vous habitez dans un appartement, donc près du centre ville, les places de stationnement sont plutôt rares et par conséquent un parking privé est très prisé et en revanche, si vous habitez dans une maison, vous possédez, dans l ensemble, un garage et par conséquent, votre priorité est de trouver un environnement calme. A présent, nous allons nous intéresser à la classification des concepts selon les variables quantitatives. Lorsque nous appliquons la méthode DIV, le logiciel SODAS nous apporte les résultats suivants : VARIANCE OF THE SELECTED VARIABLES : habitable : terrain : prix :

17 chambres : sejour : salle_de_bain : PARTITION IN 5 CLUSTERS : : Cluster 1 (n=5) : "clichy-sous-bois" "livry-gargan" "montfermeil" "montreuil" "villemomble" Cluster 2 (n=2) : "paris 14" "paris 18" Cluster 3 (n=2) : "nogent-sur-marne" "paris 16" Cluster 4 (n=6) : "charenton" "fontenay-sous-bois" "limeil-brévannes" "paris 10" "paris 20" "saint-mandé" Cluster 5 (n=3) : "bry-sur-marne" "chennevieres-sur-marne" "vincennes" Explicated inertia : THE CLUSTERING TREE : the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no Classe 1 (Ng=5) [prix <= ] Classe 4 (Nd=6) [prix <= ] Classe 2 (Ng=2) [sejour <= ] Classe 3 (Ng=2) [chambres <= ] Classe 5 (Nd=3) La partie intitulée «variance of the selected variables» nous informe de la valeur des variances de chacune de nos variables quantitatives. Ainsi, nous pouvons constater que le prix est la variable qui a la plus importante variance, ce qui nous permet de constater que les prix de vente sont très différents entre les concepts. Ensuite, SODAS nous présente la partition qu il a effectuée en 5 classes en nous précisant quels sont les concepts appartenant à chacune des classes qu il a réalisées. Enfin, le logiciel nous fournit un arbre de classification qu il a réalisé à partir des variables quantitatives. Tout d abord, nous pouvons constater que le premier critère de différenciation est le prix de vente. En effet, SODAS a séparé les concepts en 2 grandes parties : d une part ceux pour lesquels les prix sont inférieurs à euros et d autre part ceux qui ont un prix supérieur à euros. Les concepts dont le prix est inférieur à euros sont ceux des classes 1 et 4. De plus, nous constatons que parmi les prix les plus faibles, SODAS effectue une autre distinction à partir du prix. En effet, les concepts appartenant à la classe 1 sont ceux dont le prix est inférieur à euros comme par exemple les villes de Montfermeil, Montreuil, Villemomble, Clichy-Sous-Bois et Livry-Gargan. La classe 4 comporte les concepts tels que Charenton, Paris 10 et Saint-Mandé dont le prix de vente se situe entre et euros. Par ailleurs parmi les concepts qui ont un prix de vente supérieur à euros, SODAS effectue une distinction en fonction de la taille du séjour. Ainsi, les concepts constituant la classe 2 sont ceux qui ont un séjour dont la taille n excède pas 34,5m². Il s agit par exemple des villes de Paris 14 et Paris

18 Ensuite, SODAS opère sa différenciation selon le nombre de chambres. Les concepts de la classe 3 (Nogent-Sur-Marne et Paris 16) sont ceux qui possèdent moins de 2.5 chambres en moyenne tandis que les concepts constituant la classe 5 (Bry-Sur-Marne, Chennevières- Sur-Marne et Vincennes) ont dans l ensemble plus de 2.5 chambres. En résumé, nous pouvons dire que le prix est un facteur très déterminant pour classifier les concepts puisqu il intervient deux fois de suite lorsque l on souhaite effectuer une classification en 5 classes. Parmi, les concepts dont les prix sont assez élevés, SODAS effectue une distinction à partir de la taille du séjour. Ensuite pour les concepts ayant à la fois un prix élevé et un grand séjour, il sépare les concepts en fonction du nombre de chambres. Ces résultats peuvent sembler assez surprenants dans la mesure où ni la surface habitable ni la superficie du terrain n interviennent dans cette classification à 5 classes dont l inertie est expliquée à 92,41%. Puisque ces résultats nous paraissent plutôt inattendus, nous avons souhaité étendre la méthode DIV à 10 classes de façon à visualiser l importance de la surface habitable dans la classification des concepts par le logiciel. Nous obtenons alors les résultats suivants : PARTITION IN 10 CLUSTERS : Cluster 1 (n=1) : "clichy-sous-bois" Cluster 2 (n=2) : "paris 14" "paris 18" Cluster 3 (n=2) : "nogent-sur-marne" "paris 16" Cluster 4 (n=2) : "limeil-brévannes" "paris 20" Cluster 5 (n=1) : "vincennes" Cluster 6 (n=3) : "fontenay-sous-bois" "paris 10" "saint-mandé" Cluster 7 (n=2) : "montfermeil" "montreuil" Cluster 8 (n=1) : "charenton" Cluster 9 (n=2) : "bry-sur-marne" "chennevieres-sur-marne" Cluster 10 (n=2) : "livry-gargan" "villemomble" Explicated inertia : THE CLUSTERING TREE : Classe 1 (Ng=1) [sejour <= ] Classe 10 (Nd=2) [prix <= ] Classe 7 (Nd=2) [prix <= ] Classe 4 (Ng=2) [prix <= ] Classe 8 (Nd=1) [prix <= ] Classe 6 (Nd=3) [prix <= ] Classe 2 (Ng=2) [sejour <= ] Classe 3 (Ng=2) [chambres <= ] Classe 5 (Ng=1) [habitable <= ] Classe 9 (Nd=2) 18

19 Tout d abord, nous pouvons constater que l inertie de la classification hiérarchique par le haut est expliquée à 98% et qu une classe ne comporte jamais plus de trois concepts à la fois. Si nous observons rapidement cette classification, nous constatons que le premier critère de séparation est toujours le prix. Pour les concepts dont le prix n excède pas les séparations suivantes se font également sur le prix. Ainsi, nous pouvons supposer que la variable prix est fortement liée à nos concepts. Par ailleurs, pour les classes dont le prix de vente dépasse , SODAS effectue sa classification à partir de la taille du séjour, puis du nombre de chambres et enfin en fonction de la surface habitable. Ainsi, nous en déduisons que la superficie habitable ainsi que celle du terrain n est pas un critère déterminant pour effectuer une classification entre les concepts que nous étudions. c) La méthode SOE Présentation Entrées Sorties Objectif La liste des variables à étudier Un tableau donnant les valeurs de chaque variable symboliques pour chacun des concepts. Graphique en 2 ou 3 dimensions représentant les valeurs de chacune des variables après sélection d un concept dans le tableau. Représenter graphiquement les valeurs prises par les variables de chaque concept. Résultats obtenus et interprétation Dans la méthode SOE, SODAS présente les valeurs des variables symboliques pour chaque concept dans un tableau dont voici un extrait : 19

20 Nous observons deux représentations différentes des valeurs. En effet, les pourcentages pour chaque modalité sont donnés lorsqu il s agit de variables qualitatives. Par exemple, nous constatons qu il existe 57% de maisons et 43% d appartements à Villemomble. Les variables quantitatives sont quant à elles représentées différemment. En effet, SODAS fournit une plage de valeurs. Ainsi nous constatons que Bry-sur-Marne comprend des biens immobiliers dont le prix est compris entre et euros. D autre part, nous avons choisi d appliquer la méthode SOE à deux concepts que nous pensons différents : Montfermeil et Saint-Mandé. En effet, la ville de Montfermeil est située dans le département de la Seine-Saint-Denis, elle a une superficie de 545 hectares et possède habitants. Par contre, la ville de Saint-Mandé est située dans le Val de Marne, compte habitants et a une superficie de 92 hectares. Tout d abord, nous allons nous intéresser au concept de Montfermeil. En sélectionnant cette ville dans le tableau présenté auparavant, le logiciel nous fournit le graphique suivant : La première chose que nous constatons est le fait que SODAS ne représente pas de la même façon les variables quantitatives et les variables qualitatives. En effet, nous pouvons remarquer que les variables quantitatives sont «étalées» sur une plage de valeurs tandis que les variables qualitatives sont plutôt modélisées sous forme de «barres». Le schéma ci-dessus montre que le concept de Montfermeil ne possède que des maisons qui sont pour la plus grande majorité situées dans un environnement calme et ayant une cuisine indépendante ce qui signifie située dans une pièce fermée. D autre part, nous remarquons que tous les parkings sont intérieurs. Or ce concept est constitué de 100% de maisons donc nous pouvons en déduire que ces parkings intérieurs sont en fait des garages. 20

21 D autre part, il s agit d une ville dont les habitations ont des surfaces habitables comprises entre 100 et 170m² et qui dispose de 3 à 6 chambres. En revanche, nous pouvons constater que les terrains de ces biens immobiliers sont assez petits puisqu ils ont une superficie de 306 à 574m². Enfin, la taille des séjours des maisons de Montfermeil varie entre 26 et 41m². Ce graphique permet de visualiser quel est le profil type d un bien immobilier situé dans la ville de Montfermeil mais il permet également de pouvoir effectuer des comparaisons avec tous les autres concepts que nous étudions. En effet, les axes de ce schéma possèdent toutes les modalités possibles pour une variable qualitative et les axes des variables quantitatives sont gradués à partir de la valeur minimale observée pour la variable sur l ensemble des concepts jusqu à la valeur maximale observée pour cette même variable. Par exemple, nous avons pu déduire du graphique précédent que les terrains de Montfermeil sont plutôt petits puisqu il existe un concept qui détient un terrain de 4000m². De plus, nous pouvons signaler que Montfermeil est une ville qui comporte des logements qui ont grand nombre de chambres puisqu il s agit du concept qui détient la valeur maximale constatée pour la variable «nombre de chambres». Enfin, en ce qui concerne les prix de vente, nous pouvons observer qu ils sont compris entre et euros. Si on regarde l axe de la variable «prix», on remarque qu il s agit de prix assez faibles compte tenu de la position de la plage des valeurs sur l axe. D autre part, nous pourrions supposer que le prix n est pas directement proportionnel à la surface habitable puisque cette ville comporte des biens immobiliers dont la surface habitable se situe sur le milieu de l axe tandis que la plage des prix est plus proche de l origine. Ceci signifie que les prix sont faibles mais que les habitations ne sont pas pour autant de petite taille. Saint-Mandé 21

22 Le second schéma ci-dessus montre que le concept de Saint-Mandé ne possède que des appartements qui sont pour la plus grande majorité situés dans un environnement dit «centre ville» c est-à-dire proche des commerces et des transports. Comme le concept de Montfermeil, les cuisines sont principalement indépendantes cependant, nous pouvons observer la présence de quelques cuisines «américaines», modalité qui n était pas présente pour le premier concept analysé. Par ailleurs, les deux tiers des parkings ont la modalité «intérieur» et le dernier tiers restant la modalité «inconnu». Ceci pouvant s expliquer par le fait que certains immeubles ont des garages en sous-sol. En revanche la modalité «inconnu» ne signifie pas qu il n y a pas de parking mais que cela n était pas précisé dans les annonces. La surface habitable propre à ce concept s étend de 38 à 111m² et le nombre de chambres va de 1 à 3. L absence de terrain se justifie de par le fait que nous n avons ici que des appartements. Cependant, que cela soit un appartement ou une maison, un séjour est toujours présent et la taille de celui-ci varie entre 19 et 44m². Enfin, le nombre de salles de bains va de 1 à 2. Grâce à ce graphique, nous pouvons constater que les variables quantitatives sont faiblement étalées et qu elles se situent assez proche du centre ou tout du moins des valeurs minimales. Pour preuve, la plus grande variation est celle des prix. Ces derniers vont de à euros. Contrairement à Montfermeil, il semblerait que l étendue de la plage des valeurs prises soit comparable à celle de la superficie habitable. En effet, ces deux plages ont quasiment la même étendue (un peu après l origine et jusqu à la moitié environ). Par conséquent, si l on compare ces deux concepts, on s aperçoit que la surface habitable n influence pas directement la variable prix. Globalement, la surface habitable de Montfermeil est plus importante que celle de Saint-Mandé mais que les prix fluctuent nettement moins à Montfermeil. D autre part, ces deux concepts ont des tailles de séjour très semblables (globalement entre 20 et 40m²) mais que les maisons de Montfermeil possèdent un plus grand nombre de chambres que les appartements de Saint-Mandé. Par ailleurs, on remarque que l environnement de chacun de ces deux concepts est assez différent. En effet, plus de 80% des habitations de Montfermeil sont situées dans un environnement calme tandis qu à Saint-Mandé, il ne sont seulement que 29%. Ainsi, nous pourrions nous demander si la proximité du centre-ville et des commerces a une influence sur le prix de vente d un bien immobilier. d) La méthode PCM Présentation Entrées Choisir l ensemble des variables quantitatives sur lesquelles on souhaite réaliser l analyse en composantes principales Sorties Un listing contenant : - une matrice des données - la matrice des variances-covariances entre les variables - la matrice de corrélation entre les variables - des pourcentages d inertie pour la construction des axes factoriels 22

23 Objectif Un graphique selon les deux premiers axes factoriels (possibilité de réaliser un graphique avec les 3 ème et 4 ème axes factoriels) Réaliser une étude en composantes principales. L objectif est d étudier l intensité des liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines. Résultats obtenus et interprétation Nous avons souhaité réaliser une analyse en composantes principales dans ce mémoire car il s agissait d une méthode que nous avions étudiée en IUP 2 et nous étions assez curieux de voir les résultats que SODAS pouvait nous fournir. Dans un premier temps, nous allons considérer les résultats fournis dans le listing. Précisons tout d abord que nous avons sélectionné les variables surface habitable, prix, nombre de chambres et superficie du séjour. Matrix of input data: (extrait) habitable prix chambres sejour "chennevieres-marne" [110.00, ] [ , ] [2.00, 5.00] [40.00, 80.00] "montreuil" [45.00, ] [ , ] [1.00, 5.00] [28.00, 80.00] "paris 10" [23.00, ] [ , ] [0.00, 4.00] [0.00, 70.00] "paris 16" [40.00, ] [ , ] [0.00, 4.00] [0.00, 73.00] "saint-mandé" [38.00, ] [ , ] [1.00, 3.00] [19.00, 44.00] "vincennes" [93.00, ] [ , ] [2.00, 4.00] [36.00, 50.00] La matrice ci-dessus fournie pour chacun des concepts, la plage de valeurs de chacune des variables. Ainsi, nous en déduisons que les biens immobiliers situés dans la ville de Chennevières-Sur-Marne ont une surface habitable comprise entre 110 et 240 m² et que ces derniers possèdent de 2 à 5 chambres. Ainsi, nous pouvons dire que cette matrice nous apporte les mêmes renseignements que ceux compris dans le tableau fourni par la méthode SOE. Matrix Variance/Covariance : habitable prix chambres sejour Par ailleurs, la méthode d analyse en composantes principales réalise une matrice de variance-covariance entre les variables. Ainsi, nous constatons que la variable qui fluctue le plus est le prix puisqu il s agit de la variable qui a la plus grande variance et par conséquent le plus fort écart-type. D autre part, la variable représentant le nombre de chambres est celle qui a la plus petite variance mais ce résultat semble logique car les valeurs que peut prendre cette variable se situent dans un intervalle beaucoup plus réduit que le prix. Correlations Matrix : habitable prix chambres sejour A présent, observons la matrice des corrélations que SODAS a calculée à partir de la matrice précédente. Cette matrice a l avantage de nous permettre de déterminer quelles sont les variables qui sont corrélées c est-à-dire celles qui s influencent mutuellement. Par exemple, nous constatons que le prix est très peu corrélé (0.0695) avec la surface habitable. 23

24 Ainsi nous en déduisons qu une augmentation de la surface habitable n implique pas un accroissement du prix. De plus, le nombre de chambres est quasiment indépendant du prix puisque le coefficient de corrélation ne vaut que Ces résultats paraissent surprenants mais ils confirment ceux que nous avons pu obtenir par le biais d autres méthodes (SOE et DIV). D autre part, la matrice des corrélations nous informe que la superficie habitable est corrélée à avec la taille du séjour et à avec le nombre de chambres. Cette information peut être expliquée par le fait que plus le séjour est grand et plus le bien immobilier comporte de chambres alors plus la superficie habitable de ce dernier est importante. Enfin, la variable qui est la plus corrélée avec le prix est la taille du séjour puisque ces deux dernières sont corrélées à près de Ainsi, on en déduit que la taille du séjour influe sur le prix du bien immobilier même si cette influence n est pas très importante. En effet, nous ne disposons d aucun couple de variables qui soit très fortement corrélées. Cependant, cette matrice nous permet de constater que la superficie du séjour est deux fois plus influente que la superficie totale dans la détermination du prix d un bien immobilier. Propers Values and inerty percentage: habitable= (31.97%) prix= (21.74%) chambres= (25.46%) sejour= (20.82%) Le tableau ci-dessus nous permet de visualiser les pourcentages d inertie. Ces derniers sont utilisés par le logiciel afin de construire les axes factoriels. Factorials Descriptions of interval type upon axes (extrait): PC1,PC2,PC3,PC4 : "chennevieres-sur-marne" [-0.14, 3.00] [-1.65, 1.24] [-1.52, 1.54] [-1.37, 1.34] "montreuil" [-1.56, 2.19] [-1.35, 1.91] [-2.20, 1.41] [-0.97, 2.22] "paris 10" [-2.59, 1.81] [-2.29, 1.63] [-2.14, 1.86] [-1.86, 2.07] "paris 16" [-2.30, 2.75] [-2.49, 1.74] [-2.74, 1.91] [-2.65, 1.89] "saint-mandé" [-1.76, 0.50] [-1.57, 0.73] [-1.02, 1.23] [-0.83, 1.13] "vincennes" [-0.32, 1.08] [-1.16, 0.43] [-0.38, 1.13] [-0.54, 0.54] Le tableau précédent montre pour chacun des concepts de notre base quelles sont les valeurs prises par les variables en fonction de chacun des axes factoriels. Ainsi, nous constatons que Paris 10 se situe entre et 1.81 sur le premier axe factoriel (ici la surface habitable). Correlations Matrix, initiales Variables/principals components PC1...PC4 habitable prix chambres sejour Enfin, le dernier tableau fourni par le listing de la méthode PCM montre la corrélation entre les variables et les différents axes factoriels. Par exemple, nous observons que le coefficient de corrélation entre la taille du séjour et le premier axe factoriel est de Ainsi, nous en déduisons que cette variable est fortement représentée par le premier axe. Par ailleurs, le coefficient de corrélation entre la variable «chambres» et le 4 ème axe factoriel est très faible (0.053), par conséquent, nous pouvons en déduire que cette variable n est quasiment pas représentée sur cette composante principale. 24

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E.

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E. Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ Sommaire Introduction...

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

DATA MINING - Analyses de données symboliques sur les restaurants

DATA MINING - Analyses de données symboliques sur les restaurants Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...

Plus en détail

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Introduction à l Informatique Décisionnelle - Business Intelligence (7) Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Master 2 ème Année Ingénierie Statistique et financière Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Réalisé par : Nicolas CHAIGNEAUD Nora SLIMANI Année universitaire 2007-2008

Plus en détail

Critères pour avoir la meilleure équipe!

Critères pour avoir la meilleure équipe! PROJET DATAMINING Basket-ball professionnel "NBA" : Critères pour avoir la meilleure équipe! Réalisé par : Anasse LAHLOU KASSI Houssam Eddine HOUBAINE DESS TIO DESS ID Année Scolaire : SOMMAIRE INTRODUCTION...

Plus en détail

Université Paris IX DAUPHINE DATE : 24/04/06

Université Paris IX DAUPHINE DATE : 24/04/06 Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE

Plus en détail

Des questions en live? @gregguzzo

Des questions en live? @gregguzzo Comment Val Thorens, à travers la mise en place d un écosystème numérique & humain, favorise le service et l expérience client? Des questions en live? @gregguzzo 1 _ CRM, késako? Construire avec ses clients

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1) Introduction à lʼinformatique Décisionnelle et la «Business Intelligence» (1) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013

Plus en détail

Big Data et Marketing : les competences attendues

Big Data et Marketing : les competences attendues Big Data et Marketing : les competences attendues Laurence Fiévet Responsable Marketing Corporate Oney Banque Accord LA DYNAMIQUE DU MARKETING Selon la définition de Kotler et Dubois, «Le marketing est

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Gestion de la Relation Client (GRC)

Gestion de la Relation Client (GRC) Techniques de DM pour la GRC dans les banques Page 2 I.1 Introduction La gestion de la relation client est devenue un processus essentiel dans les institutions bancaires. Ils essaient toujours d améliorer

Plus en détail

La gestion opérationnelle de l information commerciale

La gestion opérationnelle de l information commerciale La gestion opérationnelle de l information commerciale La maîtrise du Process Commercial Du ciblage à la commande avec les solutions PREMIDATA PREMIUM 23 avenue de Genève 74 000 ANNECY Tél : 04.50.46.54.56

Plus en détail

MegaStore Manager ... Simulation de gestion d un hypermarché. Manuel du Participant

MegaStore Manager ... Simulation de gestion d un hypermarché. Manuel du Participant MegaStore Manager Simulation de gestion d un hypermarché.......... Manuel du Participant 1. Introduction 1.1. La simulation de gestion Vous allez participer à une simulation de gestion. Cette activité

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

CRM et GRC, la gestion de la relation client R A LLER PL US L OI

CRM et GRC, la gestion de la relation client R A LLER PL US L OI 3 R A LLER PL US L OI CRM et GRC, la gestion de la relation client Comment exploiter et déployer une solution de relation client dans votre entreprise? Les usages d une CRM Les fonctionnalités d une CRM

Plus en détail

LE SUPPLY CHAIN MANAGEMENT

LE SUPPLY CHAIN MANAGEMENT LE SUPPLY CHAIN MANAGEMENT DEFINITION DE LA LOGISTIQUE La logistique est une fonction «dont la finalité est la satisfaction des besoins exprimés ou latents, aux meilleures conditions économiques pour l'entreprise

Plus en détail

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes.

Changer la source d'une requête dans SAS Enterprise Guide. Ce document explique comment changer la table source de la tâche Filtre et requêtes. SAS, Cognos, Stata, Eviews, conseil, expertise, formation, mining, datamining, statistique, connaissance Changer la source d'une requête dans SAS Enterprise Guide client, valeur client, CRM, fidélisation,

Plus en détail

Base de données clients outil de base du CRM

Base de données clients outil de base du CRM Base de données clients outil de base du CRM Introduction Objectifs SOMMAIRE Constitution de la base de données clients Alimentation Datamart et DataWarehouse Contenu Dimensions Exploitation de la base

Plus en détail

Données des SIM. Données signalétiques (nom, adresse), Historique d achat, Réactions passées aux actions de promotion

Données des SIM. Données signalétiques (nom, adresse), Historique d achat, Réactions passées aux actions de promotion Données des SIM Bases de données produits Identification, caractéristiques techniques, caractéristiques commerciales (prix, unités de vente, fournisseurs), état des stocks, ventes réalisées Bases de données

Plus en détail

S84-1 LA GRC ET LE SI (Système d Information) 841 - Qualification des données clientèle. 842 - La segmentation de la clientèle

S84-1 LA GRC ET LE SI (Système d Information) 841 - Qualification des données clientèle. 842 - La segmentation de la clientèle S84-1 LA GRC ET LE SI (Système d Information) 841 - Qualification des données clientèle 842 - La segmentation de la clientèle 843 - Les actions personnalisées utilisation des procédures de consultation

Plus en détail

WEBSELL. Projet DATAMINING

WEBSELL. Projet DATAMINING WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ] SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1.

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44

SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44 SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44 Le CRM (GRC) est la clef de votre succès Les Principes généraux de la Gestion de la Relation Clients Confidentiel

Plus en détail

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification Séminaire national Alger 12 Mars 2008 «L Entreprise algérienne face au défi du numérique : État et perspectives» CRM et ERP Impact(s) sur l entreprise en tant qu outils de gestion Historique des ERP Le

Plus en détail

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service

Plus en détail

LE DISPLAY RÉVOLUTION. De l achat d espace publicitaire classique à la gestion d audience ciblée. Janvier 2012 LIVRE BLANC ACXIOM.

LE DISPLAY RÉVOLUTION. De l achat d espace publicitaire classique à la gestion d audience ciblée. Janvier 2012 LIVRE BLANC ACXIOM. LIVRE BLANC ACXIOM LE DISPLAY EN PLEINE RÉVOLUTION De l achat d espace publicitaire classique à la gestion d audience ciblée Janvier 2012 Frédéric GRELIER Directeur Europe développement produits Acxiom

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au

Plus en détail

BUSINESS. / solution de gestion au cœur de votre entreprise RC SOFT RC SOFT

BUSINESS. / solution de gestion au cœur de votre entreprise RC SOFT RC SOFT / solution de gestion au cœur de votre entreprise RC SOFT Créée en 2002, RC SOFT a développé différents types de logiciels avant de se concentrer très tôt sur les différents modules de la solution. En

Plus en détail

Extraction des Connaissances à partir des Données (ECD)

Extraction des Connaissances à partir des Données (ECD) Extraction des Connaissances à partir des Données (ECD) Data Mining Par Djamel Abdelkader ZIGHED & Ricco RAKOTOMALALA De document est le «draft» de l article : Zighed & Rakotomalala, «Extraction des Connaissances

Plus en détail

LES BONNES PRATIQUES DE LA RELATION CLIENTS

LES BONNES PRATIQUES DE LA RELATION CLIENTS LES BONNES PRATIQUES DE LA RELATION CLIENTS Lorsque la conjoncture économique est plus dure, l'entreprise ne peut plus se permettre de gérer approximativement ses prospects et ses clients. Chaque dossier

Plus en détail

TÉMOIGNAGE CLIENT ELIOR

TÉMOIGNAGE CLIENT ELIOR Afin d améliorer la qualité de son information client, le groupe Elior a doté les forces commerciales de son activité de restauration collective d une solution basée sur Pivotal CRM. Souple et ergonomique,

Plus en détail

Le cinquième chapitre

Le cinquième chapitre Le cinquième chapitre Objectif : présenter les supports matériels ou immatériels permettant d'étayer cette nouvelle approche de la fonction maintenance. I. Evolution du domaine technique - Différents domaines

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Chap 3 : La connaissance du client. I. Les fondements de la connaissance du client. Les principales évolutions sont résumées dans le tableau suivant :

Chap 3 : La connaissance du client. I. Les fondements de la connaissance du client. Les principales évolutions sont résumées dans le tableau suivant : Chap 3 : La connaissance du client I. Les fondements de la connaissance du client A. D une société de consommation à une société de consommateurs Depuis les années 1980, les mutations sociales ont eu d

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

RAMOS BELLO Laura Comment la culture de chaque agence PANALPINA va-t-elle influencer les enjeux de la mise en place du CRM?

RAMOS BELLO Laura Comment la culture de chaque agence PANALPINA va-t-elle influencer les enjeux de la mise en place du CRM? Glossaire 178 A Analyses personnalisables : Les fournisseurs des outils de CRM offrent des outils à la fois puissants et conviviaux qui permettent à tout utilisateur d'obtenir, grâce à des rapports standard

Plus en détail

Management des Systèmes d Information

Management des Systèmes d Information Spécialité Réseaux (RES) UE: Management des systèmes d'information [mnsi, NI303] M2IRT 2012 1 ère année Management des Systèmes d Information Unité 2 - Les principaux types de SI dans l entreprise Gilles

Plus en détail

Un progiciel intégré pour les entreprises de propreté

Un progiciel intégré pour les entreprises de propreté Un progiciel intégré pour les entreprises de propreté Les entreprises de propreté ont besoin de gérer l ensemble des processus liés à leur métier. Adoptez WO NETT, le progiciel intégré de gestion commerciale,

Plus en détail

Les Data Management Platforms (DMP)

Les Data Management Platforms (DMP) (DMP) Un outil marketing précieux pour les annonceurs Par Vihan Sharma, European Data Products Director Acxiom France Better Connections. Better Results. Parole d expert Acxiom Les Data Management Platforms

Plus en détail

La relation bancaire avec la clientèle des particuliers : revue de la littérature

La relation bancaire avec la clientèle des particuliers : revue de la littérature Direction de la stratégie Service de Veille et d Intelligence économiques et stratégiques du Groupe Mission de la Recherche @res @rgos Note de synthèse La relation bancaire avec la clientèle des particuliers

Plus en détail

Plan de l exposé Projets E-Business en PME le pourquoi et le comment

Plan de l exposé Projets E-Business en PME le pourquoi et le comment Plan de l exposé Projets E-Business en PME le pourquoi et le comment Forum Télécom SPI+ Ateliers «e-business» R. Delhaye / P. Poty - AWT Verviers, 19 février 2002 Introduction générale 1. Définitions et

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

silog erp L'ERP le plus complet

silog erp L'ERP le plus complet silog erp L'ERP le plus complet SILOG 8.5 version SILOG ERP répond aux besoins de la PME moderne confrontée à la mondialisation et aux contraintes multiples (sécurité, multi-sites, EDI, qualité ISO, législation

Plus en détail

Module de gestion des contacts et échanges avec les clients et fournisseurs (CRM)

Module de gestion des contacts et échanges avec les clients et fournisseurs (CRM) bmi-fact+ Module de gestion des contacts et échanges avec les clients et fournisseurs (CRM) Module commun aux applications bmi-fact, bmi-compta, POWERGES et Gest-Office. Qu est-ce qu un CRM (Customer Relationship

Plus en détail

RELATION CLIENT - CRM - MARKETING

RELATION CLIENT - CRM - MARKETING INNOVATION TECHNOLOGIES AU SERVICE DES PME PMI ETI SOeMAN RELATION CLIENT - CRM - MARKETING La solution d'aide au pilotage et au management de la performance commerciale Produit et service de la société

Plus en détail

LA GESTION DE LA RELATION CLIENT

LA GESTION DE LA RELATION CLIENT Conquérir un prospect coûte beaucoup plus cher que de fidéliser un client. C est la raison pour laquelle un grand nombre d entreprises orientent leur stratégie autour des services proposés à leurs clients.

Plus en détail

LES BONNES PRATIQUES DE LA RELATION CLIENTS

LES BONNES PRATIQUES DE LA RELATION CLIENTS LES BONNES PRATIQUES DE LA RELATION CLIENTS 1. Améliorez votre efficacité commerciale pour augmenter le taux de réussite de vos devis 80% du temps d un commercial n est pas affecté à la vente (Proudfoot

Plus en détail

ENQUÊTE FORUM DÉBAT 2002. Les Distributeurs du Secteur Dentaire

ENQUÊTE FORUM DÉBAT 2002. Les Distributeurs du Secteur Dentaire ENQUÊTE FORUM DÉBAT 2002 Les Distributeurs du Secteur Dentaire [EDITO]. Le marché du matériel dentaire reste un domaine relativement parcellarisé sur le territoire français. Il est couvert par plus de

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

Axalone France vous présente. Ses solutions. Société Axalone France 10, avenue d Anjou 91.940 LES ULIS

Axalone France vous présente. Ses solutions. Société Axalone France 10, avenue d Anjou 91.940 LES ULIS Axalone France vous présente Ses solutions Société Axalone France 10, avenue d Anjou 91.940 LES ULIS Resp. technique : Monsieur BOVE Téléphone : 01.69.31.39.61 Email : cbove@axalone.com Introduction Axalone

Plus en détail

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Techniques d interaction dans la visualisation de l information Séminaire DIVA Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

À PROPOS DE TALEND...

À PROPOS DE TALEND... WHITE PAPER Table des matières Résultats de l enquête... 4 Stratégie d entreprise Big Data... 5 Intégration des Big Data... 8 Les défis liés à la mise en œuvre des Big Data... 10 Les technologies pour

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

Intelligence Economique - Business Intelligence

Intelligence Economique - Business Intelligence Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit

Plus en détail

Pr. Imade BENELALLAM Imade.benelallam@ieee.org I. Description 1. Un S.I., pour quoi faire? 2. Définition 3. Applications traditionnelles 4. Intégration 5. Systèmes spécialisés Améliorer en permanence la

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

NF26 Data warehouse et Outils Décisionnels Printemps 2010

NF26 Data warehouse et Outils Décisionnels Printemps 2010 NF26 Data warehouse et Outils Décisionnels Printemps 2010 Rapport Modélisation Datamart VU Xuan Truong LAURENS Francis Analyse des données Avant de proposer un modèle dimensionnel, une analyse exhaustive

Plus en détail

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.) Université de Lille 2 - Droit et Santé Ecole Supérieure des Affaires & Institut Universitaire de Technologie (IUT-C) Département Statistique et Traitement Informatique des Données Licence Professionnelle

Plus en détail

Présentation de la majeure ISN. ESILV - 18 avril 2013

Présentation de la majeure ISN. ESILV - 18 avril 2013 Présentation de la majeure ISN ESILV - 18 avril 2013 La Grande Carte des Métiers et des Emplois Sociétés de service Entreprises Administrations Grand- Public Sciences Utiliser Aider à utiliser Vendre APPLICATIONS:

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy. Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

«Outils de gestion pour TPE CRM / ERP» Club

«Outils de gestion pour TPE CRM / ERP» Club Réunion des membres du 7 juin 2011 «Outils de gestion pour TPE CRM / ERP» Comment faciliter la gestion journalière d un commerce ou d une TPE par l utilisation d outils TIC? L adoption d outils TIC mais

Plus en détail

#BigData Dossier de presse Mai 2014

#BigData Dossier de presse Mai 2014 #BigData Dossier de presse Mai 2014 La valeur du Big Data pour l entreprise Comment permettre l avènement d une culture de la donnée pour tous? Dans un monde porté par la mobilité et le Cloud, non seulement

Plus en détail

Éléments de contexte. L univers des jardineries et graineteries

Éléments de contexte. L univers des jardineries et graineteries Éléments de contexte L univers des jardineries et graineteries L univers étudié est constitué des établissements spécialisés dont l activité se caractérise par la distribution de végétaux, de fleurs, de

Plus en détail

Contexte : «l e-business» TECHNIQUES DE MARKETING EN LIGNE. Contexte : «l e-business» Création de valeur 02/02/12

Contexte : «l e-business» TECHNIQUES DE MARKETING EN LIGNE. Contexte : «l e-business» Création de valeur 02/02/12 Contexte : «l e-business» TECHNIQUES DE MARKETING EN LIGNE La notion «d E-Business» recouvre les différentes applications possibles de l'informatique faisant appel aux technologies de l'information et

Plus en détail

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013 ENSEIGNEMENT ET MONDE PROFESSIONNEL Illustration d un lien fort au travers d un cours de scoring Jean-Philippe KIENNER 7 novembre 2013 CONTEXTE Une bonne insertion professionnelle des étudiants passe par

Plus en détail

Langage SQL : créer et interroger une base

Langage SQL : créer et interroger une base Langage SQL : créer et interroger une base Dans ce chapitre, nous revenons sur les principales requêtes de création de table et d accès aux données. Nous verrons aussi quelques fonctions d agrégation (MAX,

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail

Ensemble mobilisons nos énergies

Ensemble mobilisons nos énergies Ensemble mobilisons nos énergies «Lancé en Juin 2005, SIRIUS est désormais un projet au cœur de notre entreprise, au service des ambitions et des objectifs qui s inscrivent dans le cadre de notre stratégie

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

L Agence Marketing de vos Projets

L Agence Marketing de vos Projets L Agence Marketing de vos Projets Présentation 2011 Etudes Marketing & Marketing Direct Pierre Souillard Marketing Manager + 33 (0)6 11 73 06 57 Sommaire Etudes Marketing Marketing Direct L'Agence Marketing

Plus en détail

Passage du marketing par e-mail à l automatisation du marketing

Passage du marketing par e-mail à l automatisation du marketing Passage du marketing par e-mail à l automatisation du marketing L automatisation du marketing est une technologie qui permet de fidéliser les prospects grâce à des campagnes automatisées. Étant donné que

Plus en détail

Les clusters Linux. 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com. white-paper-cluster_fr.sxw, Version 74 Page 1

Les clusters Linux. 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com. white-paper-cluster_fr.sxw, Version 74 Page 1 Les clusters Linux 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com white-paper-cluster_fr.sxw, Version 74 Page 1 Table des matières Introduction....2 Haute performance (High

Plus en détail

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS

Plus en détail

Séminaires Système D Information. Formation Conduite du Changement. Préambule

Séminaires Système D Information. Formation Conduite du Changement. Préambule Séminaires Système D Information Formation Conduite du Changement Préambule Sommaire Préambule L entreprise : système complexe en mouvement permanent Mickael Porter Harvard Business School - L avantage

Plus en détail

Coheris est agréé organisme de formation, n d agrément 11 92 19507 92.

Coheris est agréé organisme de formation, n d agrément 11 92 19507 92. Formations 2015 Coheris est agréé organisme de formation, n d agrément 11 92 19507 92. Introduction La formation est une préoccupation constante de Coheris vis-à-vis de ses clients et de ses partenaires,

Plus en détail

LES DONNÉES CLIENTS APPLIQUÉES À LA MOBILITÉ : ENJEUX, ÉVOLUTIONS ET ACTIONS

LES DONNÉES CLIENTS APPLIQUÉES À LA MOBILITÉ : ENJEUX, ÉVOLUTIONS ET ACTIONS LES DONNÉES CLIENTS APPLIQUÉES À LA MOBILITÉ : ENJEUX, ÉVOLUTIONS ET ACTIONS BIG DATA, DIRTY DATA, MULTI DATA : DE LA THÉORIE À LA PRATIQUE : ARTÉMIS Paris le 4 avril 2013 EFFIA Synergies 20 Bd Poniatowski

Plus en détail

Les principales méthodes d évaluation

Les principales méthodes d évaluation Attention : Cette fiche n a pas pour objet de fixer administrativement la valeur des biens. Elle ne doit pas être assimilée à une instruction administrative. Elle propose les principales méthodes d évaluation

Plus en détail

Intégrer le CRM : quelle utilité, quels profits pour ma PME?

Intégrer le CRM : quelle utilité, quels profits pour ma PME? Conférence Applica - 22 avril 2002 Intégrer le CRM : quelle utilité, quels profits pour ma PME? Stéphanie WAILLIEZ Analyste CRM, CXP swailliez@cxp-international.com CXP en quelques mots et quelques chiffres

Plus en détail

Sage CRM SalesLogix. Gagnez en compétitivité. Sage CRM Solutions

Sage CRM SalesLogix. Gagnez en compétitivité. Sage CRM Solutions Sage CRM Solutions Sage CRM SalesLogix Gagnez en compétitivité Sage CRM SalesLogix est une solution complète, conçue pour permettre à vos équipes commerciales, marketing et service d optimiser la gestion

Plus en détail

Les Utilisateurs dans SharePoint

Les Utilisateurs dans SharePoint Les Utilisateurs dans SharePoint La gestion des utilisateurs dans SharePoint SharePoint dont le cœur est l'outil collaboratif, Windows SharePoint Services. Chaque utilisateur (ou collaborateur) peut créer

Plus en détail

E-mail marketing, scoring comportemental & analyse prédictive

E-mail marketing, scoring comportemental & analyse prédictive E-mail marketing, scoring comportemental & analyse prédictive Formation Dolist - Score MD Les 25 & 26 juin 2013 Dolist.net - Tous droits réservés 26/04/2013 Formation E-mail Marketing, scoring & analyse

Plus en détail

Individus et informations supplémentaires

Individus et informations supplémentaires ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter

Plus en détail

COMMUNIQUE DE LANCEMENT

COMMUNIQUE DE LANCEMENT COMMUNIQUE DE LANCEMENT Le descriptif des nouvelles fonctions par produits Ligne 30 & 100 (Cbase, SQL Server et Mac) - V15.50 (juin 2008) et V15.52 (mi juillet 2008) Sage Entreprise - Version 15.50 (juin

Plus en détail

L évaluation des résultats

L évaluation des résultats L évaluation des résultats Process 14 «Aide-toi, le tableau de bord t aidera!» Chapitre 23 Analyse et réactivité P. 227 Certains dirigeants suivent la marche de leurs affaires avec un simple tableur. Les

Plus en détail

L efficacité de la relation client!

L efficacité de la relation client! L efficacité de la relation client! Eudonet, nouvelle génération Cibler, attirer et conserver les bons clients sont les facteurs déterminants du succès de nombreuses entreprises. Aujourd hui, l enjeu est

Plus en détail

e-leasevision Votre solution de gestion complète de la LLD avec cotation en ligne intégrée

e-leasevision Votre solution de gestion complète de la LLD avec cotation en ligne intégrée e-leasevision Votre solution de gestion complète de la LLD avec cotation en ligne intégrée e-leasevision, UN APPLICATIF WEB COMPLET Basé sur notre outil d intégration ActivPortal, e-leasevision est une

Plus en détail

Limites. Problèmes trouvés et propositions de solutions

Limites. Problèmes trouvés et propositions de solutions Conclusion Limites Pour faciliter la compréhension de la conclusion et pour qu elle soit plus utile aux entreprises, la rédaction de chaque point abordé sera analysée sur deux axes importants. D un côté,

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR D ADMINISTRATION DES ENTREPRISES DE GAFSA Département : Informatique Business & High Technology Chapitre 6 : PGI : Progiciels de Gestion Intégrés ERP : Enterprise

Plus en détail

Gestion des bases de données

Gestion des bases de données Gestion des bases de données DU Chef de Projet en Recherche Clinique 23/11/2012 Fabrice GOURMELON URC/CIC Necker - Cochin 2 A. Qu est-ce qu une donnée? B. Qu est-ce qu une base de données? C. Définition

Plus en détail