DATA MINING - Analyses de données symboliques sur les restaurants

Dimension: px
Commencer à balayer dès la page:

Download "DATA MINING - Analyses de données symboliques sur les restaurants"

Transcription

1 Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI

2 SOMMAIRE I Introduction... 3 II Présentation du Data Mining Data Mining SODAS Autres logiciels utilisés... 6 III Présentation des données Choix de la base de données Sources des données Eléments constituant la base de données... 7 a) Vue globale de la base de données... 7 b) Vue détaillée de la base de données Choix des concepts et des individus Création des tables nécessaires à l étude IV Importation sous DB2SO Présentation de DB2SO Importation des tables V Utilisation de SODAS et analyses des données Méthode Symbolic Object Editor dite SOE Méthode Elementary Statistics On Symbolic Objects dite STAT Méthode de division en classe de concepts homogène dite DIV Méthode Principal Component Analysis dite PCA VI - Conclusion VII Annexes

3 I Introduction Depuis un certain nombre d années, les entreprises commencent à privilégier une technique qui consiste à aider à prendre une décision «business» : le Data Mining, ou fouille de données. Celui-ci sert à mieux comprendre sa clientèle, comprendre son comportement à partir de ses caractéristiques, constituer des panels représentatifs de clients, découvrir des niches inconnues mais rentables, adapter sa politique de fidélisation ; ou bien optimiser l adéquation de son offre à la demande adapter sa politique commerciale et sa tarification aux différents segments de clientèle, adapter ses canaux de distribution et/ou ses forces de ventes à ces segments, optimiser l impact et la rentabilité des offres promotionnelles ; ou même donner un ordre de priorité à ses actions de marketing et/ou de vente mieux cibler ses campagnes de marketing direct, évaluer la propension d un prospect ou client à acheter un produit nouveau. En fait, le Data Mining correspond à l'ensemble des techniques et des méthodes qui à partir de données permettent d'obtenir des connaissances exploitables. Son utilité est grande dès lors que l'entreprise possède un grand nombre d'informations stockées sous forme de bases de données. Le Data Mining n'est que l'une des étapes du processus de découverte de connaissances correspondant précisément à l'extraction des connaissances à partir des données. Avant de réaliser une étude de Data Mining, il faut donc procéder à l'élaboration d'un Data Warehouse (Entrepôt de Données), ce que nous ferons partiellement pour ce projet en créant une base de données relationnelle sur quelques restaurants de France métropolitaine et Corse. Dans un premier temps, nous définirons plus précisément dans ce rapport le Data Mining, et nous présenterons le logiciel SODAS que nous allons utiliser pour analyser nos données. Ensuite nous parlerons de notre base de données, et des questions que l on peut se poser et auxquelles nous pourrons répondre par la suite, et préparerons l étude de cette base de données par le Data Mining. Dans un troisième temps, nous expliquerons comment nous avons procédé pour étudier notre base de données, via - entre autres - le logiciel SODAS. Enfin, nous conclurons sur ce rapport, présentant entre autres les difficultés rencontrées, les points forts et faibles de SODAS, et le Data Mining en général. 3

4 II Présentation du Data Mining 1 Data Mining Le Data Mining est un ensemble de méthodes et techniques qui permettent la prise de décisions, à travers la découverte, rapide et efficace, de schémas d informations inconnus ou cachés à l intérieur de grandes bases de données. Ce n est ni un système d interrogation de bases de données, ni un système de statistique et de visualisation. Nombreux sont les commentateurs ou les utilisateurs qui invoquent le concept de «Data Mining», et tous les outils précédemment mentionnés y ont été rattachés à un moment ou à un autre. Dans la réalité, ils appartiennent tous à deux grandes approches de détection de l information dans les bases de données : L approche «vérification» : l utilisateur a l intuition ou l idée générale du type d information qu il peut obtenir de ses données. Il tire alors profit de sa base de données en "quantifiant" son intuition. Il est clair que les données extraites, et les décisions qui en découlent, dépendent exclusivement de l intuition de l utilisateur concernant les paramètres importants du problème (âge, géographie,...), intuition qui est souvent correcte mais non exhaustive. L approche «découverte» (Advanced Data Mining) ou recherche de l information cachée : l utilisateur comprend que la quantité de données dont il dispose étant considérable, la détection optimale et exhaustive des structures ou relations importantes est totalement hors de portée de l utilisateur humain. Il doit alors s appuyer sur des méthodes avancées d analyse de données pour détecter l information cachée (dont il se peut qu elle soit la plus intéressante). Il pourra par exemple procéder à une segmentation de clientèle par ce type de technique, et détecter des classes ou niches, non identifiées auparavant, qui recèlent un très fort potentiel d affaires. Il lui sera alors possible de développer des stratégies marketing finement ciblées en direction de ces niches, développant ainsi un avantage compétitif majeur. L appellation «Data Mining» ne devrait être donnée qu aux outils capables de détecter l information cachée «au plus profond» de la «mine de données». A l évidence, cela ne concerne pas les systèmes d interrogation de base de données, ni les tableurs, ni les systèmes statistiques, ni même les systèmes d analyse de données traditionnels. 2 SODAS Il s'agit d'un logiciel prototype public, apte à analyser des données symboliques. Il est issu du projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu pour fournir un cadre aux différentes avancées récentes et futures du domaine. Son idée générale est la suivante : à partir d'une base de données, construire un tableau de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques. Les principales étapes d'une analyse des données dans SODAS, sont les suivantes : Partir d'une base de données relationnelle (ORACLE, ACCESS,...) Définir ensuite un contexte par des unités statistiques de premier niveau (habitants, familles, entreprises, accidents,...), les variables qui les décrivent des concepts (villes, groupes socio-économiques, scénario d'accident,...) 4

5 Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque habitant est associé à sa ville). Ce contexte est défini par une requête de la base. Nous pouvons construire alors un tableau de données symboliques dont les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associés. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies), etc., selon le type de variables et le choix de l'utilisateur. Dès lors, nous pouvons créer un fichier d'objets symboliques sur lequel une douzaine de méthodes d'analyse de données symboliques peuvent déjà s'appliquer dans le logiciel SODAS (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques,...). Vue d ensemble de SODAS : 5

6 3 Autres logiciels utilisés Les principaux fournisseurs de logiciels commerciaux sont : SAS Institute : SAS Enterprise Miner Oracle : Data Mining Décisia : SPAD Angoss Software : KnowledgeSeeker KnowledgeStudio SPSS : Clémentine StatSoft : Statistica KXEN : Analytic Framework Insightful : Insightful Miner Microsoft : SQL Server 2005 Segmentaction : Customer Mining Business Objects Les logiciels gratuits sont : Weka 3 Orange Tanagra Alpha Miner Yale III Présentation des données 1 Choix de la base de données Pour mener à bien ce projet, nous avons eu besoin de réfléchir sur un sujet possible de base de données, afin d en analyser les données avec le logiciel SODAS. Des études avaient déjà été faites sur des bases de données facilement récupérables dont les sujets étaient les albums de musiques, les films ou les équipes de football du championnat de France de Ligue 1. Pour notre part, nous avons décidé de prendre comme sujet principal les restaurants de France, avec comme différentes données les nom et adresse d un restaurant, le type de cuisine proposé, le nom du chef cuisinier, et ainsi de suite. Nous parlerons de toutes les variables de description dans la suite de ce rapport. Le but de ce projet est d analyser cette base de données afin d en tirer diverses conclusions qui pourraient ne pas sauter aux yeux au premier abord. 6

7 2 Sources des données Afin de trouver différentes données sur les restaurants, nous avons dû rechercher sur Internet des liens qui nous permettaient de lister facilement et avec le plus de données possible divers restaurants de France. Il existe plusieurs liens fournissant ces informations, mais au final, nous n en avons choisi qu un, qui était clair et précis dans ces informations : Pour d autres données générales comme plat_ typique ou saveur, nous avons nous-même rempli la base de données. 3 Eléments constituant la base de données a) Vue globale de la base de données Notre base de données est représentée par neuf tables : restaurant : données principales sur un restaurant cuisine : types de cuisine utilisés, et données adéquates option : différents services d un restaurant fermeture : jours de fermeture d un restaurant chef : les chefs des restaurants ville : rajoutée - comme les tables suivantes - pour la «taxonomie» département pays continent 7

8 Ces tables sont jointes de la manière suivante : b) Vue détaillée de la base de données Dans ce chapitre, nous allons détailler les tables données précédemment et expliquer les attributs qui pourraient être imprécis ou ambigus : id_restaurant est la clé primaire, l identifiant des restaurants. Il est unique pour chaque restaurant origine_cuisine : identifiant permettant de savoir de quel pays est originaire le type de cuisine correspondant id_cuisine, id_fermeture, id_ville, id_chef, id_option : idem concernant le type de cuisine, les jours de fermeture du restaurant, sa ville, son chef et ses diverses options prix min menu : prix minimal d un menu dans ce restaurant prix max menu : prix maximal d un menu nb_couverts : nombre de couverts maximal dans ce restaurant nb_couverts_terrasse : idem en terrasse nb_employes : nombre d employés du restaurant annee_creation : année de création du restaurant appreciation : note d appréciation sur cinq du restaurant. 8

9 cuisine : type de cuisine origine_pays : pays d origine de ce type de cuisine plat_typique : plat référence de ce type de cuisine saveur : pareil pour la saveur prix_moyen : prix moyen général pour ce type de cuisine. Pour chacun des attributs, autres que l identifiant, les valeurs possibles sont OUI ou non. Pour chacun de ces attributs, autres que l identifiant, les valeurs possibles sont OUI ou non ; OUI signifierait que le restaurant ferme le jour correspondant. annee_embauche : année d embauche du chef cuisinier dans le restaurant auquel il a été attribué. Chaque ville appartient à un seul département, donné par id_cp. Chaque département appartient à une région, et à un seul pays, défini par id_pays. 9

10 . Chaque pays appartient à un seul continent, déterminé par id_continent. 4 Choix des concepts et des individus Vu la structure de notre base de données, vous pouvez dégager facilement les concepts et individus choisis. Nos concepts seront les types de cuisine, et les individus seront les restaurants eux-mêmes. Les concepts sont au nombre de dix. Les individus, au nombre de cinquante, avec cinq restaurants par type de cuisine. Chaque concept a sa propre description, de même que pour les individus. Le choix de ces concepts et individus est donc judicieux. 5 Création des tables nécessaires à l étude Pour pouvoir par la suite utiliser notre base de données avec SODAS, il nous faut écrire sous Access trois requêtes permettant : de regrouper les informations utiles des individus ainsi que les concepts ; de regrouper des données des concepts ; et de spécifier la taxonomie. Requête sdsresto Cette requête va nous permettre de renvoyer les individus que nous avons choisis - définis comme individus de premier ordre leurs caractéristiques, ainsi que les concepts associés. Nous obtenons donc le tableau suivant, qui représente une partie de la nouvelle table, avec en première colonne l individu, en seconde le concept, et ensuite les variables de descriptions souhaitées pour l étude : Voici en SQL la requête ci-dessous : «SELECT restaurant.nom, cuisine.cuisine, restaurant.prix_min_menu, restaurant.prix_max_menu, restaurant.nb_couverts, restaurant.nb_couverts_terrasse, restaurant.nb_employes, restaurant.annee_creation, chef.sexe, chef.salaire_net_mensuel, chef.annee_embauche, fermeture.lundi, fermeture.mardi, fermeture.samedi, fermeture.dimanche, option.tarif_etudiant, option.tarif_enfant, option.animaux_admis, option.parking, option.air_conditionne, option.acces_handicape, ville.ville, departement.region, pays.pays, continent.continent, restaurant.appreciation 10

11 FROM continent INNER JOIN (pays INNER JOIN (departement INNER JOIN (ville INNER JOIN (fermeture INNER JOIN ([option] INNER JOIN (chef INNER JOIN (cuisine INNER JOIN restaurant ON cuisine.id_cuisine = restaurant.id_cuisine) ON chef.id_chef = restaurant.id_chef) ON option.id_option = restaurant.id_option) ON fermeture.id_fermeture = restaurant.id_fermeture) ON ville.id_ville = restaurant.id_ville) ON departement.id_cp = ville.id_cp) ON pays.id_pays = restaurant.origine_cuisine) ON continent.id_continent = pays.id_continent;» Requête addresto Ici, nous ajoutons dans une nouvelle table des données des concepts. Voici ce que nous obtenons en tableau : La requête SQL définissant ce tableau est la suivante : «SELECT cuisine.cuisine, cuisine.plat_typique, cuisine.saveur, cuisine.prix_moyen FROM cuisine;» Requêtes pour la taxonomie Cette dernière requête permet la hiérarchisation entre les villes, départements, pays et continents. Nous avons créé deux requêtes pour établir cette hiérarchie : - taxoregion, qui associe à une région un ou plusieurs départements et villes Le tableau correspondant est le suivant : Et sa requête SQL : «SELECT ville.ville, departement.[code postal], departement.region FROM departement INNER JOIN ville ON departement.id_cp = ville.id_cp;» - taxocontinent, qui associe un pays à un seul continent Avec comme tableau : 11

12 Et comme requête SQL : «SELECT pays.pays, continent.continent FROM continent INNER JOIN pays ON continent.id_continent = pays.id_continent;» IV Importation sous DB2SO 1 Présentation de DB2SO DB2SO est un élément du logiciel SODAS qui permet à l utilisateur de construire un ensemble de concepts à partir de données stockées dans une base de données relationnelle. Il est supposé qu un ensemble d individus est stocké dans une base de données et que ces individus sont distribués dans des groupes. Alors, DB2SO peut construire un concept pour chaque groupe d individus. Dans ce processus, les variables mère/fille et les taxonomies sur des domaines de variables peuvent aussi être associées à des concepts générés. 2 Importation des tables Ici, nous allons importer notre base de données ainsi que les requêtes créées précédemment dans DB2SO, afin de pouvoir utiliser SODAS pour analyser notre base. Dans un premier temps, nous allons donc importer notre base «restaurants de france.mdb» : Puis nous sélectionnons la source de données : 12

13 Ainsi que la base de données : Puis nous extrayons les individus avec la requête sdsresto : Nous avons comme résultat : 13

14 Modifions à présent les concepts en leur rajoutant des variables descriptives - contenues dans la base de données. Pour ce faire, allons dans «modify», et utilisons la commande bleutée cidessous : Nos variables n ont que des valeurs uniques et non multiples. Ce ne sont pas des intervalles, donc nous pouvons bien utiliser «Add single-valued variables». Exécutons donc addresto : Voici le résultat de l exécution : 14

15 A présent, exécutons les requêtes de taxonomie. Il faut cette fois-ci utiliser la commande «Create a taxonomy», par deux fois, pour créer les deux requêtes taxoregion et taxocontinent. Les résultats de cette exécution sont : Puis au final, nous sauvegardons ce fichier sous le nom «requetes» : Ainsi sont créés un fichier de type gaj et un autre de type xml. Puis nous exportons ces données pour créer un fichier sds et pouvoir utiliser SODAS : Résultat : Nous pouvons à présent utiliser SODAS pour analyser notre base de données. 15

16 V Utilisation de SODAS et analyses des données Dans ce chapitre, nous allons vous décrire comment nous avons utiliser le logiciel SODAS sur notre base de données, à travers plusieurs méthodes. Pour chaque méthode, nous commenterons nos choix d attributs et les résultats associés. Mais il nous faut d abord importer le fichier «restaurants.sds» créé dans le chapitre précédent : Etudions donc maintenant nos données, selon les méthodes. 1 Méthode Symbolic Object Editor dite SOE Grâce à cette méthode, nous allons pouvoir visualiser graphiquement des variables en deux ou trois dimensions, selon le concept choisi. Dans la nouvelle version de SODAS, cette méthode s appelle VIEW. Il s agit donc à présent d insérer cette méthode dans SODAS : 16

17 Choisissons tous les paramètres : Exécutons la méthode : Nous obtenons un tableau composé des variables des individus choisis avec la requête sdsresto en colonne, ainsi que celles du concept, ajoutées lors de addresto, et nous avons en ligne les différents concepts. Voici une partie de ce tableau : 17

18 Choisissons les variables et concepts à étudier. Il nous faut au moins trois variables. Nous avons décidé ici de choisir les cuisines traditionnelle, bio et chinoise. En effet, nous avons pris la première car elle représente la cuisine française, la seconde car le nombre de ces restaurants en France est petit, et la troisième à l inverse est représentée par une très grande quantité de restaurants en France. Les variables choisies sont le nombre de couverts et d employés, l année de création des restaurants, le sexe des chefs cuisiniers, ainsi que les régions où ils se trouvent, les prix moyens de ce genre de restaurant, et s ils proposent un tarif étudiant. Voici une vue superposant les trois concepts, avec les variables choisies : Le vert représente la cuisine traditionnelle. Le rouge, la cuisine bio. Et le bleu, la cuisine chinoise. Nous avons modifié l intervalle des années de création de notre graphique, en lui mettant l intervalle [ ] pour une meilleure lisibilité. En effet, nous avions un seul restaurant traditionnel créé en 1908, les autres ayant une année de création postérieure à

19 Une autre représentation de cette superposition est la suivante : Nous pouvons déduire de ces deux graphiques que : - les premiers restaurants sont de type traditionnel français : normal, nous sommes en France Les autres sont apparus à partir de les chefs-cuisinier sont à 100% masculins dans les restaurants chinois et traditionnels répertoriés dans notre base de données. Seule la cuisine bio accepte des femmes comme chefs. C est plausible, car les femmes ont plus tendance à se soucier de la nourriture, saine ou non, que les hommes en général. - le bio essaie de s importer un peu dans toute la France, tandis que la cuisine chinoise est consommée surtout dans les régions importantes. - le traditionnel ne s intéresse pas trop aux étudiants, ne leur offrant que peu de réductions, à la différence des cuisines bio et chinoise. C est une cuisine pour personnes aisées, un peu comme le bio, mais celle-ci tente de se faire connaître du grand public et percer dans ce secteur de restauration, à la différence de la cuisine traditionnelle, évidemment déjà présente en France. - Les autres renseignements nous montrent que les grands restaurants, sont de type traditionnel. De plus, un grand nombre de couverts implique un grand nombre d employés. 19

20 Voici individuellement les mêmes variables : Cuisine chinoise : Nous pouvons voir ici que les années de création sont entre 1985 et 2005, nous avons la vérification du fait qu il n y ait aucun chef-cuisinier femme dans ce type de restaurant (de notre base de données). Le nombre d employés et de couverts est plus clair en individuel, qu avec les superpositions précédentes. 20

21 Cuisine traditionnelle : 21

22 Une autre représentation graphique pour la cuisine bio : Cette représentation est en deux dimensions, et les histogrammes ont été remplacés par des points, plus ou moins gros. La couleur bleutée relie les valeurs minimales et maximales des variables données. Ainsi, la région contenant le plus de restaurants bio est la région PACA. 2 Méthode Elementary Statistics On Symbolic Objects dite STAT Cette méthode permet d utiliser des statistiques classiques étendues aux variables symboliques. Elle est appelée «D-STAT» dans la nouvelle version de SODAS. De la même manière qu auparavant, il nous faut insérer et exécuter la méthode. 22

23 Ici, nous ne pouvons visualiser que les intervalles ou les variables qualitatives. Nous obtenons selon le type de variables utilisées des histogrammes ou des biplots (pour les intervalles). Fréquence relative des variables de type intervalle : Nous avons sélectionné ici toutes nos variables de type intervalle pour observer les fréquences relatives. Le résultat est le suivant : 23

24 Nous nous proposons d analyser seulement une de ces fréquences relatives : celle du prix maximal d un menu. De ce graphique, nous pouvons extraire les informations suivantes : - le nombre de classes est de 10. Nous l avons choisi nous-même - chacune des classes est de largeur représentant 4,65 - les prix maximaux des menus proposés dans l ensemble des restaurants sont compris entre 13,5 et 60 - la somme des valeurs maximales des dix classes est égale à 1 - les restaurants chinois proposent des prix maximum de menu compris, selon le restaurant, entre un peu plus de 13,5 (exactement 14,8) et 30. L écart entre ces deux valeurs est de 15,2. - la troisième classe, de hauteur 0,1799, est comprise entre 22,8 et 27,45. Cette classe signifie en fait que 17,99% des restaurants de notre base de données ont un prix maximal de menus compris entre 22,8 et 27,45. De plus, d après ce graphique, nous pouvons dire que tous les types de cuisine sont représentées par au moins un restaurant, qui a un prix maximal de menus compris dans cette tranche. - de manière générale, à 47,13%, les restaurants proposent des prix maximaux de menus compris entre 18,15 et 32,1 24

25 Biplots des variables de type intervalle : Cette méthode permet a priori de construire un objet symbolique par des rectangles dans un plan constitué de deux variables de type intervalle, choisies pas l utilisateur. Or, voici ce que nous propose la nouvelle version de SODAS, qui nous impose de mettre en axes des variables quantitatives : D une part, nous n obtenons donc pas de «rectangles». D autre part, l interprétation ne peut être pertinente pour ce nouveau modèle de «biplots». Avant, nous aurions peut-être pu interprété, mais là, cela ne sert à rien. En effet, les concepts sont placés sur une droite, selon leur prix moyen, et ainsi, il ne sont pas placés selon leur prix minimal ou maximal des menus : par exemple, les cuisines tex-mex et italienne n ont pas le même tarif minimal ou maximal pour leurs menus, mais sont pourtant placés dans ce plan sur le même point. C est incohérent. 3 Méthode de division en classe de concepts homogène dite DIV Cette méthode a pour but de partitionner de manière homogène les concepts en un nombre de classes défini par l utilisateur, et en fonction de variables de description. A partir de questions conditionnelles (if-then) à réponse binaire (oui ou non), nous obtenons petit à petit un arbre de décision. Ces questions induisent la meilleure partition en deux selon l extension du critère d inertie : maximiser la variance interclasse et minimiser la variance intraclasse. 25

26 Dans notre cas, nous avons paramétré un nombre de classes égal à cinq, et nous avons choisi comme variables de description les différentes options proposées par les restaurants : - tarif_etudiant - tarif_enfant - acces_handicape - animaux_admis - parking - air_conditionne Voici l arbre résultant de cette méthode : La première question posée par la méthode DIV pour effectuer une première division en deux groupes des dix concepts - ou types de cuisine - est la suivante : «Les animaux sont-ils admis dans le restaurant?» Il y a deux réponses possibles : oui ou non. Nous avons donc deux partitions possibles : le Cluster 1 ou le Cluster 2 : 26

27 Les types de cuisine, dont la majorité des restaurants de notre base de données donnent une réponse négative à cette question, sont placés à droite de l arbre. Les autres à gauche, évidemment : Ensuite, d autres questions sont posées selon les groupes. Par exemple, pour le groupe de types de cuisine tels que «animaux_admis = oui», la prochaine question est «air_conditionne = oui?» ; tandis que l autre groupe aura une autre question, plus pertinente selon les types de restaurants qu il reste : «tarif_enfant = oui?». Au final, nous obtenons cinq classes dont les concepts les plus proches selon les options, sont regroupés ensemble dans une même partition : L arbre de partitionnement correspondant est le suivant les classes étant les clusters donnés ci-dessus : 27

28 4 Méthode Principal Component Analysis dite PCA La méthode d analyse factorielle en composantes principales consiste à travailler conjointement avec un groupe de plusieurs variables quantitatives, de façon à prendre en compte des interactions qui peuvent exister entre elles. Elle permet de projeter les points d un espace réel à n dimensions dans un espace à deux dimensions judicieusement déterminé, et appelé plan factoriel. La projection des points de ce dernier dans un plan factoriel se fait donc avec un minimum de pertes d information. Dans notre cas, nous avons décidé d utiliser quatre variables de type intervalle, quatre étant le minimum de variables nécessaire à l utilisation de la méthode dans cette version de SODAS. Ces variables sont : - prix_max_menu - nb_employes - annee_creation - appreciation Voici le plan factoriel résultant de cette méthode : Le premier axe factoriel, permet d extraire 64,9% des informations. Le second permet lui d en extraire 24,5%. 28

29 Nous avons aussi comme information : «Correlations beetween variables and factors (4 vars, 2 fact)= Var. Factor 1 Factor 2 prix_max_m nb_employe annee_crea appreciatio » et «Interval correlations beetween variables and factors (4 vars,2 fact)= Variables Factor 1 Factor 2 prix_max_m [ ; ] [ ; ] nb_employe [ ; ] [ ; ] annee_crea [ ; ] [ ; ] appreciati [ ; ] [ ; ]» De plus, nous savons que : Les deux premières informations nous laissent penser, d après nos connaissances en SAS, que le premier axe pourrait représenter le nombre d employés, et le second axe représenterait un rapport qualité/prix, selon l année de création. Ainsi, pour cette interprétation des axes, nous pouvons dire que l intersection des axes correspondrait à la majorité des restaurants de notre base de données, selon les prix maximaux des menus, leur année de création, leur appréciation et le nombre d employés. 29

30 Si un type de cuisine est proche de l origine des axes, alors cela veut dire que ses cinq restaurants, contenus dans notre base, sont dans la moyenne des restaurants par rapport aux quatre variables citées précédemment. Ainsi, les cuisines tex-mex et chinoises sont dans la «moyenne-type» des restaurants, à la différence de la cuisine traditionnelle, qui s étale elle du fait, d une part de la date de création de son premier restaurant, en 1908 (les autres types de cuisine s étant installés plus tard sur notre pays), et de son dernier restaurant en 2005, d autre part à cause des autres variables étant elles aussi diverses et variées, selon ses restaurants. Les restaurants des autres types de cuisine ont donc plus «d homogénéité» selon ces variables que ceux de la cuisine traditionnelle française. VI - Conclusion Tout au long de ce rapport, nous avons tenté à travers diverses méthodes d analyser et d interpréter une base de données Access que nous avions créés nous-mêmes à partir de recherches sur Internet. Notre base de données sur les restaurants était succincte, malgré un très long travail dessus. Ceci implique que les résultats des analyses développés dans ce rapport ne sont donc a priori pas représentatifs de la réalité. Travailler sur une base de données plus importante, ou avec plus de variables de description aurait été intéressant. Malgré notre démarche auprès d instituts tels l INSEE, nous n avons pas pu obtenir des informations jugées intéressantes telles le nombre de restaurants selon chaque type de cuisine, par exemple. Le fait de pouvoir étudier différents aspects des restaurants, pour pouvoir analyser et interpréter ces données, a été beaucoup plus intéressant, surtout avec la découverte de la nouvelle version de SODAS, qui nous donnait beaucoup plus de possibilités, graphiquement parlant principalement. Malgré ça, le logiciel souffre de très nombreux bugs qui nous ont rebuté. Le logiciel se fermait parfois, après le paramétrage des méthodes, avec pour seule explication cette fenêtre : Nous avons vu maintes fois cette fenêtre, avec un paramétrage identique parfois, et c est pour cela que nous avons jugé bon de vous en informer. Il serait plus agréable d avoir plus d informations sur ce «plantage» incessant. Certaines méthodes, du fait du changement de version du logiciel, étaient moins facile à manipuler, ou même à trouver (exemple : SOE devient VIEW dans la nouvelle version). 30

31 En ce qui concerne les restaurants, généralement les chefs cuisinier sont des hommes, la cuisine bio tente de s imposer sur le marché des services de restauration, avec des tarifs étudiants, entre autres, et qui était regroupé, pour les options dans la même partition que les restaurants de type chinois ou tex-mex, assez répandus en France, et qui marchent très bien en ce moment. Preuve d une certaine volonté d intégration et de réussite commerciale. VII Annexes Voici les liens utilisés pour la conception de notre rapport : Source de données de restaurants en France : Présentation du projet et du logiciel SODAS : Foire aux questions sur le Data Mining : Définition du Data Mining : Logiciels de Data Mining : 31

Université Paris IX DAUPHINE DATE : 24/04/06

Université Paris IX DAUPHINE DATE : 24/04/06 Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE

Plus en détail

Critères pour avoir la meilleure équipe!

Critères pour avoir la meilleure équipe! PROJET DATAMINING Basket-ball professionnel "NBA" : Critères pour avoir la meilleure équipe! Réalisé par : Anasse LAHLOU KASSI Houssam Eddine HOUBAINE DESS TIO DESS ID Année Scolaire : SOMMAIRE INTRODUCTION...

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

IBM SPSS Direct Marketing

IBM SPSS Direct Marketing IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus

Plus en détail

Le langage SQL Rappels

Le langage SQL Rappels Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E.

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E. Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ Sommaire Introduction...

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Master 2 ème Année Ingénierie Statistique et financière Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Réalisé par : Nicolas CHAIGNEAUD Nora SLIMANI Année universitaire 2007-2008

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

1. Introduction...2. 2. Création d'une requête...2

1. Introduction...2. 2. Création d'une requête...2 1. Introduction...2 2. Création d'une requête...2 3. Définition des critères de sélection...5 3.1 Opérateurs...5 3.2 Les Fonctions...6 3.3 Plusieurs critères portant sur des champs différents...7 3.4 Requête

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

«Manuel Pratique» Gestion budgétaire

«Manuel Pratique» Gestion budgétaire 11/06/01 B50/v2.31/F/MP005.01 «Manuel Pratique» Gestion budgétaire Finance A l usage des utilisateurs de Sage BOB 50 Solution Sage BOB 50 2 L éditeur veille à la fiabilité des informations publiées, lesquelles

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de

Plus en détail

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant

Plus en détail

les Formulaires / Sous-Formulaires Présentation...2 1. Créer un formulaire à partir d une table...3

les Formulaires / Sous-Formulaires Présentation...2 1. Créer un formulaire à partir d une table...3 Présentation...2 1. Créer un formulaire à partir d une table...3 2. Les contrôles :...10 2.1 Le contrôle "Intitulé"...11 2.2 Le contrôle "Zone de Texte"...12 2.3 Le contrôle «Groupe d options»...14 2.4

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Techniques d interaction dans la visualisation de l information Séminaire DIVA Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques

Plus en détail

WEBSELL. Projet DATAMINING

WEBSELL. Projet DATAMINING WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ] SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1.

Plus en détail

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.) Université de Lille 2 - Droit et Santé Ecole Supérieure des Affaires & Institut Universitaire de Technologie (IUT-C) Département Statistique et Traitement Informatique des Données Licence Professionnelle

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

Concevoir et déployer un data warehouse

Concevoir et déployer un data warehouse Concevoir et déployer un data warehouse Ralph Kimball Éditions Eyrolles ISBN : 2-212-09165-6 2000 2 Le cycle de vie dimensionnel Avant d étudier de plus près les spécificités de la conception, du développement

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

La base de données dans ArtemiS SUITE

La base de données dans ArtemiS SUITE 08/14 Vous préférez passer votre temps à analyser vos données plutôt qu à chercher un fichier? La base de données d ArtemiS SUITE vous permet d administrer et d organiser confortablement vos données et

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Communiqué de Lancement

Communiqué de Lancement Direction du Marketing Produits Sage - Division Mid Market Communiqué de Lancement Rapprochement Bancaire 1000 Produit : Rapprochement Bancaire 1000 Bases de Données : Oracle - MS/SQL Server Microsoft

Plus en détail

Les bases de données

Les bases de données Les bases de données Introduction aux fonctions de tableur et logiciels ou langages spécialisés (MS-Access, Base, SQL ) Yves Roggeman Boulevard du Triomphe CP 212 B-1050 Bruxelles (Belgium) Idée intuitive

Plus en détail

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

1 Introduction et installation

1 Introduction et installation TP d introduction aux bases de données 1 TP d introduction aux bases de données Le but de ce TP est d apprendre à manipuler des bases de données. Dans le cadre du programme d informatique pour tous, on

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

NF26 Data warehouse et Outils Décisionnels Printemps 2010

NF26 Data warehouse et Outils Décisionnels Printemps 2010 NF26 Data warehouse et Outils Décisionnels Printemps 2010 Rapport Modélisation Datamart VU Xuan Truong LAURENS Francis Analyse des données Avant de proposer un modèle dimensionnel, une analyse exhaustive

Plus en détail

Gestion de la Relation Client (GRC)

Gestion de la Relation Client (GRC) Techniques de DM pour la GRC dans les banques Page 2 I.1 Introduction La gestion de la relation client est devenue un processus essentiel dans les institutions bancaires. Ils essaient toujours d améliorer

Plus en détail

Les Utilisateurs dans SharePoint

Les Utilisateurs dans SharePoint Les Utilisateurs dans SharePoint La gestion des utilisateurs dans SharePoint SharePoint dont le cœur est l'outil collaboratif, Windows SharePoint Services. Chaque utilisateur (ou collaborateur) peut créer

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

CONCEPTION Support de cours n 3 DE BASES DE DONNEES CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...

Plus en détail

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE Cas Neptune hôtel Base de données et langage SQL Propriété Intitulé long Formation concernée Matière Notions Transversalité Présentation Description Neptune Hôtel. L interrogation d une base de données

Plus en détail

Business Intelligence avec SQL Server 2012

Business Intelligence avec SQL Server 2012 Editions ENI Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel Collection Solutions Informatiques Extrait Alimenter l'entrepôt de données avec SSIS Business

Plus en détail

La Clé informatique. Formation Excel XP Aide-mémoire

La Clé informatique. Formation Excel XP Aide-mémoire La Clé informatique Formation Excel XP Aide-mémoire Septembre 2005 Table des matières Qu est-ce que le logiciel Microsoft Excel?... 3 Classeur... 4 Cellule... 5 Barre d outil dans Excel...6 Fonctions habituelles

Plus en détail

Business Intelligence simple et efficace

Business Intelligence simple et efficace Business Intelligence simple et efficace avec Excel et PowerPivot Jean-Philippe GOUIGOUX Table des matières 1 Chapitre 1 Présentation de PowerPivot A. L analyse de données.....................................................

Plus en détail

ORACLE TUNING PACK 11G

ORACLE TUNING PACK 11G ORACLE TUNING PACK 11G PRINCIPALES CARACTÉRISTIQUES : Conseiller d'optimisation SQL (SQL Tuning Advisor) Mode automatique du conseiller d'optimisation SQL Profils SQL Conseiller d'accès SQL (SQL Access

Plus en détail

Service On Line : Gestion des Incidents

Service On Line : Gestion des Incidents Service On Line : Gestion des Incidents Guide de l utilisateur VCSTIMELESS Support Client Octobre 07 Préface Le document SoL Guide de l utilisateur explique comment utiliser l application SoL implémentée

Plus en détail

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche

Plus en détail

L analyse de la gestion de la clientèle

L analyse de la gestion de la clientèle chapitre 1 - La connaissance du client * Techniques utilisées : observation, recherche documentaire, études de cas, études qualitatives (entretiens de groupes ou individuels, tests projectifs, analyses

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

VTigerCRM. CRM : Logiciel de gestion des activités commerciales d'une (petite) entreprise

VTigerCRM. CRM : Logiciel de gestion des activités commerciales d'une (petite) entreprise CRM : Logiciel de gestion des activités commerciales d'une (petite) entreprise Possibilités : Gestion des rendez-vous/appels Gestion des e-mails Gestion des stocks Gestion des ventes Enregistrement des

Plus en détail

Gestion de projet. GanttProject Didacticiel V1.0. 23 novembre 2013. Gérard Gervois Frédéric Giamarchi

Gestion de projet. GanttProject Didacticiel V1.0. 23 novembre 2013. Gérard Gervois Frédéric Giamarchi Gestion de projet GanttProject Didacticiel V1.0 23 novembre 2013 Gérard Gervois Frédéric Giamarchi Département G.E.I.I. I.U.T. de Nîmes Université Montpellier II Présentation GanttProject est un logiciel

Plus en détail

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication R. Carlos Nana Mbinkeu 1,3, C. Tangha 1, A. Chomnoue 1, A. Kuete

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

Manuel du logiciel PrestaTest.

Manuel du logiciel PrestaTest. Manuel du logiciel. Ce document décrit les différents tests que permet le logiciel, il liste également les informations nécessaires à chacun d entre eux. Table des matières Prérequis de PrestaConnect :...2

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Découvrir les stratégies ayant fait leurs preuves et les meilleures pratiques Points clés : Planifier

Plus en détail

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8 Sage 100 CRM Guide de l Import Plus avec Talend Version 8 Mise à jour : 2015 version 8 Composition du progiciel Votre progiciel est composé d un boîtier de rangement comprenant : le cédérom sur lequel

Plus en détail

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes STA108 Enquêtes et sondages Sondages àplusieurs degrés et par grappes Philippe Périé, novembre 2011 Sondages àplusieurs degrés et par grappes Introduction Sondages à plusieurs degrés Tirage des unités

Plus en détail

Encryptions, compression et partitionnement des données

Encryptions, compression et partitionnement des données Encryptions, compression et partitionnement des données Version 1.0 Grégory CASANOVA 2 Compression, encryption et partitionnement des données Sommaire 1 Introduction... 3 2 Encryption transparente des

Plus en détail

Saisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont

Saisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont I Open Boutique Sommaire : I Open Boutique... 1 Onglet «Saisie des Produits»... 3 Création d'une nouvelle fiche boutique :... 3 Création d'une nouvelle fiche lieux de retraits :... 10 Création d'une nouvelle

Plus en détail

KPI (Key Performance Indicator) dans MOSS

KPI (Key Performance Indicator) dans MOSS KPI (Key Performance Indicator) dans MOSS Introduction Un KPI (Key Performance Indicator), Indicateur de Performance ou Indicateur Clé est un concept permettant de présenter à un utilisateur une information

Plus en détail

MEGA ITSM Accelerator. Guide de Démarrage

MEGA ITSM Accelerator. Guide de Démarrage MEGA ITSM Accelerator Guide de Démarrage MEGA 2009 SP4 1ère édition (juin 2010) Les informations contenues dans ce document pourront faire l objet de modifications sans préavis et ne sauraient en aucune

Plus en détail

TD n 10 : Ma première Base de Données

TD n 10 : Ma première Base de Données TD n 10 : Ma première Base de Données 4 heures Rédigé par Pascal Delahaye 11 mars 2015 Le but de ce TD est de découvrirles principales fonctions d OpenOffice Base, le systèmede gestion de bases de données

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données

Plus en détail

Introduction aux SGBDR

Introduction aux SGBDR 1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

Dossier I Découverte de Base d Open Office

Dossier I Découverte de Base d Open Office ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire

Plus en détail

Analyse comparative entre différents outils de BI (Business Intelligence) :

Analyse comparative entre différents outils de BI (Business Intelligence) : Analyse comparative entre différents outils de BI (Business Intelligence) : Réalisé par: NAMIR YASSINE RAGUI ACHRAF Encadré par: PR. L. LAMRINI Dans le domaine d économies des Big Data et Open Data, comment

Plus en détail

1 Introduction. Business Intelligence avec SharePoint Server 2010

1 Introduction. Business Intelligence avec SharePoint Server 2010 Business Intelligence avec SharePoint Server 2010 1 Introduction Dans le chapitre précédent, nous avons créé une collection de sites et activé les fonctions de restitution décisionnelles du serveur SharePoint

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Date M.P Libellé Catégorie S.Catégorie Crédit Débit Solde S.B

Date M.P Libellé Catégorie S.Catégorie Crédit Débit Solde S.B Excel : Réalisation d un classeur Compta Saisir les étiquettes Renommer la première feuille Compta Laisser la première ligne vide et sur la deuxième ligne saisir les étiquettes Se placer sur A2 et saisir

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 7 : Customer Relationship Management (CRM) Supply Chain Management (SCM) Sommaire

Plus en détail

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012 CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE Edition 2012 AGENDA Qui sommes nous? Présentation de Keyrus Keyrus : Expert en formations BI Nos propositions de formation 3 modes de formations Liste des

Plus en détail

Le Guide Pratique des Processus Métiers

Le Guide Pratique des Processus Métiers Guides Pratiques Objecteering Le Guide Pratique des Processus Métiers Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam 21 avenue Victor Hugo 75016

Plus en détail

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10 PROGRAMME RÉGIONAL DE RENFORCEMENT DE LA COLLECTE DES DONNÉES STATISTIQUES DES PECHES DANS LES ÉTATS MEMBRES ET DE CREATION D UNE BASE DE DONNÉES REGIONALE Manuel de formation TABLE DES MATIERES INTRODUCTION

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU Table des matières Page I. DÉMARRER... 4 1. Comment accéder au Centre de données de l ISU?... 4 2. Quels sont les types de tableaux statistiques disponibles

Plus en détail

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Chapitre VIII. Les bases de données. Orientées Objet. Motivation Chapitre VIII Motivation Le modèle relationnel connaît un très grand succès et s avère très adéquat pour les applications traditionnelles des bases de données (gestion) Les bases de données Orientées Objet

Plus en détail

Le modèle de données

Le modèle de données Le modèle de données Introduction : Une fois que l étude des besoins est complétée, deux points importants sont à retenir : Les données du système étudié Les traitements effectués par le système documentaire.

Plus en détail

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste Christian Soutou Avec la participation d Olivier Teste SQL pour Oracle 4 e édition Groupe eyrolles, 2004, 2005, 2008, 2010, is BN : 978-2-212-12794-2 Partie III SQL avancé La table suivante organisée en

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Sommaire. G. Pujolle, F. Ravat, C. Soulé-Dupuy, G. Zurfluh

Sommaire. G. Pujolle, F. Ravat, C. Soulé-Dupuy, G. Zurfluh NOTATION UML AVEC RATIONAL ROSE G. Pujolle, F. Ravat, C. Soulé-Dupuy, G. Zurfluh Sommaire 1 GÉNÉRALITES...2 1.1 ENVIRONNEMENT LOGICIEL...2 1.2 LES VUES DU LOGICIEL ROSE...3 1.3 ORGANISATION RECOMMANDÉE...3

Plus en détail

COURS WINDEV NUMERO 3

COURS WINDEV NUMERO 3 COURS WINDEV NUMERO 3 01/02/2015 Travailler avec un fichier de données Etude du gestionnaire d analyse, Manipulation des tables mémoires, Manipulation de données, Création d états, Pré requis : Cours WinDev

Plus en détail

White Paper ADVANTYS. Workflow et Gestion de la Performance

White Paper ADVANTYS. Workflow et Gestion de la Performance White Paper Workflow et Gestion de la Performance Présentation L automatisation des process combinée à l informatique décisionnelle (Business Intelligence) offre une nouvelle plateforme de gestion pour

Plus en détail

Sommaire. I.1 : Alimentation à partir d un fichier Access (.mdb)...2

Sommaire. I.1 : Alimentation à partir d un fichier Access (.mdb)...2 Sommaire I. SCENARII DE TRAITEMENTS...2 I.1 : Alimentation à partir d un fichier Access (.mdb)...2 I.1 : Vérification de l intégrité des traitements SQL sur la pyramide des ages...3 I.2 : Vérification

Plus en détail

Création et Gestion des tables

Création et Gestion des tables Création et Gestion des tables Version 1.0 Z Grégory CASANOVA 2 Sommaire 1 Introduction... 3 2 Pré-requis... 4 3 Les tables... 5 3.1 Les types de données... 5 3.1.1 Les types de données Sql Server... 5

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Gestion du parc informatique des collèges du département du Cher. Manuel d utilisation de la solution de gestion de Parc

Gestion du parc informatique des collèges du département du Cher. Manuel d utilisation de la solution de gestion de Parc Gestion du parc informatique des collèges du département du Cher Manuel d utilisation de la solution de gestion de Parc Table des matières 1. Préambule... 3 2. Pré requis... 3 3. Objectifs... 3 4. Connexion

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail