Antonio Rodrigues (DESS SITN)

Dimension: px
Commencer à balayer dès la page:

Download "Antonio Rodrigues (DESS SITN)"

Transcription

1 : Etude d une base de données sur les plantes d eau douce Février 2004 A l attention de Mr Diday

2 SOMMAIRE I. INTRODUCTION 3 II. PRESENTATION GENERALE 4 II.1. LE DATAMINING 4 II.1.1. PRESENTATION 4 II.1.2. PRINCIPALES APPLICATIONS 4 II.1.3. ETAT DE L ART DU MARCHE 5 II.2. LE LOGICIEL SODAS 7 II.2.1. PRESENTATION GENERALE 7 II.2.2. INTERFACE DU LOGICIEL 8 III. APPLICATION 10 III.1. CHOIX DE LA BASE DE DONNEE 10 III.2. DETAILS SUR LA BASE 10 III.2.1. LES INDIVIDUS, CONCEPTS ET VARIABLES 10 III.2.2. LES REQUETES 12 III.3. DB2SO 12 III.3.1. PRESENTATION 12 III.3.2. APPLICATION 13 III.4. APPLICATION DES METHODES 15 III.4.1. SOE 15 III.4.1.a. Présentation 15 III.4.1.b. Application 15 III.4.2. STAT 19 III.4.2.a. Présentation 19 III.4.2.b. Application 19 III.4.3. DIV 23 III.4.3.a. Présentation 23 III.4.3.b. Application 23 III.4.4. TREE 26 III.4.4.a. Présentation 26 III.4.4.b. Application 26 III.4.5. PCM 27 III.4.5.a. Présentation 27 III.4.5.b. Application 27 IV. CONCLUSION 29 V. BIBLIOGRAPHIE 30 2

3 I. Introduction Si la rapidité de traitement de l information, assuré par les technologies nouvelles, est un critère essentiel pour une entreprise, la prise de décisions efficaces n en est pas moins. En effet, les entreprises étant en perpétuel concurrence, il devient nécessaire d extraire et d analyser les bons indicateurs afin d adopter les bonnes décisions. Les entreprises s intéressent de plus en plus au datamining, probablement à cause des promesses de rentabilité immédiate que vantent les fournisseurs de technologies et dont les médias se font l écho. Une étude récente du cabinet IDC, spécialisé dans les études quantitatives des marchés de technologies, souligne que plus de la moitié des entreprises américaines ont ou vont acheter un outil de datamining. Les différentes études de marché estiment que la taille du marché du datamining était d environ 300 millions de francs (source : Meta Group) et tablent sur 5 milliards en l an 2000, soit un taux de croissance annuelle de plus de 40 %. S appuyant souvent sur un entrepôt de données ou une simple base de données, le datamining va permettre de guider le décideur grâce à des méthodes le plus souvent éprouvées. Il est alors intéressant pour un étudiant achevant son cycle dans d études dans le domaine des nouvelles technologies, d étudier cette science qu il sera certainement amener à côtoyer dans la vie active. Bien que connaître les différentes méthodes d analyse soit important, il est très intéressant en terme de datamining de s appuyer sur un logiciel apte à analyser les données symboliques afin de gagner en terme de volumétrie et de vitesse de traitement. Ainsi ce projet s appuiera sur l outil SODAS que nous détaillerons au préalable. Ce rapport se divisera en deux grandes parties : Une présentation générale du datamining ainsi que du logiciel SODAS et une application à un cas concret (une base de données réaliste). 3

4 II. Présentation générale II.1. Le datamining II.1.1. Présentation Ou exploration de données. C est un ensemble de méthodes et de techniques qui permet d'extraire des informations à partir d'une grande masse de données. Son utilisation permet par exemple d'établir des corrélations entre ces données et de définir des comportementstype de clients. Ainsi Le datamining, ou prospection de données, est un ensemble de méthodes et de techniques d'analyse dont les applications peuvent servir à mieux connaître les clients de l'entreprise. Ce prolongement des statistiques, qui figure selon le Massachussets Institute of Technology parmi les dix technologies qui vont changer le monde, sert à extraire des informations d'une masse de données brutes atteignant souvent plusieurs térabits! On peut ainsi repérer des relations systématiques entre différentes variables, comme le fait d'acheter des chips et de la bière le samedi matin et de regarder le match de football le samedi aprèsmidi. Les techniques associées au datamining s'appuient sur la théorie de l'information, sur des méthodes statistiques et également sur celles de l'intelligence artificielle. Les données à explorer sont stockées dans de gigantesques entrepôts nommés datawarehouse mais peuvent aussi se trouver dans des infocentres plus traditionnels. Extraire des informations pertinentes à partir du nombre colossal de combinaisons possibles de ces données requiert une puissance d'analyse énorme que seuls de grands systèmes peuvent supporter. II.1.2. Principales applications Grande distribution et VPC : Analyse des comportements des consommateurs, recherche des similarités des consommateurs en fonction de critères géographiques ou sociodémographiques, prédiction des taux de réponse en marketing direct, vente croisée et activation sélective dans le domaine des cartes de fidélité, optimisation des réapprovisionnements. Laboratoires pharmaceutiques : Modélisation comportementale et prédiction de médications ou de visites, optimisation des plans d action des visiteurs médicaux pour le lancement de nouvelles molécules, identification des meilleures thérapies pour différentes maladies. Banques : Recherche de formes d utilisation de cartes caractéristiques d une fraude, modélisation prédictive des clients partants, détermination de pré autorisations de crédit revolving, modèles d arbitrage automatique basés sur l analyse de formes historiques des cours. Assurance : Modèles de sélection et de tarification, analyse des sinistres, recherche des critères explicatifs du risque ou de la fraude, prévision d appels sur les platesformes d assurance directe. 4

5 Aéronautique, automobile et industries : Contrôle qualité et anticipation des défauts, prévisions des ventes, dépouillement d enquêtes de satisfaction. Transport et voyagistes : Optimisation des tournées, prédiction de carnets de commande, marketing relationnel dans le cadre de programmes de fidélité. Télécommunications, eau et énergie : Simulation de tarifs, détection de formes de consommation. II.1.3. Etat de l art du marché Intelligent Miner d IBM Volumes : Pas de limites Liens aux données : DB2, fichiers Méthodes de modélisation : Multiples Intégration des résultats : API Catégorie : Poids lourd Utilisateurs : Experts Clementine de SPSS Volumes : Peu de limites Liens aux données : SGBD et fichiers Méthodes de modélisation : Multiples Intégration : des résultats API Catégorie : Intermédiaire intégré Utilisateurs : Avertis SAS Enterprise Miner SAS Volumes : Peu de limites Liens aux données : SAS, SGBD et fichiers Méthodes de modélisation : Multiples Intégration des résultats : - Catégorie : Poids lourd Utilisateurs : Avertis 4Thought de Cognos Volumes : Peu de limites Liens aux données : SGBD Méthodes de modélisation : Réseaux de neurones Intégration des résultats : Programme Excel ou langage C Catégorie : Intermédiaire spécialisé Utilisateurs : Avertis Predict de NeuralWare Volumes : Quelques milliers d'enregistrements Liens aux données : SGBD Méthodes de modélisation : Réseaux de neurones Intégration des résultats : Sans objet Catégorie : PC de bureau Utilisateurs : Néophytes Previa de Elseware Volumes : Quelques milliers de records Liens aux données : Fichiers Méthodes de modélisation : Réseaux de neurones Intégration des résultats : - Catégorie : PC de bureau Utilisateurs : Néophytes 5

6 Saxon de Pmsi Volumes : Peu de limites Liens aux données : Fichiers Méthodes de modélisation : Réseaux de neurones Intégration des résultats : Programme C Catégorie : Intermédiaire spécialisé Utilisateurs : Experts Strada Complex System Volumes : Quelques milliers de records Liens aux données : Fichiers Méthodes de modélisation : Réseaux de neurones, algorithmes génétiques Intégration des résultats : - Catégorie : Intermédiaire spécialisé Utilisateurs : Avertis Scenario de Cognos Volumes : Quelques milliers d enregistrements Liens aux données : SGBD, Fichiers Méthodes de modélisation : Arbres de décision Intégration des résultats : - Catégorie : PC de bureau Utilisateurs : Néophytes Alice de Isoft Volumes : Quelques milliers d enregistrements Liens aux données : SGBD, Fichiers Méthodes de modélisation : Arbres de décision Intégration des résultats : - Catégorie : PC de bureau Utilisateurs : Néophytes Knowledge Seeker Angoss Volumes : Quelques milliers d enregistrements Liens aux données : SGBD, Fichiers Méthodes de modélisation : Arbres de décision Intégration des résultats : SQL Catégorie : Intermédiaire spécialisé Utilisateurs : Néophytes Datamind D Epiphany Volumes : Quelques milliers d enregistrements Liens aux données : SGBD, Fichiers Méthodes de modélisation : - Intégration des résultats : - Catégorie : PC de bureau/intermédiaire Utilisateurs : Néophytes Wizwhy de Wizsoft Volumes : Quelques milliers d enregistrements Liens aux données : SGBD, Fichiers Méthodes de modélisation : Associations Intégration des résultats : - Catégorie : PC de bureau Utilisateurs : Néophytes SPAD de CISIA Volumes : Quelques milliers d enregistrements Liens aux données : SGBD, Fichiers Méthodes de modélisation : Multiples Intégration des résultats : Fichiers Catégorie : PC de bureau/intermédiaire Utilisateurs : Avertis 6

7 II.2. Le logiciel SODAS II.2.1. Présentation générale Il s'agit d'un logiciel prototype public (accessible à apte à analyser des données symboliques. Il est issu du projet de EUROSTAT appelé SODAS comme le logiciel qui en est issu pour fournir un cadre aux différentes avancées récentes et futures du domaine. Son idée générale est la suivante : à partir d'une base de données, construire un tableau de données symboliques, parfois muni de règles et de taxonomies, dans le but de décrire des concepts résumant un vaste ensemble de données, analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d'analyse de données symboliques. Les principales étapes d'une analyse des données dans SODAS, sont les suivantes : Partir d'une base de données relationnelle (ORACLE, ACCESS,...) Définir ensuite un contexte par des unités statistiques de premier niveau (habitants, familles, entreprises, accidents,...), les variables qui les décrivent des concepts (villes, groupes socio-économiques, scénario d'accident,...) Chaque unité statistique de premier niveau est associée à un concept (par exemple, chaque habitant est associé à sa ville). Ce contexte est défini par une requête de la base. On construit alors un tableau de données symboliques dont les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier niveau qui leur sont associés. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des histogrammes, des intervalles, des valeurs uniques (éventuellement munies de règles et de taxonomies) etc., selon le type de variables et le choix de l'utilisateur. On peut ainsi créer un fichier d'objets symboliques sur lequel une douzaine de méthodes d'analyse de données symboliques peuvent déjà s'appliquer dans le logiciel SODAS (histogrammes des variables symboliques, classification automatique, analyse factorielle, analyse discriminante, visualisations graphiques,...). [Ref : Voici un schéma présentant les différentes possibilités offertes par SODAS : 7

8 II.2.2. Interface du logiciel Pour ce projet nous avons travaillé avec la version du logiciel SODAS. En voici son interface principale : Barre de menu : C est dans le menu SODAS file que l on fait appel à DB2SO. Fenêtre «Chaining» : Elle permet de gérer la chaîne de traitement (application de méthodes) sur les données extraites de la base. 8

9 Les méthodes sont insérées à partir de la fenêtre «Methods» 9

10 III. Application III.1. Choix de la base de donnée La base de données choisie pour ce projet a fait l objet de plusieurs recherches sur internet. En effet, afin d obtenir des données originales et réelles, il a fallut parcourir un certains nombre de sites web. Mon choix s est porté sur une base de données au sujet des plantes d eau douce trouvée sur le site Le site fournit une base de donnée sur les plantes sous la forme d un fichier excel. Ce fichier représente en réalité une seule et unique table regroupant plus de 100 individus. Après l avoir migré sous Access et avoir rajouté deux tables pour faciliter les requêtes (notamment la création d une taxonomie), il a alors été possible de débuter le traitement des données ainsi recueillies avec SODAS. III.2. Détails sur la base III.2.1. Les individus, concepts et variables 10

11 Les individus sont les plantes (le nom commun). Le concept choisi est le continent d origine de la plante. L intérêt d un tel concept est de constater (éventuellement) une quelconque corrélation entre l origine de la plante et la différentes variables telles que la catégorie ou la température. Le nombre de concepts à prendre en compte avec la définition précédente est de 10 : Afrique Amérique Amérique/Asie Amérique/Europe/Afrique Amérique/Europe/Asie Asie Asie/Afrique Cosmopolite Europe Océanie Les variables sont au nombre de 17, avec : o 9 variables quantitatives : - phmin - phmax - dghmin - dghmax - TempMin - TempMax - Continents2 - MoyTempMin (température min moyenne pour un concept) - MoyTempMax (température max moyenne pour un concept) o 8 variables quantitatives : - Famille - Origine - Catégorie - Luminosité - Type de feuilles - Hauteur du bac - Forme feuilles - Multiplication 11

12 III.2.2. Les requêtes Info_plantes : Sélection des individus SELECT plantes.[nom commun], Continents.Continent, plantes.famille, Origines.Origine, plantes.categorie, plantes.[ph min], plantes.[ph max], plantes.[dgh min], plantes.[dgh max], plantes.[temp min], plantes.[temp max], plantes.luminosité, plantes.[type de feuilles], plantes.[hauteur du bac], plantes.[type feuilles] AS [Forme feuilles], plantes.multiplication FROM (Origines INNER JOIN Continents ON Origines.Continent_id=Continents.Continent_id) INNER JOIN plantes ON Origines.orig_id=plantes.origine_id; Info_Continents : Apporte deux informations supplémentaires au concept choisi : la température moyenne min et la température moyenne max pour un concept donné. SELECT DISTINCTROW Continents.Continent, Continents.Continent AS Continent2, Avg(plantes.[Temp min]) AS Moy_tmp_min, Max(plantes.[Temp max]) AS Moy_tmp_max FROM (Origines INNER JOIN Continents ON Origines.Continent_id = Continents.Continent_id) INNER JOIN plantes ON Origines.orig_id = plantes.origine_id GROUP BY Continents.Continent, Continents.Continent; Taxo_Origine : Taxonomie associant les origines des différentes plantes à un continent SELECT Origines.Origine, Continents.Continent FROM Continents INNER JOIN Origines ON Continents.Continent_id = Origines.Continent_id; III.3. DB2SO III.3.1. Présentation Abréviation pour «Data Base To Symbolic Object», DB2SO est un outil fournit avec SODAS permettant de transformer les données d une base de données en un ensemble de concepts. Dans la pratique il va permettre de générer un fichier.gaj puis un fichier.sds (celui-ci sera nécessaire à SODAS pour l analyse) à partir de la source de données. DB2SO est appelé à partir du menu SODAS file > Import > Importation (DB2SO). 12

13 III.3.2. Application Une fois DB2SO ouvert, cliquer sur File > New et choisir le data source et le fichier de données. Ici, il faudra choisir un data source MS Access et comme fichier plantes.mdb. Ensuite, la requête d extraction des individus est demandée. Dans notre cas, elle est prédéfinie dans le fichier Access et porte le nom de Info_plantes : Après insertion de toutes les variables, on obtient 17 variables dont 8 qualitatives et 8 quantitatives ainsi que 10 concepts : 13

14 File > Save As permet de sauvegarder le fichier en.gaj anfin de pouvoir ensuite l exporter en.sds en faisant File > Export Une fois ceci effectué, le module DB2SO peut être fermé, la prochaine étape est le «chaining». 14

15 III.4. Application des méthodes III.4.1. SOE 1 III.4.1.a. Présentation SOE (Symbolic Object Editor) est une méthode permettant de présenter l ensemble des concepts et des variables associées (ou une partie seulement) d un fichier SODAS sous forme d une table. En sélectionnant un concept et au minimum trois variables, il est possible de visualiser un schéma en étoile 2D ou 3D les représentant. Ces schémas représentent ce qu on appelle des objets symboliques, ceux-ci pouvant se définir comme un concept associé à un certains nombres de ses variables. Par extension, on peux appeler objet symbolique une ligne de la table que fournit la méthode SOE. Ce type de représentation synthétique permet d analyser rapidement et efficacement les objets symboliques (la visualisation permet de distinguer les valeurs importantes) et de comparer ces même objets entre eux (En effet, SOE permet l affichage de plusieurs schémas en simultané). III.4.1.b. Application Etudions les concepts Amérique, Asie et Afrique. Amérique 1 Les présentations des méthodes ont été inspirées par le site officiel de SODAS. Elles permettent au lecteur de disposer immédiatement d une présentation concise de la méthode. 15

16 A l aide de ce graphique nous remarquons que les plantes d Amérique nécessitent une forte luminosité et possèdent des feuilles dressées et tendres. De plus il n est nul besoin d être expert pour entretenir la plupart des plantes répertoriées puisque la catégorie débutant est prépondérante. Cependant, pour plus de 20% des individus il est conseillé de posséder des connaissances qui dépassent le stade de simple amateur. Luminosité & Catégorie : Asie 16

17 L Asie possède en majorité des plantes ayant des feuilles en forme de rosette, cependant les formes «feuilles en rosette» et «feuilles dressés» se retrouvent en quantités pratiquement égales. A l instar du précédent continent les plantes d eau douce asiatique ont majoritairement besoin d une luminosité forte. La catégorie «débutant» est plus importante ici puisque 57% des plantes répertoriés ne nécessitent qu un niveau débutant pour l entretien. Forme & Catégorie : Afrique 17

18 La particularité des plantes africaines est qu elles nécessitent en majorité un niveau d amateur pour pouvoir les entretenir correctement. Le niveau débutant se retrouvant délégué lion derrière, à 25% : Synthèse : Plusieurs points rapprochent les trois continents étudiés : - La luminosité (forte) - La température (intervalles sensiblement identiaques) - Le type de feuilles (tendres) Cependant des continents se détachent sur certains points : - L Afrique semble réserver en majorité des plantes nécessitant au minimum un niveau d amateur contrairement à l Amérique et à l Asie. - L Amérique dispose d une majorité de plantes avec des feuilles dressées, l Afrique une majorité de plantes avec des feuilles en rosette et l Asie dispose d une quantité équivalente des deux formes évoquées précédemment. 18

19 III.4.2. STAT III.4.2.a. Présentation STAT ( Elementary Statistics On Symbolic Objects) étend aux objets symboliques, représentés par leur description, plusieurs méthodes de statistique élémentaire limitées aux données : i) Fréquences relatives pour variables multimodales ii) Fréquences relatives pour variables intervalles iii) Capacités et min/max/mean pour variables multimodales probabilistes iv) Biplot pour variables intervalles v) Objet central. III.4.2.b. Application L étude de STAT portera sur les deux méthodes suivantes : - Fréquences relatives pour variables intervalles - Capacités et min/max/mean pour variables multimodales probabilistes - Biplot pour variables intervalles i) Fréquences relatives pour variables intervalles On étudie la variable température minimum sur 11 classes : 19

20 Chaque classe a une valeur de 1. Les classes prédominantes sont [18, 19 ] et [19, 20 ]. On constate une concentration des températures minimum sur l intervalle [18, 22 ] qui regroupe la majorité des températures minimums des plantes. A contrario, à partir de 24 il y a très peu de plantes. De même on peut analyser la variable phmin sur 10 classes : On constate très bien une concentration du ph min entre 5 et 7. En dessous de cet intervalle, on trouve très peu de plante qui ont un ph correspondant. ii) Capacités et min/max/mean pour variables multimodales probabilistes Nous choisissons d étudier la variable Catégorie. 20

21 Les modalités Amateur, Amateur averti et Débutant se démarquent par le fait qu elles atteignent la probabilité 1 : On peut être sûr de retrouver toujours, pour certains concepts (Contient d origine) une des modalités citées précédemment. En revanche la probabilité maximum (et en moyenne) de trouver la catégorie spécialiste est très faible. En moyenne, la catégorie Amateur est en tête suivie par la Débutant. Il apparaît en outre qu aucune catégorie n est présente à la fois dans tous les concepts puisque toute ont un seuil de probabilité minimum de 0. iii) Biplot pour les variables intervalles Afin de rendre les résultats plus lisibles, seuls trois concepts seront étudiés (Comopolite, Afrique et Amérique). Il est de plus apparu que de nombreux concepts se confondaient, il était donc inutile de tous les représenter. 21

22 Ce graphique nous permet de constater que l Amérique couvre une zone de ph minimu et de température important. Concrètement, on peut alors imaginer trouver en Amérique, avec plus de probabilité, une plante pouvant s adapter à un certain milieu prédéfini. A contrario, les plantes d Afrique ou provenant d autres régions du monde (tels les régions tropicales) sont toutes dans une zone de ph restreinte. Ce qui signifie qu avant de se procurer une plante d eau douce provenant d Afrique, il faut au moins s assurer que le ph minimum de son aquarium se trouve entre 6 et 7. Ainsi cette étude qui pouvait paraître sans intérêt (effectivement, comparer ph et température ne parait pas très révélateur de prime abord) nous a permis de constater que dans des conditions de vie difficilement définissable ou particulière (i.e. ph faible), il convient de se diriger vers les plantes d Amérique qui offre une amplitude importante tant au niveau du ph minimum que de la température de l environnement aquatique. 22

23 III.4.3. DIV III.4.3.a. Présentation DIV est une méthode de classification hiérarchique qui débute avec tous les objets d une classe et procède par divisions successives de chaque classe. A chaque étape, une classe est divisée en deux classes selon une question binaire. Cette question binaire induit le meilleur partage en deux classes selon une extension du critère de l inertie. L algorithme s arrête après K-1 divisions, où K représente le nombre de classes renseignées par l utilisateur. III.4.3.b. Application Les variables étudiés sont le dghmin et la température. Le nombre de classes est fixé à 5. Le dgh correspond à la teneur de l'eau en carbonates de sodium ou de magnésium ainsi qu'en sulfates de sodium ou de magnésium (en degrés allemands). Plus l'eau comprend une concentration élevée en ces composés, plus l'eau est dite dure (pour comparaison, le KH lui ne prend en compte que la teneur de l'eau en carbonates). Voici le résultat obtenu : VARIANCE OF THE SELECTED VARIABLES : dgh_min : Temp_min : PARTITION IN 2 CLUSTERS : : Cluster 1 (n=3) : "Amérique/Asie" "Amérique/Europe/Asie" "Europe" Cluster 2 (n=7) : "Cosmopolite" "Amérique" "Afrique" "Asie" "Océanie" "Amérique/Europe/Afrique" "Asie/Afrique" Explicated inertia : PARTITION IN 3 CLUSTERS : : Cluster 1 (n=3) : "Amérique/Asie" "Amérique/Europe/Asie" "Europe" 23

24 Cluster 2 (n=2) : "Amérique/Europe/Afrique" "Asie/Afrique" Cluster 3 (n=5) : "Cosmopolite" "Amérique" "Afrique" "Asie" "Océanie" Explicated inertia : PARTITION IN 4 CLUSTERS : : Cluster 1 (n=1) : "Amérique/Europe/Asie" Cluster 2 (n=2) : "Amérique/Europe/Afrique" "Asie/Afrique" Cluster 3 (n=5) : "Cosmopolite" "Amérique" "Afrique" "Asie" "Océanie" Cluster 4 (n=2) : "Amérique/Asie" "Europe" Explicated inertia : PARTITION IN 5 CLUSTERS : : Cluster 1 (n=1) : "Amérique/Europe/Asie" Cluster 2 (n=2) : "Amérique/Europe/Afrique" "Asie/Afrique" Cluster 3 (n=4) : "Cosmopolite" "Afrique" "Asie" "Océanie" Cluster 4 (n=2) : "Amérique/Asie" "Europe" Cluster 5 (n=1) : "Amérique" Explicated inertia : PARTITION IN 6 CLUSTERS : 24

25 : Cluster 1 (n=1) : "Amérique/Europe/Asie" Cluster 2 (n=2) : "Amérique/Europe/Afrique" "Asie/Afrique" Cluster 3 (n=4) : "Cosmopolite" "Afrique" "Asie" "Océanie" Cluster 4 (n=1) : "Europe" Cluster 5 (n=1) : "Amérique" Cluster 6 (n=1) : "Amérique/Asie" Explicated inertia : THE CLUSTERING TREE : the number noted at each node indicates the order of the divisions - Ng <-> yes and Nd <-> no Classe 1 (Ng=1)!! [Temp_min <= ]!!!! Classe 4 (Ng=1)!!!!! [dgh_min <= ]!!! Classe 6 (Nd=1)!! [Temp_min <= ]!! Classe 2 (Ng=2)!!! [dgh_min <= ]!! Classe 3 (Ng=4)!!! [dgh_min <= ]! Classe 5 (Nd=1) 25

26 On remarque immédiatement que la majorité des concepts (7 sur les 10) disposent de plantes dont la température minimum est supérieure à Parmi les 7 concepts qui ont une température minimum supérieure à 18.75, 5 ont un dgh minimum supérieur à Cependant après 4.25 pour le dgh min, seul 1 concept demeure. D après la définition du DGh, on constate donc qu il y a une grande partie des concepts (continents) qui nécessitent une eau plus dure après une certaine température. C est le cas pour les concepts "Cosmopolite", "Afrique", "Asie" et "Océanie" et encore plus pour le concept "Amérique". III.4.4. TREE III.4.4.a. Présentation L arbre de décision propose un algorithme d arbre évolutif appliqué aux données explicitement imprécises. Celles-ci sont formellement décrites par des assertions probabilistes dans l analyse des données symboliques. Dans ce contexte, la procédure de partage récursif peut être interprétée comme une recherche itérative d un ensemble d objets symboliques qui correspond le mieux aux données initiales. A chaque étape, le meilleur partage est obtenu à travers l utilisation d une mesure donnée en paramètre. On obtient une nouvelle liste d objets symboliques qui permet d assigner de nouveaux objets à une classe. III.4.4.b. Application Les paramètres choisis sont les suivants : - Variable class Identifier : Continents (sous le nom de Continents2 dans la base) - Predictor variables : phmin - Number of terminal nodes : 6 Résultat : ================================== EDITION OF DECISION TREE ================================== PARAMETERS : Learning Set : 10 Number of variables : 1 Max. number of nodes: 7 Soft Assign : ( 1 ) FUZZY Criterion coding : ( 3 ) LOG-LIKELIHOOD Min. number of object by node : 5 Min. size of no-majority classes : 2 Min. size of descendant nodes : 1.00 Frequency of test set :

27 + --- IF ASSERTION IS TRUE (up)! --- x [ ASSERTION ]! IF ASSERTION IS FALSE (down) [ 2 ]Amérique/Europe/Asie ( ! )!!----1[ Temp_min <= ]!! [ 12 ]Amérique/Europe/Afrique ( !! !! )!!!!----6[ Temp_min <= ]!!!!! [ 13 ]Asie/Afrique ( !! !! 0.50 )!!!----3[ Temp_min <= ]! [ 7 ]Afrique ( ) Comment utiliser l arbre? Si la réponse à la question binaire [Temp_min <= ] est vraie, alors l objet sera considéré, a piori, comme faisant parti de la classe [2]. Sinon il faudra statuer sur la question binaire [Temp_min <= ] et ainsi de suite III.4.5. PCM III.4.5.a. Présentation PCM (Principal Component Analysis) est une extension de la méthode d analyse en composante principale qui prend comme en paramètre une matrice de termes ganéraux aij. Chaque valeur aij est un intervalle contenant toutes les valeurs possibles de j pour un objet i. Au lieu de représenter chaque point sur un plan factoriel par un point comme dans la méthode ACP, dans la méthode PCM, chaque objet est visualisé par un rectangle. III.4.5.b. Application Voici les résultats obtenus en prenant la température min comme paramètre : 27

28 28

29 IV. Conclusion L enseignement de datamining permet de comprendre à la fois les enjeux de l analyse de données et concrètement certaines grandes méthodes d analyse. En utilisant le logiciel SODAS, on se rend compte de l importance de l appui logiciel en datamining, notamment lors du traitement de milliers (voire millions) de données. On comprend alors, en réalisant des projets de la sorte ou en étudiant des exemples concrets, pourquoi les entreprises investissent parfois énormément dans l étude de leurs données commerciales et techniques : On peut extraire des indicateurs importants, découvrir des corrélations inattendues, ne pas constater des corrélations attendues, classifier, etc. Et ceci dans le but d accroître la productivité ou les ventes. Dans le cas de ce projet, bien que la base sur les plantes soit relativement petite, il a déjà été possible de constater certaines corrélations et autres phénomènes intéressants, alors qu initialement, rien ne les laissait apparaître! On peut alors imaginer la quantité d information que l on peut extraire de bases très denses! Le problème peut alors être de trier les bonnes informations 29

30 V. BIBLIOGRAPHIE Cours de datamining (Pole info 3 Paris IX) de E. Diday 30

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E.

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E. Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ Sommaire Introduction...

Plus en détail

DATA MINING - Analyses de données symboliques sur les restaurants

DATA MINING - Analyses de données symboliques sur les restaurants Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Critères pour avoir la meilleure équipe!

Critères pour avoir la meilleure équipe! PROJET DATAMINING Basket-ball professionnel "NBA" : Critères pour avoir la meilleure équipe! Réalisé par : Anasse LAHLOU KASSI Houssam Eddine HOUBAINE DESS TIO DESS ID Année Scolaire : SOMMAIRE INTRODUCTION...

Plus en détail

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Master 2 ème Année Ingénierie Statistique et financière Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Réalisé par : Nicolas CHAIGNEAUD Nora SLIMANI Année universitaire 2007-2008

Plus en détail

Université Paris IX DAUPHINE DATE : 24/04/06

Université Paris IX DAUPHINE DATE : 24/04/06 Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE

Plus en détail

Mémo technique LE DATAMINING

Mémo technique LE DATAMINING Mémo technique LE DATAMINING 46, rue de la Tour 75116 Paris France Tél : 00 33 (0)1 73 00 55 00 Fax : 00 33 (0)1 73 00 55 01 http://www.softcomputing.com Février 01 SOMMAIRE 1 SYNTHESE : CE QU IL FAUT

Plus en détail

WEBSELL. Projet DATAMINING

WEBSELL. Projet DATAMINING WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ] SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1.

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.) Université de Lille 2 - Droit et Santé Ecole Supérieure des Affaires & Institut Universitaire de Technologie (IUT-C) Département Statistique et Traitement Informatique des Données Licence Professionnelle

Plus en détail

IBM Social Media Analytics

IBM Social Media Analytics IBM Social Media Analytics Analysez les données des média sociaux afin d améliorer vos résultats commerciaux Les points clés Développez votre activité en comprenant le sentiment des consommateurs et en

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Introduction Big Data

Introduction Big Data Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

IBM SPSS Direct Marketing

IBM SPSS Direct Marketing IBM SPSS Statistics 19 IBM SPSS Direct Marketing Comprenez vos clients et renforcez vos campagnes marketing Points clés Avec IBM SPSS Direct Marketing, vous pouvez : Comprendre vos clients de manière plus

Plus en détail

Intelligence Economique - Business Intelligence

Intelligence Economique - Business Intelligence Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit

Plus en détail

Introduction à Business Objects. J. Akoka I. Wattiau

Introduction à Business Objects. J. Akoka I. Wattiau Introduction à Business Objects J. Akoka I. Wattiau Introduction Un outil d'aide à la décision accès aux informations stockées dans les bases de données et les progiciels interrogation génération d'états

Plus en détail

UE 8 Systèmes d information de gestion Le programme

UE 8 Systèmes d information de gestion Le programme UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services Ce Whitepaper décrit la méthodologie de développement d un rapport personnalisé au format SQL Server Reporting Service (SSRS) appliqué à System Center Operations Manager (SCOM) Whitepaper Méthodologie

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Les outils BI du consultant métier

Les outils BI du consultant métier www.avlconsulting.fr Les outils BI du consultant métier Michel BALDELLON Anne VINAGRE 26 février 2015 & 3 mars 2015 L analyse autonome des données d une entreprise est un facteur clé de succès d une mission

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

Sybase PowerAMC 16. Guide des nouvelles fonctionnalités générales. www.sybase.fr/poweramc DOCUMENTATION

Sybase PowerAMC 16. Guide des nouvelles fonctionnalités générales. www.sybase.fr/poweramc DOCUMENTATION Sybase PowerAMC 16 Guide des nouvelles fonctionnalités générales DOCUMENTATION 2 2 www.sybase.fr/poweramc A propos de PowerAMC 16 PowerAMC est une solution de modélisation d'entreprise graphique qui prend

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR HISTORIQUE DES VERSIONS Vers. Date Rédacteur Objet de la modification 1.00 Juillet 2007 GTBO_AGRI Création du document 1.01 Février 2009 SAMOA

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur Excel Avancé Plan Outils de résolution La valeur cible Le solveur Interactivité dans les feuilles Fonctions de recherche (ex: RechercheV) Utilisation de la barre d outils «Formulaires» Outils de simulation

Plus en détail

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE Cas Neptune hôtel Base de données et langage SQL Propriété Intitulé long Formation concernée Matière Notions Transversalité Présentation Description Neptune Hôtel. L interrogation d une base de données

Plus en détail

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU Table des matières Page I. DÉMARRER... 4 1. Comment accéder au Centre de données de l ISU?... 4 2. Quels sont les types de tableaux statistiques disponibles

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

CRM pour le Service clients et l Assistance technique

CRM pour le Service clients et l Assistance technique CRM pour le Service clients et l Assistance technique La satisfaction Maximizer. Inciter la fidélisation de la clientèle. Servir la clientèle efficacement est l élément clé d une croissance d affaires

Plus en détail

ProSimPlus HNO3 Résumé des nouvelles fonctionnalités, décembre 2008

ProSimPlus HNO3 Résumé des nouvelles fonctionnalités, décembre 2008 ProSimPlus HNO3 Résumé des nouvelles fonctionnalités, décembre 2008 Cette page présente un résumé des derniers développements effectués dans le logiciel ProSimPlus HNO3. Ceux-ci correspondent à de nouvelles

Plus en détail

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données

Plus en détail

Excel avancé. Frédéric Gava (MCF) gava@univ-paris12.fr

Excel avancé. Frédéric Gava (MCF) gava@univ-paris12.fr Excel avancé Frédéric Gava (MCF) gava@univ-paris12.fr LACL, bâtiment P2 du CMC, bureau 221 Université de Paris XII Val-de-Marne 61 avenue du Général de Gaulle 94010 Créteil cedex Rappels et compléments

Plus en détail

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21 IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances

Plus en détail

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Initiation aux bases de données (SGBD) Walter RUDAMETKIN Initiation aux bases de données (SGBD) Walter RUDAMETKIN Bureau F011 Walter.Rudametkin@polytech-lille.fr Moi Je suis étranger J'ai un accent Je me trompe beaucoup en français (et en info, et en math, et...)

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Découvrir les stratégies ayant fait leurs preuves et les meilleures pratiques Points clés : Planifier

Plus en détail

Le langage SQL Rappels

Le langage SQL Rappels Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

1 Introduction et installation

1 Introduction et installation TP d introduction aux bases de données 1 TP d introduction aux bases de données Le but de ce TP est d apprendre à manipuler des bases de données. Dans le cadre du programme d informatique pour tous, on

Plus en détail

Dossier I Découverte de Base d Open Office

Dossier I Découverte de Base d Open Office ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire

Plus en détail

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Introduction à l Informatique Décisionnelle - Business Intelligence (7) Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence

Plus en détail

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2 SQL Sommaire : COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2 COMMANDES DE MANIPULATION DE DONNEES... 2 COMMANDES DE CONTROLE TRANSACTIONNEL... 2 COMMANDES DE REQUETE DE DONNEES... 2 COMMANDES

Plus en détail

Cybermarché et analyse comportementale

Cybermarché et analyse comportementale Cybermarché et analyse comportementale Antoine-Eric Sammartino aesammartino@e-laser.fr Séminaire Data Mining - Educasoft Formations 18 juin 2001-1- MENU Le Groupe LaSer Le processus Data Mining L industrialisation

Plus en détail

SUGARCRM MODULE RAPPORTS

SUGARCRM MODULE RAPPORTS SUGARCRM MODULE RAPPORTS Référence document : SYNOLIA_Support_SugarCRM_Module_Rapports_v1.0.docx Version document : 1.0 Date version : 2 octobre 2012 Etat du document : En cours de rédaction Emetteur/Rédacteur

Plus en détail

Faculté des sciences de gestion et sciences économiques BASE DE DONNEES

Faculté des sciences de gestion et sciences économiques BASE DE DONNEES BASE DE DONNEES La plupart des entreprises possèdent des bases de données informatiques contenant des informations essentielles à leur fonctionnement. Ces informations concernent ses clients, ses produits,

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

Business Intelligence : Informatique Décisionnelle

Business Intelligence : Informatique Décisionnelle Business Intelligence : Informatique Décisionnelle On appelle «aide à la décision», «décisionnel», ou encore «business intelligence», un ensemble de solutions informatiques permettant l analyse des données

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

À PROPOS DE TALEND...

À PROPOS DE TALEND... WHITE PAPER Table des matières Résultats de l enquête... 4 Stratégie d entreprise Big Data... 5 Intégration des Big Data... 8 Les défis liés à la mise en œuvre des Big Data... 10 Les technologies pour

Plus en détail

Gestion de la relation client : l expérience du Crédit du Nord

Gestion de la relation client : l expérience du Crédit du Nord Gestion de la relation client : l expérience du Crédit du Nord Etat des lieux des processus de DataMining mis en place au Crédit du Nord, des premiers essais de score automatisé à la construction d un

Plus en détail

La Clé informatique. Formation Excel XP Aide-mémoire

La Clé informatique. Formation Excel XP Aide-mémoire La Clé informatique Formation Excel XP Aide-mémoire Septembre 2005 Table des matières Qu est-ce que le logiciel Microsoft Excel?... 3 Classeur... 4 Cellule... 5 Barre d outil dans Excel...6 Fonctions habituelles

Plus en détail

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche

Plus en détail

Projet Business Object

Projet Business Object Projet Business Object Rapports parties 1 et 2 Alexandre DUPONT, Guillaume COUSIN, Laurent PACHAREU et Yoann KERMORVANT Etudiants en licence professionnelle Conception de Systèmes Décisionnels Page 1 sur

Plus en détail

DATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES

DATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES Online Intelligence Solutions DATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES Marion JOFFRE, Chef de produit marketing WHITE PAPER Table des matières CONTEXTE 3 Un suivi précis et détaillé de l ensemble

Plus en détail

STATISTICA Version 12 : Instructions d'installation

STATISTICA Version 12 : Instructions d'installation STATISTICA Version 12 : Instructions d'installation STATISTICA Entreprise Server Remarques : 1. L'installation de STATISTICA Entreprise Server s'effectue en deux temps : a) l'installation du serveur et

Plus en détail

Ici, le titre de la. Tableaux de bords de conférence

Ici, le titre de la. Tableaux de bords de conférence Ici, le titre de la Tableaux de bords de conférence pilotage d entreprise, indicateurs de performance reporting et BI quels outils seront incontournables à l horizon 2010? Les intervenants Editeur/Intégrateur

Plus en détail

TUTORIEL Qualit Eval. Introduction :

TUTORIEL Qualit Eval. Introduction : TUTORIEL Qualit Eval Introduction : Qualit Eval est à la fois un logiciel et un référentiel d évaluation de la qualité des prestations en établissements pour Personnes Agées. Notre outil a été spécifiquement

Plus en détail

Les clients puissance cube

Les clients puissance cube LETTRE CONVERGENCE Les clients puissance cube L intelligence artificielle au service du marketing des services N 28 To get there. Together. A PROPOS DE BEARINGPOINT BearingPoint est un cabinet de conseil

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

THEME PROJET D ELABORATION D UNE BASE DE DONNEES SOUS LE SERVEUR MYSQL

THEME PROJET D ELABORATION D UNE BASE DE DONNEES SOUS LE SERVEUR MYSQL . THEME PROJET D ELABORATION D UNE BASE DE DONNEES SOUS LE SERVEUR MYSQL Mr MEZRED MOHAMED Ingénieur météorologue INTRODUCTION Il existe de nombreuses manières de construire une base de données. En effet,

Plus en détail

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION KEOPS Automation Espace Performance 2B, rue du Professeur Jean Rouxel BP 30747 44481 CARQUEFOU Cedex Tel. +33 (0)2 28 232 555 -

Plus en détail

Communiqué de Lancement

Communiqué de Lancement Direction du Marketing Produits Sage - Division Mid Market Communiqué de Lancement Rapprochement Bancaire 1000 Produit : Rapprochement Bancaire 1000 Bases de Données : Oracle - MS/SQL Server Microsoft

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

BI = Business Intelligence Master Data-Science

BI = Business Intelligence Master Data-Science BI = Business Intelligence Master Data-Science UPMC 25 janvier 2015 Organisation Horaire Cours : Lundi de 13h30 à 15h30 TP : Vendredi de 13h30 à 17h45 Intervenants : Divers industriels (en cours de construction)

Plus en détail

Business Intelligence avec SQL Server 2012

Business Intelligence avec SQL Server 2012 Editions ENI Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel Collection Solutions Informatiques Extrait Alimenter l'entrepôt de données avec SSIS Business

Plus en détail

Guide d exploration de base de données de IBM SPSS Modeler 15

Guide d exploration de base de données de IBM SPSS Modeler 15 Guide d exploration de base de données de IBM SPSS Modeler 15 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p.. Cette

Plus en détail

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Le tout fichier Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique Introduction à l informatique : Information automatisée Le premier ordinateur Définition disque dure, mémoire, carte mémoire, carte mère etc Architecture d un ordinateur Les constructeurs leader du marché

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail