PROJET DATAMINING. Recherche des profils patients dépassant la durée normale de séjour au centre hospitalier de Poissy-St Germain en Laye

Dimension: px
Commencer à balayer dès la page:

Download "PROJET DATAMINING. Recherche des profils patients dépassant la durée normale de séjour au centre hospitalier de Poissy-St Germain en Laye"

Transcription

1 Master MIAGE & DECISION Spécialité : Informatique décisionnelle PROJET DATAMINING Recherche des profils patients dépassant la durée normale de séjour au centre hospitalier de Poissy-St Germain en Laye Etudiants : Alpha Oumar BAH Aurel CRECIUN Tuteur : Professeur Edwin DIDAY 1

2 SOMMAIRE Sommaire 2 INTRODUCTION 3 Première Partie4:Présentation du datamining et du logiciel sodas Objectifs généraux du DATAMINING Caractéristiques et ouvertures l analyse des données symboliques Avantages des objets symboliques 5 2- Etude de marché des outils Datamining Panorama des outils existant sur le marché (Benchmark) Le logiciel SODAS (Symbolic Official Data Analysis System) 7 3- Description sommaire du mode opératoire Les principaux onglets de Sodas Sélection d une base d étude Choix des méthodes à appliquer 10 Partie 2 : ETUDE STATISTIQUE 14 II 1 Présentation de l étude 14 II 1-1 Contexte de l étude et présentation des données 14 II 1-2 L analyse DB2SO : extraction de données symboliques de la base de données relationnelles 16 II-2 Présentation des méthodes et résultats 21 II-2-1 Méthode View 21 a- Présentation de la méthode 21 b. Mise en oeuvre de la méthode View 22 II-2-2 La méthode STAT 25 a- Présentation de la méthode STAT 25 b. Mise en oeuvre de la méthode STAT 26 II-2-3 La méthode DIV : Divisive Clustering on Symbolic Objects 30 a- Présentation de la méthode DIV 30 b- Mise en oeuvre de la méthode DIV 31 II-2-4 La méthode TREE : Decision Tree 34 a-présentation de la méthode TREE 34 b-mise en oeuvre de la méthode TREE 34 II-2-5. La méthode PYR : Pyramical Clustering on Symbolic Objects 35 a- Présentation de la méthode PYR 35 b- Mise en oeuvre de la méthode PYR 36 II-2-6 PCA : Principal Component Analysis 36 a- Présentation de la méthode PCA 36 b. Mise en oeuvre de la méthode PCA 37 II-2-7 La méthode DISS/MATCH 39 a- Présentation de la méthode 39 b-mise en oeuvre de la méthode 39 II-2-8 Les méthodes clustering (SCLUST) 40 a- Présentation de la méthode 40 b- Mise en œuvre de la méthode 40 II-2-9 La méthode de SYKSOM 42 Conclusion 45 2

3 INTRODUCTION Désormais, le Datamining est au coeur de toutes les préoccupations du monde des affaires. C est un processus qui permet de découvrir, dans de grosses bases de données consolidées, des informations jusque là inconnues mais qui peuvent être utiles et lucratives et d'utiliser ces informations pour soutenir des décisions commerciales tactiques et stratégiques. Les approches traditionnelles de la statistique ont des limites avec de grosses bases de données, car en présence de milliers ou de millions d individus et de centaines ou de milliers de variables, on trouvera forcément un niveau élevé de redondance parmi ces variables. Les techniques de datamining interviennent et offrent des réponses à l analyse de données volumineuse et nous permettra d extraire des informations intéressantes et apportent de nouvelles connaissances jusque là inconnues, que les méthodes statistiques classiques n ont pas mit en avant. L exploitation de ces nouvelles informations peut présenter un intérêt pour analyser et interpréter les comportements d individus et ensemble d individus. Les résultats obtenus s insérant dans un dispositif d analyse globale permettent alors de dresser dans des plans stratégiques ou politiques les axes d effort à respecter. Les techniques du datamining sont regroupées dans deux principales catégories : Les méthodes descriptives qui visent à structurer et à simplifier les données issues de plusieurs variables, sans privilégier l'une d'entre elles en particulier, il s agit notamment de l'analyse en composantes principales (ACP), l'analyse factorielle des correspondances (AFC), l'analyse des correspondances multiples (ACM) et des méthodes de classification automatiques. Les méthodes explicatives qui visent à expliquer une variable à l'aide de deux ou plusieurs variables explicatives, les principales méthodes utilisées dans les enquêtes sont la régression multiple, l'analyse discriminante et la segmentation (arbres de décision). L analyse des données symboliques prend actuellement de plus en plus d importance, comme en témoigne le développement du logiciel spécifique SODAS. C est ce logiciel qui va être utilisé dans le cadre de ce projet afin d extraire les données concentrées dans une base de donnée relationnelle de type ACCESS, SQL Server, BO et d y appliquer les principales méthodes d analyse proposées dans SODAS. L étude datamining que nous réaliserons ici porte sur la recherche des profils patients qui dépassent la durée normale de séjour dans un centre hospitalier Le présent rapport est constitué de deux parties. La première est une présentation générale du datamining et du logiciel SODAS. La deuxième partie portera sur la présentation de méthodes, l analyse et l interprétation des résultats obtenus. 3

4 PREMIERE PARTIE PRESENTATION DU DATAMINING ET DU LOGICIEL SODAS 1 - OBJECTIFS GENERAUX DU DATAMINING Les progrès de la technologie informatique dans le recueil et le transport de données font que dans tous les grands domaines de l activité humaine, des données de toutes sortes (numériques, textuelles, graphiques ) peuvent maintenant être réunies et en quantité souvent très importante. Les systèmes d interrogation des données, qui n étaient autrefois réalisables que via des langages informatiques nécessitant l intervention d ingénieurs informaticiens de haut niveau, deviennent de plus en plus simples d accès et d utilisation. Résumer ces données à l aide de concepts sous-jacents (une ville, un type de chômeur, un produit industriel, une catégorie de panne ), afin de mieux les appréhender et d en extraire de nouvelles connaissances constitue une question cruciale. Ces concepts sont décrits par des données plus complexes que celles habituellement rencontrées en statistique. Ces données sont dites «symboliques», car elles expriment la variation interne inéluctable des concepts et sont structurées. Dans ce contexte, l extension des méthodes de l Analyse des Données Exploratoires et plus généralement, de la statistique multidimensionnelle à de telles données, pour en extraire des connaissances d interprétation aisée, devient d une importance grandissante. L analyse porte sur des «atomes», ou «unités» de connaissances (les individus ou concepts munis de leur description) considérés au départ comme des entités séparées les unes des autres et qu il s agit d analyser et d organiser de façon automatique. 1-1 Caractéristiques et ouvertures de l analyse des données symboliques Par rapport aux approches classiques, l analyse des données symboliques présente les caractéristiques et ouvertures suivantes : Elle s applique à des données plus complexes. En entrée elle part de données symboliques (variables à valeurs multiples, intervalle, histogramme, distribution de probabilité, de possibilité, capacité ) munies de règles et de taxonomies et peut fournir en sortie des connaissances nouvelles sous forme d objets symboliques présentant les avantages qui sont développés supra : Elle utilise des outils adaptés à la manipulation d objets symboliques de généralisation et de spécialisation, d ordre et de treillis, de calcul d extension, d intention et de mesures de ressemblances ou d adéquation tenant compte des connaissances sous-jacentes basées sur les règles de taxonomies ; Elle fournit des représentations graphiques exprimant, entre autres, la variation interne des descriptions symboliques. Par exemple, en analyse factorielle, un objet symbolique sera représenté par une zone (elle-même exprimable sous forme d objet symbolique) et pas seulement par un point ; 4

5 1-2 Avantages des objets symboliques Les principaux avantages des objets symboliques peuvent se résumer comme suit : Ils fournissent un résumé de la base, plus riche que les données agrégées habituelles car ils tiennent compte de la variation interne et des règles sous-jacentes aux classes décrites, mais aussi des taxonomies fournies. Nous sommes donc loin des simples centres de gravité ; Ils sont explicatifs, puisqu ils s expriment sous forme de propriétés des variables initiales ou de variables significatives obtenues (axes factoriels), donc en termes proches de l utilisation ; En utilisant leur partie descriptive, ils permettent de construire un nouveau tableau de données de plus haut niveau sur lequel une analyse de données symboliques de second niveau peut s appliquer ; Afin de modéliser des concepts, ils peuvent aisément exprimer des propriétés joignant des variables provenant de plusieurs tableaux associés à différentes populations. Par exemple, pour construire un objet symbolique associé à une ville, on peut utiliser des propriétés issues d une relation décrivant les habitants de chaque ville et une autre relation décrivant les foyers de chaque ville. Plutôt que de fusionner plusieurs bases pour étudier ensuite la base synthétique obtenue, il peut être plus avantageux d extraire d abord des objets symboliques de chaque base puis d étudier l ensemble des objets symboliques ainsi obtenus ; Ils peuvent facilement être transformés sous forme de requête sur une Base de Données. Ils peuvent donc propager les concepts qu ils représentent d une base à une autre (par exemple, d un pays à l autre de la communauté européenne, EUROSTAT ayant fait un grand effort de normalisation des différents types d enquête sociodémographiques). Alors qu habituellement on pose des questions sous forme de requête à la base de données pour fournir des informations intéressant l utilisateur, les objets symboliques formés à partir de la base par les outils de l analyse des données symboliques permettent à l inverse de définir des requêtes et donc de fournir des questions qui peuvent être pertinentes à l utilisateurs. 5

6 2- ETUDE DE MARCHE DES OUTILS DUDATAMINING 2-1 Panorama des outils existant sur le marché (Benchmark) Le datamining est une discipline assez récente, mais le marché est en très forte croissance. Il occupe une place primordiale au sein des entreprises. Les logiciels (outils) phares du datamining sont présentés dans le tableau ci-dessous, on retrouve dans cette liste différentes catégories d outils. Tout d abord la catégorie des petits outils open source ou à moins de comme Solo, Weka, et Alice, puis les outils intermédiaires du marché comme Clementine, Knowledge, Spad et DataMind Pro, qui sont de l ordre de 10 fois plus chers que les petits outils. Et enfin la catégorie des plus connus et les plus performants en terme d algorithme et dont l utilisation nécessitent des solides connaissances en datamining mais avec des prix encore plus élevés, ils sont principalement IMB Intelligent Miner et SAS entreprise Miner. Liste des principaux logiciels du marché Editeur Progiciel Commentaires IBM Intelligent Miner Source Wikipedia.org Pas de volume limite, est son utilisation est destiné aux experts en datamining. ISoft KXEN SAS SPAD SPSS Weka Alice KXEN Analytic Framework SAS9 et Entreprise Miner SPAD Clementine Weka Travaille sur quelques milliers d enregistrements et modélise les extractions sous forme d arbre de décision Outil de datamining Plateforme décisionnelle complète : Intégration de données (ETL, qualité de données...), stockage, métadonnées uniques, portail web, reporting de masse, intéractif ou non, analyse de type OLAP, analyse prédictive, datamining, textmining, applications métiers (marketing, ressources humaines, achats, grande distribution, finance, risque...) et pilotage stratégique de type balanced scorecard Suite logicielle de data mining et text mining : traite quelques milliers d enregistrements mais utilise plusieurs méthodes de modélisation. Ils possèdent des techniques statistiques comme la description automatique de variables, et les analyses multidimensionnelles comme l ACP et l AFC Outils de datamining et textmining : fonctionne avec des volumes de données qui peuvent être immenses et a de multiples méthodes de modélisation Logiciel libre dédié au Data Mining qui fonctionne également avec quelques milliers d enregistrements. Autres outils Solo, Knowledge, DataMind Pro, Knowledge Seeker, Neo Vista, Silicon Graphics, 4Thougth. 6

7 2-2 Le logiciel SODAS (Symbolic Official Data Analysis System) Sodas est un logiciel libre (gratuit) développé dans le cadre du projet Européen EUROSTAT entre des établissements éducatifs et certaines sociétés commerciales. Il permet l extraction des connaissances à partir d une base de données et l analyse de données symboliques définies par généralisation des propriétés des unités statistiques de premier ordre. Il est téléchargeable à l adresse suivante : L idée générale de SODAS est de construire, à partir d une base de données relationnelle, un tableau de données symboliques muni éventuellement de règles de taxonomies. Le but étant de décrire des concepts résumant un vaste ensemble de données et d analyser ensuite ce tableau pour en extraire des connaissances par des méthodes d analyse de données symboliques. SODAS est un logiciel polyvalent, permettant de faire aussi bien de l analyse symbolique et statistique que de classer les données par hiérarchie ou encore par arbre de décision. Même s il offre des richesses analytiques d un niveau équivalent, SODAS n est pas un logiciel de statistiques classique dans la mesure où il manipule des données de type complexe et permet de les représenter graphiquement. De plus, il est destiné à des utilisateurs métiers, sans compétences statistiques ou informatiques, ce qui permet de se concentrer sur ce qui est recherché et non sur la manière d y parvenir. On utilise SODAS afin d extraire des informations à partir d une base de données (ACCESS.), ensuite on applique sur le fichier SODAS crée certaines méthodes d analyse de données symboliques tel que : l analyse factorielle (AFC, ACP) la visualisations graphiques (DStat, View), l analyse discriminante (Tree), classification automatique, etc.. Les différentes étapes d analyse symbolique sous SODAS est résumée comme suit : - Partir d une base de données relationnelles (Access, Oracle, Sql Server ) ; - Définir un contexte par : - les individus, unités statistiques de premier niveau; - les variables qui les décrivent ; - les concepts, unités statistiques de second niveau. - Construire le tableau de données symboliques sous forme d un fichier sodas. - Application des différentes méthodes SODAS et interprétation des résultats. Chaque unité statistique de premier ordre est associée à un concept (unité statistique de second ordre). Ce contexte est défini par une requête sur la base de données relationnelle. Les nouvelles unités statistiques sont les concepts décrits par généralisation des propriétés des unités statistiques de premier ordre qui leur sont associées. Ainsi, chaque concept est décrit par des variables dont les valeurs peuvent être des diagrammes de fréquences (variables qualitatives), des intervalles (variables numériques), des valeurs uniques (éventuellement munies de règles et de taxonomies) selon le type de variables 7

8 et le choix de l utilisateur. Une fois que le fichier de données symboliques est crée, on pourra lui appliquer les différentes méthodes d analyse de données symboliques de SODAS. La figure ci-dessous illustre les différentes étapes successives d une étude réalisée sous SODAS : Fig : Etapes d une étude statistiques avec SODAS 8

9 3- DESCRIPTION SOMMAIRE DU MODE OPERATOIRE 3-1 Les principaux onglets de Sodas Au lancement du logiciel SODAS (version 2.50), la fenêtre principale s affiche (voir cidessous), elle se compose de trois principaux éléments, qui sont : 1- La barre d outils qui comporte 5 menus (Sadas file, Chaining, Options, Window, Help) 2- La fenêtre Methods de la fenêtre principale propose, par groupe les différentes méthodes disponibles sous SODAS, (exemple la méthode Descriptives Statistic (DStat, View)) 3- La fenêtre Chaining de la fenêtre principale gère l enchaînement des méthodes appliquées à la base choisie (fichier SODAS d extension.sds). En tête de la fenêtre chaining, figure l icône BASE représentant le fichier SODAS (.sds) sur lequel les calculs vont être effectués. A la suite de cette icône BASE, on peut placer les icônes des méthodes qui sont regroupées dans la fenêtre «Methods». Une fois que les méthodes sont paramétrées, il faut sauvegarder le fichier chaining d extension «.Fil» avant l exécution de méthodes. Les résultats de chacune des méthodes figureront sous forme d icônes à droit de chaque méthode (voire la figure suivante). Pour visualiser les résultats de chaque méthode, il suffit de cliquer sur l icône. 9

10 3-2 Sélection d une base d étude Tout fichier SODAS possède l extension.sds. C est un fichier de ce type qui va constituer la BASE de notre étude. Pour sélectionner un tel fichier, il faut : - double-cliquer sur l icône BASE - sélectionner notre fichier dans la liste de bases disponibles - cliquer sur OK. Notre filière a été modifiée et maintenant nous pouvons lire le nom de la base associée à notre filière ainsi que son chemin d accès sur le disque dur 3-3 Choix de la méthode à appliquer Nous allons enrichir la filière définie précédemment grâce à des méthodes (Methods) afin d analyser les données de notre base. Pour cela nous pouvons utiliser des filières prédéfinies (Model \ Predefined chaining) ou bien composer nous-mêmes une filière en enchaînant des méthodes issues de la fenêtre Methods. 10

11 Pour insérer de nouvelles méthodes, il suffit de choisir le menu Method et de cliquer sur Insert Method. Un carré vide apparaît alors sous l icône BASE ; nous sélectionnons ensuite la méthode que nous souhaitons appliquer, dans la fenêtre Methods et nous la faisons glisser jusqu à l emplacement vide. Les méthodes constituant maintenant la filière sont affichées à la suite de l icône BASE, selon l ordre défini par l utilisateur, dans lequel elles vont s enchaîner. Chaque méthode est représentée par une icône à gauche de laquelle se trouve son nom ainsi qu une description sommaire. 11

12 Par défaut, les méthodes qui viennent d être insérée sont grisées. Chaque Méthodes est numérotées dans la filière : ce numéro apparaît dans une petite boîte située à gauche de la méthodes. La couleur de cette boîte indique le statut de la méthode : - gris : la méthode ne peut être exécutée car elle n est pas paramétrée - vert : la méthode est exécutable car elle est paramétrée - rouge : la méthode est désactivée. Elle est exécutable mais l utilisateur en interdit l exécution (menu Methods puis Desactivate method). Ensuite, il faut paramétrer la méthode. Il suffit de double cliquer sur l icône de la méthode. Alors, une fenêtre structurée en fiches à onglets s ouvre ; elle regroupe l ensemble des différents paramètres de la méthode. Après le paramétrage des diverses méthodes, l affichage de la filière a changé. Toutes les méthodes sont maintenant exécutables, car paramétrées (les icônes sont rouges). Le paramétrage de toutes les méthodes de la filière étant terminé, nous pouvons l exécuter. Par contre, toute exécution d une filière doit être obligatoirement précédée de sa sauvegarde (Menu Chaining puis Save chaining as et saisie d un nom dont l extension est.fil). Une fois cette opération effectuée, nous exécutons la filière en cliquant sur les sous menus Run chaining du menu Chaining. 12

13 Suite à l exécution de la filière PROJET.FIL (dont le nom apparaît en haut à gauche de la fenêtre), de nouvelles icônes sont apparues dans la fenêtre Chaining, à droite des icônes Méthodes. Ces nouvelles icônes permettent d accéder aux résultats numériques et, le cas échéant, aux résultats graphiques de chaque Méthode exécutée. 1. un double-clic sur cette icône permet de d accéder aux résultats numériques (dans l éditeur de texte, Wordpad) de la méthode SOE 2. cette icône permet d accéder à l éditeur graphique de la méthode SOE 3. un double-clic sur cette icône affiche une représentation graphique de la méthode STAT suivant les paramètres saisis précédemment 4. cette icône entraîne l affichage de la représentation graphique de la classification pyramidale Toutes ces méthodes, ainsi que d autres, seront expliquées plus en détails dans la partie suivante du présent rapport. 13

14 PARTIE 2 : ETUDE STATISTIQUE II 1 PRESENTATION DE L ETUDE II 1-1 Contexte de l étude et présentation des données L étude porte sur des données réelles du centre hospitalier de Poissy-Saint Germain Laye, se sont des données de l exercice 2007, on a procédé à un échantillonnage, les noms et prénoms des patients on été supprimés pour des raisons de confidentialité et le modèle initial a été simplifié pour réaliser cette étude. Objectif de l étude Il s agit d étudier les caractéristiques des différentes groupes des malades par rapport à leur durée de séjour, afin d établir le lien entre les groupes et les malades, qui les composent. Tous les malades ont été répartis en 11 groupes selon leur indice de performance de la durée de séjour (IP_DMS). Cet indice se calcule comme le rapport de la durée de séjour d un malade et la durée de séjour de référence pour la même pathologie. Ainsi, les groupes de séjours des malades ont été définies comme suit: 1. LONG_5 : dépassement de la DMS de référence plus de 3 fois 2. LONG_4 : dépassement de la DMS de référence entre 2 et 3 fois 3. LONG_3 : dépassement de la DMS de référence entre 50% et 200% 4. LONG_2 : dépassement de la DMS de référence entre 25% et 50% 5. LONG_1 : dépassement de la DMS de référence entre 10% et 25% 6. NORMAL : durée de séjour égale à la DMS de référence à 10% près 7. COURT_1 : durée de séjour inférieure à la DMS de référence de 10% à 25% 8. COURT_2 : durée de séjour inférieure à la DMS de référence de 25% à 50% 9. COURT_3 : durée de séjour inférieure à la DMS de référence de 50% à 200% 10. COURT_4 : durée de séjour inférieure à la DMS de référence de 2 à 3 fois 11. COURT_5 : durée de séjour inférieure à la DMS de référence de plus de 3 fois Les individus sont représentés par les séjours. Les concepts sont les 11 groupes de séjours cités précédemment. Compte tenu de l impossibilité d utilisation directe de la base de données de l hôpital et du fait de la protection du modèle de données par les droits d auteurs, nous avons procédé à une extraction des données jugées pertinentes et les organiser sous forme d étoile. Et donc ce modèle est présenté ci-dessous. - DimVILLE contient le nom et le département du domicile d un patient - Dim GHM contient le groupe homogène des maladies - GHM le groupe homogène de maladie - CMD_LIB libellé des catégories majeures de diagnostic - N_DMS la durée normale (durée de référence en France) de séjours en nombre jours. 14

15 - factsejours : contient les séjours et leur caractéristique (NBR_PASS, N_DMS Age. Sexe.. ) - dimum : contient les libellés des unités médicales où le séjour à été effectué. - dimip_dms : contient les libellés des groupes de séjours que nous considéré comme concepts. La variable d insertion (single) se trouve dans la table VAR 15

16 II 1-2 L analyse 1. DB2SO : extraction de données symboliques de la base de données relationnelles a. Généralités DB2SO est le module du logiciel SODAS qui permet à l utilisateur de créer un ensemble de concepts à partir de données stockées dans une base de données relationnelles. On présuppose bien évidemment qu une série d individus est stockée dans la base de données et que ces individus sont répartis entre plusieurs groupes. Ainsi, DB2SO va pouvoir construire un concept pour chaque groupe d individus. Dans ce processus, les variables mères / filles ainsi que les taxonomies sur les variables pourront également être associées avec les concepts créés. b. Présentation de DB2SO Le système de liaisons ODBC de SODAS lui permet d accéder directement aux bases de données et en particulier aux bases Microsoft Access. Pour importer notre base, il faut sélectionner la commande Importation (DB2SO) dans le sous menu Import du menu SODAS file. Un premier écran d importation apparaît alors dans lequel il faut sélectionner le menu File puis New 16

17 L écran suivant nous invite à sélectionner une source de données machine. Dans notre cas, il s agit d une base Microsoft Access. Notre projet a en effet, pour objet l étude d une base de données Microsoft Access. Ce SGBD inclut le driver ODBC permettant l accès de DB2SO à la base de données relationnelles. SODAS ne propose aucun menu de connexion à la base de données car l utilisateur est automatiquement invité à s y connecter quand cela est nécessaire, c est-à-dire lorsqu il souhaite exécuter une requête. A tout moment, l utilisateur peut décider de changer de base de données en choisissant le menu File\Disconnect de l écran ci-dessus. Il sera alors invité à spécifier une nouvelle base de données. 17

18 Une fois, le bon driver choisi, il faut indiquer le fichier.mdb. Pour ce faire, nous cliquons sur OK. L étape suivante consiste à rechercher la base de travail et à la sélectionner 18

19 Lorsque ces étapes préliminaires ont été exécutées, nous allons procéder à l extraction des individus. Pour ce faire, il faut choisir la table qui est le résultat d une requête préalablement exécuté sous Access. Résultat : 1ère colonne = individus 2nde colonne = concepts 3ème colonne et suivante = description des individus Une fois que nous avons effectué toutes les manipulations dans le module DB2SO. Un résumé de toutes les opérations apparaît dans l écran principal suivant : 19

20 20

21 2-Présentation des méthodes et de l analyse Les filières des méthodes appliquées sont présentées dans la figure ci-dessous, la deuxième filière utilise le fichier.sds résultat de DISS. II-2 PRESENTATION DES METHODES ET RESULTATS II-2-1 Méthode View a- Présentation de la méthode L éditeur d objets symboliques View permet aux utilisateurs de visualiser, dans un tableau, tous les objets symboliques présents dans un fichier SODAS et d effectuer quelques modifications sur les données. Cet éditeur permet aussi de visualiser des représentations graphiques en 2 et 3 dimensions et une représentation SOL (Symbolic Object Language) de chaque objet symbolique se trouvant dans le tableau. 21

22 Dans la table, il faut alors sélectionner les concepts (au moins 1) et les variables (au moins 3) que nous souhaitons voir représentés à l écran. Ensuite, suivant notre choix nous voyons apparaître à l écran une étoile zoom, en 2 ou 3 dimensions. Nous pouvons noter que les variables quantitatives sont représentées par des intervalles et que les variables qualitatives sont représentées par des histogrammes. Le bouton SOL, lui, renvoie une description SOL des objets symboliques sélectionnés dans le tableau. b. Mise en oeuvre de la méthode View On remarque l intervalle d age dans les groupes est presque identique : 0-91(97) ans, ce que ne permet pas de les distinguer. Par contre, la répartition par tranche d âge et par sexe, permet de remarquer qu il y a plus d hommes dans des séjours très longs (LONG_5) et plus des femmes dans les séjours, qui dépassent 25% - 300% la durée moyenne de séjour de référence. 22

23 L image suivante permet de comparer le groupe de séjours de durée normale (±10%) avec le groupe des séjours LONG_5. On remarque que ce sont plutôt des hommes âgés (>75 ans), qui peuvent avoir plus des journées de réanimation (NBR_REA), plus de passage dans les services (NBR_PASS), plus d actes (NBR_ACTES) et des diagnostiques (NBR_DIAGS) En transformant les nombres absolus des actes, diagnostics, journées de réanimation en tranches, on remarque que les séjours de durée normale sont caractérisés par un nombre de diagnostic inférieur aux séjours longs. Les séjours longs se caractérisent par plus d actes. Cela peut témoigné des raisons médicales pour lesquels les malades sont restés plus long temps en hospitalisation. D autre côté cela peut être interprété comme une difficulté de prise en charge des malades chroniques par des structures spécialisées. La description SOL caractérise les malades qui ont une durée de séjour normale : NORMAL = SEXE = M (0.43), F (0.57) And NBR_PASS = 1 (0.68), 2 (0.30), 4 (0.02) And CMD_LIB = diges (0.28), nerve (0.04), circu (0.23), obste (0.04), endoc (0.04), VIH (0.02), muscu (0.08), respi (0.06), urolo (0.02), gynec (0.04), derma (0.04), hepat (0.08), orl (0.04), cance (0.02) And TR_AGE = 48_60 (0.15), 61_75 (0.19), 75plu (0.30), 18_25 (0.02), 26_37 (0.26), 38_47 (0.08) And TR_ACTES = 12plu (0.04), 1 (0.43), 7_12 (0.09), 2_3 (0.32), 4_6 (0.11) And TR_DIAG = 7plus (0.26), 4_6 (0.22), 1 (0.14), 2_3 (0.38) And TR_REA = 12plu (0.04), 0 (0.94), 1_5 (0.02) 23

24 Ce sont des femmes de ans (26%) et plus de 75 ans (30%), appartiennent aux catégories majeures de diagnostics (CMD) : maladies de l appareil digestif (28%) et circulatoire (23%). Le diagramme suivant le montre visuellement. On remarque que les malades, avec des séjours qui dépassent la durée de référence, ont eu plus d actes et la tranche de nombre d actes augmente avec le groupe de dépassement de DMS. Exemple : le groupe de durée normale de séjour, ont bénéficié dans la plupart de cas d un seul acte ; le groupe LONG_3 (dépassement de 50% à 200%) ont bénéficié de 4-6 actes ; en même temps le groupe LONG_5 (dépassement de plus de 300%) ont bénéficié de plus de 12 actes. 24

25 II-2-2 La méthode STAT a- Présentation de la méthode STAT STAT permet d appliquer des méthodes, habituellement utilisées pour des données conventionnelles, à des objets symboliques représentés par leur description. Ces méthodes dépendent du type des variables présentes dans la base SODAS avec laquelle nous travaillons. 1. les fréquences relatives pour les variables multi nominales 2. les fréquences relatives pour les variables intervalles 3. les capacités et min/max/mean pour les variables multi nominales probabilistes 4. biplot pour les variables intervalles Le format de sortie des données sera, suivant le choix de l utilisateur, un listing ou bien un graphique. Les graphiques peuvent être modifiés et personnalisés (figures, formes, couleurs, texte, commentaires...) par l utilisateur et ils peuvent également être copiés et sauvegardés. Les fréquences relatives pour les variables multi-nominales Dans cette méthode, nous étudions la fréquence relative des différentes modalités de la variable multi nominale en prenant en compte les éventuelles règles relatives à la base sur laquelle nous travaillons. Le graphique associé à la distribution de la variable pourra, suivant le choix de l utilisateur, être soit un diagramme bâton, soit un diagramme en camembert. Les fréquences relatives pour les variables intervalles Cette méthode a besoin, en entrée, de 2 paramètres : - une variable intervalle I - un nombre de classes k Nous pouvons construire un histogramme pour la variable I sur un intervalle [a,b] découpé en k classes et où a représente la borne inférieure de I et b sa borne supérieure. La méthode va permettre le calcul de la fréquence relative associée à la classe Ck tout en tenant compte du recouvrement de cette classe Ck par les valeurs intervalles de I et ceci pour tous les objets symboliques. Les capacités et min/max/mean pour les variables multi nominales probabilistes La méthode permet de construire un histogramme des capacités des différentes modalités de la variable considérée. Dans l histogramme capacité, la capacité d une modalité est représentée par l union des différentes capacités. En ce qui concerne le graphique min/max/mean, il associe un diagramme représentant l étendue et la moyenne de la probabilité de chaque modalité. Biplot pour les variables intervalles Ce graphique représente un objet symbolique par un rectangle dans le plan de 2 variables sélectionnées par l utilisateur. La dimension de chaque côté du rectangle correspond à l étendue de la variation de l objet symbolique relativement à la variable de l axe considéré 25

26 b. Mise en oeuvre de la méthode STAT Méthode DSTAT pour les variables intervalles Les intervalles de nombre des actes représentés sur le diagramme suivant montre qu un nombre d actes au delà de 66 est réservé aux séjours de longueur extrême (LONG_5). Vu que celle ne concerne que 2 séjours, on s obtiendra de conclusions avant une vérification sur un échantillon plus large. Les catégories majeures de diagnostic sont différentes elles aussi (figure ci-dessous). Dans le groupe normale, sont affectés plutôt les appareilles digestif (28%) et circulatoire (23%). Dans le groupe LONG_3 : circulatoire (20%) et musculo-squeletic (17%) Dans LONG_4 : circulatoire (22%) et dans LONG_5 : nerveux (25%). Cella peut également indiquer les services correspondants, qui ont besoin d un accompagnement dans l étude des flux de patients et une optimisation d utilisation du lit. Cette hypothèse se confirme quand on compare les durées réelles (en bordeaux) et les durées de références (en bleue) 26

27 Le diagramme suivant montre que dans 85% des cas les séjours ne contiennent pas plus de jours de réanimation. La diagramme peut intéressant car on trouve des séjours courts (COURT_2) et extrêmement longues (LONG_5) qui peuvent avoir plus de journées de réanimation. Cela est du, probablement à une différence de la catégorie majeure de diagnostic (CMD) entre les séjours de type COURT_2 et LONG_5. 27

28 Méthode DSTAT pour les variables modales Cette méthode permet de repérer visuellement les catégories majeures de diagnostics (CMD) dans lesquelles on trouve des séjours longues, et par département. La hauteur des barrettes dans le biplot permet de comparer visuellement les nombres de séjours ainsi identifiés. Donc, on peut dire que dans notre échantillon il n y a pas de séjours d obstétrique de durée normale, ou plus courte que la référence, venant de Somme, Val d Oise, ou encore Loire Atlantique. 28

29 Pour justifier, on peut vérifier s il y avait des séjours de durée normale ou courte. Les barrettes bleues dans la ligne «obstétrique» nous révèlent l existence des séjours extrêmement courts (COURT_5). Une autre diagramme nous confirme, que c est une pratique courante chez les obstétriciens de Poissy, de raccourcir la durée de séjour (proba/min=7.55, proba=0.58) 29

30 II-2-3 La méthode DIV : Divisive Clustering on Symbolic Objects a- Présentation de la méthode DIV DIV est une méthode de classification hiérarchique qui part de tous les objets symboliques réunis dans une seule classe et procède ensuite par division successive de chaque classe. A chaque étape, une classe est divisée en deux classes suivant une question binaire ; ceci permet d obtenir le meilleur partitionnement en deux classes, conformément à l extension du critère d inertie. L algorithme s arrête après avoir effectuer k-1 division ; k étant le nombre de classes donné, en entrée, à la méthode par l utilisateur. Il ne s agit pas du seul paramètre à saisir, en entrée de la méthode. L utilisateur doit également choisir les variables qui seront utilisées pour calculer la matrice de dissimilarité, l extension du critère d inertie et pour définir l ensemble des questions binaires utiles pour effectuer le découpage. Au moment de choisir nos variables, il faut être attentif à deux choses principales : - le domaine de définition des variables doit être ordonné car dans le cas contraire, les résultats obtenus seront totalement faux - il n est pas possible de mélanger des variables dont le domaine de définition est continu avec des variables dont le domaine de définition est discret. Dans la fenêtre de définition des paramètres de la méthode DIV du logiciel SODAS, l utilisateur doit choisir entre des variables qualitatives et des variables continues. Trois paramètres doivent également être définis : 1 - la dissimilarité entre 2 objets peut être normalisée ou non. Elle peut être normalisée en choisissant l inverse de la dispersion ou bien l inverse du maximum de la déviation. La dispersion des variables est, ici, une extension aux objets symboliques de la notion de variance. 2 - le nombre k de classes de la dernière partition. La division s arrêtera après k-1 itérations et la méthode DIV aura calculer des partitions de la classe 2 à la classe k. 3 - la méthode DIV offre également la possibilité de créer un fichier partition ; il s agit d un fichier texte contenant une matrice (aij) dans laquelle, chaque ligne i [1,n] correspond à un objet et chaque rangée j [2,k-1] correspond à une partition en j classes. Ainsi, (aij) signifie que l objet j appartient à la classe k, dans la partition en j classes. Une fois ces différents paramètres définis, nous pouvons exécuter la méthode DIV. Nous obtenons, en sortie, un listing contenant les informations suivantes : - une liste de la «variance» des variables sélectionnées, à condition que ces variables soient continues - pour chaque partitions de 2 à k classes, une liste des objets contenus dans chaque classe ainsi que l inertie expliquée relative à la partition 30

31 - l arbre de classification. b- Mise en oeuvre de la méthode DIV La méthode DIV va nous permettre de réaliser une classification hiérarchique des Groupes de séjours par division successive de chaque classe, en partant d une seule classe réunissant tous les groupes de séjours. Cette méthode ne permet pas d étudier à la fois les variables qualitatives et les variables quantitatives. Nous procéderons alors en deux temps correspondant à chacun des types de variables La classification divise propose une classification en 5 clausters avec une inertie expliqué de Cluster 1 : IF 4- [AGE <= ] IS TRUE AND 2- [NBR_ACTES <= ] IS TRUE AND 1- [NBR_REA <= ] IS TRUE Cluster 2 : IF 1- [NBR_REA <= ] IS FALSE Cluster 3 : IF 3- [AGE <= ] IS TRUE AND 2- [NBR_ACTES > ] IS FALSE AND 1- [NBR_REA <= ] IS TRUE Cluster 4 : IF 3- [AGE <= ] IS FALSE AND 2- [NBR_ACTES <= ] IS FALSE AND 1- [NBR_REA <= ] IS TRUE Cluster 5 : IF 4- [AGE <= ] IS FALSE AND 2- [NBR_ACTES <= ] IS TRUE AND 1- [NBR_REA <= ] IS TRUE Classe 1 (Ng=5)!! [AGE <= ]!!! Classe 5 (Nd=3)!! [NBR_ACTES <= ]!!!! Classe 3 (Ng=1)!!!!! [AGE <= ]!!! Classe 4 (Nd=1)!! [NBR_REA <= ]! Classe 2 (Nd=1) On constate que les séjours avec >20 actes et >51 journées de réanimation appartiennent au concept LONG_5 (dépassent > 3 fois la durée de référence) Les individus caractérisés par AGE <= 57.75; NBR_ACTES > ; NBR_REA <= appartiennent au concept NORMAL ou COURT_2. Le reste n est pas divisible avec les variables actuelles. 31

32 La méthode DIV appliquée aux variables modales propose la division suivante : Classe 1 (Ng=1)!! [SEXE = 01]!!! Classe 4 (Nd=1)!! [TR_DIAG = 0001]!!!! Classe 3 (Ng=4)!!!!! [TR_DIAG = 0010]!!! Classe 5 (Nd=4)!! [TR_AGE = ]! Classe 2 (Nd=1) 32

33 On remarque les classes 1 et 4, qui regroupent les séjour LONG_4 et LONG_5 (qui dépassent 2 fois la durée de référence) Leurs caractéristiques sont : Cluster 1 : IF 3- [SEXE = M] AND 2- [TR_DIAG = 7plus] AND 1- [TR_AGE = 61_75 OR 48_60] Cluster 4 : IF 3- [SEXE = F] AND 2- [TR_DIAG = 7plus] AND 1- [TR_AGE = 61_75 OR 48_60] Donc ce sont des hommes et femmes de 48 à 75 ans respectivement, avec plus de 7 diagnostics. 33

34 II-2-4 La méthode TREE : Decision Tree a-présentation de la méthode TREE La méthode Tree nous propose un algorithme par agrandissement d arbres, appliqué à des données imprécises décrites par des concepts probabilistes. La procédure récursive de partitionnement peut être vue comme une recherche itérative d un ensemble organisé d objets symboliques, répondant au mieux aux données initiales. A chaque étape, le découpage optimal est obtenu en utilisant une mesure générale, donnée en paramètre. En sortie, nous obtenons une nouvelle liste d objets symboliques qui permet éventuellement d assigner de nouveaux objets à une classe. Avant d exécuter la méthode, l utilisateur doit choisir l ensemble des variables prédictives parmi : - un ensemble de variables quantitatives ou de variables intervalles - un ensemble de variables qualitative, multi valuées ou modales Ensuite, nous obtenons en sortie un listing contenant les informations suivantes : - la liste des variables utilisées - la liste des objets symboliques appartenant à un «training set» - la liste des objets symboliques appartenant à un «test set» - la liste des noeuds ; chaque noeud étant décrit par une règle - la liste des noeuds terminaux b-mise en oeuvre de la méthode TREE Ci-dessous un extrait des sorties de l exécution de la méthode TREE. ======================================================================= No Nom Leaf Class pas_lo long criterion No true assig. ( 1) ( 2) ======================================================================= 1 LONG_ (*) COURT_ NORMAL COURT_ LONG_ COURT_ LONG_ (*) COURT_ COURT_ LONG_ (*) LONG_ (*) ======================================================================= R(T)=

35 CONFUSION MATRIX FOR TRAINNING SET ================================================= pas_long long Total ================================================= pas_long long ================================================= Total ================================================= L arbre de décision IF ASSERTION IS TRUE (up)! --- x [ ASSERTION ]! IF ASSERTION IS FALSE (down) < 2 >pas_long ( )!!----1[ N_DMS <= ]! < 3 >pas_long ( ) II-2-5. La méthode PYR : Pyramical Clustering on Symbolic Objects a- Présentation de la méthode PYR Il s agit d une classification pyramidale qui généralise la hiérarchisation en autorisant les classes non disjointes à un niveau donné. La pyramide constitue un modèle intermédiaire entre les arbres et les structures en treillis. Cette méthode permet de classer des données plus complexes que ce que nous autorisait le modèle tabulaire et ceci en considérant la variation des valeurs prises par les variables. La pyramide est construite par un algorithme d agglomération opérant du bas (les objets symboliques) vers le haut (à chaque niveau, des classes sont agglomérées). Dans une classification pyramidale, chaque classe formée est définie non seulement par son extension (l ensemble de ses éléments) mais aussi par un objet symbolique qui décrit ses propriétés (l intension de la classe). L intension est héritée d un prédécesseur vers son successeur et nous obtenons ainsi une structure d héritage. La structure d ordre permet l identification de concepts intermédiaires ; c est-à-dire de concepts qui comblent un vide entre des classes bien identifiées. En entrée de cette méthode, l utilisateur doit choisir les variables qui seront utilisées pour construire la pyramide. Ces variables peuvent être continues (des valeurs réelles), des intervalles de valeurs réelles ou bien des histogrammes. L utilisateur sera invité à choisir entre des variables qualitatives et continues mais il lui est également possible de les mélanger. 35

36 b- Mise en oeuvre de la méthode PYR Cette méthode montre aussi la ressemblance des profils LONG_4 et LONG_5 0, , 0, , , 0, , , , 0, , , , , 0, , , , , , 0, , , , , , , 0, , , , , , , , 0, , , , , , , , , 0, , , , , , , , , , 0, , , , , , , , , , , 0, II-2-6 PCA : Principal Component Analysis a- Présentation de la méthode PCA La méthode PCA correspond à l analyse en composante principale classique. Mais au lieu d obtenir une représentation par points sur un plan factoriel, PCA propose une visualisation de chaque concept par des rectangles. L objectif est d étudier l intensité des liaisons entre les variables et de repérer les concepts présentant des caractéristiques voisines. La PCA est donc une méthode factorielle de réduction du nombre de caractères permettant des représentations géométriques des individus et des variables. La réduction se fait par la construction de nouveaux caractères synthétiques obtenus en combinant les variables initiales au moyen des «facteurs». Les éléments de la matrice de données sont des intervalles et chacun décrit la variation de la variable observée (minimum et maximum). La méthode n accepte que les variables continues. Pour chacune, l utilisateur choisit ainsi son maximum et son minimum. 36

37 L exécution de la méthode nous donne deux résultats : 1 - Le listing qui contient - La description de la matrice de données par une table : chaque ligne correspond à une classe. - Les valeurs propres, le pourcentage d inertie et les premières composantes principales. Chaque classe est caractérisée d abord par deux composantes principales et visualisée dans un plan factoriel par un rectangle. - Les corrélations entre chaque variable descriptive et les composantes principales. 2 - Une représentation graphique des objets symboliques. b. Mise en oeuvre de la méthode PCA La méthode accepte seulement les variables continues, en entrée, et les sorties sont présentées ci-dessous : Corrélation entre variables et facteurs: Var. Factor 1 Factor 2 Factor 3 AGE NBR_ACTES NBR_DIAGS PI_DMS NBR_REA N_DMS Contributions des objets symboliques aux axes (11 objs,3 fact)= Objects Factor 1 Factor 2 Factor 3 LONG_ COURT_ NORMAL COURT_ LONG_ COURT_ LONG_ COURT_ COURT_ LONG_ LONG_ Qualité de représentation des objets symboliques (11 objs,3 fact)= Objects Factor 1 Factor 2 Factor 3 LONG_ COURT_ NORMAL COURT_ LONG_ COURT_ LONG_ COURT_ COURT_ LONG_ LONG_ Le concept LONG_5 a une contribution de 83% au facteur 1. Le facteur 3 a bénéficié de la contribution de reste des concepts. Les 3 premières axes cumulent 97.84% d inertie. 37

38 Encore une fois on constate, que les concepts ne sont pas bien séparés, sauf le concept LONG_5 38

39 II-2-7 La méthode DISS/MATCH a- Présentation de la méthode Several data analysis techniques are based on defining and quantifying a dissimilarity measure between the underlying objects. The method DI (Dissimilarities & Matching) implements several dissimilarity measures between Boolean symbolic objects. The method DI also implements a canonical and a flexible matching operator. Matching is the process of comparing two or more structures to discover their likeness or difference. The definition of matching operators for BSO is deemed important for the development of several symbolic data analysis techniques, such as factor analysis. Wikipedia b-mise en oeuvre de la méthode On présente la matrice de dissimilarité qui sera utilisé pour la construction de la pyramide. et La représentation graphique de la matrice de dissimilarité 39

40 II-2-8 Les méthodes clustering (SCLUST) a- Présentation de la méthode Dans le cadre d un problème de clustering, on dispose d un ensemble de données qui reprend une collection d objets non étiquetés. Les classes sont encore inexistantes. L objectif est alors d obtenir des clusters d objets homogènes, en favorisant l hétérogénéité entre ces différents groupes. La plupart des méthodes de clustering se basent sur une mesure de distance entre deux objets. Ceux-ci étant caractérisés par les attributs, cette notion de distance devra se baser sur des distinctions entre les valeurs prises par les attributs pour les différents objets. On peut donc dire que toutes les techniques de clustering suivent un même principe général qui consiste à minimiser la distance entre deux objets d un même cluster et à maximiser la distance entre deux objets de clusters distincts. b- Mise en œuvre de la méthode Extrait de description du concept: Prototype_1/5 = AGE = [ : ] And SEXE = M (0.54), F (0.46) And NBR_ACTES = [ 1.00 : ] And NBR_DIAGS = [ 2.00 : ] And PI_DMS = [ 3.09 : 8.66 ] 40

41 And NBR_PASS = 5 (0.13), 1 (0.38), 2 (0.25), 3 (0.25) And NBR_REA = [ 0.00 : ] And N_DMS = [ 3.69 : ] And CMD_LIB = digestif (0.13), psychiatri (0.04), nerveux (0.25), traumatism (0.04), autres mot (0.08), circulatoi (0.17), endocrinie (0.04), respiratoi (0.04), urologie (0.08), hepatobili (0.08), andrologie (0.04) And TR_AGE = 48_60 (0.17), 61_75 (0.29), 75plus (0.38), 26_37 (0.04), 38_47 (0.13) And TR_ACTES = 12plus (0.38), 1 (0.13), 7_12 (0.17), 2_3 (0.17), 4_6 (0.17) And TR_DIAG = 7plus (0.67), 4_6 (0.24), 2_3 (0.10) And TR_REA = 12plus (0.17), 0 (0.75), 6_12 (0.04), 1_5 (0.04) And IP_DMS_ID = 10 (1.00) Sur l axe PI_DMS on voie que les prototypes sont bien isolés, le prototype 1/5 regroupe les séjours qui dépassent plus de trois fois la durée normale de séjour, et se sont généralement les hommes qui une maladie du système nerveux, et ils peuvent rester plus longtemps en réanimation (NBR_REA). 41

42 Comme le montre les diagrammes, précédent, une partition en 5 classes n a pas permis de bien isoler les classes : les prototypes se chevauchent. Seul le prototype_1/5 se distingue par un intervalle plus large de nombre d actes et des journées de réanimation. Il se caractérise par un l indice PI_DMS compris entre 0.67 et 0.8, ce que veut dire que les durées de séjour, qui font partie de cette classe constituent 67% - 80% de la durée de séjour de référence ce sont des séjours courtes. Il est composé principalement de malades avec pathologie digestive et musculo squelettique. II-2-9 La méthode de SYKSOM La méthode nous a proposé 25 prototypes ci-dessous un extrait. Cluster 3 ( 1x3) Size 3 List of objects: ( 5) LONG_1 ( 8) COURT_4 ( 11) LONG_2 Cluster 8 ( 2x3) Size 5 List of objects: ( 4) COURT_3 ( 6) COURT_5 ( 7) LONG_4 ( 9) COURT_1 ( 10) LONG_3 Cluster 9 ( 2x4) Size 1 List of objects: ( 2) COURT_2 Cluster 10 ( 2x5) Size 1 List of objects: ( 1) LONG_5 Cluster 13 ( 3x3) Size 1 42

43 List of objects: ( 3) NORMAL Les concepts ne sont pas bien isolés, on peut constater qu il est difficile de faire la distinction entre les différents concepts lorsque le nombre d actes est inférieur à 50 et le nombre de diagnostic inférieur à 22. Au-delà de ces limites le patient aura plutôt un profil d un séjour rallongé. Ses caractéristiques sont représentées sur les diagrammes suivants : 43

44 Cluster 2x5 Cluster 3x3 Le cluster 2x5 représente la plus longue durée de dépassement de séjours et le cluster 3x3 représente les séjours de durée normal. On peut bien observer la différence entre les deux représentations. Sur l axe N_DMS (qui représente la durée de référence) la différence est probablement due au fait qu il est plus facile de dépasser un séjour plus court qu un séjour plus long. 44

DATA MINING - Analyses de données symboliques sur les restaurants

DATA MINING - Analyses de données symboliques sur les restaurants Master 2 Professionnel - Informatique Décisionnelle DATA MINING - Analyses de données symboliques sur les restaurants Etudiants : Enseignant : Vincent RICHARD Edwin DIDAY Seghir SADAOUI SOMMAIRE I Introduction...

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E.

Datamining. Université Paris Dauphine DESS ID 2004/2005. Séries télévisées nominées aux oscars. Enseignant : Réalisé par : Mars 2005. Mr E. Université Paris Dauphine DESS ID 2004/2005 Datamining Séries télévisées nominées aux oscars Mars 2005 Enseignant : Mr E. DIDAY Réalisé par : Mounia CHERRAD Anne-Sophie REGOTTAZ Sommaire Introduction...

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises

Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Master 2 ème Année Ingénierie Statistique et financière Projet de Datamining Supervisé (SODAS) Analyse des régions françaises Réalisé par : Nicolas CHAIGNEAUD Nora SLIMANI Année universitaire 2007-2008

Plus en détail

Critères pour avoir la meilleure équipe!

Critères pour avoir la meilleure équipe! PROJET DATAMINING Basket-ball professionnel "NBA" : Critères pour avoir la meilleure équipe! Réalisé par : Anasse LAHLOU KASSI Houssam Eddine HOUBAINE DESS TIO DESS ID Année Scolaire : SOMMAIRE INTRODUCTION...

Plus en détail

Dossier I Découverte de Base d Open Office

Dossier I Découverte de Base d Open Office ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire

Plus en détail

Université Paris IX DAUPHINE DATE : 24/04/06

Université Paris IX DAUPHINE DATE : 24/04/06 Master Informatique Décisionnelle Application des outils de l'informatique Décisionnelle en entreprise ETUDE SUR LES MARQUES ET LES CONTRUCTEUR DES VÉHICULES APPARTENANT AUX CLIENTS D UNE COMPAGNIE D ASSURANCE

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

MEGA ITSM Accelerator. Guide de Démarrage

MEGA ITSM Accelerator. Guide de Démarrage MEGA ITSM Accelerator Guide de Démarrage MEGA 2009 SP4 1ère édition (juin 2010) Les informations contenues dans ce document pourront faire l objet de modifications sans préavis et ne sauraient en aucune

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Installation Client (licence réseau) de IBM SPSS Modeler 14.2

Installation Client (licence réseau) de IBM SPSS Modeler 14.2 Installation Client (licence réseau) de IBM SPSS Modeler 14.2 Les instructions suivantes permettent d installer IBM SPSS Modeler Client version 14.2 en utilisant un licence réseau. Ce présent document

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

Introduction à Business Objects. J. Akoka I. Wattiau

Introduction à Business Objects. J. Akoka I. Wattiau Introduction à Business Objects J. Akoka I. Wattiau Introduction Un outil d'aide à la décision accès aux informations stockées dans les bases de données et les progiciels interrogation génération d'états

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

Créer et partager des fichiers

Créer et partager des fichiers Créer et partager des fichiers Le rôle Services de fichiers... 246 Les autorisations de fichiers NTFS... 255 Recherche de comptes d utilisateurs et d ordinateurs dans Active Directory... 262 Délégation

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

SQL Server Installation Center et SQL Server Management Studio

SQL Server Installation Center et SQL Server Management Studio SQL Server Installation Center et SQL Server Management Studio Version 1.0 Grégory CASANOVA 2 SQL Server Installation Center et SQL Server Management Studio [03/07/09] Sommaire 1 Installation de SQL Server

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

MEGA ITSM Accelerator. Guide de démarrage

MEGA ITSM Accelerator. Guide de démarrage MEGA ITSM Accelerator Guide de démarrage MEGA 2013 1ère édition (janvier 2013) Les informations contenues dans ce document pourront faire l objet de modifications sans préavis et ne sauraient en aucune

Plus en détail

SUGARCRM MODULE RAPPORTS

SUGARCRM MODULE RAPPORTS SUGARCRM MODULE RAPPORTS Référence document : SYNOLIA_Support_SugarCRM_Module_Rapports_v1.0.docx Version document : 1.0 Date version : 2 octobre 2012 Etat du document : En cours de rédaction Emetteur/Rédacteur

Plus en détail

Database Manager Guide de l utilisateur DMAN-FR-01/01/12

Database Manager Guide de l utilisateur DMAN-FR-01/01/12 Database Manager Guide de l utilisateur DMAN-FR-01/01/12 Les informations contenues dans le présent manuel de documentation ne sont pas contractuelles et peuvent faire l objet de modifications sans préavis.

Plus en détail

Access 2007 FF Access FR FR Base

Access 2007 FF Access FR FR Base ACCESS Basic Albertlaan 88 Avenue Albert Brussel B-1190 Bruxelles T +32 2 340 05 70 F +32 2 340 05 75 E-mail info@keyjob-training.com Website www.keyjob-training.com BTW TVA BE 0425 439 228 Access 2007

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

La place de SAS dans l'informatique décisionnelle

La place de SAS dans l'informatique décisionnelle La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05 EXCEL PERFECTIONNEMENT Version 1.0 30/11/05 SERVICE INFORMATIQUE TABLE DES MATIERES 1RAPPELS...3 1.1RACCOURCIS CLAVIER & SOURIS... 3 1.2NAVIGUER DANS UNE FEUILLE ET UN CLASSEUR... 3 1.3PERSONNALISER LA

Plus en détail

Reporting Services - Administration

Reporting Services - Administration Reporting Services - Administration Comment administrer SQL Server Reporting Services Cet article a pour but de présenter comment gérer le serveur depuis le "portail" de Reporting Services. Nous verrons

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

«Manuel Pratique» Gestion budgétaire

«Manuel Pratique» Gestion budgétaire 11/06/01 B50/v2.31/F/MP005.01 «Manuel Pratique» Gestion budgétaire Finance A l usage des utilisateurs de Sage BOB 50 Solution Sage BOB 50 2 L éditeur veille à la fiabilité des informations publiées, lesquelles

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR HISTORIQUE DES VERSIONS Vers. Date Rédacteur Objet de la modification 1.00 Juillet 2007 GTBO_AGRI Création du document 1.01 Février 2009 SAMOA

Plus en détail

Business Intelligence avec SQL Server 2012

Business Intelligence avec SQL Server 2012 Editions ENI Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel Collection Solutions Informatiques Extrait Alimenter l'entrepôt de données avec SSIS Business

Plus en détail

2 Serveurs OLAP et introduction au Data Mining

2 Serveurs OLAP et introduction au Data Mining 2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

La base de données dans ArtemiS SUITE

La base de données dans ArtemiS SUITE 08/14 Vous préférez passer votre temps à analyser vos données plutôt qu à chercher un fichier? La base de données d ArtemiS SUITE vous permet d administrer et d organiser confortablement vos données et

Plus en détail

Business Intelligence simple et efficace

Business Intelligence simple et efficace Business Intelligence simple et efficace avec Excel et PowerPivot Jean-Philippe GOUIGOUX Table des matières 1 Chapitre 1 Présentation de PowerPivot A. L analyse de données.....................................................

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

Service On Line : Gestion des Incidents

Service On Line : Gestion des Incidents Service On Line : Gestion des Incidents Guide de l utilisateur VCSTIMELESS Support Client Octobre 07 Préface Le document SoL Guide de l utilisateur explique comment utiliser l application SoL implémentée

Plus en détail

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU Table des matières Page I. DÉMARRER... 4 1. Comment accéder au Centre de données de l ISU?... 4 2. Quels sont les types de tableaux statistiques disponibles

Plus en détail

GUIDE DE L UTILISATEUR. Interface Projets Diagrammes Imports / Exports Data Management Industrialisation

GUIDE DE L UTILISATEUR. Interface Projets Diagrammes Imports / Exports Data Management Industrialisation GUIDE DE L UTILISATEUR Interface Projets Diagrammes Imports / Exports Data Management Industrialisation La défense - 13 bis, rue de l'abreuvoir - 92400 Courbevoie - France Tél : +33 1 41 88 02 02 - Fax

Plus en détail

La Clé informatique. Formation Excel XP Aide-mémoire

La Clé informatique. Formation Excel XP Aide-mémoire La Clé informatique Formation Excel XP Aide-mémoire Septembre 2005 Table des matières Qu est-ce que le logiciel Microsoft Excel?... 3 Classeur... 4 Cellule... 5 Barre d outil dans Excel...6 Fonctions habituelles

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Manuel d utilisation de la base de données nationale sur la situation de l enfance en Tunisie CHILDINFO 6.0

Manuel d utilisation de la base de données nationale sur la situation de l enfance en Tunisie CHILDINFO 6.0 2010 Manuel d utilisation de la base de données nationale sur la situation de l enfance en Tunisie CHILDINFO 6.0 Observatoire d Information, de Formation, de Documentation et d Etudes pour la Protection

Plus en détail

26 Centre de Sécurité et de

26 Centre de Sécurité et de 26 Centre de Sécurité et de Maintenance La fenêtre du Centre de sécurité et de maintenance (CSM) rassemble tous les outils nécessaires au contrôle, à l analyse, à la maintenance, à la sauvegarde et au

Plus en détail

WEBSELL. Projet DATAMINING

WEBSELL. Projet DATAMINING WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ] SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1.

Plus en détail

MEDIAplus elearning. version 6.6

MEDIAplus elearning. version 6.6 MEDIAplus elearning version 6.6 L'interface d administration MEDIAplus Sommaire 1. L'interface d administration MEDIAplus... 5 2. Principes de l administration MEDIAplus... 8 2.1. Organisations et administrateurs...

Plus en détail

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA OBJECTIFS : manipuler les fenêtres et l environnement Windows, gérer ses fichiers et dossiers, lancer les applications bureautiques présentes sur son poste. PUBLIC

Plus en détail

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8 Sage 100 CRM Guide de l Import Plus avec Talend Version 8 Mise à jour : 2015 version 8 Composition du progiciel Votre progiciel est composé d un boîtier de rangement comprenant : le cédérom sur lequel

Plus en détail

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012 CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE Edition 2012 AGENDA Qui sommes nous? Présentation de Keyrus Keyrus : Expert en formations BI Nos propositions de formation 3 modes de formations Liste des

Plus en détail

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10 PROGRAMME RÉGIONAL DE RENFORCEMENT DE LA COLLECTE DES DONNÉES STATISTIQUES DES PECHES DANS LES ÉTATS MEMBRES ET DE CREATION D UNE BASE DE DONNÉES REGIONALE Manuel de formation TABLE DES MATIERES INTRODUCTION

Plus en détail

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Formation. Module WEB 4.1. Support de cours

Formation. Module WEB 4.1. Support de cours Formation Module WEB 4.1 Support de cours Rédacteur Date de rédaction F.CHEA 08/02/2012 Les informations contenues dans ce document pourront faire l'objet de modifications sans préavis Sauf mention contraire,

Plus en détail

Révision salariale - Manager

Révision salariale - Manager Révision salariale - Manager Version : V1.0, mise à jour le 29/07/2014 Légende : 1 Information Points d attention Etapes Astuces De quoi s agit-il? VITALIS a pour vocation de permettre et faciliter la

Plus en détail

CREG : http://www.creg.ac- versailles.fr/spip.php?article803

CREG : http://www.creg.ac- versailles.fr/spip.php?article803 OUTILS NUMERIQUES Édu-Sondage : concevoir une enquête en ligne Rédacteur : Olivier Mondet Bla. 1 Présentation Parmi les pépites que contient l Édu-Portail, l application Édu-Sondage est l une des plus

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

SQL SERVER 2008, BUSINESS INTELLIGENCE

SQL SERVER 2008, BUSINESS INTELLIGENCE SGBD / Aide à la décision SQL SERVER 2008, BUSINESS INTELLIGENCE Réf: QLI Durée : 5 jours (7 heures) OBJECTIFS DE LA FORMATION Cette formation vous apprendra à concevoir et à déployer une solution de Business

Plus en détail

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles) SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients

Plus en détail

Guide de l utilisateur. Faites connaissance avec la nouvelle plateforme interactive de

Guide de l utilisateur. Faites connaissance avec la nouvelle plateforme interactive de Guide de l utilisateur Faites connaissance avec la nouvelle plateforme interactive de Chenelière Éducation est fière de vous présenter sa nouvelle plateforme i+ Interactif. Conçue selon vos besoins, notre

Plus en détail

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail

1 Introduction et installation

1 Introduction et installation TP d introduction aux bases de données 1 TP d introduction aux bases de données Le but de ce TP est d apprendre à manipuler des bases de données. Dans le cadre du programme d informatique pour tous, on

Plus en détail

1 Introduction. Business Intelligence avec SharePoint Server 2010

1 Introduction. Business Intelligence avec SharePoint Server 2010 Business Intelligence avec SharePoint Server 2010 1 Introduction Dans le chapitre précédent, nous avons créé une collection de sites et activé les fonctions de restitution décisionnelles du serveur SharePoint

Plus en détail

ProSimPlus HNO3 Résumé des nouvelles fonctionnalités, décembre 2008

ProSimPlus HNO3 Résumé des nouvelles fonctionnalités, décembre 2008 ProSimPlus HNO3 Résumé des nouvelles fonctionnalités, décembre 2008 Cette page présente un résumé des derniers développements effectués dans le logiciel ProSimPlus HNO3. Ceux-ci correspondent à de nouvelles

Plus en détail

Business Intelligence : Informatique Décisionnelle

Business Intelligence : Informatique Décisionnelle Business Intelligence : Informatique Décisionnelle On appelle «aide à la décision», «décisionnel», ou encore «business intelligence», un ensemble de solutions informatiques permettant l analyse des données

Plus en détail

La problématique. La philosophie ' ) * )

La problématique. La philosophie ' ) * ) La problématique!" La philosophie #$ % La philosophie &'( ' ) * ) 1 La philosophie +, -) *. Mise en oeuvre Data warehouse ou Datamart /01-2, / 3 13 4,$ / 5 23, 2 * $3 3 63 3 #, 7 Datawarehouse Data warehouse

Plus en détail

Créer un tableau avec LibreOffice / Calc

Créer un tableau avec LibreOffice / Calc Créer un tableau avec LibreOffice / Calc Réaliser des tableaux LibreOffice / Calc permet de créer des tableaux facilement en utilisant les cellules. En premier lieu, il faut prévoir le nombre de colonnes

Plus en détail

Planifier et contrôler un projet avec Microsoft Project

Planifier et contrôler un projet avec Microsoft Project Planifier et contrôler un projet avec Microsoft Project Martin Schmidt Anteo-consulting.fr 27/02/2009 Principes de base Copyright Anteo-Consulting Page 2 Saisir des tâches Tout nouveau projet commence

Plus en détail

Gestion des fichiers sur micro-ordinateur

Gestion des fichiers sur micro-ordinateur ... 1 Qu est ce qu une gestion de fichier :... 2 Importance d une bonne gestion des fichiers :... 2 Qui doit faire une gestion des dossiers :... 3 Étapes à suivre pour une meilleur gestion des dossiers

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion

Easy to. report. Connexion. Transformation. Stockage. Construction. Exploitation. Diffusion M y R e p o r t, L A S O L U T I O N R E P O R T I N G D E S U T I L I S AT E U R S E X C E L Connexion Transformation Stockage Construction Exploitation Diffusion OBJECTIF REPORTING : De la manipulation

Plus en détail

Your Detecting Connection. Manuel de l utilisateur. support@xchange2.net

Your Detecting Connection. Manuel de l utilisateur. support@xchange2.net Your Detecting Connection Manuel de l utilisateur support@xchange2.net 4901-0128-5 ii Table des matières Table des matières Installation... 4 Conditions d utilisation de XChange 2...4 Définir vos Préférences

Plus en détail

Manuel de formation Spaceman 1 ère journée

Manuel de formation Spaceman 1 ère journée Manuel de formation Spaceman 1 ère journée Table des Matières Présentation des barres d outils et des icônes...4 Présentation de l espace de travail...10 1 ère PARTIE : CONSTRUIRE LE MOBILIER...11 La gondole

Plus en détail

Utiliser un tableau de données

Utiliser un tableau de données Utiliser un tableau de données OBJECTIFS : - Définir une Base de Données. - Présentation : tableau de données. - Création d un tableau de données - Gestion d un tableau de données. - Trier et Filtrer des

Plus en détail

Découvrir la notion de tableau croisé dynamique

Découvrir la notion de tableau croisé dynamique Découvrir la notion de tableau croisé dynamique Excel 2007 en quelques mots... 11 Travailler avec des données en grande quantité... 14 Les apports des tableaux croisés dynamiques... 21 S ouvrir à l informatique

Plus en détail

Analyse comparative entre différents outils de BI (Business Intelligence) :

Analyse comparative entre différents outils de BI (Business Intelligence) : Analyse comparative entre différents outils de BI (Business Intelligence) : Réalisé par: NAMIR YASSINE RAGUI ACHRAF Encadré par: PR. L. LAMRINI Dans le domaine d économies des Big Data et Open Data, comment

Plus en détail

Guide d exploration de base de données de IBM SPSS Modeler 15

Guide d exploration de base de données de IBM SPSS Modeler 15 Guide d exploration de base de données de IBM SPSS Modeler 15 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p.. Cette

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE

clef primaire ; clef étrangère ; projection ; restriction ; jointure ; SQL ; SELECT ; FROM ; WHERE Cas Neptune hôtel Base de données et langage SQL Propriété Intitulé long Formation concernée Matière Notions Transversalité Présentation Description Neptune Hôtel. L interrogation d une base de données

Plus en détail

IBM SPSS Direct Marketing 21

IBM SPSS Direct Marketing 21 IBM SPSS Direct Marketing 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 109. Cette version s applique à IBM SPSS

Plus en détail

ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A.

ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A. ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A. - 1 - PREAMBULE Les conditions générales d utilisation détaillant l ensemble des dispositions applicables

Plus en détail

Communiqué de Lancement

Communiqué de Lancement Direction du Marketing Produits Sage - Division Mid Market Communiqué de Lancement Rapprochement Bancaire 1000 Produit : Rapprochement Bancaire 1000 Bases de Données : Oracle - MS/SQL Server Microsoft

Plus en détail

Le modèle de données

Le modèle de données Le modèle de données Introduction : Une fois que l étude des besoins est complétée, deux points importants sont à retenir : Les données du système étudié Les traitements effectués par le système documentaire.

Plus en détail

UE 8 Systèmes d information de gestion Le programme

UE 8 Systèmes d information de gestion Le programme UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications

Plus en détail