Entreposage et exploitation de documents multidimensionnels évolutifs : le cas des tableaux statistiques

Dimension: px
Commencer à balayer dès la page:

Download "Entreposage et exploitation de documents multidimensionnels évolutifs : le cas des tableaux statistiques"

Transcription

1 Entreposage et exploitation de documents multidimensionnels évolutifs : le cas des tableaux statistiques Detienne V., Vesentini F.*, Hainaut J-L. PReCISE research center / LIBD FUNDP - Université de Namur 21, rue Grandgagnage B-5000 Namur Belgique * chargé de recherches du FRS-FNRS au Centre d Histoire du Droit et de la Justice de l Université catholique de Louvain vdt@info.fundp.ac.be, vesentini@chdj.ucl.ac.be, jlh@info.fundp.ac.be RÉSUMÉ. Un des principaux avantages de la numérisation de documents est l amélioration des possibilités de traitement et de recherche. Lorsque ces documents sont suffisamment structurés, leur contenu informationnel peut être entreposé dans un système de gestion de bases de données (SGBD), outil bénéficiant de capacités de traitement efficaces et dégagées des limites du format d origine. Les tableaux statistiques, de par leur contenu fortement structuré, multidimensionnel et évolutif, sont particulièrement adaptés à ce type de stockage. Le caractère récurrent des processus d extraction et d intégration des informations dans une base de données rend nécessaire le support d une automatisation. L exploitation de la base de données, qui doit considérer le caractère évolutif des informations, requiert également l usage d un outil d analyse automatisé. Cet article traite de la modélisation multidimensionnelle des tableaux statistiques tous domaines d application confondus, présente un prototype d extraction et d intégration de leur contenu dans une base de données et propose un outil d aide à l interprétation de ces données évolutives. ABSTRACT. One of the main advantages of document digitalisation is the improvement of processing and research. Structured documents contents can be stored in a database management system (DBMS) for efficient processing independently of the original format. Statistical tables, which are highly structured, multidimensional and evolving are such documents. Extracting high volume of statistical data and integrating them in a database need to be automated. Database exploitation must address the evolving characteristic of the information so that this task must be automated too. This paper deals with multidimensional modelling of any kind of statistical tables, presents a prototype allowing to extract data and to store them in the database, and put forward a help tool to interpret the changing data. MOTS-CLÉS : entrepôt de documents multidimensionnels, tableaux statistiques, base de données, outil d extraction de données. KEYWORDS: multidimensional documents warehouse, statistical tables, database, data extraction tool. Document Numérique

2 2 Document Numérique 1. Introduction Face à la variété des formats de représentation des documents électroniques, plusieurs techniques d aide à l exploitation des documents numériques ont été développées. Lorsque les documents sont peu ou pas structurés, une solution consiste à indexer leur contenu puis à fournir un système de recherche basé sur un lexique de mots-clés (Camillerapp et al., 2004 ; Galloway et al., 1995). Certains outils enrichissent l indexation en intégrant des meta-données qui permettent de décrire le contenu des documents (Ceheux, 2002 ; Emptoz, 2003). Ces métadonnées et/ou des extraits du contenu du document peuvent également être stockés en XML (Keiper, 2001 ; Dang-Ngoc et al., 2004) ou dans des entrepôts de données (Darmont et al., 2002 ) de manière à faciliter les recherches. Les entrepôts de documents se basent quant à eux sur la structure du document. Celle-ci peut en effet permettre de détecter les sections les plus enclines à répondre aux besoins de l utilisateur. Cette technique permet ainsi de stocker des documents hétérogènes, sélectionnés et filtrés ainsi que de les classer selon des structures logiques communes à l ensemble des documents (Khrouf et al., 2003 ; Khrouf et al., 2005). Parallèlement à ces documents, qui sont par nature électroniques, un volume croissant de documents, souvent plus anciens, sous forme papier sont actuellement numérisés, ce qui autorise leur stockage, leur accès et leur exploitation par des moyens informatiques. Lorsque les documents sont suffisamment structurés, c est-à-dire qu ils sont formés de composants significatifs articulés entre eux et que cette structure est d application pour chacun des documents du corpus, leur contenu informationnel peut être entreposé dans un système de gestion de base de données (SGBD) offrant des possibilités de traitement particulièrement puissantes et dégagées des limites du format d origine. Les tableaux statistiques sont des documents typiquement adaptés à ce type de stockage. Ils présentent en effet une structure multidimensionnelle : ils décrivent des faits (nombres de personnes, de pays, ) mesurés selon différentes dimensions (âge, superficie, ). De plus, les analyses statistiques nécessitant généralement le croisement de multiples tableaux, l utilisation d une technologie optimisant les fonctionnalités de recherche est primordiale et les SGBD répondent complètement à ce besoin. La difficulté majeure lors de la création d une telle base de données ne réside pas seulement dans la modélisation multidimensionnelle des documents, mais dans l extraction de l information et dans son intégration à la base de données. Il s agit d établir les relations qui existent entre les éléments des tableaux statistiques et le schéma de la base de données. Ce tissu de liens étant très dense, le recours à un outil destiné à automatiser le processus d extraction s avère le plus souvent indispensable. Lorsque les données de documents s'étendant sur de longues périodes ont été extraites, puis transférées dans la base de données, se posent souvent des problèmes d'interprétation. Les informations statistiques peuvent en effet subir des glissements sémantiques au cours du temps. Il est donc primordial de s interroger sur la

3 Entreposage et exploitation de documents multidimensionnels évolutifs 3 légitimité des séries de chiffres temporelles, c est-à-dire de se demander si les chiffres représentent la même réalité au cours du temps et s ils peuvent par conséquent être comparés. L analyse systématique de la sémantique des chiffres est une tâche importante et fastidieuse qui requiert, elle aussi, le support d une forte automatisation laissant place, à l occasion, au jugement de spécialistes. Le projet Quetelet.net s'inscrit dans cette problématique. Il vise à la construction d un système critique de numérisation, d intégration et d accès aux statistiques pénales publiées en Belgique depuis 1830 (Detienne et al., 2005). Outre le fait que l'essentiel du corpus se présente sous la forme d'ouvrages imprimés, son originalité repose sur l inclusion au sein même de l application d un appareillage critique éclairant les usagers quant aux éventuelles variations de sémantique des chiffres présentés. Ce système est appliqué aux statistiques pénales, mais il est construit de façon générique, de sorte qu il puisse être utilisé dans tout autre domaine statistique, économique, démographique ou médical par exemple. Cet article se concentre sur les aspects méthodologiques et technologiques de la numérisation, de l intégration et de l exploitation des données développés dans le cadre du projet Quetelet.net. La section 2 propose une méthode d entreposage des données. La conception et l implémentation de la base de données font l objet de la section 3, tandis que l extraction des données présentées sous forme de tableaux et leur intégration à la base de données sont décrites dans la section 4. La méthode de génération automatique de commentaires critiques est brièvement décrite dans la section 5. La section 6 conclut l article. 2. Méthode d entreposage des données Les tableaux statistiques sont des documents présentant des caractéristiques très typées. D une part, ils sont fortement structurés et représentent des concepts en principes parfaitement définis. D autre part, ils possèdent une dimension temporelle lorsqu ils décrivent des réalités qui s échelonnent dans le temps. Plusieurs techniques permettent de stocker des données structurées. Les informations peuvent être enregistrées dans le format XML ou intégrées dans un SGBD. Cependant, les analyses statistiques requérant en général le croisement et l agrégation de données issues de différents annuaires et tableaux, le choix se portera sur le SGBD qui est plus efficace en ce qui concerne les possibilités de recherche et de croisement de données. Ce type d outil supporte en effet l'interprétation de requêtes complexes et offre des temps de réponse extrêmement performants, même lorsqu'on se limite aux fonctionnalités du langage SQL standard, à l'exclusion des extensions d'analyse de données de SQL3. Etant donné la structure précise des tableaux statistiques, l intégralité de leur contenu informationnel peut être stocké dans une base de données. Les informations sont réparties dans des tables matérialisant différents concepts. Les données issues

4 4 Document Numérique des documents sont par conséquent organisées d'une manière différente, bien qu'équivalente sur le plan informationnel, de celle sous laquelle elles se présentent naturellement sur papier. L entreposage de tableaux statistiques requiert la conception, l implémentation et le chargement d une base de données à partir de tableaux disponibles soit sous format électronique, soit sous format papier. Un tableau comporte deux catégories d information : la structure des données, parfois appelée méta-données, d une part, et les données proprement dites d autre part (Figure 1). L entreposage des données s articule en deux phases qui correspondent au traitement de ces deux catégories (Figure 2). La première phase consiste à modéliser la structure du tableau et à en dériver la structure de la base de données, sous la forme d'un schéma. Il est alors possible de créer la base de données. C est au cours de la seconde phase que le remplissage de la base de données est réalisé à l aide des valeurs présentes dans le tableau. Figure 1. Fragment de tableau de la statistique criminelle de 1952

5 Entreposage et exploitation de documents multidimensionnels évolutifs 5 tableaux statistiques images phase concernant la structure du tableau conception et implémentation de la base de données base de données phase concernant les données du tableau remplissage de la base de données Figure 2. Les deux phases de l'entreposage des documents statistiques 3. Création de la structure de la base de données 3.1. Concepts représentés dans les tableaux statistiques Tout tableau statistique décrit des faits observables mesurés selon différentes dimensions. Dans le tableau de la Figure 1, par exemple, le fait chiffré est un nombre de condamnés, comptage réalisé selon cinq dimensions : la profession (Jardinage, etc.), l état social (Patrons), le groupe générique de l infraction commise (Calomnies et injures), le sexe (HOMMES) et le temps (ANNEE 1952). La position de ces dimensions n'est ni unique ni uniforme : profession et état social apparaissent dans l intitulé des colonnes et dans le titre, alors que groupe générique de l infraction commise n est indiqué que dans le titre. Concernant les valeurs, l instanciation des dimensions profession et état social se décline dans les colonnes 1 et 2. La liste des groupes d infractions fournit pour sa part les intitulés des colonnes 3 à 11. Quant aux dimensions sexe et temps, leurs noms ne sont pas évoqués tels quels. Il faut se référer au sous-titre pour en trouver les valeurs (hommes et année 1952) et déduire les dimensions qu elles représentent. Pour hommes, c est la consultation du tableau suivant concernant les femmes qui permet de déduire que cet intitulé représente un type de donnée relatif au sexe dans une division hommes/femmes. Cette description d un tableau aux apparences des plus ordinaires montre combien la présentation des structures et des données est hétérogène. Elle souligne par ailleurs le lien intime souvent chargé de sémantique qui lie le tableau à sa place dans le recueil. Il convient dès lors de maîtriser parfaitement la diversité de présentation des statistiques avant d envisager la structuration de la base de données.

6 6 Document Numérique 3.2. Structuration de la base de données L'élaboration de la structure de la base de données commence par une étape d'analyse qui consiste à modéliser les types de données des tableaux statistiques. Les éléments de ces tableaux doivent être décrits de manière abstraite et indépendante de toute technologie. Le modèle Entité-association permet de décrire un domaine d application sous la forme d'un schéma conceptuel constitué d un ensemble d entités, dotées de propriétés et en association les unes avec les autres, et ce, sans référence aux notions techniques de tables, colonnes et autres index (Hainaut, 2005). DIMENSION Nom id: Nom appartenance caractérisation 1-1 CARACTERISTIQUE Signification id: caractérisation.dimension Signification 1-1 SEMANTIQUE Nom Définition id: appartenance.dimension Nom instanciation 1-1 NOMENCLATURE Nom Nom_l2[0-1] id: Nom instanciation.caracteristique signification hiérarchie contient est compris dans 0-1 GROUPE Type Total Début id: Type Début 1-1 représentation TYPE Numero Total Nom[0-1] id: Numero groupement Position est le père de est le fils de hiérarchie appartenance 1-N FAIT Id Chiffre Unité de compte Type de compte Début id: Id 1-1 appartenance Contraintes d'intégrité : Les nomenclatures d'un même groupe doivent appartenir à la même dimension TABLEAU Statistique Numéro Titre Titre_l2[0-1] Sous-titre[] Sous-Titre Sous-titre_l2[0-1] Prem. page Dern. page Début id: Statistique Numéro Début Figure 3. Schéma conceptuel des tableaux statistiques.

7 Entreposage et exploitation de documents multidimensionnels évolutifs 7 Un domaine d application est perçu comme constitué d entités concrètes ou abstraites. Dans l univers de la statistique, on repère des tableaux, des faits mesurés et des dimensions. On considère que chacun d entre eux est une entité du domaine et que chaque entité appartient à une classe ou un type d entités. On définit dès lors naturellement trois types d entités qu on nommera TABLEAU, FAIT et DIMENSION (Figure 3). Un tableau est issu d une statistique. Dans notre exemple, il s agit de la statistique criminelle. Il possède un numéro (exemple de valeur : "3"), un titre ("condamnés répartis par profession, état social et groupe générique de l infraction commise") qui peut être mentionné dans une seconde langue, éventuellement un ou plusieurs sous-titres également notés dans les deux langues ("hommes"), les numéros de page du tableau (50 à 50), et une période pour laquelle il est valide ( au ). On modélise ces caractéristiques en allouant au type d entités TABLEAU les attributs Statistique, Numéro, Titre, Titre_l2, Sous-titre décomposé en Sous-titre et Sous-titre_l2, Prem. Page, Dern. Page, Début et. De même, un fait mesuré (FAIT) est représenté par un chiffre ("3" pour le premier chiffre du tableau), une unité de compte ("condamnés"), un type de compte ("nombre"), et une période de validité ( au ). Il existe un lien entre un tableau et chacun des chiffres qu il contient. On dira que tous les liens de cette nature appartiennent au type d associations appartenance entre les types d entités TABLEAU et FAIT. Un tableau contient de zéro à plusieurs chiffres () alors qu un chiffre ne peut appartenir qu à un seul tableau (1-1). Notre exemple comporte, outre le temps, quatre DIMENSIONS dénommées profession, état social, infraction et sexe. Le concept du temps est représenté par les attributs Début et spécifiant la période de validité de l'entité. Les éléments des nomenclatures, c est-à-dire des ensembles de valeurs de chacune des dimensions citées dans le tableau, sont représentés par le type d entités NOMENCLATURE. La dimension état social, par exemple, comporte les éléments de nomenclature {patrons, employés, ouvriers, aidants, indéterm.}. NOMENCLATURE et DIMENSION sont liés via le type d entités CARACTERISTIQUE qui précise la signification de l élément de la nomenclature. Patrons, employés, ouvriers, aidants et indéterm., par exemple, sont les noms des éléments de la nomenclature de la dimension état social ("nom" est la valeur de l attribut signification de CARACTERISTIQUE). Considérons une dimension lieu dont une des valeurs de nomenclature est "arrondissement d Arlon". Arrondissement est dès lors le type de lieu (signification a la valeur "type"), et Arlon est le nom du lieu (signification a la valeur "nom"). Ces deux valeurs d'éléments de nomenclature sont alors répertoriées dans un même type (TYPE). Les types de chaque dimension constituent des typologies de structure hiérarchique (type d associations hiérarchie) qui permettront à l utilisateur de formuler ses requêtes (Detienne et al., 2005). Un groupe (GROUPE) est un type auquel on associe une dimension temporelle (Vstart et Vend). Chaque groupe correspond à un type (1-1) alors qu à un type peuvent être associés un nombre quelconque de groupes (). C'est à des groupes et leurs caractéristiques temporelles que sont associés les faits mesurés (FAIT). Pour chaque

8 8 Document Numérique groupe, il est spécifié s il s agit d une valeur primaire ou d une valeur agrégée (total). Cette information permettra de calculer des totaux à partir des valeurs primaires et de les comparer aux totaux mentionnés dans les tableaux, les éventuelles divergences n'étant pas corrigées, mais simplement identifiées. Il peut exister une relation hiérarchique entre deux groupes (hiérarchie). Le canton de Vilvorde par exemple fait partie de l arrondissement de Bruxelles. La sémantique d un groupe peut être décrite dans le type d entités SEMANTIQUE sous la forme d'une annotation. Ce schéma conceptuel 1 est un méta schéma qui représente à la fois les modèles en étoile, en flocons de neige et en cubes utilisés dans le domaine des entrepôts de données (data warehouses). Il présente dès lors un caractère générique et est par conséquent valide pour tous les tableaux statistiques, quel que soit le domaine d application analysé. Le schéma conceptuel, qui modélise les statistiques indépendamment de toute contrainte technologique, est ensuite transformé selon une procédure standard (Hainaut, 2005) en un schéma logique sémantiquement équivalent mais conforme au modèle des SGBD relationnels (Figure 4). Le schéma logique est alors traduit dans le langage de définition de données (SQL-DDL) du SGBD sélectionné et compilé. Les structures de la base de données sont créées et peuvent désormais accueillir les valeurs extraites des tableaux. 4. Extraction des données 4.1. Nécessité d un outil de collecte L objectif de l extraction des données est d'identifier, copier et enregistrer les éléments statistiques des tableaux dans les tables appropriées de la base de données. Le tissu de liens entre le tableau et son schéma logique étant très dense (Figure 4), le recours à un outil de collecte destiné à automatiser, au moins partiellement, le processus d extraction des données et celui de leur stockage dans la base de données est essentiel. La solution idéale consisterait à analyser le document numérique à l aide d un outil permettant de reconstruire sa structure logique. En d autres termes, les liens entre le tableau et le schéma seraient automatiquement identifiés. Chacun des éléments du tableau serait ainsi associé au fait, à la dimension ou à l élément de nomenclature qu il représente et pourrait être enregistré dans la base de données. Cependant, la représentation des dimensions et de leurs valeurs dans les tableaux statistiques est 1 Certaines contraintes d intégrité liées au caractère temporel du schéma ne sont pas explicitement déclarées. Par exemple, l intervalle de validité [, ] d un fait doit être compris dans l intervalle de validité [, ] du tableau qui lui est associé (Detienne et al., 2001). Elles devront être garanties par toute application exploitant les données.

9 Entreposage et exploitation de documents multidimensionnels évolutifs 9 très hétérogène et temporellement instable, aussi bien entre les tableaux qu entre les recueils. L intervention humaine se révèle dès lors nécessaire pour identifier à quelles dimensions correspondent les intitulés des tableaux. DIMENSION Nom id: Nom CARACTERISTIQUE Dimension Signification id: Dimension Signification ref: Dimension HIERARCHIE_T Pere Fils id: Pere Fils ref: Fils ref: Pere SEMANTIQUE Id Dimension Nom Définition id: Id ref: Dimension GROUPE Type Total Semantique id: Type ref: Semantique ref: Type NOMENCLATURE Dimension Signification Nom Nom_l2[0-1] id: Nom Dimension Signification ref: Dimension Signification GROUPEMENT Nom Dimension Signification Type Position Nom_l2[0-1] id: Type Nom Dimension Signification ref: Nom Dimension Signification ref: Type APPARTENANCE Fait Groupe _Gr _Gr id: Fait Groupe _Gr _Gr ref: Groupe _Gr _Gr equ: Fait TYPE Numero Nom[0-1] Total id: Numero HIERARCHIE Fils Pere id: Fils Pere ref: Pere ref: Fils FAIT Id Chiffre Unité de compte Type de compte Statistique NumTab _Tab _Tab id: Id ref: Statistique NumTab _Tab _Tab TABLEAU Statistique Numéro Titre Titre_l2[0-1] Prempage Dernpage id: Statistique Numéro SOUSTITRE Statistique Tableau Sous-titre Soustitre_l2[0-1] id: Statistique Tableau Sous-titre ref: Statistique Tableau Figure 4. Liens entre un tableau statistique et son schéma logique relationnel

10 10 Document Numérique Dans le cadre du projet Quetelet.net, les documents sources se présentent sous la forme de photographies numériques des annuaires statistiques sur papier. La mauvaise qualité de ces recueils certains volumes ont plus de 175 ans - rend pour l instant irréaliste l utilisation de logiciels de reconnaissance optique de tableaux. De plus, ces outils sont peu adaptés à l examen de documents d une telle complexité structurelle. Des signes typographiques variés tels que des accolades, des guillemets, des tirets ou des abréviations (par exemple idem) sont en effet largement utilisés et malheureusement polysémiques. La compréhension de leur sémantique, triviale pour l être humain, n'est actuellement pas à la portée des outils de reconnaissance (Figure 5). Le choix s'est donc porté sur un encodage manuel assisté, basé sur un outil de collecte qui, par l intermédiaire d une interface graphique, permet la création des liens entre les éléments statistiques et la structure de la base de données. L encodage semi-automatique, lié aux caractéristiques de sources historiques de mauvaise qualité, laissera la place à une procédure automatisée lorsque les statistiques plus récentes seront fournies sous forme électronique (fichiers Excel par exemple). Le travail d'encodage se résumera alors à établir les correspondances entre le format électronique et le schéma de la base de données. Figure 5. Exemple de complexité structurelle d un tableau. Les accolades indiquent que les intitulés des infractions se ventilent sur plusieurs lignes. Les guillemets mentionnent la répétition du terme noté à la ligne supérieure. Les tirets représentent un chiffre égal à zéro et non une absence de donnée Encodage des données Encodage en deux phases La méthode adoptée propose un encodage en deux temps (Figure 6). La première phase ou encodage sémantique consiste à décrire, au moyen d'un formulaire, la structure des tableaux. L'encodeur, qui doit justifier d'une bonne connaissance du domaine statistique étudié mais d aucune connaissance particulière en bases de données, y précise pour chaque intitulé de ligne ou de colonne, le concept que celui-ci illustre, son nom, sa position dans le tableau, etc. Au cours du remplissage de ce formulaire, les informations nécessaires à la formalisation des correspondances entre les éléments du tableau et le schéma de la base de données sont saisies. Un formulaire HTML imitant le tableau statistique source est alors généré automatiquement à partir des informations du formulaire de description. Ce

11 Entreposage et exploitation de documents multidimensionnels évolutifs 11 tableau généré comporte le titre et les intitulés de lignes et de colonnes, mais les cellules destinées à recevoir les chiffres sont vides. La deuxième phase consiste en l'encodage des chiffres. Cette tâche peut être réalisée par une personne sans connaissances ni en statistiques, ni en informatique. Le résultat est un tableau entièrement complété dont les liens avec le schéma de la base de données sont formellement établis. Le remplissage est ensuite effectué automatiquement. encodage sémantique encodage des chiffres tableau statistique formulaire de description description de la structure du tableau génération d un formulaire analogue au tableau formulaire HTML sans chiffre encodage des chiffres formulaire HTML avec chiffres remplissage automatique de la BD base de données Figure 6. Méthode d encodage des données. Les tâches d encodage sont spécifiées par la présence d un personnage Encodage sémantique Le formulaire de description des tableaux permet de décrire à la fois la sémantique du titre ainsi que celle de chacun des intitulés. Un formulaire de structure analogue à celle du tableau analysé est ensuite généré en vue de la saisie des chiffres Informations relatives à l ensemble du tableau La description d un tableau implique la saisie des informations relatives à son identification, c'est-à-dire son titre, ses éventuels sous-titres, son numéro, sa période de validité et la statistique à laquelle il appartient (Figure 7). Les statistiques étant parfois multilingues, il est nécessaire d enregistrer les données simultanément dans toutes les langues, de manière à éviter l encodage de tableaux distincts. Les informations figurant dans le titre ou le sous-titre et qui ne sont pas répétées au sein même du tableau sont considérées comme des intitulés à part entière caractérisant l ensemble des chiffres. Dans notre exemple (Figure 1), le sous-titre hommes spécifie que tous les chiffres du tableau représentent des condamnés du sexe masculin. Cette précision ne figure pas dans les intitulés de lignes et de colonnes et doit donc être stipulée, au moment de l encodage du sous-titre, comme une information décrivant l ensemble des faits mesurés.

12 12 Document Numérique Figure 7. Description du titre d un tableau Figure 8. Formulaire de saisie des intitulés

13 Entreposage et exploitation de documents multidimensionnels évolutifs 13 Figure 9. Tableau d encodage des chiffres Intitulés de lignes et de colonnes Les intitulés de ligne ou de colonne sont décrits les uns à la suite des autres (Figure 8). L objectif est de définir la dimension représentée par chacun d eux. Pour certaines dimensions, le nom de l intitulé, c est-à-dire l élément de la nomenclature, est la seule information à stipuler. Pour d autres dimensions, il est nécessaire de mentionner des renseignements complémentaires. Pour un lieu, par exemple, on notera non seulement le nom du lieu (Bruxelles, Anvers, ) mais également son type (canton, commune, ). La position de l intitulé dans le tableau, c'est-à-dire la ligne, la colonne et le niveau auxquels il se situe, est également saisie afin de préparer la génération du formulaire analogue au tableau. Il apparaît que certaines structures de tableaux se répètent d une période à l autre. L encodeur a dès lors la possibilité de copier en tout ou en partie les données saisies précédemment pour un autre tableau Génération du tableau destiné à la saisie des chiffres Grâce à la description du tableau statistique, un formulaire similaire au tableau source et destiné à recevoir les chiffres est généré automatiquement (Figure 9).

14 14 Document Numérique Encodage des chiffres et garnissage de la base de données Lorsque tous les chiffres ont été introduits, les requêtes de remplissage de la base de données sont composées automatiquement grâce aux informations stockées au cours des deux types d encodage (Figure 10). Le générateur de requêtes, qui établit les liens entre le tableau et la base de données, considère que les concepts sont des dimensions et que les noms des intitulés sont des nomenclatures de type nom (caractéristique). Quant aux chiffres, ils sont analysés comme des faits. Leur position dans le tableau permet de définir leurs liaisons avec les nomenclatures. Le chiffre situé à la colonne x et à la ligne y est associé aux intitulés localisés en colonne x ou en ligne y, tous niveaux confondus. insert into dimension set nom="profession" ; insert into caracteristique set dimension="profession", signification="nom" ; insert into nomenclature set dimension="profession",signification="nom",nom="jardinage, culture maraîchère, arboriculture, horticulture, viticulture" ; insert into type set numero=1, total="non"; insert into groupement set dimension="profession", signification="nom", nom="jardinage, culture maraîchère, arboriculture, horticulture, viticulture", type=1, position=1 ; insert into groupe set type=1, total="non", debut=' ', fin=' ' insert into fait set chiffre=3, unite_compte="condamnés", type_compte="nombre", debut=' ', fin=' ', statistique="criminelle", numtab="3", debut_tab=' ', fin_tab=' ' ; insert into appartenance set fait=1, groupe=1, debut_gr=' ', fin_gr=' ' Figure 10. Exemples de requêtes de remplissage de la base de données Ces requêtes exécutées, la base de données contient la même information que le tableau statistique. Un extrait des données correspondant au tableau de la figure 1 est représenté graphiquement à la Figure Exploitation et appareillage critique Une base de données statistiques couvrant de longues périodes peut poser des problèmes complexes d'interprétation lors de son exploitation. Le chiffre, s il constitue un puissant outil d analyse, n en reste pas moins un objet d histoire. Rendant compte d une réalité évolutive dans le temps, il est produit à chaque instant par des institutions données selon des procédures définies, lesquelles évoluent. Le chiffre a donc lui aussi un passé qui a modelé sa sémantique. Avant d interpréter une série temporelle de chiffres, il convient donc de distinguer les composantes stables de sa sémantique de celles qui ont évolué dans le temps. (Detienne et al., 2005) Ce sont essentiellement les nomenclatures des dimensions qui évoluent au cours du temps, entraînant notamment l'apparition de phénomènes de synonymie et de polysémie lors des exploitations diachroniques. Deux intitulés (noms d'éléments) distincts représenteront la même réalité à des périodes différentes alors qu'ailleurs,

15 Entreposage et exploitation de documents multidimensionnels évolutifs 15 un même intitulé subira d'une période à l'autre un glissement sémantique. On assistera également à des restructurations plus complexes de nomenclature : regroupement, éclatement, suppression, introduction, remplacement, renommage, recomposition d'éléments par exemple. Parallèlement à l évolution des nomenclatures des dimensions, il faut également tenir compte des modifications des procédures de construction des chiffres qui affectent, elles aussi, leur signification. DIMENSION groupe générique de profession état social sexe l infraction commise caractérisation 1-1 CARACTERISTIQUE nom nom nom nom instanciation 1-1 NOMENCLATURE Jardinage, culture maraîchère,... patrons... Indéterm. Crimes et délits Destructions, dégradations,... hommes groupement TYPE représentation 1-1 GROUPE appartenance 1-N FAIT chiffre: 3 année 1952 chiffre: 2 année 1952 Figure 11. Liens entre les principaux concepts de la base de données (cases gris clair) et leurs instances (cases gris foncé) Ce phénomène a fait récemment l'objet d'études dans le domaine voisin des entrepôts de données (data warehouses). (Vaisman et al., 2002) propose un prototype supportant la mise à jour des dimensions. Cet outil permet également de gérer la maintenance de vues, c est-à-dire d ensembles de faits mesurés selon certaines dimensions, qui doivent être actualisées en fonction des modifications apportées aux dimensions. D autres études se penchent sur la gestion de versions multiples de schémas liées à des périodes déterminées, ainsi que sur la résolution des requêtes portant sur des périodes couvrant plusieurs versions. (Eder et al., 2001) présente une extension du modèle multidimensionnel de données employé habituellement dans les entrepôts de données, de manière à supporter les évolutions des éléments des dimensions. Ce modèle temporel permet l enregistrement des

16 16 Document Numérique différentes versions des éléments des dimensions s échelonnant dans le temps. Des règles établissent les correspondances entre les données des diverses versions temporelles. Le système peut ainsi répondre correctement aux requêtes couvrant plusieurs versions en établissant les transformations de données adéquates. (Golfarelli et al., 2004) propose quant à lui une approche selon laquelle le concepteur peut décider de modifier les données des anciennes versions afin d augmenter les possibilités d interrogation couvrant des versions multiples. Dans le cadre de tableaux statistiques s'étendant sur de longues périodes, le traitement formel de l'évolution des nomenclatures n'a pas été jugé réaliste et a été écarté au profit d'une approche semi-formelle permettant de prendre en compte des aspects spécifiques connus des seuls experts du domaine. La solution optimale pour garantir la légitimité des séries temporelles est de définir la sémantique des éléments des nomenclatures qui décrivent les chiffres, puis de comparer, pour chacune des dimensions, les sémantiques des chiffres confrontés sur la ligne du temps. Si elles sont identiques, les chiffres peuvent être comparés. Si elles sont contradictoires, il faut en tenir compte dans l interprétation de la série [1]. N : ensemble des types d une typologie n N, S n représente, dans un formalisme approprié, la sémantique du type n n N, S ( ) ( n) p : sémantique dans un formalisme approprié du type n pendant la période p n N, S( n) S( n) chiffres comparables t = t+1 n N, S( n) S( n) +1 chiffres non comparables [1] t t Cependant pratiquement, dans de nombreux domaines d application, il est très difficile, voire impossible, de décrire de manière formelle la sémantique de tous les éléments de chaque nomenclature. Dans le cas de statistiques pénales par exemple, pour la dimension des infractions, il faudrait reconstituer et formaliser l'historique du code pénal, ce qui constituerait une tâche d une ampleur colossale. Pour pallier ce problème, des outils permettant de repérer la plupart des évolutions de nomenclatures peuvent être utilisés. Il suffit de construire, pour chaque dimension, une typologie affichant une structure hiérarchique de relation d ordre partiel de types dont la racine correspond au nom de la dimension et dont les feuilles sont les éléments des nomenclatures présentes dans la statistique. Les niveaux intermédiaires regroupent les éléments des nomenclatures par thèmes. Lors de la comparaison de deux chiffres appartenant à deux périodes différentes, il convient dès lors de consulter la typologie de chacune des dimensions décrivant chaque chiffre. La procédure [2] consiste à sélectionner la feuille qui correspond à l intitulé analysé, à déterminer son type parent, puis à répertorier l ensemble des types fils de ce dernier pour chaque période étudiée. Si les partitions d intitulés sont identiques pour les deux périodes, il y a de fortes chances que les sémantiques

17 Entreposage et exploitation de documents multidimensionnels évolutifs 17 n aient pas évolué. Dans le cas contraire, il convient de s interroger sur un éventuel glissement sémantique. N : ensemble des types d une typologie n N, P n désigne l élément parent du type n dans la hiérarchie ( ) ( n) n N, E désigne les types enfants du type n dans la hiérarchie t : période n N, E P( n) n N, E P( n) ( ) E( P( n) ) chiffres considérés sérialisables t = t+1 ( ) E( P( n) ) alerte glissement sémantique t +1 [2] t Le premier exemple de la Figure 12 illustre la typologie de la dimension sexe. Le type sexe est le nom de la dimension et joue le rôle de la racine dans la typologie. Les valeurs hommes, femmes et enfants rencontrées dans la statistique représentent les feuilles de la structure hiérarchique. Supposons que l on veuille comparer deux chiffres décrivant des hommes sur l intervalle de temps [n, n+1]. Dans la typologie relative au sexe, le parent de la feuille hommes est le type sexe. La partition des fils du type sexe est composée des valeurs {hommes, femmes} pour la période n, alors que la partition de la période n+1 est constituée de {hommes, femmes, enfants}. Cette observation montre que les chiffres représentant les hommes et les femmes lors de la période n comptabilisent également les mineurs d âge. Pour la période n+1, par contre, ces derniers ne sont pas repris dans le comptage des catégories hommes et femmes. Deux chiffres décrivant des hommes relatifs à ces deux périodes ne sont donc pas légitimement comparables puisqu ils ne représentent pas la même réalité. Cependant, des évolutions de partitions n impliquent pas toujours des variations sémantiques. Dans le second exemple de la Figure 12, l apparition de deux nouveaux délits ne modifie en rien la définition de la violation de confidentialité de lettres. En conclusion, lorsqu une modification de partition apparaît, elle dévoile une variation potentielle de sémantique qui doit être notifiée à l utilisateur. Dans le projet Quetelet.net, un moteur d analyse des séries temporelles a été développé à partir des règles de sérialisation, c est-à-dire de comparaison de chiffres dans le temps, définies ci-dessus ([1] et [2]). Cet outil a pour mission de générer des commentaires critiques signalant à l utilisateur toute évolution ou possibilité d évolution de la sémantique des chiffres. L automatisation de cette tâche d analyse essentielle à toute interprétation statistique facilite non seulement le travail de l utilisateur expert clairvoyant sur l importance de l évolution des dimensions, mais fait également prendre conscience de la nécessité de ce type d analyse à l utilisateur novice. Le système développé gère 175 ans de statistiques, ce qui représente pas moins de tableaux et plus de de chiffres. Cette étude de cas concrète est d une telle ampleur qu il n est matériellement pas possible de définir la sémantique de tous les éléments de toutes les nomenclatures. L usage des typologies, plus aisé à mettre en place, a dès lors été adopté. Lorsque deux chiffres sont sérialisés, le système détermine d abord si les sémantiques des intitulés

18 18 Document Numérique de chacune des dimensions concernées sont identiques. Ces définitions sont stockées dans la table SEMANTIQUE de la base de données (Figure 4). Si ces définitions sont disponibles, le commentaire généré par le moteur décrit la légitimité de la série. Dans le cas contraire, le système recourt alors à l analyse des typologies (tables TYPE et HIERARCHIE de la Figure 4) et avertit l utilisateur de toute évolution des partitions, c est-à-dire de tout changement sémantique potentiel. Le commentaire généré n est donc plus une assertion ou une déduction mais plutôt une mise en garde de l utilisateur. Dans ce cas, la critique automatisée ne peut se suffire à elle-même mais elle constitue néanmoins «un système d aide à la sérialisation» très utile impliquant directement l utilisateur. sexe hommes femmes enfants typologie statistiques hommes stat x femmes stat x hommes stat y femmes stat y enfants stat y période n période n+1 infraction violation de confidentialité lettres radiocommunications... télégraphie et téléphonie typologie statistiques lettres 1929 lettres 1930 radiocommunications 1930 télégraphie et téléphonie Figure 12. Evolution des partitions d une dimension. En haut, la sémantique des intitulés est modifiée. En bas, la sémantique est inchangée. La sémantique des éléments des nomenclatures évolue parfois selon des règles formellement définies telles que le regroupement, l éclatement, la suppression, l introduction, le remplacement, le renommage, la recomposition, etc. Il serait dès lors opportun, dans les travaux futurs, de définir la relation qui lie la sémantique des éléments de nomenclature de chaque période aux sémantiques des éléments des

19 Entreposage et exploitation de documents multidimensionnels évolutifs 19 périodes voisines sur la ligne du temps, de manière à pouvoir transposer cette relation aux chiffres. Supposons que pour la période n, l ensemble des cantons étudiés soit {A, B, C}, et que pour la période n+1, il soit {AB, C}, le canton AB résultant du regroupement administratif des cantons A et B. La définition de la relation entre A, B et AB permet de comparer la somme des chiffres des cantons A et B de la période n au chiffre du canton AB de la période n+1. L usage de ces descriptions affinerait le mécanisme d analyse des évolutions temporelles et guiderait d avantage l utilisateur dans son interprétation des séries. Il est aujourd hui informé de l existence d une évolution. La description des relations entre les éléments des nomenclatures sur la ligne du temps lui permettra demain d en connaître la nature. Il convient de noter que la relation entre les sémantiques d un élément de nomenclature portant sur différentes périodes ne peut être définie dans tous les cas. L exemple des hommes cité ci-dessus en est la preuve. Les hommes des période n et n+1 ne sont comparables que si l on retire les enfants de l ensemble des hommes de la période n, enfants dont on ne connaît pas la proportion. 6. Conclusion Les tableaux statistiques décrivent des faits mesurés selon différentes dimensions. Les analyses statistiques requérant des croisements et des agrégations de données issues de différents tableaux, ces documents doivent être entreposés dans un système fournissant des fonctionnalités de recherche puissantes et efficaces, c'est-à-dire un SGBD. De très nombreuses collections de tableaux statistiques ne sont disponibles que sous forme de documents imprimés ou d'images numérisées et sont donc inaccessibles à l'analyse statistique par voie informatique. L entreposage des tableaux statistiques dans une base de données consiste à définir la structure de la base de données pour ensuite la remplir. L insertion des données dans les tables peut être réalisée automatiquement à condition que les liens entre les éléments du tableau statistique et le schéma de la base de données aient été formellement établis. Lorsque les données sont transférées, elles seront exploitées avec la plus grande prudence, les séries temporelles manquant parfois de cohérence. Le projet Quetelet.net fournit des méthodes et des outils adaptés aux différentes étapes de la vie d une base de données issue de tableaux statistiques, depuis sa création jusqu à son exploitation. L objectif de ces méthodes et outils consiste non seulement à maximiser l automatisation des différents processus, mais également à fournir des solutions génériques, c est-à-dire réutilisables pour tout domaine de la statistique. La contribution de cet article, qui se base sur les acquis de ce projet, est triple. D abord, nous proposons un schéma d entrepôt de données multidimensionnelles générique. L ajout d une nouvelle dimension se matérialise simplement par l insertion d un nouvel enregistrement dans la table DIMENSION,

20 20 Document Numérique alors que la présence d un nouvel élément de nomenclature se traduit par le stockage d un nouvel enregistrement dans la table NOMENCLATURE (Figure 4). Que le domaine d application étudié évolue ou qu un nouveau domaine d application soit analysé, la structure de la base de données ne subit donc aucune modification. Ensuite, un outil a été développé pour extraire semi automatiquement les données statistiques. Cet outil, sur base d informations encodées via des formulaires, génère automatiquement les requêtes de remplissage de la base de données. Le formulaire de description des tableaux est lié au domaine d application étudié. Il présente en effet la liste des dimensions propres à l univers analysé, et appelle à saisir des informations spécifiques aux dimensions. Pour définir un lieu, par exemple, on ne se contentera pas de fournir son nom mais on devra également spécifier son type. Ces formulaires particuliers pourraient tout à fait être créés automatiquement par un générateur de systèmes de collecte de données. Cet outil produirait des systèmes d extraction de données analogues à celui de Quetelet.net, et adaptés aux milieux statistiques analysés. Le formulaire d encodage sémantique et son générateur de requêtes seraient ainsi créés automatiquement moyennant une description succincte du domaine d application telle que l'énumération des dimensions et leurs caractéristiques. Enfin, l outil encadre l utilisateur dans l exploitation des données statistiques. Un moteur analyse les résultats des requêtes afin de mesurer leur pertinence. Il fournit dès lors à l utilisateur des séries temporelles accompagnées de commentaires critiques générés automatiquement. La composition de ces observations se base d abord sur les descriptions sémantiques enregistrées dans la base de données. Si ces dernières n existent pas, ce sont les typologies également stockées dans la base de données qui sont utilisées. Le contenu des commentaires est donc alimenté par les informations figurant dans la base de données. Les procédures de construction de ces observations sont quant à elles totalement génériques. 7. Bibliographie CAMILLERAPP J., PASQUER L., COÜASNON B., «Indexation automatique de formulaires anciens par reconnaissance du patronyme manuscrit», quatorzième édition du congrès francophone de Reconnaissance des formes et d'intelligence artificielle RFIA 2004, Toulouse, 2004 CEHEUX G.R. (nom collectif), «Stratégie pour l interprétation de documents», Actes des deuxièmes assises nationales du GdR I³, 2002 DANG-NGOC T-T., KOU H., GARDARIN G., «Integrating Web Information with XML Concrete Views», Databases and Applications, p , IASTED/ACTA Press, 2004 DARMONT J., BOUSSAID O., BENTAYEB F., «Warehousing Web Data», 4th International Conference on Information Integration and Web-based Applications and Services (iiwas 02), p , 2002.

21 Entreposage et exploitation de documents multidimensionnels évolutifs 21 DETIENNE V., HAINAUT J-L., «Case Tool Support for Temporal Database Design», in Proc. Int. Conf. on Conceptual modeling - ER 2001, p , LNCS 2224, Springer, 2001 DETIENNE V., VESENTINI F., BERNARD B., «Entre archivage électronique, bases de données temporelles et e-learning : «Quetelet.net», plate forme de diffusion des statistiques pénales», dans Les chiffres du crime en débat Regards croisés sur la statistique pénale en Belgique ( ), Bruylant-Academia S.A., Louvain-la-Neuve, p , 2005 DETIENNE V., VESENTINI F., «La sérialisation des chiffres de la poursuite pénale : formalisation, problèmes, perspectives et automatisation», dans Les chiffres du crime en débat Regards croisés sur la statistique pénale en Belgique ( ), Bruylant- Academia S.A., Louvain-la-Neuve, p , 2005 EDER J., KONCILIA C., «Evolution of dimension data in temporal data warehouses», in Proc. DaWaK 2001, LNCS 2114, pp , Springer 2001 EMPTOZ H., LEBOURGEOIS F., EGLIN V., LEYDIER Y., «La reconnaissance dans les images numérisées : OCR et transcription, reconnaissance des structures fonctionnelles et des méta-données», La numérisation des textes et des images : techniques et réalisations, Lille, France, 2003 GALLOWAY, EDWARD A., and GABRIELLE V.MICHALEK, «The Heinz Electronic Library Interactive Online System (HELIOS): Building a Digital Archive Using Imaging, OCR, and Natural Language Processing Technologies», The Public-Access Computer Systems Review 6, no. 4, 1995 GOLFARELLI, M., LECHTENBORGER, J., RIZZI, S., and VOSSEN, G., «Schema Versioning in Data Warehouses», in S. Wang et al. (Eds.), ER Workshops 2004, LNCS 3289, pp , Springer, HAINAUT J-L., Bases de données et modèles de calcul - Outils et méthodes pour l'utilisateur, Dunod, Paris, KEIPER J., BROCKS H., DIRSCH-WEIGAND A., STEIN A., THIEL U., «COLLATE - A Web-Based Collaboratory for Content-Based Access to and Work with Digitized Cultural Material», dans Proceedings of the International Cultural Heritage Informatics Meeting (ICHIM 01), Bearman D. & Garzotti F., Milano : Politecnico di Milano, p , 2001 KHROUF K., SOULE-DUPUY C., «Vers une mémoire d'entreprise via les entrepôts de documents : Extraction de structures logiques», Extraction et Gestion des Connaissances (EGC'03), Hermès Ed., Lyon, France, p , 2003 KHROUF K., SOULE-DUPUY C., «DocWare: Vers l'entreposage et l'analyse multidimensionnelle de documents», dans Conférence en Recherche d'information et Applications - CORIA'05, IMAG Ed., p , 2005 VAISMAN, A., MENDELZON, A., RUARO, W., CYMERMAN, S., «Supporting dimension updates in an OLAP server». in Proc. CAiSE 2002, LNCS 2348, pp , Springer, 2002.

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Entreposage de données complexes pour la médecine d anticipation personnalisée

Entreposage de données complexes pour la médecine d anticipation personnalisée Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée

Plus en détail

Faculté des sciences de gestion et sciences économiques BASE DE DONNEES

Faculté des sciences de gestion et sciences économiques BASE DE DONNEES BASE DE DONNEES La plupart des entreprises possèdent des bases de données informatiques contenant des informations essentielles à leur fonctionnement. Ces informations concernent ses clients, ses produits,

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Chapitre VIII. Les bases de données. Orientées Objet. Motivation Chapitre VIII Motivation Le modèle relationnel connaît un très grand succès et s avère très adéquat pour les applications traditionnelles des bases de données (gestion) Les bases de données Orientées Objet

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Merise. Introduction

Merise. Introduction Merise Introduction MERISE:= Méthode d Etude et de Réalisation Informatique pour les Systèmes d Entreprise Méthode d Analyse et de Conception : Analyse: Etude du problème Etudier le système existant Comprendre

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98. J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98. J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES BASES DE DONNÉES CNAM Centre associé de Clermont-Ferrand Cycle A Année 1997-98 J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES III. LES SYSTÈMES RÉSEAU IV. LES SYSTÈMES RELATIONNELS V. LE LANGAGE

Plus en détail

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...) Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence

Plus en détail

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses Thèse présentée par Cécile FAVRE pour obtenir le titre de Docteur en Informatique

Plus en détail

UE 8 Systèmes d information de gestion Le programme

UE 8 Systèmes d information de gestion Le programme UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications

Plus en détail

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

Cours Bases de données

Cours Bases de données Informations sur le cours Cours Bases de données 9 (10) séances de 3h Polycopié (Cours + TD/TP) 3 année (MISI) Antoine Cornuéjols www.lri.fr/~antoine antoine.cornuejols@agroparistech.fr Transparents Disponibles

Plus en détail

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris

Plus en détail

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation Data WareHouse Plan Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation 2 Présentation Besoin: prise de décisions

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Chapitre 5 LE MODELE ENTITE - ASSOCIATION Chapitre 5 LE MODELE ENTITE - ASSOCIATION 1 Introduction Conception d une base de données Domaine d application complexe : description abstraite des concepts indépendamment de leur implémentation sous

Plus en détail

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques Guide de recherche documentaire à l usage des doctorants Partie : Exploiter les bases de données académiques Sylvia Cheminel Dernière mise à jour : décembre 04 PANORAMA DES SOURCES DOCUMENTAIRES ACADEMIQUES...

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles) SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Rappel sur les bases de données

Rappel sur les bases de données Rappel sur les bases de données 1) Généralités 1.1 Base de données et système de gestion de base de donnés: définitions Une base de données est un ensemble de données stockées de manière structurée permettant

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

Modélisation des données

Modélisation des données Modélisation des données Le modèle Entité/Association Le MCD ou modèle Entité/Association est un modèle chargé de représenter sous forme graphique les informations manipulées par le système (l entreprise)

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Problématiques de recherche. Figure Research Agenda for service-oriented computing Problématiques de recherche 90 Figure Research Agenda for service-oriented computing Conférences dans le domaine ICWS (International Conference on Web Services) Web services specifications and enhancements

Plus en détail

«Manuel Pratique» Gestion budgétaire

«Manuel Pratique» Gestion budgétaire 11/06/01 B50/v2.31/F/MP005.01 «Manuel Pratique» Gestion budgétaire Finance A l usage des utilisateurs de Sage BOB 50 Solution Sage BOB 50 2 L éditeur veille à la fiabilité des informations publiées, lesquelles

Plus en détail

Introduction aux SGBDR

Introduction aux SGBDR 1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux

Plus en détail

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine 2015-2016 Entrepôts de données NEGRE Elsa Université Paris-Dauphine 2015-2016 Contexte et problématique Le processus de prise de décision L entrepôt de données Définition Différence avec un SGBD Caractéristiques

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Dossier I Découverte de Base d Open Office

Dossier I Découverte de Base d Open Office ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire

Plus en détail

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e : CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE Projet 2 Gestion des services enseignants G r o u p e : B E L G H I T Y a s m i n e S A N C H E Z - D U B R O N T Y u r i f e r M O N T A Z E R S i

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

Introduction aux bases de données

Introduction aux bases de données Introduction aux bases de données Références bibliographiques Jeff Ullman,Jennifer Widom, «A First Course in Database systems», Prentice-Hall, 3rd Edition, 2008 Hector Garcia-Molina, Jeff Ullman, Jennifer

Plus en détail

Les bases de données

Les bases de données Les bases de données Introduction aux fonctions de tableur et logiciels ou langages spécialisés (MS-Access, Base, SQL ) Yves Roggeman Boulevard du Triomphe CP 212 B-1050 Bruxelles (Belgium) Idée intuitive

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Intelligence Economique - Business Intelligence

Intelligence Economique - Business Intelligence Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit

Plus en détail

Business Intelligence avec Excel, Power BI et Office 365

Business Intelligence avec Excel, Power BI et Office 365 Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

SECTION 5 BANQUE DE PROJETS

SECTION 5 BANQUE DE PROJETS SECTION 5 BANQUE DE PROJETS INF 4018 BANQUE DE PROJETS - 1 - Banque de projets PROJET 2.1 : APPLICATION LOGICIELLE... 3 PROJET 2.2 : SITE WEB SÉMANTIQUE AVEC XML... 5 PROJET 2.3 : E-LEARNING ET FORMATION

Plus en détail

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information

Plus en détail

Architectures d'intégration de données

Architectures d'intégration de données Architectures d'intégration de données Dan VODISLAV Université de Cergy-ontoise Master Informatique M1 Cours IED lan Intégration de données Objectifs, principes, caractéristiques Architectures type d'intégration

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

Conception, architecture et urbanisation des systèmes d information

Conception, architecture et urbanisation des systèmes d information Conception, architecture et urbanisation des systèmes d information S. Servigne Maître de Conférences, LIRIS, INSA-Lyon, F-69621 Villeurbanne Cedex e-mail: sylvie.servigne@insa-lyon.fr 1. Introduction

Plus en détail

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Architecture d'entreprise : Guide Pratique de l'architecture Logique Guides Pratiques Objecteering Architecture d'entreprise : Guide Pratique de l'architecture Logique Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam

Plus en détail

Introduction aux Bases de Données

Introduction aux Bases de Données Introduction aux Bases de Données I. Bases de données I. Bases de données Les besoins Qu est ce qu un SGBD, une BD Architecture d un SGBD Cycle de vie Plan du cours Exemples classiques d'applications BD

Plus en détail

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes

Plus en détail

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de

Plus en détail

GLOSSAIRE DU SOUTIEN EN CAS DE RECOURS EN JUSTICE

GLOSSAIRE DU SOUTIEN EN CAS DE RECOURS EN JUSTICE SOLUTIONS DE GESTION DE DOCUMENTS GLOSSAIRE DU SOUTIEN EN CAS DE RECOURS EN JUSTICE Le jargon du métier Initiation au soutien en cas de recours en justice Ce glossaire présente la terminologie et les notions

Plus en détail

AGRÉGATION «ÉCONOMIE ET GESTION»

AGRÉGATION «ÉCONOMIE ET GESTION» AGRÉGATION «ÉCONOMIE ET GESTION» CONCOURS INTERNE SESSION 2002 ÉPREUVE SUR LES TECHNIQUES DE GESTION ET COMPORTANT DES ASPECTS PÉDAGOGIQUES DOMAINE : économie et gestion informatique Durée de préparation

Plus en détail

ETL Extract - Transform - Load

ETL Extract - Transform - Load ETL Extract - Transform - Load Concept général d analyse en ligne (rappels) Rémy Choquet - Université Lyon 2 - Master 2 IIDEE - 2006-2007 Plan Définitions La place d OLAP dans une entreprise OLAP versus

Plus en détail

Systèmes d information et bases de données (niveau 1)

Systèmes d information et bases de données (niveau 1) Systèmes d information et bases de données (niveau 1) Cours N 1 Violaine Prince Plan du cours 1. Bibliographie 2. Introduction aux bases de données 3. Les modèles 1. Hiérarchique 2. Réseau 3. Relationnel

Plus en détail

WINDOWS SHAREPOINT SERVICES 2007

WINDOWS SHAREPOINT SERVICES 2007 WINDOWS SHAREPOINT SERVICES 2007 I. TABLE DES MATIÈRES II. Présentation des «content types» (Type de contenu)... 2 III. La pratique... 4 A. Description du cas... 4 B. Création des colonnes... 6 C. Création

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

IT203 : Systèmes de gestion de bases de données. A. Zemmari zemmari@labri.fr

IT203 : Systèmes de gestion de bases de données. A. Zemmari zemmari@labri.fr IT203 : Systèmes de gestion de bases de données A. Zemmari zemmari@labri.fr 1 Informations pratiques Intervenants : Cours : (A. Zemmari zemmari@labri.fr) TDs, TPs : S. Lombardy et A. Zemmari Organisation

Plus en détail

Concevoir et déployer un data warehouse

Concevoir et déployer un data warehouse Concevoir et déployer un data warehouse Ralph Kimball Éditions Eyrolles ISBN : 2-212-09165-6 2000 2 Le cycle de vie dimensionnel Avant d étudier de plus près les spécificités de la conception, du développement

Plus en détail

NF26 Data warehouse et Outils Décisionnels Printemps 2010

NF26 Data warehouse et Outils Décisionnels Printemps 2010 NF26 Data warehouse et Outils Décisionnels Printemps 2010 Rapport Modélisation Datamart VU Xuan Truong LAURENS Francis Analyse des données Avant de proposer un modèle dimensionnel, une analyse exhaustive

Plus en détail

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures] Objectif Utiliser les techniques de gestion de la mise en cache pour contrôler et améliorer les performances des requêtes Définir des mesures simples et des mesures calculées pour une table de faits Créer

Plus en détail

SUPPORT DE COURS ACCESS 2010

SUPPORT DE COURS ACCESS 2010 Qu est-ce qu Access? Access 2010 est un outil de déploiement et de conception d application de base de données que vous pouvez utiliser pour effectuer le suivi d informations importantes. Vous pouvez conserver

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

MYXTRACTION. 2009 La Business Intelligence en temps réel

MYXTRACTION. 2009 La Business Intelligence en temps réel MYXTRACTION 2009 La Business Intelligence en temps réel Administration Qui sommes nous? Administration et management des profils Connecteurs Base des données Gestion des variables et catégories de variables

Plus en détail

AGROBASE : un système de gestion de données expérimentales

AGROBASE : un système de gestion de données expérimentales AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.

Plus en détail

ORACLE TUNING PACK 11G

ORACLE TUNING PACK 11G ORACLE TUNING PACK 11G PRINCIPALES CARACTÉRISTIQUES : Conseiller d'optimisation SQL (SQL Tuning Advisor) Mode automatique du conseiller d'optimisation SQL Profils SQL Conseiller d'accès SQL (SQL Access

Plus en détail

Université de Bangui. Modélisons en UML

Université de Bangui. Modélisons en UML Université de Bangui CRM Modélisons en UML Ce cours a été possible grâce à l initiative d Apollinaire MOLAYE qui m a contacté pour vous faire bénéficier de mes connaissances en nouvelles technologies et

Plus en détail

Université de Lausanne

Université de Lausanne Université de Lausanne Records management et archivage électronique : cadre normatif Page 2 Ce qui se conçoit bien s énonce clairement Nicolas Boileau Page 3 Table des matières Qu est- ce que le «records

Plus en détail

Introduction aux concepts d ez Publish

Introduction aux concepts d ez Publish Introduction aux concepts d ez Publish Tutoriel rédigé par Bergfrid Skaara. Traduit de l Anglais par Benjamin Lemoine Mercredi 30 Janvier 2008 Sommaire Concepts d ez Publish... 3 Système de Gestion de

Plus en détail

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes 303 Schedae, 2007 Prépublication n 46 Fascicule n 2 Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes Samya Sagar, Mohamed Ben Ahmed Laboratoire

Plus en détail

Construction d un EDD avec SQL 2008 R2. D. Ploix - M2 Miage - EDD - Création

Construction d un EDD avec SQL 2008 R2. D. Ploix - M2 Miage - EDD - Création Construction d un EDD avec SQL 2008 R2 Plan Analyse du DW construit Construction de la base DW dans SQL 2008 Construction des tables de faits et dimensions Injection des données Étapes de l injection des

Plus en détail

DEMANDE D INFORMATION RFI (Request for information)

DEMANDE D INFORMATION RFI (Request for information) RFI-2013-09 Demande d information Page 1/9 DEMANDE D INFORMATION RFI (Request for information) Socle de Ged-Archivage SOMMAIRE 1. OBJET DE LA DEMANDE D INFORMATION... 3 2. PÉRIMÈTRE DE L INFORMATION...

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

DEMANDE D INFORMATION RFI (Request for information)

DEMANDE D INFORMATION RFI (Request for information) DOD SEICAM RFI Demande d information EVDEC Réf. : RFI_EVDEC- GT5_Outil_reporting_BI_v4.doc Page 1/11 DEMANDE D INFORMATION RFI (Request for information) OUTIL INTÉGRÉ DE REPORTING ET D ANALYSE DÉCISIONNELLE

Plus en détail

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

CONCEPTION Support de cours n 3 DE BASES DE DONNEES CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...

Plus en détail

Gestion des Identités et des Autorisations: Modèle générique

Gestion des Identités et des Autorisations: Modèle générique Département : Concerne : Exploitation Projet CERBERE, Analyse fonctionnelle Nos ref. : Vos ref. : CERBERE Version: Description Ecrit par Revu par Date 00.92G Version draft Albert Bruffaerts Comité de travail

Plus en détail

Les Entrepôts de Données. (Data Warehouses)

Les Entrepôts de Données. (Data Warehouses) Les Entrepôts de Données (Data Warehouses) Pr. Omar Boussaid Département d'informatique et de Sta5s5que Université Lyon2 - France Les Entrepôts de Données 1. Généralités, sur le décisionnel 2. L'entreposage

Plus en détail

Compétences Business Objects - 2014

Compétences Business Objects - 2014 Compétences Business Objects - 2014 «Mars-Juin 2014. Réf : Version 1 Page 1 sur 34 Sommaire CONTEXTE DE LA REMISE A NIVEAU EN AUTOFORMATION... 3 1. MODELISATION... 4 1.1 DESCRIPTION FONCTIONNEL DE L'APPLICATION

Plus en détail

Présentation du Modèle de Référence pour les Bibliothèques FRBR

Présentation du Modèle de Référence pour les Bibliothèques FRBR Submitted on: 03.08.2015 Présentation du Modèle de Référence pour les Bibliothèques FRBR French translation of the original paper: Introducing the FRBR Library Reference Model. Traduit par : Mélanie Roche,

Plus en détail

analyse et pérennise votre patrimoine informationnel

analyse et pérennise votre patrimoine informationnel analyse et pérennise votre patrimoine informationnel Décoder le passé Donner une signification «métier» aux gérées par vos applications, retrouver les liens qui les unissent, connaître en détail leur utilisation

Plus en détail

SAP BusinessObjects Web Intelligence (WebI) BI 4

SAP BusinessObjects Web Intelligence (WebI) BI 4 Présentation de la Business Intelligence 1. Outils de Business Intelligence 15 2. Historique des logiciels décisionnels 16 3. La suite de logiciels SAP BusinessObjects Business Intelligence Platform 18

Plus en détail

Bases de Données. Stella MARC-ZWECKER. stella@unistra.u-strasbg.fr. Maître de conférences Dpt. Informatique - UdS

Bases de Données. Stella MARC-ZWECKER. stella@unistra.u-strasbg.fr. Maître de conférences Dpt. Informatique - UdS Bases de Données Stella MARC-ZWECKER Maître de conférences Dpt. Informatique - UdS stella@unistra.u-strasbg.fr 1 Plan du cours 1. Introduction aux BD et aux SGBD Objectifs, fonctionnalités et évolutions

Plus en détail

Bases de données Cours 1 : Généralités sur les bases de données

Bases de données Cours 1 : Généralités sur les bases de données Cours 1 : Généralités sur les bases de données POLYTECH Université d Aix-Marseille odile.papini@univ-amu.fr http://odile.papini.perso.esil.univmed.fr/sources/bd.html Plan du cours 1 1 Qu est ce qu une

Plus en détail

Bases de données élémentaires Maude Manouvrier

Bases de données élémentaires Maude Manouvrier Licence MI2E- 1ère année Outils en Informatique Bases de données élémentaires Maude Manouvrier Définitions générales et positionnement du cours dans la formation Vocabulaire relatif aux bases de données

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

Bases de données. Chapitre 1. Introduction

Bases de données. Chapitre 1. Introduction Références : Bases de données Pierre Wolper Email : pw@montefiore.ulg.ac.be URL : http : //www.montefiore.ulg.ac.be/~pw/ http : //www.montefiore.ulg.ac.be/ ~pw/cours/bd.html Henry F. Korth, Abraham Silberschatz,

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions Exemple accessible via une interface Web Une base de données consultable en ligne : Bases de données et systèmes de gestion de bases de données The Trans-atlantic slave trade database: http://www.slavevoyages.org/tast/index.faces

Plus en détail

Guide de l utilisateur du Centre de gestion des licences en volume LICENCES EN VOLUME MICROSOFT

Guide de l utilisateur du Centre de gestion des licences en volume LICENCES EN VOLUME MICROSOFT Guide de l utilisateur du Centre de gestion des licences en volume LICENCES EN VOLUME MICROSOFT Table des matières Présentation du Centre de gestion des licences en volume (VLSC)... 3 Inscription auprès

Plus en détail

LECTURE CRITIQUE. Accompagner les enseignants et formateurs dans la conception d une formation en ligne

LECTURE CRITIQUE. Accompagner les enseignants et formateurs dans la conception d une formation en ligne LECTURE CRITIQUE Accompagner les enseignants et formateurs dans la conception d une formation en ligne Christian Ernst E-learning. Conception et mise en œuvre d un enseignement en ligne Guide pratique

Plus en détail

Bases de Données. Plan

Bases de Données. Plan Université Mohammed V- Agdal Ecole Mohammadia d'ingénieurs Rabat Bases de Données Mr N.EL FADDOULI 2014-2015 Plan Généralités: Définition de Bases de Données Le modèle relationnel Algèbre relationnelle

Plus en détail

Chapitre I : le langage UML et le processus unifié

Chapitre I : le langage UML et le processus unifié I. Introduction Les méthodes d analyse orientées objet sont initialement issues des milieux industriels. La préoccupation dominante de leurs auteurs est le génie logiciel, c est-àdire les principes et

Plus en détail

Datawarehouse and OLAP

Datawarehouse and OLAP Datawarehouse and OLAP Datawarehousing Syllabus, materials, notes, etc. See http://www.info.univ-tours.fr/ marcel/dw.html today architecture ETL refreshing warehousing projects architecture architecture

Plus en détail