Entreposage et exploitation de documents multidimensionnels évolutifs : le cas des tableaux statistiques

Transcription

1 Entreposage et exploitation de documents multidimensionnels évolutifs : le cas des tableaux statistiques Detienne V., Vesentini F.*, Hainaut J-L. PReCISE research center / LIBD FUNDP - Université de Namur 21, rue Grandgagnage B-5000 Namur Belgique * chargé de recherches du FRS-FNRS au Centre d Histoire du Droit et de la Justice de l Université catholique de Louvain vdt@info.fundp.ac.be, vesentini@chdj.ucl.ac.be, jlh@info.fundp.ac.be RÉSUMÉ. Un des principaux avantages de la numérisation de documents est l amélioration des possibilités de traitement et de recherche. Lorsque ces documents sont suffisamment structurés, leur contenu informationnel peut être entreposé dans un système de gestion de bases de données (SGBD), outil bénéficiant de capacités de traitement efficaces et dégagées des limites du format d origine. Les tableaux statistiques, de par leur contenu fortement structuré, multidimensionnel et évolutif, sont particulièrement adaptés à ce type de stockage. Le caractère récurrent des processus d extraction et d intégration des informations dans une base de données rend nécessaire le support d une automatisation. L exploitation de la base de données, qui doit considérer le caractère évolutif des informations, requiert également l usage d un outil d analyse automatisé. Cet article traite de la modélisation multidimensionnelle des tableaux statistiques tous domaines d application confondus, présente un prototype d extraction et d intégration de leur contenu dans une base de données et propose un outil d aide à l interprétation de ces données évolutives. ABSTRACT. One of the main advantages of document digitalisation is the improvement of processing and research. Structured documents contents can be stored in a database management system (DBMS) for efficient processing independently of the original format. Statistical tables, which are highly structured, multidimensional and evolving are such documents. Extracting high volume of statistical data and integrating them in a database need to be automated. Database exploitation must address the evolving characteristic of the information so that this task must be automated too. This paper deals with multidimensional modelling of any kind of statistical tables, presents a prototype allowing to extract data and to store them in the database, and put forward a help tool to interpret the changing data. MOTS-CLÉS : entrepôt de documents multidimensionnels, tableaux statistiques, base de données, outil d extraction de données. KEYWORDS: multidimensional documents warehouse, statistical tables, database, data extraction tool. Document Numérique

2 2 Document Numérique 1. Introduction Face à la variété des formats de représentation des documents électroniques, plusieurs techniques d aide à l exploitation des documents numériques ont été développées. Lorsque les documents sont peu ou pas structurés, une solution consiste à indexer leur contenu puis à fournir un système de recherche basé sur un lexique de mots-clés (Camillerapp et al., 2004 ; Galloway et al., 1995). Certains outils enrichissent l indexation en intégrant des meta-données qui permettent de décrire le contenu des documents (Ceheux, 2002 ; Emptoz, 2003). Ces métadonnées et/ou des extraits du contenu du document peuvent également être stockés en XML (Keiper, 2001 ; Dang-Ngoc et al., 2004) ou dans des entrepôts de données (Darmont et al., 2002 ) de manière à faciliter les recherches. Les entrepôts de documents se basent quant à eux sur la structure du document. Celle-ci peut en effet permettre de détecter les sections les plus enclines à répondre aux besoins de l utilisateur. Cette technique permet ainsi de stocker des documents hétérogènes, sélectionnés et filtrés ainsi que de les classer selon des structures logiques communes à l ensemble des documents (Khrouf et al., 2003 ; Khrouf et al., 2005). Parallèlement à ces documents, qui sont par nature électroniques, un volume croissant de documents, souvent plus anciens, sous forme papier sont actuellement numérisés, ce qui autorise leur stockage, leur accès et leur exploitation par des moyens informatiques. Lorsque les documents sont suffisamment structurés, c est-à-dire qu ils sont formés de composants significatifs articulés entre eux et que cette structure est d application pour chacun des documents du corpus, leur contenu informationnel peut être entreposé dans un système de gestion de base de données (SGBD) offrant des possibilités de traitement particulièrement puissantes et dégagées des limites du format d origine. Les tableaux statistiques sont des documents typiquement adaptés à ce type de stockage. Ils présentent en effet une structure multidimensionnelle : ils décrivent des faits (nombres de personnes, de pays, ) mesurés selon différentes dimensions (âge, superficie, ). De plus, les analyses statistiques nécessitant généralement le croisement de multiples tableaux, l utilisation d une technologie optimisant les fonctionnalités de recherche est primordiale et les SGBD répondent complètement à ce besoin. La difficulté majeure lors de la création d une telle base de données ne réside pas seulement dans la modélisation multidimensionnelle des documents, mais dans l extraction de l information et dans son intégration à la base de données. Il s agit d établir les relations qui existent entre les éléments des tableaux statistiques et le schéma de la base de données. Ce tissu de liens étant très dense, le recours à un outil destiné à automatiser le processus d extraction s avère le plus souvent indispensable. Lorsque les données de documents s'étendant sur de longues périodes ont été extraites, puis transférées dans la base de données, se posent souvent des problèmes d'interprétation. Les informations statistiques peuvent en effet subir des glissements sémantiques au cours du temps. Il est donc primordial de s interroger sur la

3 Entreposage et exploitation de documents multidimensionnels évolutifs 3 légitimité des séries de chiffres temporelles, c est-à-dire de se demander si les chiffres représentent la même réalité au cours du temps et s ils peuvent par conséquent être comparés. L analyse systématique de la sémantique des chiffres est une tâche importante et fastidieuse qui requiert, elle aussi, le support d une forte automatisation laissant place, à l occasion, au jugement de spécialistes. Le projet Quetelet.net s'inscrit dans cette problématique. Il vise à la construction d un système critique de numérisation, d intégration et d accès aux statistiques pénales publiées en Belgique depuis 1830 (Detienne et al., 2005). Outre le fait que l'essentiel du corpus se présente sous la forme d'ouvrages imprimés, son originalité repose sur l inclusion au sein même de l application d un appareillage critique éclairant les usagers quant aux éventuelles variations de sémantique des chiffres présentés. Ce système est appliqué aux statistiques pénales, mais il est construit de façon générique, de sorte qu il puisse être utilisé dans tout autre domaine statistique, économique, démographique ou médical par exemple. Cet article se concentre sur les aspects méthodologiques et technologiques de la numérisation, de l intégration et de l exploitation des données développés dans le cadre du projet Quetelet.net. La section 2 propose une méthode d entreposage des données. La conception et l implémentation de la base de données font l objet de la section 3, tandis que l extraction des données présentées sous forme de tableaux et leur intégration à la base de données sont décrites dans la section 4. La méthode de génération automatique de commentaires critiques est brièvement décrite dans la section 5. La section 6 conclut l article. 2. Méthode d entreposage des données Les tableaux statistiques sont des documents présentant des caractéristiques très typées. D une part, ils sont fortement structurés et représentent des concepts en principes parfaitement définis. D autre part, ils possèdent une dimension temporelle lorsqu ils décrivent des réalités qui s échelonnent dans le temps. Plusieurs techniques permettent de stocker des données structurées. Les informations peuvent être enregistrées dans le format XML ou intégrées dans un SGBD. Cependant, les analyses statistiques requérant en général le croisement et l agrégation de données issues de différents annuaires et tableaux, le choix se portera sur le SGBD qui est plus efficace en ce qui concerne les possibilités de recherche et de croisement de données. Ce type d outil supporte en effet l'interprétation de requêtes complexes et offre des temps de réponse extrêmement performants, même lorsqu'on se limite aux fonctionnalités du langage SQL standard, à l'exclusion des extensions d'analyse de données de SQL3. Etant donné la structure précise des tableaux statistiques, l intégralité de leur contenu informationnel peut être stocké dans une base de données. Les informations sont réparties dans des tables matérialisant différents concepts. Les données issues

4 4 Document Numérique des documents sont par conséquent organisées d'une manière différente, bien qu'équivalente sur le plan informationnel, de celle sous laquelle elles se présentent naturellement sur papier. L entreposage de tableaux statistiques requiert la conception, l implémentation et le chargement d une base de données à partir de tableaux disponibles soit sous format électronique, soit sous format papier. Un tableau comporte deux catégories d information : la structure des données, parfois appelée méta-données, d une part, et les données proprement dites d autre part (Figure 1). L entreposage des données s articule en deux phases qui correspondent au traitement de ces deux catégories (Figure 2). La première phase consiste à modéliser la structure du tableau et à en dériver la structure de la base de données, sous la forme d'un schéma. Il est alors possible de créer la base de données. C est au cours de la seconde phase que le remplissage de la base de données est réalisé à l aide des valeurs présentes dans le tableau. Figure 1. Fragment de tableau de la statistique criminelle de 1952

5 Entreposage et exploitation de documents multidimensionnels évolutifs 5 tableaux statistiques images phase concernant la structure du tableau conception et implémentation de la base de données base de données phase concernant les données du tableau remplissage de la base de données Figure 2. Les deux phases de l'entreposage des documents statistiques 3. Création de la structure de la base de données 3.1. Concepts représentés dans les tableaux statistiques Tout tableau statistique décrit des faits observables mesurés selon différentes dimensions. Dans le tableau de la Figure 1, par exemple, le fait chiffré est un nombre de condamnés, comptage réalisé selon cinq dimensions : la profession (Jardinage, etc.), l état social (Patrons), le groupe générique de l infraction commise (Calomnies et injures), le sexe (HOMMES) et le temps (ANNEE 1952). La position de ces dimensions n'est ni unique ni uniforme : profession et état social apparaissent dans l intitulé des colonnes et dans le titre, alors que groupe générique de l infraction commise n est indiqué que dans le titre. Concernant les valeurs, l instanciation des dimensions profession et état social se décline dans les colonnes 1 et 2. La liste des groupes d infractions fournit pour sa part les intitulés des colonnes 3 à 11. Quant aux dimensions sexe et temps, leurs noms ne sont pas évoqués tels quels. Il faut se référer au sous-titre pour en trouver les valeurs (hommes et année 1952) et déduire les dimensions qu elles représentent. Pour hommes, c est la consultation du tableau suivant concernant les femmes qui permet de déduire que cet intitulé représente un type de donnée relatif au sexe dans une division hommes/femmes. Cette description d un tableau aux apparences des plus ordinaires montre combien la présentation des structures et des données est hétérogène. Elle souligne par ailleurs le lien intime souvent chargé de sémantique qui lie le tableau à sa place dans le recueil. Il convient dès lors de maîtriser parfaitement la diversité de présentation des statistiques avant d envisager la structuration de la base de données.

6 6 Document Numérique 3.2. Structuration de la base de données L'élaboration de la structure de la base de données commence par une étape d'analyse qui consiste à modéliser les types de données des tableaux statistiques. Les éléments de ces tableaux doivent être décrits de manière abstraite et indépendante de toute technologie. Le modèle Entité-association permet de décrire un domaine d application sous la forme d'un schéma conceptuel constitué d un ensemble d entités, dotées de propriétés et en association les unes avec les autres, et ce, sans référence aux notions techniques de tables, colonnes et autres index (Hainaut, 2005). DIMENSION Nom id: Nom appartenance caractérisation 1-1 CARACTERISTIQUE Signification id: caractérisation.dimension Signification 1-1 SEMANTIQUE Nom Définition id: appartenance.dimension Nom instanciation 1-1 NOMENCLATURE Nom Nom_l2[0-1] id: Nom instanciation.caracteristique signification hiérarchie contient est compris dans 0-1 GROUPE Type Total Début id: Type Début 1-1 représentation TYPE Numero Total Nom[0-1] id: Numero groupement Position est le père de est le fils de hiérarchie appartenance 1-N FAIT Id Chiffre Unité de compte Type de compte Début id: Id 1-1 appartenance Contraintes d'intégrité : Les nomenclatures d'un même groupe doivent appartenir à la même dimension TABLEAU Statistique Numéro Titre Titre_l2[0-1] Sous-titre[] Sous-Titre Sous-titre_l2[0-1] Prem. page Dern. page Début id: Statistique Numéro Début Figure 3. Schéma conceptuel des tableaux statistiques.

7 Entreposage et exploitation de documents multidimensionnels évolutifs 7 Un domaine d application est perçu comme constitué d entités concrètes ou abstraites. Dans l univers de la statistique, on repère des tableaux, des faits mesurés et des dimensions. On considère que chacun d entre eux est une entité du domaine et que chaque entité appartient à une classe ou un type d entités. On définit dès lors naturellement trois types d entités qu on nommera TABLEAU, FAIT et DIMENSION (Figure 3). Un tableau est issu d une statistique. Dans notre exemple, il s agit de la statistique criminelle. Il possède un numéro (exemple de valeur : "3"), un titre ("condamnés répartis par profession, état social et groupe générique de l infraction commise") qui peut être mentionné dans une seconde langue, éventuellement un ou plusieurs sous-titres également notés dans les deux langues ("hommes"), les numéros de page du tableau (50 à 50), et une période pour laquelle il est valide ( au ). On modélise ces caractéristiques en allouant au type d entités TABLEAU les attributs Statistique, Numéro, Titre, Titre_l2, Sous-titre décomposé en Sous-titre et Sous-titre_l2, Prem. Page, Dern. Page, Début et. De même, un fait mesuré (FAIT) est représenté par un chiffre ("3" pour le premier chiffre du tableau), une unité de compte ("condamnés"), un type de compte ("nombre"), et une période de validité ( au ). Il existe un lien entre un tableau et chacun des chiffres qu il contient. On dira que tous les liens de cette nature appartiennent au type d associations appartenance entre les types d entités TABLEAU et FAIT. Un tableau contient de zéro à plusieurs chiffres () alors qu un chiffre ne peut appartenir qu à un seul tableau (1-1). Notre exemple comporte, outre le temps, quatre DIMENSIONS dénommées profession, état social, infraction et sexe. Le concept du temps est représenté par les attributs Début et spécifiant la période de validité de l'entité. Les éléments des nomenclatures, c est-à-dire des ensembles de valeurs de chacune des dimensions citées dans le tableau, sont représentés par le type d entités NOMENCLATURE. La dimension état social, par exemple, comporte les éléments de nomenclature {patrons, employés, ouvriers, aidants, indéterm.}. NOMENCLATURE et DIMENSION sont liés via le type d entités CARACTERISTIQUE qui précise la signification de l élément de la nomenclature. Patrons, employés, ouvriers, aidants et indéterm., par exemple, sont les noms des éléments de la nomenclature de la dimension état social ("nom" est la valeur de l attribut signification de CARACTERISTIQUE). Considérons une dimension lieu dont une des valeurs de nomenclature est "arrondissement d Arlon". Arrondissement est dès lors le type de lieu (signification a la valeur "type"), et Arlon est le nom du lieu (signification a la valeur "nom"). Ces deux valeurs d'éléments de nomenclature sont alors répertoriées dans un même type (TYPE). Les types de chaque dimension constituent des typologies de structure hiérarchique (type d associations hiérarchie) qui permettront à l utilisateur de formuler ses requêtes (Detienne et al., 2005). Un groupe (GROUPE) est un type auquel on associe une dimension temporelle (Vstart et Vend). Chaque groupe correspond à un type (1-1) alors qu à un type peuvent être associés un nombre quelconque de groupes (). C'est à des groupes et leurs caractéristiques temporelles que sont associés les faits mesurés (FAIT). Pour chaque

8 8 Document Numérique groupe, il est spécifié s il s agit d une valeur primaire ou d une valeur agrégée (total). Cette information permettra de calculer des totaux à partir des valeurs primaires et de les comparer aux totaux mentionnés dans les tableaux, les éventuelles divergences n'étant pas corrigées, mais simplement identifiées. Il peut exister une relation hiérarchique entre deux groupes (hiérarchie). Le canton de Vilvorde par exemple fait partie de l arrondissement de Bruxelles. La sémantique d un groupe peut être décrite dans le type d entités SEMANTIQUE sous la forme d'une annotation. Ce schéma conceptuel 1 est un méta schéma qui représente à la fois les modèles en étoile, en flocons de neige et en cubes utilisés dans le domaine des entrepôts de données (data warehouses). Il présente dès lors un caractère générique et est par conséquent valide pour tous les tableaux statistiques, quel que soit le domaine d application analysé. Le schéma conceptuel, qui modélise les statistiques indépendamment de toute contrainte technologique, est ensuite transformé selon une procédure standard (Hainaut, 2005) en un schéma logique sémantiquement équivalent mais conforme au modèle des SGBD relationnels (Figure 4). Le schéma logique est alors traduit dans le langage de définition de données (SQL-DDL) du SGBD sélectionné et compilé. Les structures de la base de données sont créées et peuvent désormais accueillir les valeurs extraites des tableaux. 4. Extraction des données 4.1. Nécessité d un outil de collecte L objectif de l extraction des données est d'identifier, copier et enregistrer les éléments statistiques des tableaux dans les tables appropriées de la base de données. Le tissu de liens entre le tableau et son schéma logique étant très dense (Figure 4), le recours à un outil de collecte destiné à automatiser, au moins partiellement, le processus d extraction des données et celui de leur stockage dans la base de données est essentiel. La solution idéale consisterait à analyser le document numérique à l aide d un outil permettant de reconstruire sa structure logique. En d autres termes, les liens entre le tableau et le schéma seraient automatiquement identifiés. Chacun des éléments du tableau serait ainsi associé au fait, à la dimension ou à l élément de nomenclature qu il représente et pourrait être enregistré dans la base de données. Cependant, la représentation des dimensions et de leurs valeurs dans les tableaux statistiques est 1 Certaines contraintes d intégrité liées au caractère temporel du schéma ne sont pas explicitement déclarées. Par exemple, l intervalle de validité [, ] d un fait doit être compris dans l intervalle de validité [, ] du tableau qui lui est associé (Detienne et al., 2001). Elles devront être garanties par toute application exploitant les données.

9 Entreposage et exploitation de documents multidimensionnels évolutifs 9 très hétérogène et temporellement instable, aussi bien entre les tableaux qu entre les recueils. L intervention humaine se révèle dès lors nécessaire pour identifier à quelles dimensions correspondent les intitulés des tableaux. DIMENSION Nom id: Nom CARACTERISTIQUE Dimension Signification id: Dimension Signification ref: Dimension HIERARCHIE_T Pere Fils id: Pere Fils ref: Fils ref: Pere SEMANTIQUE Id Dimension Nom Définition id: Id ref: Dimension GROUPE Type Total Semantique id: Type ref: Semantique ref: Type NOMENCLATURE Dimension Signification Nom Nom_l2[0-1] id: Nom Dimension Signification ref: Dimension Signification GROUPEMENT Nom Dimension Signification Type Position Nom_l2[0-1] id: Type Nom Dimension Signification ref: Nom Dimension Signification ref: Type APPARTENANCE Fait Groupe _Gr _Gr id: Fait Groupe _Gr _Gr ref: Groupe _Gr _Gr equ: Fait TYPE Numero Nom[0-1] Total id: Numero HIERARCHIE Fils Pere id: Fils Pere ref: Pere ref: Fils FAIT Id Chiffre Unité de compte Type de compte Statistique NumTab _Tab _Tab id: Id ref: Statistique NumTab _Tab _Tab TABLEAU Statistique Numéro Titre Titre_l2[0-1] Prempage Dernpage id: Statistique Numéro SOUSTITRE Statistique Tableau Sous-titre Soustitre_l2[0-1] id: Statistique Tableau Sous-titre ref: Statistique Tableau Figure 4. Liens entre un tableau statistique et son schéma logique relationnel

10 10 Document Numérique Dans le cadre du projet Quetelet.net, les documents sources se présentent sous la forme de photographies numériques des annuaires statistiques sur papier. La mauvaise qualité de ces recueils certains volumes ont plus de 175 ans - rend pour l instant irréaliste l utilisation de logiciels de reconnaissance optique de tableaux. De plus, ces outils sont peu adaptés à l examen de documents d une telle complexité structurelle. Des signes typographiques variés tels que des accolades, des guillemets, des tirets ou des abréviations (par exemple idem) sont en effet largement utilisés et malheureusement polysémiques. La compréhension de leur sémantique, triviale pour l être humain, n'est actuellement pas à la portée des outils de reconnaissance (Figure 5). Le choix s'est donc porté sur un encodage manuel assisté, basé sur un outil de collecte qui, par l intermédiaire d une interface graphique, permet la création des liens entre les éléments statistiques et la structure de la base de données. L encodage semi-automatique, lié aux caractéristiques de sources historiques de mauvaise qualité, laissera la place à une procédure automatisée lorsque les statistiques plus récentes seront fournies sous forme électronique (fichiers Excel par exemple). Le travail d'encodage se résumera alors à établir les correspondances entre le format électronique et le schéma de la base de données. Figure 5. Exemple de complexité structurelle d un tableau. Les accolades indiquent que les intitulés des infractions se ventilent sur plusieurs lignes. Les guillemets mentionnent la répétition du terme noté à la ligne supérieure. Les tirets représentent un chiffre égal à zéro et non une absence de donnée Encodage des données Encodage en deux phases La méthode adoptée propose un encodage en deux temps (Figure 6). La première phase ou encodage sémantique consiste à décrire, au moyen d'un formulaire, la structure des tableaux. L'encodeur, qui doit justifier d'une bonne connaissance du domaine statistique étudié mais d aucune connaissance particulière en bases de données, y précise pour chaque intitulé de ligne ou de colonne, le concept que celui-ci illustre, son nom, sa position dans le tableau, etc. Au cours du remplissage de ce formulaire, les informations nécessaires à la formalisation des correspondances entre les éléments du tableau et le schéma de la base de données sont saisies. Un formulaire HTML imitant le tableau statistique source est alors généré automatiquement à partir des informations du formulaire de description. Ce

11 Entreposage et exploitation de documents multidimensionnels évolutifs 11 tableau généré comporte le titre et les intitulés de lignes et de colonnes, mais les cellules destinées à recevoir les chiffres sont vides. La deuxième phase consiste en l'encodage des chiffres. Cette tâche peut être réalisée par une personne sans connaissances ni en statistiques, ni en informatique. Le résultat est un tableau entièrement complété dont les liens avec le schéma de la base de données sont formellement établis. Le remplissage est ensuite effectué automatiquement. encodage sémantique encodage des chiffres tableau statistique formulaire de description description de la structure du tableau génération d un formulaire analogue au tableau formulaire HTML sans chiffre encodage des chiffres formulaire HTML avec chiffres remplissage automatique de la BD base de données Figure 6. Méthode d encodage des données. Les tâches d encodage sont spécifiées par la présence d un personnage Encodage sémantique Le formulaire de description des tableaux permet de décrire à la fois la sémantique du titre ainsi que celle de chacun des intitulés. Un formulaire de structure analogue à celle du tableau analysé est ensuite généré en vue de la saisie des chiffres Informations relatives à l ensemble du tableau La description d un tableau implique la saisie des informations relatives à son identification, c'est-à-dire son titre, ses éventuels sous-titres, son numéro, sa période de validité et la statistique à laquelle il appartient (Figure 7). Les statistiques étant parfois multilingues, il est nécessaire d enregistrer les données simultanément dans toutes les langues, de manière à éviter l encodage de tableaux distincts. Les informations figurant dans le titre ou le sous-titre et qui ne sont pas répétées au sein même du tableau sont considérées comme des intitulés à part entière caractérisant l ensemble des chiffres. Dans notre exemple (Figure 1), le sous-titre hommes spécifie que tous les chiffres du tableau représentent des condamnés du sexe masculin. Cette précision ne figure pas dans les intitulés de lignes et de colonnes et doit donc être stipulée, au moment de l encodage du sous-titre, comme une information décrivant l ensemble des faits mesurés.

12 12 Document Numérique Figure 7. Description du titre d un tableau Figure 8. Formulaire de saisie des intitulés

13 Entreposage et exploitation de documents multidimensionnels évolutifs 13 Figure 9. Tableau d encodage des chiffres Intitulés de lignes et de colonnes Les intitulés de ligne ou de colonne sont décrits les uns à la suite des autres (Figure 8). L objectif est de définir la dimension représentée par chacun d eux. Pour certaines dimensions, le nom de l intitulé, c est-à-dire l élément de la nomenclature, est la seule information à stipuler. Pour d autres dimensions, il est nécessaire de mentionner des renseignements complémentaires. Pour un lieu, par exemple, on notera non seulement le nom du lieu (Bruxelles, Anvers, ) mais également son type (canton, commune, ). La position de l intitulé dans le tableau, c'est-à-dire la ligne, la colonne et le niveau auxquels il se situe, est également saisie afin de préparer la génération du formulaire analogue au tableau. Il apparaît que certaines structures de tableaux se répètent d une période à l autre. L encodeur a dès lors la possibilité de copier en tout ou en partie les données saisies précédemment pour un autre tableau Génération du tableau destiné à la saisie des chiffres Grâce à la description du tableau statistique, un formulaire similaire au tableau source et destiné à recevoir les chiffres est généré automatiquement (Figure 9).

14 14 Document Numérique Encodage des chiffres et garnissage de la base de données Lorsque tous les chiffres ont été introduits, les requêtes de remplissage de la base de données sont composées automatiquement grâce aux informations stockées au cours des deux types d encodage (Figure 10). Le générateur de requêtes, qui établit les liens entre le tableau et la base de données, considère que les concepts sont des dimensions et que les noms des intitulés sont des nomenclatures de type nom (caractéristique). Quant aux chiffres, ils sont analysés comme des faits. Leur position dans le tableau permet de définir leurs liaisons avec les nomenclatures. Le chiffre situé à la colonne x et à la ligne y est associé aux intitulés localisés en colonne x ou en ligne y, tous niveaux confondus. insert into dimension set nom="profession" ; insert into caracteristique set dimension="profession", signification="nom" ; insert into nomenclature set dimension="profession",signification="nom",nom="jardinage, culture maraîchère, arboriculture, horticulture, viticulture" ; insert into type set numero=1, total="non"; insert into groupement set dimension="profession", signification="nom", nom="jardinage, culture maraîchère, arboriculture, horticulture, viticulture", type=1, position=1 ; insert into groupe set type=1, total="non", debut=' ', fin=' ' insert into fait set chiffre=3, unite_compte="condamnés", type_compte="nombre", debut=' ', fin=' ', statistique="criminelle", numtab="3", debut_tab=' ', fin_tab=' ' ; insert into appartenance set fait=1, groupe=1, debut_gr=' ', fin_gr=' ' Figure 10. Exemples de requêtes de remplissage de la base de données Ces requêtes exécutées, la base de données contient la même information que le tableau statistique. Un extrait des données correspondant au tableau de la figure 1 est représenté graphiquement à la Figure Exploitation et appareillage critique Une base de données statistiques couvrant de longues périodes peut poser des problèmes complexes d'interprétation lors de son exploitation. Le chiffre, s il constitue un puissant outil d analyse, n en reste pas moins un objet d histoire. Rendant compte d une réalité évolutive dans le temps, il est produit à chaque instant par des institutions données selon des procédures définies, lesquelles évoluent. Le chiffre a donc lui aussi un passé qui a modelé sa sémantique. Avant d interpréter une série temporelle de chiffres, il convient donc de distinguer les composantes stables de sa sémantique de celles qui ont évolué dans le temps. (Detienne et al., 2005) Ce sont essentiellement les nomenclatures des dimensions qui évoluent au cours du temps, entraînant notamment l'apparition de phénomènes de synonymie et de polysémie lors des exploitations diachroniques. Deux intitulés (noms d'éléments) distincts représenteront la même réalité à des périodes différentes alors qu'ailleurs,

15 Entreposage et exploitation de documents multidimensionnels évolutifs 15 un même intitulé subira d'une période à l'autre un glissement sémantique. On assistera également à des restructurations plus complexes de nomenclature : regroupement, éclatement, suppression, introduction, remplacement, renommage, recomposition d'éléments par exemple. Parallèlement à l évolution des nomenclatures des dimensions, il faut également tenir compte des modifications des procédures de construction des chiffres qui affectent, elles aussi, leur signification. DIMENSION groupe générique de profession état social sexe l infraction commise caractérisation 1-1 CARACTERISTIQUE nom nom nom nom instanciation 1-1 NOMENCLATURE Jardinage, culture maraîchère,... patrons... Indéterm. Crimes et délits Destructions, dégradations,... hommes groupement TYPE représentation 1-1 GROUPE appartenance 1-N FAIT chiffre: 3 année 1952 chiffre: 2 année 1952 Figure 11. Liens entre les principaux concepts de la base de données (cases gris clair) et leurs instances (cases gris foncé) Ce phénomène a fait récemment l'objet d'études dans le domaine voisin des entrepôts de données (data warehouses). (Vaisman et al., 2002) propose un prototype supportant la mise à jour des dimensions. Cet outil permet également de gérer la maintenance de vues, c est-à-dire d ensembles de faits mesurés selon certaines dimensions, qui doivent être actualisées en fonction des modifications apportées aux dimensions. D autres études se penchent sur la gestion de versions multiples de schémas liées à des périodes déterminées, ainsi que sur la résolution des requêtes portant sur des périodes couvrant plusieurs versions. (Eder et al., 2001) présente une extension du modèle multidimensionnel de données employé habituellement dans les entrepôts de données, de manière à supporter les évolutions des éléments des dimensions. Ce modèle temporel permet l enregistrement des

16 16 Document Numérique différentes versions des éléments des dimensions s échelonnant dans le temps. Des règles établissent les correspondances entre les données des diverses versions temporelles. Le système peut ainsi répondre correctement aux requêtes couvrant plusieurs versions en établissant les transformations de données adéquates. (Golfarelli et al., 2004) propose quant à lui une approche selon laquelle le concepteur peut décider de modifier les données des anciennes versions afin d augmenter les possibilités d interrogation couvrant des versions multiples. Dans le cadre de tableaux statistiques s'étendant sur de longues périodes, le traitement formel de l'évolution des nomenclatures n'a pas été jugé réaliste et a été écarté au profit d'une approche semi-formelle permettant de prendre en compte des aspects spécifiques connus des seuls experts du domaine. La solution optimale pour garantir la légitimité des séries temporelles est de définir la sémantique des éléments des nomenclatures qui décrivent les chiffres, puis de comparer, pour chacune des dimensions, les sémantiques des chiffres confrontés sur la ligne du temps. Si elles sont identiques, les chiffres peuvent être comparés. Si elles sont contradictoires, il faut en tenir compte dans l interprétation de la série [1]. N : ensemble des types d une typologie n N, S n représente, dans un formalisme approprié, la sémantique du type n n N, S ( ) ( n) p : sémantique dans un formalisme approprié du type n pendant la période p n N, S( n) S( n) chiffres comparables t = t+1 n N, S( n) S( n) +1 chiffres non comparables [1] t t Cependant pratiquement, dans de nombreux domaines d application, il est très difficile, voire impossible, de décrire de manière formelle la sémantique de tous les éléments de chaque nomenclature. Dans le cas de statistiques pénales par exemple, pour la dimension des infractions, il faudrait reconstituer et formaliser l'historique du code pénal, ce qui constituerait une tâche d une ampleur colossale. Pour pallier ce problème, des outils permettant de repérer la plupart des évolutions de nomenclatures peuvent être utilisés. Il suffit de construire, pour chaque dimension, une typologie affichant une structure hiérarchique de relation d ordre partiel de types dont la racine correspond au nom de la dimension et dont les feuilles sont les éléments des nomenclatures présentes dans la statistique. Les niveaux intermédiaires regroupent les éléments des nomenclatures par thèmes. Lors de la comparaison de deux chiffres appartenant à deux périodes différentes, il convient dès lors de consulter la typologie de chacune des dimensions décrivant chaque chiffre. La procédure [2] consiste à sélectionner la feuille qui correspond à l intitulé analysé, à déterminer son type parent, puis à répertorier l ensemble des types fils de ce dernier pour chaque période étudiée. Si les partitions d intitulés sont identiques pour les deux périodes, il y a de fortes chances que les sémantiques

17 Entreposage et exploitation de documents multidimensionnels évolutifs 17 n aient pas évolué. Dans le cas contraire, il convient de s interroger sur un éventuel glissement sémantique. N : ensemble des types d une typologie n N, P n désigne l élément parent du type n dans la hiérarchie ( ) ( n) n N, E désigne les types enfants du type n dans la hiérarchie t : période n N, E P( n) n N, E P( n) ( ) E( P( n) ) chiffres considérés sérialisables t = t+1 ( ) E( P( n) ) alerte glissement sémantique t +1 [2] t Le premier exemple de la Figure 12 illustre la typologie de la dimension sexe. Le type sexe est le nom de la dimension et joue le rôle de la racine dans la typologie. Les valeurs hommes, femmes et enfants rencontrées dans la statistique représentent les feuilles de la structure hiérarchique. Supposons que l on veuille comparer deux chiffres décrivant des hommes sur l intervalle de temps [n, n+1]. Dans la typologie relative au sexe, le parent de la feuille hommes est le type sexe. La partition des fils du type sexe est composée des valeurs {hommes, femmes} pour la période n, alors que la partition de la période n+1 est constituée de {hommes, femmes, enfants}. Cette observation montre que les chiffres représentant les hommes et les femmes lors de la période n comptabilisent également les mineurs d âge. Pour la période n+1, par contre, ces derniers ne sont pas repris dans le comptage des catégories hommes et femmes. Deux chiffres décrivant des hommes relatifs à ces deux périodes ne sont donc pas légitimement comparables puisqu ils ne représentent pas la même réalité. Cependant, des évolutions de partitions n impliquent pas toujours des variations sémantiques. Dans le second exemple de la Figure 12, l apparition de deux nouveaux délits ne modifie en rien la définition de la violation de confidentialité de lettres. En conclusion, lorsqu une modification de partition apparaît, elle dévoile une variation potentielle de sémantique qui doit être notifiée à l utilisateur. Dans le projet Quetelet.net, un moteur d analyse des séries temporelles a été développé à partir des règles de sérialisation, c est-à-dire de comparaison de chiffres dans le temps, définies ci-dessus ([1] et [2]). Cet outil a pour mission de générer des commentaires critiques signalant à l utilisateur toute évolution ou possibilité d évolution de la sémantique des chiffres. L automatisation de cette tâche d analyse essentielle à toute interprétation statistique facilite non seulement le travail de l utilisateur expert clairvoyant sur l importance de l évolution des dimensions, mais fait également prendre conscience de la nécessité de ce type d analyse à l utilisateur novice. Le système développé gère 175 ans de statistiques, ce qui représente pas moins de tableaux et plus de de chiffres. Cette étude de cas concrète est d une telle ampleur qu il n est matériellement pas possible de définir la sémantique de tous les éléments de toutes les nomenclatures. L usage des typologies, plus aisé à mettre en place, a dès lors été adopté. Lorsque deux chiffres sont sérialisés, le système détermine d abord si les sémantiques des intitulés

18 18 Document Numérique de chacune des dimensions concernées sont identiques. Ces définitions sont stockées dans la table SEMANTIQUE de la base de données (Figure 4). Si ces définitions sont disponibles, le commentaire généré par le moteur décrit la légitimité de la série. Dans le cas contraire, le système recourt alors à l analyse des typologies (tables TYPE et HIERARCHIE de la Figure 4) et avertit l utilisateur de toute évolution des partitions, c est-à-dire de tout changement sémantique potentiel. Le commentaire généré n est donc plus une assertion ou une déduction mais plutôt une mise en garde de l utilisateur. Dans ce cas, la critique automatisée ne peut se suffire à elle-même mais elle constitue néanmoins «un système d aide à la sérialisation» très utile impliquant directement l utilisateur. sexe hommes femmes enfants typologie statistiques hommes stat x femmes stat x hommes stat y femmes stat y enfants stat y période n période n+1 infraction violation de confidentialité lettres radiocommunications... télégraphie et téléphonie typologie statistiques lettres 1929 lettres 1930 radiocommunications 1930 télégraphie et téléphonie Figure 12. Evolution des partitions d une dimension. En haut, la sémantique des intitulés est modifiée. En bas, la sémantique est inchangée. La sémantique des éléments des nomenclatures évolue parfois selon des règles formellement définies telles que le regroupement, l éclatement, la suppression, l introduction, le remplacement, le renommage, la recomposition, etc. Il serait dès lors opportun, dans les travaux futurs, de définir la relation qui lie la sémantique des éléments de nomenclature de chaque période aux sémantiques des éléments des

19 Entreposage et exploitation de documents multidimensionnels évolutifs 19 périodes voisines sur la ligne du temps, de manière à pouvoir transposer cette relation aux chiffres. Supposons que pour la période n, l ensemble des cantons étudiés soit {A, B, C}, et que pour la période n+1, il soit {AB, C}, le canton AB résultant du regroupement administratif des cantons A et B. La définition de la relation entre A, B et AB permet de comparer la somme des chiffres des cantons A et B de la période n au chiffre du canton AB de la période n+1. L usage de ces descriptions affinerait le mécanisme d analyse des évolutions temporelles et guiderait d avantage l utilisateur dans son interprétation des séries. Il est aujourd hui informé de l existence d une évolution. La description des relations entre les éléments des nomenclatures sur la ligne du temps lui permettra demain d en connaître la nature. Il convient de noter que la relation entre les sémantiques d un élément de nomenclature portant sur différentes périodes ne peut être définie dans tous les cas. L exemple des hommes cité ci-dessus en est la preuve. Les hommes des période n et n+1 ne sont comparables que si l on retire les enfants de l ensemble des hommes de la période n, enfants dont on ne connaît pas la proportion. 6. Conclusion Les tableaux statistiques décrivent des faits mesurés selon différentes dimensions. Les analyses statistiques requérant des croisements et des agrégations de données issues de différents tableaux, ces documents doivent être entreposés dans un système fournissant des fonctionnalités de recherche puissantes et efficaces, c'est-à-dire un SGBD. De très nombreuses collections de tableaux statistiques ne sont disponibles que sous forme de documents imprimés ou d'images numérisées et sont donc inaccessibles à l'analyse statistique par voie informatique. L entreposage des tableaux statistiques dans une base de données consiste à définir la structure de la base de données pour ensuite la remplir. L insertion des données dans les tables peut être réalisée automatiquement à condition que les liens entre les éléments du tableau statistique et le schéma de la base de données aient été formellement établis. Lorsque les données sont transférées, elles seront exploitées avec la plus grande prudence, les séries temporelles manquant parfois de cohérence. Le projet Quetelet.net fournit des méthodes et des outils adaptés aux différentes étapes de la vie d une base de données issue de tableaux statistiques, depuis sa création jusqu à son exploitation. L objectif de ces méthodes et outils consiste non seulement à maximiser l automatisation des différents processus, mais également à fournir des solutions génériques, c est-à-dire réutilisables pour tout domaine de la statistique. La contribution de cet article, qui se base sur les acquis de ce projet, est triple. D abord, nous proposons un schéma d entrepôt de données multidimensionnelles générique. L ajout d une nouvelle dimension se matérialise simplement par l insertion d un nouvel enregistrement dans la table DIMENSION,

20 20 Document Numérique alors que la présence d un nouvel élément de nomenclature se traduit par le stockage d un nouvel enregistrement dans la table NOMENCLATURE (Figure 4). Que le domaine d application étudié évolue ou qu un nouveau domaine d application soit analysé, la structure de la base de données ne subit donc aucune modification. Ensuite, un outil a été développé pour extraire semi automatiquement les données statistiques. Cet outil, sur base d informations encodées via des formulaires, génère automatiquement les requêtes de remplissage de la base de données. Le formulaire de description des tableaux est lié au domaine d application étudié. Il présente en effet la liste des dimensions propres à l univers analysé, et appelle à saisir des informations spécifiques aux dimensions. Pour définir un lieu, par exemple, on ne se contentera pas de fournir son nom mais on devra également spécifier son type. Ces formulaires particuliers pourraient tout à fait être créés automatiquement par un générateur de systèmes de collecte de données. Cet outil produirait des systèmes d extraction de données analogues à celui de Quetelet.net, et adaptés aux milieux statistiques analysés. Le formulaire d encodage sémantique et son générateur de requêtes seraient ainsi créés automatiquement moyennant une description succincte du domaine d application telle que l'énumération des dimensions et leurs caractéristiques. Enfin, l outil encadre l utilisateur dans l exploitation des données statistiques. Un moteur analyse les résultats des requêtes afin de mesurer leur pertinence. Il fournit dès lors à l utilisateur des séries temporelles accompagnées de commentaires critiques générés automatiquement. La composition de ces observations se base d abord sur les descriptions sémantiques enregistrées dans la base de données. Si ces dernières n existent pas, ce sont les typologies également stockées dans la base de données qui sont utilisées. Le contenu des commentaires est donc alimenté par les informations figurant dans la base de données. Les procédures de construction de ces observations sont quant à elles totalement génériques. 7. Bibliographie CAMILLERAPP J., PASQUER L., COÜASNON B., «Indexation automatique de formulaires anciens par reconnaissance du patronyme manuscrit», quatorzième édition du congrès francophone de Reconnaissance des formes et d'intelligence artificielle RFIA 2004, Toulouse, 2004 CEHEUX G.R. (nom collectif), «Stratégie pour l interprétation de documents», Actes des deuxièmes assises nationales du GdR I³, 2002 DANG-NGOC T-T., KOU H., GARDARIN G., «Integrating Web Information with XML Concrete Views», Databases and Applications, p , IASTED/ACTA Press, 2004 DARMONT J., BOUSSAID O., BENTAYEB F., «Warehousing Web Data», 4th International Conference on Information Integration and Web-based Applications and Services (iiwas 02), p , 2002.

21 Entreposage et exploitation de documents multidimensionnels évolutifs 21 DETIENNE V., HAINAUT J-L., «Case Tool Support for Temporal Database Design», in Proc. Int. Conf. on Conceptual modeling - ER 2001, p , LNCS 2224, Springer, 2001 DETIENNE V., VESENTINI F., BERNARD B., «Entre archivage électronique, bases de données temporelles et e-learning : «Quetelet.net», plate forme de diffusion des statistiques pénales», dans Les chiffres du crime en débat Regards croisés sur la statistique pénale en Belgique ( ), Bruylant-Academia S.A., Louvain-la-Neuve, p , 2005 DETIENNE V., VESENTINI F., «La sérialisation des chiffres de la poursuite pénale : formalisation, problèmes, perspectives et automatisation», dans Les chiffres du crime en débat Regards croisés sur la statistique pénale en Belgique ( ), Bruylant- Academia S.A., Louvain-la-Neuve, p , 2005 EDER J., KONCILIA C., «Evolution of dimension data in temporal data warehouses», in Proc. DaWaK 2001, LNCS 2114, pp , Springer 2001 EMPTOZ H., LEBOURGEOIS F., EGLIN V., LEYDIER Y., «La reconnaissance dans les images numérisées : OCR et transcription, reconnaissance des structures fonctionnelles et des méta-données», La numérisation des textes et des images : techniques et réalisations, Lille, France, 2003 GALLOWAY, EDWARD A., and GABRIELLE V.MICHALEK, «The Heinz Electronic Library Interactive Online System (HELIOS): Building a Digital Archive Using Imaging, OCR, and Natural Language Processing Technologies», The Public-Access Computer Systems Review 6, no. 4, 1995 GOLFARELLI, M., LECHTENBORGER, J., RIZZI, S., and VOSSEN, G., «Schema Versioning in Data Warehouses», in S. Wang et al. (Eds.), ER Workshops 2004, LNCS 3289, pp , Springer, HAINAUT J-L., Bases de données et modèles de calcul - Outils et méthodes pour l'utilisateur, Dunod, Paris, KEIPER J., BROCKS H., DIRSCH-WEIGAND A., STEIN A., THIEL U., «COLLATE - A Web-Based Collaboratory for Content-Based Access to and Work with Digitized Cultural Material», dans Proceedings of the International Cultural Heritage Informatics Meeting (ICHIM 01), Bearman D. & Garzotti F., Milano : Politecnico di Milano, p , 2001 KHROUF K., SOULE-DUPUY C., «Vers une mémoire d'entreprise via les entrepôts de documents : Extraction de structures logiques», Extraction et Gestion des Connaissances (EGC'03), Hermès Ed., Lyon, France, p , 2003 KHROUF K., SOULE-DUPUY C., «DocWare: Vers l'entreposage et l'analyse multidimensionnelle de documents», dans Conférence en Recherche d'information et Applications - CORIA'05, IMAG Ed., p , 2005 VAISMAN, A., MENDELZON, A., RUARO, W., CYMERMAN, S., «Supporting dimension updates in an OLAP server». in Proc. CAiSE 2002, LNCS 2348, pp , Springer, 2002.