CONTROLE DE LA QUALITE SPATIALE



Documents pareils
Analyse et conception d'outils pour la traçabilité de produits agroalimentaires afin d'optimiser la dispersion des lots de fabrication.

Système d'accès à des Bases de Données Hétérogènes réparties en vue d'une aide à la décision (SABaDH)

N d ordre 02ISAL0087 Année Thèse. Application de classificateurs aux données d émission acoustique :

:SPECIMEN SPECIMEN SUPPLÉMENT AU DIPLÔME (ANNEXE DESCRIPTIVE AU DIPLÔME)

Sujet de thèse CIFRE RESULIS / LGI2P

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

La Commission des Titres d ingénieur a adopté le présent avis

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Faculté des Sciences d ORSAY

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

WHITE PAPER Une revue de solution par Talend & Infosense

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P

Appendice 2. (normative) Structure de niveau supérieur, texte de base identique, termes et définitions de base communs

Le système d information en classe de première STMG

La directive INSPIRE en Wallonie: le géoportail et l infrastructure de diffusion des géodonnées en Région wallonne (InfraSIG(

SUPPLEMENT AU DIPLOME

Format de l avis d efficience

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

Le génie logiciel. maintenance de logiciels.

Système de management H.A.C.C.P.

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Licence professionnelle Systèmes d information, méthodes et outils

Stages - le calendrier

Formation L.M.D. en instrumentation biomédicale. Mise en œuvre dans une université scientifique et médicale : Claude Bernard Lyon I

Nom de l application

N. Paparoditis, Laboratoire MATIS

Diapo 1. Objet de l atelier. Classe visée. Travail en co-disciplinarité (identité et origine académique des IEN)

Méthodologie de conception des Systèmes d Aide à l Exploitation des Simulateurs d Entraînement

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

LA QUALITE DU LOGICIEL

Élargissez vos compétences en intégrant une formation Bac +6 répondant aux enjeux de l'éco-innovation

«Bases de données géoréférencées pour la gestion agricole et environnementale en Roumanie»

Une fréquence peut-elle être instantanée?

Introduction au Data-Mining

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Entrepôt de données 1. Introduction

Université de Lausanne

PRÉPARER LA PREMIÈRE ÉPREUVE ORALE D ADMISSION OPTION EPS. DEVOIRS SUPPLÉMENTAIRES 1 et 2

LA QUALITE, L ASSURANCE DE LA QUALITE ET LA CERTIFICATION ISO 9001

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

ISBN-13 : Dépôt légal : Bibliothèque et Archives nationales du Québec, 2009

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

Génie Logiciel LA QUALITE 1/5 LA QUALITE 3/5 LA QUALITE 2/5 LA QUALITE 4/5 LA QUALITE 5/5

Utilisation du SIG dans une entreprise industrielle pour l analyse et la prise de décision

L outillage du Plan de Continuité d Activité, de sa conception à sa mise en œuvre en situation de crise

Renforcement de Capacité La gestion de déchets industriels - La Promotion de l enseignement

Cursus Master. en Ingénierie NOUVEAU : un cursus intégré en 5 années

Cycle de vie, processus de gestion

Doctorate of Business Administration Programme francophone

Entraînement, consolidation, structuration... Que mettre derrière ces expressions?

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Atelier A7. Audit de la gestion globale des risques : efficacité ou conformité?

Le Crédit-bail mobilier dans les procédures collectives

ISO/CEI Technologies de l information Gestion des actifs logiciels. Partie 1: Procédés et évaluation progressive de la conformité

Modèle Cobit

Evaluation du cursus «Information et communication»

Intitulé du stage. Initiation à l'environnement industriel Jeudi 15 et vendredi 16 septembre 2011

Nom-Projet MODELE PLAN DE MANAGEMENT DE PROJET

Compte rendu de la formation

Trait de côte Histolitt v1.0 Descriptif technique Version du document 1.0 *** Sommaire

Les formations en cycle ingénieur

1 Introduction à l infrastructure Active Directory et réseau

Mastère spécialisé. «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché»

Université de Haute Alsace. Domaine. Sciences Humaines et Sociales. MASTER Mention Éducation, Formation, Communication UHA, ULP, Nancy 2

Master Energie spécialité Energie électrique

Télé-Procédure de Gestion d Incidents : Spécifications et Prototype.

Formats 3D Critères d utilisation dans les échanges Frédéric CHAMBOLLE PSA Peugeot Citroën Direction des Systèmes d Information

Conservatoire National des Arts et Métiers

Principe et règles d audit

Licence professionnelle Administration et gestion des entreprises culturelles de la musique et du spectacle vivant

Université de Lorraine Licence AES LIVRET DE STAGE LICENCE

Présentation Générale

Le WACC est-il le coût du capital?

Guide No.2 de la Recommandation Rec (2009).. du Comité des Ministres aux États membres sur la démocratie électronique

Programme de la formation. Écrit : 72hdepréparation aux épreuves d admissibilité au CRPE

Introduction au datamining

Programme des enseignements

P RO - enfance. Plateforme Romande pour l accueil de l enfance

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

EXAMEN CRITIQUE D UN DOSSIER TECHNIQUE

Bases de Données. Le cas des BD relationnelles ouverture sur les BD relationnelles spatiales Séance 2 : Mise en oeuvre

LECTURE CRITIQUE. Accompagner les enseignants et formateurs dans la conception d une formation en ligne

MABioVis. Bio-informatique et la

GUIDE DE CONSTITUTION DE DOSSIER EN VUE DE LA RECONNAISSANCE ET/OU DE L EQUIVALENCE DES DIPLOMES, TITRES ET GRADES DE L ENSEIGNEMENT SUPERIEUR

Prix AEF - 5 ème édition Universités - Entreprises "Les meilleures initiatives partagées"

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

SOCLE COMMUN: LA CULTURE SCIENTIFIQUE ET TECHNOLOGIQUE. alain salvadori IA IPR Sciences de la vie et de la Terre ALAIN SALVADORI IA-IPR SVT

Rédiger et administrer un questionnaire

ISTEX, vers des services innovants d accès à la connaissance

Master 2. Mention : «Ecosciences, Microbiologie» Domaine : Sciences Technologies Santé Responsable : F. Menu

MEMOIRE POUR UNE HABILITATION A DIRIGER DES RECHERCHES

Licence professionnelle Radioprotection, démantèlement et déchets nucléaires : chargé de projets

Conception des bases de données : Modèle Entité-Association

Chapitre 1 : Introduction aux bases de données

Synthèse «Le Plus Grand Produit»

AVIS FORMEL DU CONSEIL D ETAT. Monsieur le Président, Mesdames, Messieurs les membres de la commission, * * *

Intérêt du découpage en sous-bandes pour l analyse spectrale

Transcription:

N d ordre ISAL Année 1997 THESE présentée DEVANT L INSTITUT NATIONAL DES SCIENCES APPLIQUEES DE LYON pour obtenir LE GRADE DE DOCTEUR FORMATION DOCTORALE : INFORMATIQUE DE LYON PAR Thierry UBEDA Diplôme d Etude Approfondies en Ingénierie Informatique CONTROLE DE LA QUALITE SPATIALE DES BASES DE DONNEES GEOGRAPHIQUES : COHERENCE TOPOLOGIQUE ET CORRECTIONS D'ERREURS Soutenue le 1 er Décembre 1997 devant la Commission d Examen Jury MM. Patrice BOURSIER (Rapporteur) Pierre DUMOLARD Max EGENHOFER (Rapporteur) Robert LAURINI Yves MARTINEZ Michel SCHOLL (Rapporteur) Sylvie SERVIGNE Cette thèse a été préparée au Laboratoire d Ingénierie des Systèmes d Information de l INSA de LYON

REMERCIEMENTS Je remercie Monsieur Robert LAURINI, Professeur à l I.U.T de l Université Claude Bernard Lyon 1, Directeur du Laboratoire d Ingénierie des Systèmes d Information (LISI) de l Institut National des Sciences Appliquées (INSA) de Lyon, pour m avoir accueilli au sein de son équipe et conseillé tout au long de ce travail. Je remercie Madame Sylvie SERVIGNE, Maître de Conférence à l INSA de Lyon, pour avoir su me guider avec une attention et une gentillesse constante pendant trois ans. Son influence sur la qualité finale de ce travail est très importante. Qu elle trouve ici l expression de ma profonde amitié. Je remercie Monsieur Patrice BOURSIER, Professeur à l Université de la Rochelle, et Monsieur Gilles ZURFLUH, Professeur à l Université Paul Sabatier de Toulouse, d avoir accepté de rapporte ce mémoire. Les observations et critiques qu ils ont émises on été très enrichissantes. Je remercie Monsieur Michel SCHOLL, Professeur au Conservatoire National des Arts et Métiers de Paris, pour avoir accepté de présider le jury, ainsi que Monsieur Pierre DUMOLARD, Professeur de Géographie à l Université Joseph Fourier de Grenoble et Monsieur Yves MARTINEZ, Professeur à l INSA de Lyon et directeur du Département Informatique de L INSA, pour leur participation au jury. Je remercie Monsieur Max J. EGENHOFER, Associate Professor in Spatial Information Science and Engineering and Cooperating Associate Professor in Computer Science à l Université du Maine (USA) et Directeur du National Center for Geographic Information and Analysis (NCGIA), pour m avoir accueilli en stage au sein de son laboratoire pendant l été 1996. Ce travail a connu une avancée considérable lors de ce séjour grâce aux précieux conseils qu il a su me donner. Je voudrais également remercier les responsables du Programme National sur les Systèmes d Information Géographique pour m avoir accueilli au sein d un groupe de travail en me faisant participer à l axe C2 de ce programme. Je remercie Alain, Anne, Bruno, Stéphane, Sylvie et Sylvie, de m avoir aidé à préparer la présentation de cette thèse, en sacrifiant une partie de leur Week-end. Leurs conseils furent appréciés et appliqués. Merci à ma famille, ma mère pour m avoir apporté la fantaisie, l imagination et la liberté d esprit si utile à ce genre de travail, mon père pour avoir su m apprendre la rigueur et l amour du travail bien fait que j ai essayé d appliquer tout au long de ma thèse, et mon frère pour m avoir conseillé et montré la voie. Je veux également remercier tous mes amis, pour leur présence et leur bonne humeur. Je ne citerais pas de nom pour n oublier personne. Page 2

Ecoles Doctorales Septembre 1997 Ecole doctorale Matériaux de Lyon INSA - ECL - UCBL - U. Chambéry - ENS Responsable : Pr. A. HOAREAU Formations doctorales : - Génie des matériaux (Pr. R. FOUGERES) - Matière condensée, surfaces et interfaces (Pr. BARRAT) - Matériaux polymères et composites (Pr. SAUTEREAU) Ecole doctorale des Sciences pour l'ingénieur de Lyon : Mécanique, Energétique, Génie Civil, Acoustique (MEGA) ECL - INSA - UCBL Responsable : Pr. J. BATAILLE Formations doctorales : - Acoustique (Pr. GUYADER) - Génie civil : Sols, Matériaux, Structures physique du bâtiment (Pr. LAREAL) - Mécanique (Pr. BATAILLE) - Thermique et énergétique (Pr. LANCE) Ecole doctorale des Sciences pour l'ingénieur de Lyon : Electronique, Electrotechnique, Automatique (EEA) INSA - ECL - UCBL - U. Chambéry - U. St Etienne Responsable : Pr. G. GIMENEZ Formations doctorales : - Acoustique (Pr. GUYADER) - Automatique industrielle (Pr. BOLON) - Dispositifs de l'électronique intégrée (Pr. PINARD) - Génie Biologique et médical (Pr. COLLOMBEL) - Génie Electrique (Pr. AURIOL) - Signal, image, parole (Pr. LACOUME) Page 3

INSA de Lyon Département des Etudes Doctorales Octobre 1995 - De France 04 72 43 - De l Etranger 33 4 72 43 LISTE DES DEA ou FORMATIONS DOCTORALES FORMATIONS DOCTORALES Acoustique Analyse et modélisation de systèmes biologiques Automatique industrielle Biochimie Chimie Inorganique Conception en bâtiments et techniques urbaines DEA d Informatique de Lyon Dispositifs de l'électronique intérgée Génie biologique et médical Génie civil : sols, matériaux, structures, physique du bâtiment Génie des matériaux : Microstructure, comportement mécanique, durabilité Génie Electrique de Lyon Matériaux polymères et composites Matière condensée, surfaces et interfaces Mécanique Productique : organisation économique et Génie Informatique pour l entreprise Sciences et techniques du déchet Signal, Image, Parole Thermique et énergétique RESPONSABLES INSA ADRESSES INSA GUYADER Jean-Louis Bât 303 Tél 80 80 NARDON Paul Bât 406 Tél 80 86 SCAVARDA Serge Bât 303 Tél 83 41 LAGARDE Michel Bât 406 Tél 82 40 GONNARD Paul Bât 504 Tél 81 58 MIRAMOND Marcel Bât 304 Tél 82 09 KOULOUMDJIAN Jacques Bât 501 Tél 80 99 PINARD Pierre Bât 502 Tél 82 47 MAGNIN Isabelle Bât 502 Tél 85 63 LAREAL Pierre Bât 304 Tél 82 16 FOUGERES Roger Bât 502 Tél 81 49 CHANTE Jean-Pierre Bât 401 Tél 87 26 SAUTEREAU Henri Bât 403 Tél 81 78 GUILLOT Gérard Bât 502 Tél 81 61 DALMAZ Gérard Bât 113 Tél 83 03 FAVREL Joël Bât 502 Tél 82 19 NAVARRO Alain Bât 404 Tél 84 30 GIMENEZ Gérard Bât 502 Tél 83 32 LALLEMAND Monique Bât 404 Tél 81 54 FAX ADRESSES ELECTRONIQUES Fax 87 12 guyadet@lva.insa-lyon.fr Fax 85 34 lba@insa-lyon.fr Fax 85 35 scavarda@laifluide2.insa-lyon.fr Fax 85 24 Michel.Lagarde@insa-lyon.fr Fax 85 13 gonnard@ge-serveur.insa-lyon.fr Fax 85 21 Miramond@urgc-hu.insa-lyon.fr Fax 87 13 koulou@lisiecrin.insa-lyon.fr Fax 85 31 Pierre.Pinard@insa-lyon.fr Fax 85 26 Isabelle.Magnin@creatis.insa-lyon.fr Fax 85 20 deagc@insa-lyon.fr Fax 85 28 fougeres@gemppm.insa-lyon.fr Fax 85 30 chante@cegely.insa-lyon.fr Fax 85 27 Henri.Sautereau@insa-lyon.fr Fax 85 31 Gerard.Guillot@insa-lyon.fr Fax 04 78 89 09 80 Gerard.Dalmaz@lmc.insa-lyon.fr Fax 85 18 jfavrel@if.insa-lyon.fr Fax 87 17 Alain.Navarro@insa-lyon.fr Fax 85 26 gimenez@creatis.insa-lyon.fr Fax 85 14 Monique.Lallemand@cethil.insa-lyon.fr L INSA de Lyon est l établissement responsable des formations doctorales dont les noms sont signalés en gras. Page 4

Septembre 1997 INSTITUT NATIONAL DES SCIENCES APPLIQUEES DE LYON Directeur : J. Rochat Professeurs : S. AUDISIO PHYSICOCHIMIE INDUSTRIELLE J.C. BABOUX GEMPPM* B. BALLAND PHYSIQUE DE LA MATIERE D. BARBIER PHYSIQUE DE LA MATIERE G. BAYADA MODELISATION MATHEMATIQUE. ET CALCUL SCIENTIFIQUE C. BERGER (Melle) PHYSIQUE DE LA MATIERE M. BETEMPS AUTOMATIQUE INDUSTRIELLE J.M. BLANCHARD LAEPSI*** C. BOISSON VIBRATIONS-ACOUSTIQUE M. BOIVIN MECANIQUE DES SOLIDES H. BOTTA EQUIPE DEVELOPPEMENT URBAIN G. BOULAYE INFORMATIQUE J. BRAU CENTRE DE THERMIQUE M. BRISSAUD GENIE ELECTRIQUE ET FERROELECTRICITE M. BRUNET MECANIQUE DES SOLIDES J.C. BUREAU THERMOCHIMIE MINERALE J.Y. CAVAILLE GEMPPM* J.P. CHANTE COMPOSANTS DE PUISSANCE ET APPLICATIONS B. CHOCAT UNITE DE RECHERCHE EN GENIE CIVIL B. CLAUDEL LAEPSI*** M. COUSIN UNITE DE RECHERCHE EN GENIE CIVIL M. DIOT THERMODYNAMIQUE APPLIQUEE A. DOUTHEAU CHIMIE ORGANIQUE R. DUFOUR MECANIQUE DES CONTACTS J.C. DUPUY PHYSIQUE DE LA MATIERE H. EMPTOZ RECONNAISSANCE DE FORMES ET VISION C. ESNOUF GEMPPM* L. EYRAUD (Prof. émérite) GENIE ELECTRIQUE ET FERROELECTRICITE G. FANTOZZI GEMPPM* M. FAYET MECANIQUE DES SOLIDES J. FAVREL GROUPE DE RECHERCHE EN PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERS G. FERRARIS-BESSO MECANIQUE DES STRUCTURES Y. FETIVEAU GENIE ELECTRIQUE ET FERROELECTRIQUE L. FLAMAND MECANIQUE DES CONTACTS P. FLEISCHMANN GEMPPM* A. FLORY INGENIERIE DES SYSTEMES D INFORMATION R. FOUGERES GEMPPM* F. FOUQUET GEMPPM* L. FRECON INFORMATIQUE R. GAUTHIER PHYSIQUE DE LA MATIERE M. GERY CENTRE DE THERMIQUE G. GIMENEZ CREATIS** P. GOBIN (Prof. émérite) GEMPPM* P. GONNARD GENIE ELECTRIQUE ET FERROELECTRIQUE M. GONTRAND COMPOSANTS DE PUISSANCE ET APPLICATIONS R. GOUTTE (Prof. émérite) CREATIS G. GRANGE GENIE ELECTRIQUE ET FERROELECTRIQUE Page 5

G. GUENIN GEMPPM* M. GUICHARDANT BIOCHIMIE ET PHARMACOLOGIE G. GUILLOT PHYSIQUE DE LA MATIERE A. GUINET GROUPE DE RECHERCHE EN PRODUCTIQUE ET INFORMATIQUE DES SYSTEMES MANUFACTURIERS J.L. GUYADER VIBRATIONS-ACOUSTIQUE J.P. GUYOMAR GENIE ELECTRIQUE ET FERROELECTRIQUE J.M. JOLION RECONNAISSANCE DE FORMES ET VISION J. JOUBERT GENIE MECANIQUE J.F. JULLIEN UNITE DE RECHERCHE EN GENIE CIVIL A. JUTARD AUTOMATIQUE INDUSTRIELLE R. KASTNER UNITE DE RECHERCHE EN GENIE CIVIL H. KLEIMANN GENIE ELECTRIQUE ET FERROELECTRIQUE J. KOULOUMDJIAN INGENIERIE DES SYSTEMES D INFORMATION M. LAGARDE BIOCHIMIE ET PHARMACOLOGIE M. LALANNE MECANIQUE DES STRUCTURES A. LALLEMAND CENTRE DE THERMIQUE M. LALLEMAND (Mme) CENTRE DE THERMIQUE P. LAREAL UNITE DE RECHERCHE EN GENIE CIVIL A. LAUGIER PHYSIQUE DE LA MATIERE CH. LAUGIER BIOCHIMIE ET PHARMACOLOGIE P. LEJEUNE GENIE MOLECULAIRE DES MICROORGANISMES A. LUBRECHT MECANIQUE DES CONTACTS Y. MARTINEZ INGENIERIE INFORMATIQUE INDUSTRIELLE H. MAZILLE PHYSICOCHIMIE INDUSTRIELLE P. MERLE GEMPPM* J. MERLIN GEMPPM* J.P. MILLET PHYSICOCHIMIE INDUSTRIELLE M. MIRAMOND UNITE DE RECHERCHE EN GENIE CIVIL N. MONGEREAU (Prof. émérite) UNITE DE RECHERCHE EN GENIE CIVIL R. MOREL MECANIQUE DES FLUIDES P. MOSZKOWICZ LAEPSI*** P. NARDON BIOLOGIE APPLIQUEE A. NAVARRO LAEPSI*** A. NOURI (MME) MODELISATION METHEMATIQUE ET CALCUL SCIENTIFIQUE M. OTTERBEIN LAEPSI*** J.P. PASCAULT MATERIAUX MACROMOLECULAIRES G. PAVIC VIBRATIONS-ACOUSTIQUE J. PERA UNITE DE RECHERCHE EN GENIE CIVIL G. PERACHON THERMOCHIMIE MINERALE J. PEREZ (Prof. émérite) GEMPPM* P. PINARD PHYSIQUE DE LA MATIERE J.M. PINON INGENIERIE DES SYSTEMES D INFORMATION D. PLAY CONCEPTION ET ANALYSE DES SYSTEMES MECANIQUES J. POUSIN MODELISATION METHEMATIQUE ET CALCUL SCIENTIFIQUE P. PREVOT GROUPE DE RECHERCHE EN APPRENTISSAGE, COOPERATION ET INTERFACES MULTIMODALES R. PROST CREATIS** M. RAYNAUD CENTRE DE THERMIQUE J.M. REYNOUARD UNITE DE RECHERCHE EN GENIE CIVIL E. RIEUTORD (Prof. émérite) MECANIQUE DES FLUIDES J. ROBERT-BAUDOUY (Mme) GENETIQUE MOLECULAIRE DES MICROORGANISMES D. ROUBY GEMPPM* P. RUBEL INGENIRIE DES SYSTEMES D INFORMATION C. RUMELHART MECANIQUE DES SOLIDES J.F. SACADURA CENTRE DE THERMIQUE H. SAUTEREAU MATERIAUX MACROMOLECULAIRES Page 6

S. SCAVARDA AUTOMATIQUE INDUSTRIELLE D. THOMASSET AUTOMATIQUE INDUSTRIELLE M. TROCCAZ GENIE ELECTRIQUE ET FERROELECTRIQUE R. UNTERREINER CREATIS** J. VERON LAEPSI*** G. VIGIER GEMPPM* A. VINCENT GEMPPM* P. VUILLERMOZ PHYSIQUE DE LA MATIERE Directeurs de recherche C.N.R.S. : D. ANKER CHIMIE ORGANIQUE Y. BERTHIER MECANIQUE DES CONTACTS P. CLAUDY THERMODYNAMIQUE APPLIQUEE P. FRANCIOSI GEMPPM* M. MURAT GEMPPM* A. NOUAILHAT PHYSIQUE DE LA MATIERE M.A. MANDRAND (Mme) GENETIQUE MOLECULAIRE DES MICROORGANISMES J.F. QUISON GEMPPM* A. ROCHE MATERIAUX MACROMOLECULAIRES Directeurs de recherche I.N.R.A. : G. BONNOT BIOLOGIE APPLIQUEES G. FEBVAY BIOLOGIE APPLIQUEES S. GRENIER BIOLOGIE APPLIQUEES Y. MENEZO BIOLOGIE APPLIQUEES Directeurs de recherche I.N.S.E.R.M. : A.-F. PRIGENT (Mme) BIOCHIMIE ET PHARMACOLOGIE I. MAGNIN (Mme) CREATIS** *GEMPPM **CREATIS DU SIGNAL ***LAEPSI INDUSTRIELS Groupe d'étude métallurgie physique et physique des matériaux CENTRE DE RECHERCHE ET D APPLICATIONS ENTRAITEMENT DE L IMAGE ET LABORATOIRE D ANALYSE ENVIRONNEMENTALE DES PROCEDES ET SYSTEMES Page 7

Contrôle de la qualité spatiale des bases de données géographiques : cohérence topologique et corrections d'erreurs. 1. INTRODUCTION 13 1.1 Les systèmes d'information géographiques 13 1.2 Objectifs de la thèse 14 1.3 Les contributions 15 1.4 Présentation du plan 17 PARTIE 1 : Définitions et contexte 2. LA QUALITÉ SPATIALE DANS LES BASES DE DONNÉES GÉOGRAPHIQUES. 20 2.1 Définition de la qualité spatiale. 21 2.1.1 Les différentes approches. 21 2.1.2 Les composantes de la qualité spatiale. 23 2.2 La gestion de la qualité spatiale. 28 2.2.1 Modélisation et visualisation de la qualité : recherche d erreurs. 29 A Modélisation de la qualité 30 B Visualisation de la qualité 31 C Propagation des erreurs. 34 2.2.2 Assurance et amélioration de la qualité : correction d erreurs. 36 A Assurance de la qualité 37 B Amélioration de la qualité. 38 2.3 Conclusion et précision du sujet 40 Page 8

3. LA COHÉRENCE SPATIALE DES DONNÉES. 43 3.1 La cohérence structurelle. 46 3.2 La cohérence géométrique 47 3.3 La cohérence topo-sémantique 48 3.4 Conclusion 51 4. LA MODÉLISATION DE L'INFORMATION SPATIALE. 52 4.1 Modélisation des données. 54 4.1.1 Les modèles spaghetti. 54 A Le modèle spaghetti anarchique. 55 B Le modèle spaghetti simple. 56 C Le modèle spaghetti polygonal. 57 D Le modèle spaghetti polygonal unifié. 58 4.1.2 Les modèles topologiques 59 A Le modèle réseau simple 59 B Le modèle réseau planaire 60 C Le modèle surfacique planaire. 61 4.1.3 Modèles constructeurs. 63 A ARC/INFO. 63 B APIC. 64 C URIAH. 65 D Système 9. 66 E SDO : Spatial Data Option. 67 4.1.4 Conclusion sur les modèles conceptuels spatiaux. 67 4.2 Modélisation des relations spatiales. 69 4.2.1 Les modèles de représentation des relations topologiques 71 A Le modèle des 9I. 72 B Le modèle RCC. 74 C Le modèle CBM. 75 4.2.2 Exploitation des modèles topologiques 76 A La composition de relations topologiques 77 B Le contrôle de cohérence topologique 77 C L évolution des relations topologiques 78 Page 9

D Autres travaux 79 4.2.3 Choix du modèle topologique : le modèle des 9-intersections étendu 80 A Définition du modèle 80 B Analyse des relations 81 C Groupement des relations 82 4.3 Conclusion 83 PARTIE 2 : Contrôle de la cohérence et corrections d'erreurs 5. MÉTHODOLOGIE DE CONTRÔLE DE LA COHÉRENCE DES BASES DE DONNÉES SPATIALES. 87 5.1 Traitement de la cohérence géométrique. 87 5.1.1 Les propriétés géométriques. 88 5.1.2 La vérification des propriétés. 96 5.2 Traitement de la cohérence topo-sémantique. 100 5.2.1 Les contraintes d'intégrité topologiques. 101 A Définition. 101 B Une interface de définition des contraintes. 103 5.2.2 La vérification de la cohérence topo-sémantique : le langage de contraintes. 105 A Les prédicats et fonctions. 105 B La vérification des contraintes 110 C Le langage de Hadzilacos et Tryfona. 113 5.3 La méthodologie globale : application à une base de données géographiques. 116 5.3.1 La méthodologie 117 A Ordre de traitement. 119 B Liens entre les propriétés et les contraintes. 119 5.3.2 Application à une base de données géographiques. 120 A Instanciation de la liste de propriétés. 121 B Exemple de liste de contraintes. 123 5.4 Conclusion : de la vérification à la correction des erreurs. 124 6. CORRECTIONS DES ERREURS TOPO-SÉMANTIQUES. 126 Page 10

6.1 Description de la méthode. 126 6.1.1 Le cheminement 126 6.1.2 Le calcul des scénarios 127 6.1.3 Les différents types de contraintes d intégrité topologiques. 127 6.2 Les transformations élémentaires. 129 6.2.1 Modification d'un objet. 129 A Modification de la position : déplacement. 129 B Modification de la forme : déformation. 132 6.2.2 Suppression d'un objet. 135 6.2.3 Division d'un objet. 135 6.3 Choix du scénario. 141 6.3.1 Interface utilisateur. 142 6.3.2 Gestion des exceptions. 144 6.4 Conclusion sur la correction des erreurs. 146 7. CONCLUSION GÉNÉRALE 148 7.1 Résumé et critique des travaux. 148 7.2 Perspectives. 150 8. ANNEXES 154 PARTIE 3 : Annexes et références bibliographiques 8.1 Annexe 1 : les regroupements de relations topologiques. 155 8.1.1 Le groupe point/point 156 A Liste des relations 156 B Arbre de décision 156 8.1.2 Le groupe point/ligne 157 A Liste des relations 157 B Arbre de décision 157 8.1.3 Le groupe point/région 158 A Liste des relations 158 B Arbre de décision 158 Page 11

8.1.4 Le groupe ligne/ligne 159 A Liste des relations 159 B Les sous-ensembles d'expression 160 C Sous-ensembles mutuellement exclusifs 165 D Arbre de décision 167 8.1.5 Le groupe ligne/région 168 A Liste des relations 168 B Les sous-ensembles d'expression 169 C Les sous-ensemble de classement 173 D Arbre de décision 176 8.1.6 Le groupe région/région 177 A Liste des relations 177 B Les sous-ensemble d'expression 178 C Les sous-ensemble de classement 180 D Arbre de décision 181 8.1.7 Conclusion de l annexe 1. 182 8.2 Annexe 2 : la maquette. 183 8.2.1 La fenêtre principale 183 8.2.2 La définition de la liste des propriétés 185 8.2.3 La définition des paramètres 187 8.2.4 Le résultat de la recherche des erreurs topologiques sémantiques 188 8.2.5 Conclusion de l annexe 2. 189 9. RÉFÉRENCES BIBLIOGRAPHIQUES 191 Page 12

CHAPITRE 1 1. Introduction Les systèmes d informations géographiques sont aujourd hui présents dans la majorité des organismes gérant des données localisées (les collectivités locales, les administrations, etc.). Ils sont devenus des outils de gestion, de planification, et d aide à la décision indispensables auxquels on dédie de plus en plus de traitements. 1.1 Les systèmes d'information géographiques Les premiers systèmes d informations géographiques ont été créés dans le but de faire de la cartographie. Pour une telle opération, la visualisation des données était la tâche la plus importante. De tels systèmes pouvaient s accommoder de la présence d erreurs dans les données dès lors qu elles n avaient aucune incidence sur la représentation de l information, notamment aux échelles de restitution. Par conséquent les systèmes développés à cette époque se sont attachés aux problèmes de visualisation, laissant un peu de côté les problèmes de modélisation. Des méthodes de contrôle visuel ont partout été mises en place, éliminant les incohérences et imprécisions cartographiques les plus grossières. Aujourd hui les opérations d analyse et de raisonnement supplante la visualisation comme fonctionnalité principale des SIG. De tels traitements exploitent toutes les facettes de l information spatiale, et notamment ses attributs spatiaux, la forme et la localisation des objets. Contrairement à la visualisation, ces opérations ne peuvent s arranger de la présence d erreurs car leurs résultats sont utilisés dans de nombreux processus tels que les systèmes d aide à la décision. Le contrôle visuel n est donc plus suffisant. D une part il ne permet l élimination que des erreurs détectables à l œil nu, et d autre part la cohérence apparente ne garantit pas la cohérence interne (au niveau des structures de données ; une région visuellement fermée peut ne pas l être au niveau structurel). Page 13

Dès lors, un grand nombre de jeux de données existants, et qui ont été acquis dans un seul but de visualisation, se trouvent inutilisables vis à vis des besoins actuels. Un consultant français estimait récemment que 60% à 80% des bases de données géographiques françaises étaient constituées uniquement de lignes et de libellés, sans aucune topologie, se trouvant donc dans cette situation. Une erreur peut avoir des conséquences plus ou moins graves sur une opération spatiale. Certaines peuvent être bloquantes, empêchant l obtention d un résultat, alors que d autres peuvent engendrer des résultats incohérents. La qualité des données géographiques est donc devenue une préoccupation majeure. L information géographique est caractérisée par un positionnement des données dans un espace géo-référencé (souvent le globe terrestre). Chaque entité représentée possède donc une forme et une localisation. Le propre des opérations spatiales (raisonnement, interrogations ou analyse) est d utiliser ces attributs comme variables ou critères. Les mécanismes de gestion de la qualité de telles données devront donc prendre en compte la spatialité des objets pour en assurer la validité. Deux orientations complémentaires de la gestion de la qualité des données spatiales ont été dégagées. La première porte sur la modélisation des données et la mesure de la qualité. Le but de cette approche est de produire des données bien structurées, c est à dire de bonne qualité. Le travail développé ici se situe dans la seconde approche que l on appellera l amélioration de la qualité. Le but est de permettre l utilisation des données existantes dans les opérations spatiales. Les techniques employées font appel à des mécanismes de recherche et de correction d incohérences. La recherche des incohérences se heurte au problème des exceptions. Que ce soit dans la nature, ou bien dans les constructions humaines, le monde comporte des situations que l'on définirait a priori comme des incohérences. A titre d'exemple, considérons la règle qui définit qu'une route ne pas intersecter un bâtiment. Si elle est généralement applicable et vérifiée, il existe tout même des cas où des voies de circulation traversent des immeubles. 1.2 Objectifs de la thèse La contribution de ce travail s inscrit dans le contrôle de la qualité spatiale des données géographiques. Les bases traitées sont les bases existantes et dont les données sont stockées dans un format vecteur (ou filaire). Nous ne nous attacherons pas un modèle de données particulier, mais Page 14

développerons des techniques adaptables à tout type de bases répondant aux deux critères donnés cidessus. L autre grande classe de bases de données géographiques, dite rasteur, conserve des pixels auxquels une ou des valeurs sont associées. Un tel format ne permet pas de calculs topologiques, ce qui rend le contrôle de la cohérence interne des données presque impossible (en tout cas avec les hypothèses que nous avons énoncées). L intérêt de traiter des bases de données existantes réside d une part dans la réutilisation d un grand nombre de jeux de données, qu il serait trop long et trop coûteux d acquérir à nouveau, et d autre part dans la compréhension des sources d incohérences lors de la saisie de l information. Ce deuxième point pourra guider l établissement de spécifications de structuration pour de futures bases de données géographiques. Cette recherche a été initialisée au sein du GDR 1041 MIS-CASSINI, Programme Systèmes d Informations Géographiques (PSIG) financé par le CNRS et l IGN, axe C : amélioration de la qualité des données géographiques, thème C2 : enrichissement intrinsèque des bases de données géographiques. Ce programme s est achevé à la fin de l année 1996. 1.3 Les contributions Les apports de cette étude dans le domaine de l amélioration de la qualité des données géographiques se situent à deux niveaux complémentaires, conceptuel et sémantique, pour chacun desquels des méthodes de mise en œuvre sont définies : Au niveau conceptuel sont définies des propriétés géométriques applicables à des types d objets géographiques en fonction de la dimension de la forme qui les représente (dimension 0 : un ou des points, dimension 1 : une ou des lignes, dimension 2 : un ou des polygones). Cette approche est indépendante du modèle de données et permet la construction d une liste de propriétés à lui appliquer en fonction des objets qui le composent. Au niveau sémantique, les relations spatiales entre les objets de la base sont prises en compte au moyen de contraintes d intégrité topologiques. Elles ont pour but la définition de situations qui doivent ou ne doivent pas exister entre deux entités de la base. Page 15

Par exemple, deux rivières ne doivent pas se croiser (l une se jette dans l autre), et un département doit appartenir à une seule région. Ces deux procédés seront développés avec un double objectif. Il s agit dans un premier temps de définir et de rechercher les incohérences spatiales dans les jeux de données. Dans ce but, nous étudierons les caractéristiques des objets géographiques afin d établir des règles de bonne forme qui seront traduites en propriétés géométriques et contraintes d intégrité topologiques. Dans un second temps, nous nous attacherons à définir des techniques de correction des erreurs détectées. Elles devront répondre à deux critères importants : corriger effectivement l erreur, et ne pas introduire de nouvelles erreurs. Pour le contrôle et la correction des erreurs topologiques, des interfaces de mise en œuvre simples et rapides d utilisation ont été réalisées. Le souci majeur qui nous guidé était de fournir des moyens de personnalisation du contrôle en fonction de la sémantique de la base, qui puissent être utilisés par tout type d utilisateur, expert ou non. Au niveau de la correction, il a été choisi de fournir un éventail de choix aussi large que possible, et de toujours laisser la décision à un utilisateur final. Il existe deux raisons principales à cela : Nous n avions pas le moyen de mesurer quel était le meilleur scénario de correction. Sur le plan juridique, une modification n est possible que si elle est validée par une personne autorisée à effectuer des changements sur la base. Les deux procédés proposés ont été élaborés en tenant compte du problème des exceptions évoqué précédemment. Dans les deux cas, il est possible de différencier les situations réellement incohérentes et devant être corrigées, de celles a priori incohérentes, mais reflétant effectivement la réalité. Une maquette de test des techniques de recherche et de correction des erreurs a été réalisée en Visual C++ 1 sous Windows. Elle est présentée en annexe de ce mémoire. La base de données sera traitée de manière autonome. Cela signifie que nous ne posséderons aucune autre source d information, si ce n est l expertise de l utilisateur. 1 Marque déposée par Microsoft. Page 16

1.4 Présentation du plan La suite de ce mémoire s organise en 6 chapitres. Le chapitre 2 présente la problématique de la qualité spatiale dans les bases de données géographiques. Il fait un panorama des techniques utilisées pour gérer cette qualité et présente un état de l art sur les buts poursuivis, ainsi que sur les méthodes développées. Dans le chapitre 3 nous proposons une définition de la cohérence spatiale des données. C est sur cette définition qui découpe les types d erreurs spatiales en trois grandes familles que repose la suite du travail. Le chapitre 4 expose la problématique de la représentation de l information spatiale et étudie son influence sur la qualité des données géographiques. Il introduit également des concepts et des résultats qui seront largement réutilisés dans les chapitres suivants. Le chapitre 5 présente la méthodologie de contrôle de la cohérence spatiale des bases de données géographiques que nous avons élaborée. Après une étude de chaque type d erreur défini au chapitre 3, l ensemble des techniques développées est intégré dans une démarche globale débutant par la définition des cas d erreurs et finissant par la correction des erreurs. Le chapitre 6 aborde le problème particulier de la correction des erreurs topologiques. Des méthodes générales de correction, applicables à tout type de bases de données géographiques sont développées. Elles reposent sur la définition et le contrôle de contraintes d intégrité topologiques. Il s agit d opérations semi-automatiques qui guident un utilisateur en lui proposant des choix de corrections sous la forme de scénarios calculés de façon automatique. Enfin, le chapitre 7 conclut ce travail en positionnant notre approche vis à vis des travaux déjà réalisés dans le domaine, en mettant en évidence les points forts et faiblesses des méthodes développées, et en dégageant des perspectives pour la suite de cette recherche. Page 17

PARTIE 1 : Définitions et contexte. 2. LA QUALITÉ SPATIALE DANS LES BASES DE DONNÉES GÉOGRAPHIQUES.20 2.1 Définition de la qualité spatiale. 21 2.1.1 Les différentes approches. 21 2.1.2 Les composantes de la qualité spatiale. 23 2.2 La gestion de la qualité spatiale. 28 2.2.1 Modélisation et visualisation de la qualité : recherche d erreurs. 29 2.2.2 Assurance et amélioration de la qualité : correction d erreurs. 36 2.3 Conclusion et précision du sujet 40 3. LA COHÉRENCE SPATIALE DES DONNÉES. 43 3.1 La cohérence structurelle. 46 3.2 La cohérence géométrique 47 3.3 La cohérence sémantique 48 3.4 Conclusion 51 4. LA MODÉLISATION DE L'INFORMATION SPATIALE. 52 4.1 Modélisation des données. 54 4.1.1 Les modèles spaghetti. 54 4.1.2 Les modèles topologiques 59 4.1.3 Modèles constructeurs. 63 4.1.4 Conclusion sur les modèles conceptuels spatiaux. 67 Page 18

4.2 Modélisation des relations spatiales. 69 4.2.1 Les modèles de représentation des relations topologiques 71 4.2.2 Exploitation des modèles topologiques 76 4.2.3 Choix du modèle topologique : le modèle des 9-intersections étendu 80 4.3 Conclusion 83 Page 19

CHAPITRE 2 2. La qualité spatiale dans les bases de données géographiques. Depuis de nombreuses années les bases de données ne sont plus uniquement de simples collections d informations stockées suivant une organisation structurée. Elles sont aujourd hui indissociables des systèmes d information qui les englobent et exploitent les données qu elles contiennent. Ces systèmes d informations sont au cœur d applications variées tant au niveau de la finalité (gestion, systèmes d aide à la décision, etc.) que des organismes utilisateurs (les banques, les collectivités locales, toutes les grandes entreprises, etc.). Dans un tel contexte, la qualité des données stockées est essentielle. Elle doit assurer la fiabilité des processus s appuyant sur les informations (grâce à la qualité intrinsèque des données), ainsi que la capacité du système à remplir les fonctions attendues (adéquation aux besoins exprimés par les spécifications). Ces deux notions complémentaires se retrouvent dans la définition de la qualité donnée par l organisation internationale de standardisation [ISO 8402 94] : ensemble des propriétés et caractéristiques d un produit ou d un service qui lui confère l aptitude à satisfaire des besoins exprimés ou implicites. Dans son document «Qualité interne d une base de données géographique : concepts et terminologie», l IGN préfère considérer deux types de qualité, interne et externe : qualité interne : ensemble des propriétés et caractéristiques d un produit ou service qui lui confère l aptitude à satisfaire aux spécifications de contenu de ce produit ou de ce service. qualité externe : adéquation des spécifications aux besoins de l utilisateur. Page 20

La qualité interne concerne donc la justesse des données par rapport à leur objectif et au monde réel, alors que la qualité externe exprime l aptitude du produit à répondre aux exigences particulières d un utilisateur. Nous employons ici le terme spécification dans le sens donné par la norme ISO 8402 : document qui prescrit les exigences auxquelles le produit ou le service doit se conformer. Cette définition de la qualité des données a été raffinée en plusieurs composantes qui se repartissent donc suivant deux grands axes. D une part la qualité intrinsèque qui reflète la fidélité avec laquelle les données reproduisent le monde réel (on parle souvent de précision). D autre part la capacité à répondre aux spécifications (on parle d adéquation aux besoins et de richesse de l information spatiale ). L information spatiale possède des caractéristiques qui vont demander une attention particulière vis à vis de la qualité. Il s agit de la forme et de la localisation. Ces deux attributs font intervenir des considérations géométriques qui vont influencer la définition des composantes de la qualité. Dans une première partie nous allons définir en détail tous les éléments intervenant dans la qualité spatiale des données. Nous présenterons ensuite les différentes approches de gestion de cette qualité avant de conclure ce chapitre en positionnant le sujet de la thèse vis à vis des définitions données dans les deux premières parties. 2.1 Définition de la qualité spatiale. La définition de la qualité spatiale fut abordée par plusieurs comités de normalisation. Le but était d établir des critères de qualité ainsi que des métriques pour la mesure de ces critères. Cette partie présente les principales approches, ainsi qu une série de critères, appelés composantes de la qualité, sur laquelle s est dégagé un consensus. 2.1.1 Les différentes approches. Pendant longtemps la qualité était résumée à un problème d exactitude 2 des informations stockées. A l'ère analogique, en ce qui concerne les données géographiques, l exactitude était presque uniquement étudiée à travers la position des objets représentés, laissant de côté les problèmes liés à la forme ou à la représentation des objets. 2 Position des géomètres experts Page 21

Dans les années 80, plusieurs groupes de travail se sont intéressés à la standardisation des données spatiales. La qualité spatiale des données était généralement abordée dans ces travaux [Morrison 95]. En 1987 [Moellering 87], le National Committee on Digital Cartographic Data Standards (NCDCDS) a produit un rapport intitulé, «A Draft proposed Standard for Digital Cartographic Data», dont une partie était consacrée à la qualité des données. Dans ce rapport, la qualité des données géographiques était définie au moyen de cinq composantes : la généalogie (lineage), la précision géométrique (positional accuracy), la précision sémantique (attribute accuracy), l exhaustivité (completness), la cohérence logique (logical consistency). Aujourd hui, ces cinq composantes se sont imposées comme une base et sont reprises dans de nombreux travaux de standardisation : le Spatial Data Transfert Standard (SDTS 3 ) est un standard américain reconnu comme une norme très complète sur la qualité des données. Elle regroupe les cinq éléments précédents dans un rapport qualité qui doit accompagner tout échange de jeux de données, le Federal Geographic Data Committee (FGDC) dans sa définition du National Standard for Spatial Data Accuracy (NSSDA) reprend également ces cinq composantes, le Comité Européen de Normalisation (CEN) reprend également à peu de choses près ces cinq composantes, auxquelles il ajoute une sixième, la fidélité textuelle qui est une mesure de l exactitude de l orthographe des informations écrites, l organisation internationale de normalisation (ISO) va plus loin en associant une métrique à chacune des cinq composantes. En 1991, le comité exécutif de l International Cartographic Association (ICA) a mis en place, sous la direction du Dr Joel J. Morrison, une commission sur la qualité des données. Cette commission avait pour but de développer, documenter et publier des critères et des méthodes pour l évaluation de la 3 Des précisions sur ce standard sont disponibles sur le site FTP : sdts.er.usgs.gov/pub/sdts/. Page 22

qualité des jeux de données cartographiques numériques. Elle a identifié trois parties dans la spécification et l utilisation de l information qualité spatiale des données : 1. la définition des éléments de la qualité spatiale, 2. l élaboration de métriques pour la mesure des éléments de la qualité spatiale, 3. la présentation (restitution) de la qualité des données. Les éléments de la qualité identifiés par la commission sont au nombre de sept. On compte les cinq composantes précédemment définies auxquelles s ajoutent la cohérence ou pertinence sémantique (semantic accuracy) et la précision temporelle (temporal accuracy). 2.1.2 Les composantes de la qualité spatiale. Avant de pouvoir détailler les sept composantes de la qualité définies par la commission qualité des données de l'ica, nous introduisons la notion de terrain nominal. Le terrain nominal. Certaines des composantes définies ont pour but de mesurer la précision des données vis à vis de différentes Figure 2-1. La qualité d un jeu de données. Page 23

notions telles que la géométrie, la sémantique, l actualité. Une telle mesure doit se faire par comparaison avec les données réelles, autrement dit le monde réel. Il est aujourd hui communément admis de remplacer, dans cette comparaison, le monde réel par un terrain nominal dont une des définition est : Image de l univers, à une date données, à travers le filtre défini par les spécifications de produits (et/ou de contenu) [David and Fasquel 97]. Toute estimation de la qualité d un jeu de données se fera donc en comparant les données au terrain nominal. Cette notion pose le problème de l estimation de ce terrain nominal. Cette estimation se fera par des méthodes d échantillonnage et de sondage. La Figure 2-1 présente l ensemble des procédures nécessaires à l estimation de la qualité [David and Fasquel 97]. La généalogie ( lineage ). La composante généalogie d'un rapport de qualité doit contenir une description des procédés d'acquisition (notamment les matériels utilisés), ainsi que des méthodes de dérivation (extrapolation, etc.), incluant toutes les transformations ayant conduit au résultat final ([NIST 94], p.21). Cette composante peut être considérée comme le pedigree des données. Elle mémorise également tous les changements que les données subissent au cours de leur cycle de vie. Le but de cette composante peut-être vu différemment par le producteur et par l utilisateur des données : le producteur : assurer que les standards sont maintenus. l'utilisateur : savoir si les données qu'il possède répondent à ses besoins. On retrouve ici les deux axes précédemment énoncés : la qualité intrinsèque des données (respect des standards) et l'adéquation aux besoins. La précision géométrique ( positional accuracy ). Cette composante a pour but de rendre compte des écarts de position entre les objets de la base et les objets réels, c est à dire le terrain nominal. Le terrain nominal est une entité abstraite, utile d un point de vue théorique, mais qui n est pas directement accessible, comme cela a déjà été expliqué précédemment. Une telle comparaison se fait donc généralement au moyen d'un jeu de données de référence, appelé aussi données de contrôle dans le document de l IGN :«Qualité d une base de données géographique : concepts et terminologie» [David and Fasquel 97]. La précision sémantique ( attribute accuracy). Page 24

Un attribut est un fait sur une localisation, un ensemble de localisation ou un élément sur la surface de la terre. Ce fait peut être le résultat d une mesure, d une interprétation, d un recensement historique ou politique. De la même manière que la précision géométrique, la précision sémantique est définie comme la différence entre une mesure et une autre mesure comparable et connue pour être plus exacte. Il s agit d une définition relative car elle fait intervenir la précision des objets de comparaison. Elle demande également la connaissance de données plus justes, à savoir le terrain nominal. Il existe peu de travaux sur la précision sémantique des données géographiques. On peut tout de même citer les travaux de Goodchild [Goodchild et al. 92], et la thèse de Barbara Bicking [Bicking 94]. L exhaustivité ( completness ). L exhaustivité décrit si les objets du jeu de données représentent tous les objets géographiques du terrain nominal. Elle indique également si chaque entité est représentée et si tous les attributs des objets sont présents. Le degré d exhaustivité décrit à quel point les objets du jeu de données représentent tous les objets géographiques du terrain nominal. On distingue deux grands types d exhaustivité (voir Figure 2-2, tirée de [Brassel et al. 95]) : l exhaustivité des données qui rend compte des omissions, et qui peut donc être mesurée indépendamment de l application, et l exhaustivité du modèle qui rend compte de l adéquation aux besoins (le modèle est-il assez riche pour répondre aux spécifications du produit?). L exhaustivité des données est elle-même subdivisée en plusieurs composantes : l exhaustivité formelle : cette composante décrit le niveau de complétude de la structure de données. On vérifie si toutes les méta-données obligatoires sont présentes, si le format Figure 2-2. Les différents types d exhaustivité Page 25

correspond au standard utilisé et si les données sont syntaxiquement correctes, l exhaustivité des objets : cette composante décrit si tous les objets spécifiés (ex : toutes les routes nationales) de manière implicite ou explicite sont présents dans le jeu de données, l exhaustivité des attributs : cette composante a pour but de vérifier si tous les attributs attendus des objets sont présents et renseignés. La cohérence logique ( logical consistency ). Cette composante rend compte du nombre de caractéristiques, relations ou attributs qui ont été correctement encodés, en accord avec les contraintes d intégrité données dans les spécifications. Un ensemble de données est dit cohérent au niveau logique s il respecte les caractéristiques structurelles du modèle de données choisi, et s il est compatible avec les contraintes d attributs définies pour l ensemble des données. Il existe plusieurs niveaux de cohérence logique allant de la simple plage de valeur des attributs aux règles spécifiques de cohérence basées sur les relations spatiales (contraintes d intégrité topologiques). La cohérence logique se heurte à des problèmes multi-couches et multi-bases. Chaque couche d une base de données peut-être logiquement cohérente sans que l ensemble le soit (erreurs inter-couches). De la même manière chaque base de données d une fédération peut-être cohérente sans que l ensemble le soit. La cohérence ou pertinence sémantique ( semantic accuracy ). Cette notion traduit la qualité avec laquelle les objets géographiques sont décrits par rapport au modèle sélectionné. En considérant la signification des éléments de l univers du discours, la cohérence sémantique fait référence à la pertinence de la signification des objets géographiques, plus qu à leur représentation géométrique [Salgé 95]. La pertinence sémantique sera donc d une grande importance vis à vis de l adéquation aux besoins. La précision temporelle ( temporal accuracy ). Cette composante a en charge la gestion des dates d observation des données, des types de mise à jour et des périodes de validité. Suivant le type de phénomène observé, la gestion du temps sera différente : phénomènes fixes persistants : la localisation est invariante, mais les attributs varient avec le temps, Page 26

phénomènes mobiles persistants : la localisation et les attributs varient avec le temps, phénomènes intermédiaires : le phénomène est persistant, invariant, mais sa localisation peut changer de manière exceptionnelle (ex : une route que l on aligne ). Le temps peut être considéré comme un phénomène continu (rarement utile et applicable) ou discret [Guptill 95]. Dans le deuxième cas on parle alors d événements et de conservation de versions des données. Mais un événement peut être ponctuel, ou au contraire posséder une durée (date de début et date de fin). Il apparaît alors que la gestion du temps demande de conserver un grand nombre d informations et de dates (dates de changement, dates d observation, dates de mise à jour effective sur la base de données). Il s agit d une composante pour laquelle il n existe aucune mesure de qualité reconnue et admise. Limitation du découpage en composantes Les composantes de la qualité définies dans les diverses normes établies (SDTS, FGDC, CEN, etc.) se recouvrent partiellement, rendant quelques fois difficile le classement d une erreur (c est à dire la détermination du critère violé). L exemple de la Figure 2-3 tirée de la thèse de François Vauglin, illustre ce problème [Vauglin 97]. Figure 2-3. Classification de cas d erreurs. Sur la Figure 2-3, les deux jeux de données représentent une même zone géographique. Le second possède un élément de moins. Cette différence peut être le résultat de deux types d erreurs différents : Page 27

une erreur de précision géométrique (la ruine se trouve trop à gauche) ajoutée à une erreur d exhaustivité (la maison est manquante), une erreur de classification, donc de précision sémantique (la maison a été classée en ruine) ajoutée à une erreur d exhaustivité (la ruine est manquante), une double erreur de précision temporelle. La ruine a disparu et la maison est aujourd hui en ruine. Cette difficulté à faire une différence précise entre les différentes composantes définies ici nous amènera à préciser les aspects de la qualité concernés par ce travail (cf. le paragraphe 2.3). 2.2 La gestion de la qualité spatiale. La qualité spatiale des données géographiques définie dans le paragraphe précédent doit être intégrée dans des méthodes de gestion de cette qualité. La première exploitation directe de la qualité est de la mesurer afin d en faire état, c est à dire de produire des rapports qualité sur les jeux de données. De tels calculs permettront d établir l aptitude des données à répondre aux exigences à travers le contrôle de qualité dont l ISO 8402 nous donne la définition suivante : Ensemble des actions de mesure, d examen, d essai, de calibrage d une ou plusieurs caractéristiques d un produit et de comparaisons aux exigences spécifiées en vue d établir leur conformité. La principale différence entre le contrôle de la qualité et la mesure de la qualité tient à l exigence d une spécification de qualité et d une procédure de rejet des jeux de données non conformes. Le contrôle de la qualité permet de détecter des erreurs. La définition d une erreur est étroitement liée aux composantes de la qualité, ainsi qu aux mesures utilisées pour les évaluer. Une erreur : Différence entre une grandeur mesurée et la grandeur nominale correspondante. Les critères de qualité définis vont également pouvoir guider la collecte de nouveaux jeux de données. On parle alors d assurance qualité. La définition suivante est issue de l ISO 8402 : Ensemble des actions préétablies et systématiques réalisées au fur et à mesure de la production et qui seront nécessaires pour donner la confiance en ce qu un produit satisfera aux exigences données relatives à la qualité. Le but sera ici de mettre en place un ensemble de méthodes et de contrôles tout au long du processus d acquisition (saisie, interpolation, modélisation, etc.) afin d obtenir des données répondant aux exigences de la qualité et pour lesquelles on possédera les valeurs des composantes de la qualité. Enfin, une dernière technique de traitement de la qualité, peu abordée dans la littérature peut être définie comme l amélioration de la qualité. Cette notion ne s est pas vu attachée de définition Page 28

officielle. Elle consiste en un ensemble de méthodes visant à corriger les erreurs contenues dans les jeux de données. Une erreurs est définie vis à vis d une composante de la qualité, comme un trop grand écart entre une donnée et son équivalent sur le terrain nominal. Cette approche nécessite des techniques d estimation de la qualité afin de quantifier l augmentation de la qualité (par exemple on est passé de 90% à 99% de données sans erreurs). Elle implique également un contrôle systématique des données et non uniquement par échantillonnage, comme cela est souvent appliqué pour l estimation de la qualité. Cela entraîne un temps de traitement très long et le besoin de techniques d accélération d accès aux données spatiales qui soient efficaces. L amélioration de la qualité se fera au moyen de corrections à appliquer aux jeux de données. Cela pose le problème de la validité de la correction apportée. Deux aspects de cette validité doivent être considérés : d un point de vue technique : comment peut-on assurer que la correction améliore la qualité de l objet corrigé sans dégrader la qualité d autres objets en relation avec le premier, d un point de vue légal : est-on habilité à faire des modifications de données utilisées par des organismes officiels? Ces dernières années, la recherche en matière de qualité des données géographiques s est principalement orientée vers la définition et la recherche des erreurs ; avec une attention particulière aux phénomènes de propagation de ces dernières à travers les divers traitements appliqués aux données géographiques ; laissant en retrait les problèmes de correction d erreurs. En résumé, nous avons classé les approches de gestion de la qualité en deux grandes familles : la modélisation et la visualisation d une part, et l assurance et l amélioration de la qualité d autre part. Elles font l objet des parties suivantes. 2.2.1 Modélisation et visualisation de la qualité : recherche d erreurs. Nous étudions ici les techniques dont le but est d estimer et de rendre compte de la qualité. Cette étude nous a conduit à classer ces techniques en trois domaines principaux : la modélisation de la qualité, la visualisation de la qualité et la propagation des erreurs. Page 29

A Modélisation de la qualité La modélisation de l information qualité a pour but d élaborer un modèle de stockage des différentes composantes de la qualité. Une première approche intuitive pourrait être de conserver toutes les mesures faites et de les attacher aux données auxquelles elles se rapportent. Dans le cas de la précision géométrique, pas exemple, cela implique le stockage de la précision de chaque coordonnées. Une telle approche n est pas envisageable. Elle conduirait à une information qualité qui prendrait beaucoup trop d espace de stockage (dans certains cas un espace plus important que la données à laquelle elle se rapporte). Pour modéliser l information qualité, Sami Faïz [Faïz 96] préconise l emploi de métadonnées qualité attachées à chaque objet et à chaque composante pour les informations qualité locales, et au niveau des couches de la base de données pour les informations globales de qualités [Faïz and Boursier 94]. Certains auteurs se sont attachés à la modélisation d une composante particulière de la qualité. C est ainsi que Kate Beard [Beard 94] a étudié la prise en compte de l incertitude dans la réponse aux interrogations du type : Quelle est la valeur Z à une localisation X? En fonction du type de données, l incertitude peut être rendue de façons différentes : Couverture thématique : la réponse sera de la forme : appartient à 90% à la classe A et à 10% à la classe B. Plusieurs approches existent. L emploi de la CEM 4, les travaux de Goodchild [Goodchild et al 92], les techniques de krigeage [Bierckens and Burrough 93]. Données discontinues quantifiables : La réponse sera du même type que précédemment. Une technique possible d évaluation est le calcul de variogramme de regroupement [Voltz and Webster 90]. Données continues quantifiables (ex : les Modèles Numériques de Terrain) : La réponse pourra être de la forme 975 mètres + 7 mètres. L évaluation se fera par l emploi de diverses techniques d interpolation comme le krigeage [Cressie 91]. Données prenant des valeurs discrètes et dont les frontières des zones d évaluation sont indépendantes de la distribution du phénomène (ex : la densité de population) : La réponse peut prendre plusieurs formes. La plus simple est de mettre en évidence la zone pour laquelle la variable a été tarée et de fournir l écart type et la variance de cette zone (voir [Fotheringham 89] pour une méthode d évaluation). 4 Classification Erreur Matrix. Voir le paragraphe C de la même partie pour plus de détails. Page 30