Génération de code SQL avec le SQL

Documents pareils

ORACLE TUNING PACK 11G

Le Langage De Description De Données(LDD)

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

Oracle 11g Optimisez vos bases de données en production (ressources matérielles, stockage, mémoire, requêtes)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

//////////////////////////////////////////////////////////////////// Administration bases de données

TP Contraintes - Triggers

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Plan de formation : Certification OCA Oracle 11g. Les administrateurs de base de données (DBA) Oracle gèrent les systèmes informatiques

Oracle Database 11g: Administration Workshop I Release 2

Auto-évaluation Oracle: cours de base

Bases de Données relationnelles et leurs systèmes de Gestion

CREATION WEB DYNAMIQUE

Créer et partager des fichiers

CHAPITRE 1 ARCHITECTURE

Création et Gestion des tables

Le langage SQL pour Oracle - partie 1 : SQL comme LDD

Bases de données relationnelles

CYCLE CERTIFIANT ADMINISTRATEUR BASES DE DONNÉES

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

Du 10 Fév. au 14 Mars 2014

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

Dossier I Découverte de Base d Open Office

Notes de cours : bases de données distribuées et repliquées

Le Langage SQL version Oracle

Créer le schéma relationnel d une base de données ACCESS

BIRT (Business Intelligence and Reporting Tools)

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

Introduction aux SGBDR

1. Qu'est-ce que SQL? La maintenance des bases de données Les manipulations des bases de données... 5

Database Manager Guide de l utilisateur DMAN-FR-01/01/12

Information utiles. webpage : Google+ : digiusto/

A.E.C. GESTION DES APPLICATIONS TECHNOLOGIE DE L'INFORMATION LEA.BW

La base de données dans ArtemiS SUITE

Langage propre à Oracle basé sur ADA. Offre une extension procédurale à SQL

TP Bases de données réparties

Encryptions, compression et partitionnement des données

Devoir Data WareHouse

Programme détaillé. Administrateur de Base de Données Oracle - SQLServer - MySQL. Objectifs de la formation. Les métiers

Access et Org.Base : mêmes objectifs? Description du thème : Création de grilles d écran pour une école de conduite.

FEN FICHE EMPLOIS NUISANCES

Master Exploration Informatique des données DataWareHouse

1/ Présentation de SQL Server :

Introduction à la B.I. Avec SQL Server 2008

Partie 0 : Gestion des tablespace et des utilisateurs... 3

COMPOSANTS DE L ARCHITECTURE D UN SGBD. Chapitre 1

et Groupe Eyrolles, 2006, ISBN :

1.2 Genèse. 1.3 Version de Designer utilisée

Techniques de stockage. Techniques de stockage, P. Rigaux p.1/43

DEVAKI NEXTOBJET PRESENTATION. Devaki Nextobjects est un projet sous license GNU/Public.

et les Systèmes Multidimensionnels

1. Introduction Sauvegardes Hyper-V avec BackupAssist Avantages Fonctionnalités Technologie granulaire...

Cours Bases de données

1 Introduction et installation

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ;

Data Tier Application avec SQL Server 2008 R2

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Écriture de journal. (Virement de dépense)

Utilisation de JAVA coté Application serveur couplé avec Oracle Forms Hafed Benteftifa Novembre 2008

Langage SQL : créer et interroger une base

Cours Base de données relationnelles. M. Boughanem, IUP STRI

MYXTRACTION La Business Intelligence en temps réel

Entrepôt de données 1. Introduction

La présente publication est protégée par les droits d auteur. Tous droits réservés.

Bases de données et sites WEB

Création d'une nouvelle base de données

Guide de l administrateur DOC-OEMCS8-GA-FR-29/09/05

Le langage SQL (première partie) c Olivier Caron

Gestion des utilisateurs et de leurs droits

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Mysql. Les requêtes préparées Prepared statements

Implémentation des SGBD

Optimisation SQL. Quelques règles de bases

UNIVERSITE DE CONSTANTINE 1 FACULTE DES SIENCES DE LA TECHNOLOGIE DEPARTEMENT D ELECTRONIQUE 3 ème année LMD ELECTRONIQUE MEDICALE

Tenrox. Guide d intégration Tenrox-Salesforce. Janvier Tenrox. Tous droits réservés.

TERMES DE RÉFÉRENCE RELATIFS A LA «FORMATION PROFESSIONNELLE EN ORACLE»

Les bases de données

UltraBackup NetStation 4. Guide de démarrage rapide

Modélisation et Gestion des bases de données avec mysql workbench

SQL Server Installation Center et SQL Server Management Studio

Aide Webmail. L environnement de RoundCube est très intuitif et fonctionne comme la plupart des logiciels de messagerie traditionnels.

SAP BusinessObjects Web Intelligence (WebI) BI 4

Présentation du module Base de données spatio-temporelles

Introduction à. Oracle Application Express

Une ergonomie intuitive

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Jérôme FESSY. IUT de Paris 5. Base de Données. Cours Introductif. Base de Données

Business Intelligence avec SQL Server 2012

Création et utilisation de formulaire pdf

Windows Internet Name Service (WINS)

Chapitre 1 : Introduction aux bases de données

Conception des bases de données : Modèle Entité-Association

Transcription:

1

2

3

Génération de code SQL avec le SQL La requête ci-dessus montre comment générer un script de sauvegarde logique avec SQL*Plus. Les chaînes de caractères sont concaténées avec l opérateur. Les métas caractères comme la simple côte sont imprimés littéralement lorsque l on double le caractère générique. 4

Le résultat est affiché ci-dessus. La notation q c texte à encadrer c (c pouvant être n importe quel caractère alpha) permet d extraire les colonnes de la tables qui contiennent des caractères 5

Astuces diverses Il est souvent utile de générer des volumes importants dans la base afin de vérifier les temps de réponse des requêtes SQL. L insertion récursive d une table sur ellemême permet de créer rapidement un nombre de lignes important. L exemple cidessus fonctionne s il n y a pas de contrainte d unicité sur la table BIG_EMP. 6

Extension de l ordre GROUP BY ROLLUP permet de calculer plusieurs niveaux de sous totaux dans un groupe donné de dimensions. Il calcule également un grand total. ROLLUP est une simple extension de la clause GROUP BY, sa syntaxe est extrêmement facile à utiliser. L'extension ROLLUP est très efficace, la surcharge est minime pour une requête données. CUBE regroupe un ensemble spécifié de colonnes et crée des sous totaux pour l'ensemble de toutes les combinaisons possibles. En termes d'analyse multidimensionnelle, CUBE génère tous les sous totaux qui pourraient être calculés pour un cube de données avec les dimensions spécifiées. Si vous avez spécifié CUBE (temps, région, département), le jeu de résultats comprendra toutes les valeurs qui seraient incluses dans une expression ROLLUP équivalente avec des combinaisons supplémentaires. Pour plus d information consulter «Oracle Database Data Warehousing Guide» 7

Vues relationnelles L exemple de la diapositive montre comment masquer la complexité d une requête d agrégation utilisant l extension ROLLUP de la clause GROUP BY. La vue peut être utilisée simplement et il est également possible de filtrer sa sortie avec une clause WHERE. Par exemple il est possible d afficher seulement les totaux de la manière suivante : SQL> select * from Salaires_par_departements where "Type Emploi" like 'Total%' ; 8

9

Vues matérialisées Les vues matérialisées sont des résultats pré calculés de requête SQL qui sont stockés au préalable dans la base de données. Les ordres SQL qui doivent effectuer des calculs assez long peuvent bénéficier de ces résultats en les récupérant sans être obligés de parcourir toute la base de données. les vues matérialisées sont identiques aux tables (en partition ou pas) et se comportent comme des index, elles sont utilisées de manière transparente (Query Rewrite) afin d'améliorer les performances. 10

Syntaxe: materialized view voir le manuel «SQL Reference» et «Warehouse Guide» 11

12

Concepts Oracle fournit un certain nombre d outils pour effectuer les opérations d alimentation et de déchargement des bases de données. Parmi ces produits on compte Oracle Data Integrator anciennement sunopsis acheté par Oracle pour enrichir sa famille de produits d'intégration, il fait partie de la suite: Oracle Fusion Middleware et Oracle Warehouse Builder (OWB). OWB est l outil ETL pour Extract, Transform, Load initialement développé par Oracle en langage JAVA. C est un outil de développement qui permet de concevoir principalement des procédures de traitement écrites en langage SQL, PL/SQL et SQL*Loader pour les chargements. Avant d utiliser Warehouse Builder il est utile de comprendre le principe de fonctionnement et d utilisation des programmes sous jacents que génère l outil ETL. Comme son nom l indique OWB est l outil consacré pour la création de base de données d aide à la décision ou d infocentre que l on nomme communément «Data Warehouse». Les structures logiques de ce type de base de données sont organisées en étoile ou en flocons de neige. On parle en général de «cubes» ou de «star schéma». Ces concepts vont être présentés à la fin de ce chapitre. 13

Extractions et Chargements basiques SQL*Plus est l utilitaire basique que l on utilise pour lancer des ordres SQL avec Oracle Database. Cet outil permet également de produire des états et de sauvegarder les résultats vers des fichiers plats. Il est tout à fait possible de décharger des données de type texte avec cet outil en utilisant l option «spool» tout en formatant la sortie de telle sorte que l on ai que les données brutes dans le fichier résultant. La puissance du langage SQL vous permet ainsi d effectuer toutes les transformations nécessaires avec l ordre SELECT lors de l extraction des données vers le fichier plat. L opération inverse peut être effectuée avec l utilitaire SQL*Loader qui prend les directives de chargement à partir d un fichier de contrôle. La documentation complète de cet outil se trouve dans le manuel «Utilities» que l on peut télécharger sur le site http://otn.oracle.com. Ce principe simple d extraction et de chargement fonctionne sur tous les environnements qui supportent Oracle Database. OWB vous permet de concevoir des programmes similaires avec une interface de conception beaucoup plus conviviale. Le chargement de fichiers plats avec l utilitaire SQL*Loader peut être conçu avec Warehouse Builder. 14

Combinaisons avec les outils du système d exploitation Dans certaines circonstances, il est parfois utile de combiner les utilitaires d Oracle avec les outils du système d exploitation. Par exemple, si vous désirez utiliser des logiciels que l on ne peut interfacer directement avec le serveur Oracle, vous pouvez encapsuler des ordres SQL ou PL/SQL dans des scripts «shell» d Unix afin que ceux-ci puissent être appelés par un logiciel d ordonnancement propriétaire comme l illustre la figure ci-dessus. Il arrive dans certains cas que l on utilise cette technique pour appeler les procédures stockées qui ont été conçues avec OWB. 15

Déchargement des données dans un fichier plat La diapositive ci-dessus vous montre la syntaxe de SQL*Plus qui permet de produire des données brutes dans un fichier de sortie de type texte. OWB permet également d extraire les informations de la base de données dans des fichiers plats. Cependant, l outil ne fait pas appel à SQL*Plus. 16

Chargement de données à partir de fichiers plats L outil SQL*Loader permet le chargement de données externes dans les tables d une base. L utilitaire fonctionne avec un moteur d analyse syntaxique d un langage de directives de chargement qui lui est propre. Ce langage est assez puissant, il permet d effectuer des conversions de type et d exécuter des règles de transformation de données. Les directives sont définies dans un fichier de contrôle qui est lu en entrée avec le fichier de données. En sortie, SQL*Loader écrit les données transformées dans la base de données cible et produit trois fichiers de compte rendu d exécution : un fichier journal du traitement, un fichier des erreurs d exécution et un fichier des enregistrements rejetés. L outil offre de nombreuses possibilités pour optimiser les chargements, notamment le mode DIRECT LOAD. Les données sont stockées directement dans les DATAFILES de la base sans passer par les instructions INSERT du moteur SQL. Ce mode de chargement est beaucoup plus rapide que le mode traditionnel qui utilise le moteur SQL. Il est adapté lorsque l on a à alimenter rapidement une base DATA WAREHOUSE. Warehouse Builder est très pratique pour créer des scripts de chargements SQL*Loader. Un assistant de modélisation de la structure des fichiers plats vous permet de gagner en productivité pendant la phase d import des données métas dans le dictionnaire OWB. 17

Utilisation de SQL*Loader Oracle fournit plusieurs étude de cas d utilisation de l outil dans le répertoire $ORACLE_HOME/rdbms/demo. L une d elles est décrite ci-dessus. Il s agit d un chargement simple de la table EMP. Les directives sont définies dans le fichier de contrôle utlcase2.ctl. Les enregistrements rejetés sont produits dans le fichier utlcase2_rejets.dis et le fichier journal est utlcase2.log. L exécution est assurée par la commande SQLLDR. L outil est documenté dans le manuel «Utilities». Cette documentation est un complément précieux lorsque l on utilise l utilitaire de modélisation de fichiers plats de Warehouse Builder. 18

Création de fichiers de commandes pour SQL*Loader Warehouse Builder est l outil le plus approprié pour créer rapidement et facilement des fichiers de directives de chargement pour SQL*Loader. Cependant, lorsque les besoins ne nécessitent pas de créer des procédures de chargement sophistiquées, vous pouvez créer vous même des fichiers de contrôle simples manuellement ou en développant de petits utilitaires en SQL comme l illustre l exemple ci-dessus. 19

Concept des tables externes Le dispositif des Tables Externes est un complément de la fonctionnalité de chargement SQL*Loader. Il permet d accéder à des informations externes comme si elles étaient stockées dans des tables de la base de données. Avant la version d'oracle 10g, les tables externes étaient inaltérables. A partir de cette version les tables externes sont maintenant en lecture/écriture. Notez que SQL*Loader reste le meilleur choix dans les situations de chargement de données qui exigent l'indexation additionnelle de la table tampon. Pour utiliser les tables externes, vous devez avoir connaissance du format de fichier et des enregistrements sur votre plate-forme si vous utilisez le driver d accès ORACLE_LOADER pour charger du texte. 20

Création de tables externes Les Tables Externes sont créés en utilisant l ordre SQL CREATE TABLE...ORGANIZATION EXTERNAL. Lorsque vous créez une table externe, vous devez spécifier les attributs suivants: TYPE indique le type de table externe. Les deux types disponibles sont ORACLE_LOADER et ORACLE_DATAPUMP. Chaque type est associé à sont propre driver. Le driver d accès ORACLE_LOADER est utilisé par défaut. Il permet seulement d effectuer des chargements, les informations source doivent normalement provenir de fichiers textes. Le driver d accès ORACLE_DATAPUMP peut effectuer soit des chargements soit des déchargements. Les données proviennent de fichiers binaires. DEFAULT DIRECTORY Défini la destination par défaut des fichiers qui sont lus ou écrits. L emplacement est un répertoire logique qui est associé à un répertoire physique du système de fichiers de la machine. ACCESS PARAMETERS décrit la source des données avec les spécificités associées au driver d accès. LOCATION spécifie l emplacement et les noms des fichiers de destination. Si l emplacement n est pas indiqué, c est le répertoire par défaut qui est utilisé. 21

La diapositive ci-dessus montre différents principes et techniques de duplication et de transformation que l on peut effectuer avec le langage SQL. Ce sont ces principes qui sont largement mis en application avec «Warehouse Builder». 22

L instruction SQL MERGE est apparue en version 9i. Elle a été typiquement conçue pour résoudre certaines problématiques de l alimentation des bases de données de type Data Warehouse, en particulier pour gérer les multiples chargements potentiels d informations identiques dans une même base de données. MERGE combine les ordres INSERT et UPDATE en se basant soit sur une contrainte d unicité et/ou sur une condition de la requête d interrogation SELECT. La syntaxe de l instruction MERGE peut s avérer relativement complexe et fastidieuse. L utilisation d OWB permet notamment de simplifier largement la production et l écriture d ordre SQL MERGE et par conséquent de gagner un temps précieux. 23

DML Error Logging Lorsque l on exécute une instruction DML Data Manipulation Language : INSERT, UPDATE, DELETE sur un nombre important d enregistrements, une erreur d exécution, par exemple, la violation d une contrainte d intégrité, peut provoquer l annulation complète de toutes les opérations concernées par la requête SQL DML. Il peut être dommage d avoir à relancer un traitement qui peut mettre plusieurs minutes à s exécuter, surtout si l erreur survient lorsqu il était sur le point de se terminer. Il est possible de résoudre ce type de problème avec une procédure stockée écrite en PL/SQL qui traitera les enregistrements un par un avec un contrôle d erreur approprié. Cependant, les performances d exécution de ce type de procédure sont nettement moins bonnes que celles du traitement des enregistrements en une seule passe. La version 10g offre la possibilité de recueillir les enregistrements en erreur dans une table spéciale et de permettre ainsi au traitement de continuer. Pour mettre en œuvre cette fonctionnalité il faut créer la table des erreurs avec la procédure DBMS_ERRLOG.CREATE_ERROR_LOG et de compléter l ordre SQL avec la clause LOG ERRORS INTO comme le montre la diapositive ci-dessus. 24

Le transfert des informations d une base de données vers une autre peut se faire par l intermédiaire de fichiers plats. C est en général la méthode qui est utilisée, notamment lorsque l on affaire à un environnement hétérogène. Cependant, il est possible de transférer les données directement de base à base, en particulier, si la base source est compatible avec la base cible. C est bien sur le cas quand la source et la cible sont des bases Oracle, cela peut être également le cas si l on utilise l interface «heterogenous services» ou le module «Oracle Transparent Gateway». Le transfert des données de base à base s appuie sur un lien inter bases que l on nomme «database link». La diapositive ci-dessus illustre la mise en œuvre des liens inter base. 25

26

Partitionnement Le partitionnement permet de découper une table et/ou un index sur 1 ou plusieurs critères logiques. La table se comporte alors comme plusieurs tables de tailles plus petites. Les avantages principaux du partitionnement sont : De pouvoir définir des critères de stockage différents pour chacune des partitions. Par exemple, chaque partition peut être créé sur un «Tablespace» indépendant afin d opérer une répartition équitable des entrées/sorties ou bien d obtenir une granularité plus fine concernant les fichiers à sauvegarder ou à restaurer. Le découpage logique de la table permet un accès plus rapide aux informations (moins de lectures disques physiques à effectuer en particulier). Le moteur SQL prend en charge le critère de partitionnement et optimise l accès aux données en éliminant automatiquement les partitions («partition pruning») qui ne sont pas concernées par la requête SQL SELECT. Oracle propose 3 grands types de partitionnements : by range : on définit les partitions par tranche supérieure exclusive. Le critère de partition est en général une date. Exemple: PARTITION P1 VALUES LESS THAN (TO_DATE('01/03/2008','dd/mm/yyyy') by list : on définit une valeur par partition (utilisé lorsque la liste de valeur pour le champ considéré est faible) by hash : la partition de stockage est calculée dynamiquement par un calcul de type hash code (basé sur la fonction modulo du critère de partition choisi), cela permet de répartir équitablement les données sur les différentes partitions. Ce type de partitionnement est vraiment efficace lorsque la volumétrie est très importante. 27

Range Partitionning C est le type de partitionnement le plus utilisé et le plus ancien. La diapositive ci-dessus montre un aperçu de la syntaxe. La clé de partition dans cet exemple est le champ CDATE de type DATE. Les informations sont automatiquement rangées dans la partition correspondant à la date en cours car elle est générée automatiquement via la fonction SYSDATE qui est la valeur par défaut du champ CDATE. Dans le cas où l on insert une information avec une date au-delà du 1 février 2012, l instruction SQL devrait être en erreur. Pour éliminer cet inconvénient il convient d ajouter une partition avec la clé MAXVALUE comme le montre l exemple ci-dessous. ALTER TABLE F_PROXY_SC_5 ADD PARTITION "PDEFAULT" VALUES LESS THAN (MAXVALUE) TABLESPACE STAT_DATA; 28

Il existe 2 façons de partitionner un index sous Oracle : locally partitioned index : pour chaque partition de table créée, il y aura une (et une seule) partition d'index. Les données dans chaque partition d'index pointent sur l'ensemble des données d'une et unique partition de table. Logiquement, si la table a N partitions, l'index aura également N partitions globally partitioned index : l'index est partitionné indépendamment de la table. Une partition d'index peut pointer sur des données dans une ou plusieurs partitions de table. Un index globalement partitionné ne peut être que partitionné by range. Les index sur des tables partitionnées sont, par défaut, des index globaux sur une seule partition (en effet, par défaut, ils ne sont pas partitionnés). Partitionnement composite C'est une méthode de partitionnement hybride. Les données sont d'abord partitionnées by range (et également by list aujourd hui). Ensuite, chaque partition sera sous partitionnée soit by hash ou by list (et maintenant by range). Il n'est pas nécessaire d'avoir exactement le même nombre de sous partitions par partition : par exemple, une partition peut être constituée de 4 sous partitions alors qu'une autre sera composée de 5 sous partitions. Le mécanisme de découpage logique peut être étendu sur plusieurs champs, ainsi que sur 2 niveaux. On parle dans ce cas de sous partitionnement. 29

Composite range range partitioning Il est maintenant possible d effectuer un partitionnement par intervalle à deux niveaux sans faire appel à une clé composée de partition. Par exemple, partitionner par date de commande au premier niveau puis par date de livraison pour le sous-partitionnement. La version 11g supporte également le partitionnement composite avec le type «list» en premier niveau. Composite list-range partitioning Permet le partitionnement par intervalle au sein d une même liste de partitions. Par exemple, le partitionnement par mois sur une liste de régions définie. 30

OWB facilite la création des tables et index en partitions, la syntaxe étant toujours assez complexe à écrire manuellement. Syntaxe: list-range partitioning voir le manuel «SQL Reference» 31

Avantages du partitionnement Optimisation Pour les tables dépassant une certaine taille (plusieurs gigas), le partitionnement permet de distribuer les informations de manière plus efficace en fonction des critères de recherche et de la clé de partitionnement. Cela permet d éliminer certain goulet d étranglement en limitant les conflits d accès simultanés aux mêmes blocs de données et éliminant ainsi les problèmes de verrouillage. L accès aux tables organisées en partition met à profit le «partition pruning» qui consiste à interroger uniquement les partitions concernées en fonction du critère de recherche et de partitionnement. VLDB Dans le cadre des «Very Large Database» le partitionnement est presque incontournable. Lorsque les tables de fait ainsi que les dimensions dépassent en taille plusieurs gigas octets, il convient d utiliser le «Range Partitioning» afin de répartir les informations selon un critère de temps. Cela fait partie des bonnes pratiques, consulter à ce sujet la documentation «Data Warehouse Guide.» Résolution de problème de performances Dans bien des cas, quand la volumétrie des tables augmente considérablement et génère des problèmes de performance sur une base en exploitation, la transformation des tables en partitions peut être une méthode de résolution pour améliorer les temps de réponse. Le package PL/SQL DBMS_REDEFINITION permet de transformer les tables en partition sans avoir à générer de coupure de service pour les bases en production. Ce package est documenté dans le manuel «PL/SQL Packages and Types Reference.» 32

33

34

Démarche d optimisation Durée - doit être évoquée dés le début du projet, et doit être utilisée pendant toute sa durée. Objectifs - Etablir des objectifs quantifiables en éliminant les objectifs flous. Doivent permettre de définir des objectifs acceptés et approuvés par tous les intervenants. Contrôles - Les résultats doivent être contrôlés et communiqués régulièrement. Ces résultats doivent être comparés aux objectifs. Des dérives peuvent amener à corriger les objectifs. Coût du tuning Plus les problèmes de performances sont réglés tardivement et plus leur coût peut être élevé. 35

Gain pouvant être obtenus Il est important de ne pas perdre de vue certains principes en matière de performances et d optimisation des bases de données Oracle : En premier lieu, il est nécessaire de définir ce que l on cherche et de bien poser le problème. L objectif premier est de détecter les points de contention et les éventuels goulets d étranglement. En général, les gains qui peuvent être obtenu pour résoudre des problèmes de performance sont répartis de la manière suivante : - Optimisation du code SQL et des structures logiques 65 % - Réglage des structures physiques, répartition des entrées/sorties 20 % - Réglage de l instance et du moteur SGBD 10 % - Optimisation du système d exploitation 5 % 36

Étapes d optimisation La diapositive ci-dessus montre les étapes principales d une démarche d optimisation. Ces étapes doivent être franchies dans l ordre énoncé. Le résultat en terme de performances de chacune des étapes dépend du résultat des étapes précédentes. Des décisions prises dans une étape influenceront les actions des étapes suivantes. On distingue deux parties en terme d optimisation. Celle de l application et celle qui concerne l instance, la base de données et le système d exploitation. La première partie est la plus importante car on peut espérer dans certains cas, améliorer à plus de 60% les temps de réponse de l ensemble. Les bénéfices les plus importants sont tirés du réglage des requêtes SQL. En général, les problèmes de temps de réponse dans un bloc PL/SQL sont principalement dus à la lenteur d exécution des ordres SQL qu il contient. Les ordres SQL eux même sont difficiles à améliorer si le schéma relationnel est mal conçu. Cela dépend souvent d un modèle conceptuel qui a été négligé ou est absent. La deuxième partie des étapes de réglage dépendent largement de la phase d optimisation de l application. Les réglages de la mémoire sont souvent moins importants voir illusoire que ce que l on peut faire pour optimiser le «entrées/sorties.» 37

38

Curseurs : Architecture d exécution Pour soumettre des instructions SQL à une base de données Oracle, une session doit être établie entre le programme utilisateur (client) et le serveur de base de données. Le programme utilisateur peut être par exemple SQL*Plus, ou une application développée à l'aide d'un outil, tel qu'oracle Forms. Cette application ou cet outil est exécuté en tant que processus utilisateur. Lorsque la session est établie, les ordres SQL peuvent être exécuté. Le contexte d exécution d ordre SQL se nomme un curseur. 39

Comment les ordres SQL sont ils traités et exécutés par le noyau Oracle Le processus serveur alloue un espace de mémoire privé nommé context area afin de traiter les ordres SQL. La commande SQL est alors interprétée syntaxiquement et sémantiquement (parsing) puis exécutée (execute) dans ce contexe area. Les informations nécessaires à l exécution ainsi que les données récupérées (fetch) après le traitement sont stockées dans cet espace. Cet espace d exécution est géré de manière interne par le processus serveur et le programme utilisateur n y a pas de contrôle direct. Un curseur est donc un pointeur vers le context area. Traitement d un ordre SQL 1. Création du curseur. Le «context area» ou «private SQL area» est d abord alloué indépendamment de tout ordre SQL. Il est créé pour maintenir le contexte d exécution d un ordre SQL. Dans la plupart des cas, la création du curseur est automatique, cependant, en programmation avec des langages pré compilés, il est possible de déclarer explicitement un curseur. 2. Analyse de l ordre SQL (Parsing). L ordre SQL est envoyé par le programme client et le processus serveur effectue les opérations suivantes : - L ordre est analysé syntaxiquement et sémantiquement en vérifiant la définition des tables et des colonnes concernées dans le dictionnaire de la base de données («hard parse»). - Les droits d accès sont également contrôlés. Ces opérations donnent lieu à des requêtes SQL sous jacentes pour interroger le dictionnaire appelées : «recursive call». - Le plan d exécution («explain plan») est calculé pour déterminer le chemin d accès aux informations le plus rapide. - L ensemble est ensuite chargé dans l espace SQL partagé («shared SQL area») 40

Oracle exécute le «parsing» seulement s il n y a pas d ordre SQL similaire dans l espace SQL partagé (SQL Area). Dans le cas contraire, l ordre SQL peut être directement exécuté ce qui permet d optimiser («soft parse») le temps d exécution pour un ordre SQL régulièrement utilisé. Les requêtes d interrogation (SELECT notamment) sont différentes des autres ordres SQL car elles retournent un certain nombre de résultats sous forme de lignes au programme utilisateur. 3. Décrire le type de résultats de la requête. Cette étape est nécessaire lorsque le type de résultat n est pas connu à l avance. Par exemple, si les ordres SQL sont saisis en mode interactif comme avec SQL*Plus par exemple. La phase «Describe» consiste à déterminer les caractéristiques (types, longueur et nom) des résultats requis par l ordre SQL. 4. Définition des structures de réception des résultats (Define). Cette phase permet de définir l emplacement, les tailles et le type des variables de réception des informations recueillies (Fetch) par la requête SQL. 5. Relier les variables utilisateur (Bind Variables) à la requête. Lorsque les valeurs pour la clause WHERE sont passées via des variables «hôtes» du programme utilisateur, il est nécessaire d indiquer leurs adresses au serveur Oracle. 6. Exécuter l ordre SQL (Execute). A ce niveau Oracle dispose de toutes les informations pour exécuter l ordre SQL. Pour l exécution des ordres UPDATE et/ou DELETE, des verrous sont implicitement posés sur les lignes concernées par la requête SQL. Ces verrous seront libérés par les ordres de contrôle COMMIT, ROLLBACK ou SAVEPOINT. 7. Fetch. C est la phase ou les lignes des tables sont récupérées et éventuellement triées pour les envoyer au programme utilisateur. Elles sont transmises soit une par une, soit en paquet en fonction de la taille du Buffer de réception (Array Fetch) du programme client. 8. Close. L étape finale est la fermeture du curseur 41

Optimisation SQL : Plan d exécution L art d optimiser un ordre SQL passe par l affichage du plan d exécution afin d évaluer le chemin de recherche des informations dans la base de données. 42

Optimisation heuristique La génération du plan d'exécution est basée sur un ensemble de règles heuristiques définissant un score prédéterminé des méthodes d'accès. Il est possible que la structure de la requête influe sur le plan lorsque plusieurs méthodes ont le même score. L'optimiseur heuristique, basé sur une quinzaine de règles d optimisation, est appelé "Rule Based Optimizer" ou RBO. Les caractéristiques des données et la distribution des tables et index n'affectent pas le plan d'exécution. Les heuristiques peuvent s'avérer mal adaptées au contexte : cela entraîne souvent une génération d'un plan non optimal. Optimisation statistique L'optimisation statistique repose sur un modèle de coût et la connaissance de statistiques sur les objets manipulés. Génération de tous les plans possibles puis sélection du moins cher. Utilisation d'heuristiques pour réduire l'espace de recherche. Possibilité de spécifier des HINT pour privilégier une stratégie. L'optimiseur statistique est appelé "Cost Based Optimizer" ou CBO 43

Scores prédéfinis du Rule Based Optimizer La diapositive ci-dessus montre les 15 règles prédéfinies utilisée par l optimisation RBO. Le temps d accès aux données est proportionnel au rang du score. 44

RBO Versus CBO Le noyau Oracle intègre les deux moteurs d optimisation. Le moteur RBO traditionnel, basé sur les règles, est obsolète et ne sera plus supporté à terme. Cela implique qu il est fondamental d optimiser le code SQL en prenant en compte les résultats obtenus par le moteur CBO. 45

Collecte automatique des informations statistiques Le moteur Oracle à partir de la version 10g, collecte automatiquement des informations statistiques destinées à l optimisation des requêtes SQL et aux mesures de performance. Il y a deux types de statistiques : Les statistiques associées aux segments de la base (Tables et Index) qui permettent au moteur de base de données de déterminer le meilleur Plan d Exécution pour optimiser les temps de réponse des ordres SQL. Par exemple, le nombre de lignes (num_rows), le nombre de blocs (blocks) et la longueur moyenne d un enregistrement (avg_row_len) d une table de la base de données font partie des statistiques que le moteur d optimisation SQL peut exploiter pour améliorer les performances. Les informations statistiques de comportement de l instance de base de données sont collectées régulièrement (toutes les heures par défaut) et ces clichés sont stockés dans le référentiel de charge de travail AWR (Automatic Workload Repository). Ces clichés sont exploités par le moteur d analyse ADDM (Automatic Diagnostic Database Monitor) pour établir des diagnostics et des mesures de performance par comparaison. 46

Démarche d optimisation du code SQL Vous pouvez suivre la démarche présentée ci-dessus pour optimiser le code SQL. L idée est de tirer parti au maximum du moteur d optimisation CBO. Bien sûr, cette démarche part du principe que le modèle de données est propre et cohérent. Dans un premier temps, vous pouvez mettre au point le code SQL à part avant de l intégrer dans les blocs PL/SQL, avec SQL*Plus par exemple. Il est important de tester les requêtes sur des volumétries réalistes par rapport à ce qu il y aura en production. Une erreur classique est de coder du SQL sur une base vide, cela résulte souvent sur des problèmes de performances quelques temps après la mise en exploitation. Pour les requêtes complexes où la distribution des informations est difficile à déterminer pour le CBO, vous pouvez utiliser des HINTs. Ils permettent de privilégier une stratégie de recherche, cependant, il ne faut pas tomber dans l excès inverse en utilisant les indicateurs dans tous les cas de figure. Bien souvent, le moteur CBO détermine le meilleurs plan d exécution possible en fonction du schéma et de l architecture en place. Si malgré tout, les temps de réponses restent mauvais, il faut peut être remettre en question le modèle de données ou utiliser des techniques et astuces comme le partitionnement, la dénormalisation, etc La figure ci-dessus vous donne également la syntaxe pour le calcul des statistiques exploitées par le moteur d optimisation CBO. 47

48

49

50

51

Cet exemple a pour objectif de montrer une approche pragmatique de la modélisation plutôt que de rentrer de suite dans la théorie académique des concepts. Il vise à modéliser le système de réservation d une compagnie aérienne fictive. Les concepts développés sur cet exemple seront affinés et enrichis tout au long du stage. Enoncé - Le billet d avion. C est le concept tangible qui représente et justifie la réservation d un voyage en avion. Les informations qu il contient vont permettre au voyageur de pouvoir embarquer à la date prévue de l aéroport d origine vers celui de destination. Le voyage prévu peut être un aller simple ou un aller/ retour. Dans ce cas le titre de transport sera composé de deux coupons. Cet énoncé relativement court contient un certain nombre d éléments qui prennent leur importance selon que l on se place du point de vue du voyageur ou du point de vue de la compagnie aérienne. Les informations décrites dans l énoncé peuvent en induire d autre qui ne sont pas explicitement indiquées. Par exemple, aéroport d origine sous entend que celui-ci se trouve à proximité de la ville d où va partir le passager et que son nom n est pas forcément le même que celui de cette ville. De même, date prévue induit le fait que la réservation peut être effectuée bien avant le jour du voyage. Il faut remarquer que le terme billet peut être employé pour désigner plusieurs coupons d un même titre de transport dans le cas d un aller retour ou pour désigner le coupon lui-même (billet de passage libellé sur le coupon). D autre part, plusieurs termes peuvent être utilisés pour désigner la même chose selon le contexte où ils sont employés (passager, voyageur titre de transport, billet, coupon). 52

Les billets représentés sur la diapositive contiennent des informations qui seront renseignées lors de l enregistrement juste avant le départ : numéro de siège, porte et heure d embarquement. Du point de vue du passager Le nom de la compagnie (CIE) et le numéro de vol sont la référence affichée sur les panneaux d information dans l aéroport qui confirment la date, l heure de départ et d embarquement pour une destination donnée. Du point de vue de la compagnie CIE et numéro de vol donnent des informations supplémentaires. «AW» est la compagnie qui affrète l avion pour le vol désigné, le numéro indique la route définie par la compagnie aérienne qui sera utilisée. A savoir que chaque avions effectue des vols plusieurs fois par jour sur des routes (trajets) différentes. Il est donc nécessaire de connaître quel avion est affecté à quel vol, combien de billets ont été vendus pour chaque vol, si les vols ont été confirmés et quels sièges ont été affectés avant l embarquement. Dans le système de réservation de la compagnie aérienne, la dénomination billet ne se limite pas à un seul coupon ou billet de passage, elle désigne l ensemble des coupons qui ont été réservés pour un même voyage. Celui-ci peut être un aller simple, un aller/retour, un aller simple constitué de plusieurs vols consécutifs avec des correspondances ou tout autre combinaison de vols définis par la compagnie pour sa clientèle. 53

La figure de la diapositive représente donc le modèle conceptuel du billet d avion. Les Entités COUPON et BILLET sont représentées par des boites qui encadrent leur nom et la liste d attributs qui les définissent. Le COUPON est défini par les attributs CLASSE et STATUT et n a d existence que dans le contexte d un BILLET duquel il hérite des attributs DATE EMISSION et TARIF. La ligne de liaison entre les deux Entités représente l Association (Relationship) qui détermine le rapport de dépendance entre celles-ci. La fourche (crow foot) située à gauche de la ligne indique la notion de plusieurs, tandis que l extrémité droite de cette ligne représente l unicité (fil simple). Le trait de l association étant continu de part et d autre, il représente la notion d obligation, c est-à-dire qu un COUPON ne peut pas exister s il n y a pas de BILLET associé et inversement. L association peut être lue de la gauche vers la droite comme : Chaque COUPON doit être un élément d un et d un seul BILLET. De la droite vers la gauche : Chaque BILLET doit être composé d un ou plusieurs COUPONS. L expression «doit être» est employée pour indiquer la notion d obligation. 54

Sur cette figure une nouvelle entité VOL a été ajoutée. Elle est reliée au COUPON de la manière suivante : De la gauche vers la droite : Chaque COUPON doit être émis pour un et un seul VOL De la droite vers la gauche : Chaque VOL peut être le sujet d un ou plusieurs COUPONS. Cette fois l expression «peut être» est employée pour indiquer que la liaison dans le sens VOL vers COUPON est facultative. En effet, le VOL est programmé bien avant que les réservations et par conséquent l émission de billets ne soit faite. Cette notion facultative est représentée par un trait discontinu. En résumé le diagramme ci-dessus peut être interprété comme suit : Chaque BILLET doit être composé d un ou plusieurs COUPONS, chacun d eux sont émis pour un VOL différent, et dans l autre sens, un VOL peut être le sujet d un ou plusieurs COUPONS appartenant à différents BILLETS. 55

Création des Domaines Les domaines sont des types d attributs standardisés au niveau conceptuel. Ils permettent de normaliser les formats d attributs et sont réutilisables. Pour créer les Domaines, cliquer sur Outils -> Data Modeler -> Administration des domaines depuis SQL Developer. Sur l exemple les domaines suivants sont créés : Libéllé Type logique Taille Valeurs Statut VARCHAR 10 OPEN, CANCEL, REGISTER, SEND Classe VARCHAR 10 AFFAIR, TOURIST, BUSINESS, FIRST Montant MONEY 12,5 56

Création du modèle conceptuel de données Pour démarrer la création d un modèle conceptuel de données (MCD) ou modèle logique effectuer les étapes qui suivent : 1. Ouvrir la barre de navigation «Navigateur Web» : Menu -> Affichage -> Data Modeler - > Navigateur Web 2. Dans la barre de navigation Web, cliquer avec le bouton droit sur la branche «Untitle» et «Enregistrer la conception». C est à cette étape que l on donne un nom au modèle. 3. Dans la fenêtre «Enregistrer la conception» entrer un nom pour le modèle et cliquer sur enregistrer. 4. Vous pouvez éventuellement gérer votre développement avec le contrôle de version. Dans ce cas cliquer sur Oui. 57

Création des entités 1. Cliquer avec le bouton droit Modèle logique -> Afficher. L onglet «Logical» avec le nom du modèle, il apparaît. 2. Sur la barre de menu de l onglet «Logical», cliquer sur l icône «entité», puis cliquer sur l aire de développement. 3. Dans la fenêtre de propriétés de l entité entrer: Général -> «Billets» comme nom, «Bill» comme nom abrégé. Attributs -> No_Bill, VARCHAR(10), UID principal; Date Emission, DATE; Tarif, domaine Montant. Procéder de même pour les entités suivantes : Général -> «Vols» nom, «Vol» nom abrégé. Attributs -> «No_Vol» VARCHAR(10), UID principal; Date Depart, DATE; Heure Depart TIME; Général -> «Coupons» VARCHAR(10), UID principal; Classe domaine classe; Statut domaine statut. Entrer le nom d entité au pluriel (pour générer un nom de table lors de la transformation vers le modèle relationnel) et entrer le synonyme d affichage au singulier pour rester conforme aux normes de modélisation. 58

Création des associations 1. Cliquer sur l icône de l association 1:N 2. Cliquer sur l entité source 3. Cliquer sur l entité cible 4. Entrer les informations concernant l association. Cliquer sur «Appliquer» ou «OK» 59

Transformation du Modèle Logique en Modèle Relationnel 1. Cliquer sur l icône (double chevron bleu) «regénérer en modèle relationnel.» Cliquer sur l onglet «Options Générales» et cocher la case «Appliquer la conversion du nom.» 2. Cliquer sur le bouton «Regénérer» après avoir vérifier et/ou modifier les propriétés. Un onglet concernant le modèle relationnel apparaît. 60

Création du script DDL Depuis le menu: Fichier -> Data Modeler -> Export cliquer sur «Fichier DDL» 61

Création du script DDL 1. Dans la fenêtre «Editeur de fichier DDL» sélectionner le type de base cible. 2. Cliquer sur «Générer», la fenêtre «Options de génération de DDL» aparaît. 3. Accepter les options par défaut et cliquer sur «OK». Le script DDL s affiche. Vous pouvez l enregistrer comme script DDL. 62

Script DDL CREATE TABLE Billets ( NO_BILL VARCHAR2 (10) NOT NULL, Date_Emission DATE, Tarif NUMBER (5) ) ; ALTER TABLE Billets ADD CONSTRAINT Billet_PK PRIMARY KEY ( NO_BILL ) ; CREATE TABLE Coupons ( Code VARCHAR2 (10 CHAR) NOT NULL, Classe VARCHAR2 (10 CHAR) CHECK ( Classe IN ('AFFAIR', 'BUSINESS', 'FIRST', 'TOURIST')), Statut VARCHAR2 (10 CHAR) CHECK ( Statut IN ('CANCEL', 'OPEN', 'REGICTER', 'SEND')), NO_VOL VARCHAR2 (10 CHAR) NOT NULL, NO_BILL VARCHAR2 (10) NOT NULL ) ; ALTER TABLE Coupons ADD CONSTRAINT Coupon_PK PRIMARY KEY ( Code ) ; CREATE TABLE Vols ( NO_VOL VARCHAR2 (10 CHAR) NOT NULL, Date_Depart DATE, Heure_depart DATE ) ; ALTER TABLE Vols ADD CONSTRAINT Vol_PK PRIMARY KEY ( NO_VOL ) ; ALTER TABLE Coupons ADD CONSTRAINT Bill_Coup FOREIGN KEY (NO_BILL) REFERENCES Billets (NO_BILL) ON DELETE CASCADE ; ALTER TABLE Coupons ADD CONSTRAINT Vol_Coup FOREIGN KEY (NO_VOL) REFERENCES Vols (NO_VOL) ; 63

Entité Une entité est un objet qui a pour but de signifier un concept réel ou imaginaire en regroupant les informations nécessaires pour la représentation d un système d information. C est un regroupement d attributs qui participent à la signification abstraite d un concept autour d un même dénominateur. Le nom de l entité doit être choisi au singulier car c est la dénomination d un type ou d une classe et non d une instance ou d une occurrence de celle-ci. Par exemple, dans l étude de cas précédente, PARIS ORLY ou MARSEILLE MARIGNANE sont des instance de la classe ou du concept AEROPORT. Chaque entité doit être identifiable de manière unique. Par exemple, BILLET ou TICKET sont des synonymes qui représentent la même chose, il ne doit y avoir qu une seule entité. Remarque : Le nom pluriel que l on donne lors de la création de l entité avec l outil Entity Relationship Diagrammer, va être utilisé pour nommer la table correspondant à l implémentation au niveau du modèle logique. La représentation graphique d une entité est une boite rectangulaire qui englobe son nom et la liste des attributs qui la caractérise. 64

Association Une association est la représentation conceptuelle du lien qui existe entre deux entités. L association est établie entre seulement deux entités nommées. L association a donc deux extrémités caractérisées par : leurs nom leurs cardinalités ou degrés, c est-à-dire combien leurs caractéristiques : facultatives ou obligatoires L Association est représentée graphiquement par une ligne qui relie les boites rectangulaires de deux entités distinctes, ou récursivement une seule boite d une même entité sur elle-même. 65

66

67

SQL*Plus script control.sql:. set echo off ver off feed off pages 0 accept tname prompt 'Enter Name of Table: ' accept dformat prompt 'Enter Format to Use for Date Columns: ' spool &tname..ctl select 'LOAD DATA' chr (10) 'INFILE ''' lower (table_name) '.dat''' chr (10) 'INTO TABLE ' table_name chr (10) 'FIELDS TERMINATED BY '',''' chr (10) 'TRAILING NULLCOLS' chr (10) '(' from user_tables where table_name = upper ('&tname'); select decode (rownum, 1, ' ', ', ') rpad (column_name, 33, ' ') decode (data_type, 'VARCHAR2', 'CHAR NULLIF (' column_name '=BLANKS)', 'FLOAT', 'DECIMAL EXTERNAL NULLIF(' column_name '=BLANKS)', 'NUMBER', decode (data_precision, 0, 'INTEGER EXTERNAL NULLIF (' column_name '=BLANKS)', decode (data_scale, 0, 'INTEGER EXTERNAL NULLIF (' column_name '=BLANKS)', 'DECIMAL EXTERNAL NULLIF (' column_name '=BLANKS)')), 'DATE', 'DATE "&dformat" NULLIF (' column_name '=BLANKS)', null) from user_tab_columns where table_name = upper ('&tname') order by column_id; select ')' from dual; spool off 68

69

Transport logique des informations Dans le cadre d un changement de plateforme ou de contraintes particulières format des informations avec de types TIMESTAMP WITH LOCAL TIME ZONE par exemple, la technique la plus simple est de migrer les informations avec les outils de déchargement et de chargement logiques. Il existe plusieurs solutions : Avec les outils traditionnels fournis par Oracle comme Export/Import, Data Pump, SQL*Plus et SQL*Loader. En copiant les données utilisateur via des «Database Links». 70

Migration avec Export/Import Bien que cette technique soit simple et robuste, il est tout de même nécessaire de contrôler la cohérence des jeux de caractères entre la base source et la cible. Des conversions implicites peuvent se produire en fonction des jeux de caractère utilisés. La diapositive ci-dessus illustre les mécanismes de conversion qui peuvent éventuellement se produire. Les informations sont automatiquement converties si les jeux de caractères sont différents entre la source et la cible. La variable d environnement NLS_LANG a une influence sur les conversions des jeux de caractères, il ne faut pas oublier que sa valeur par défaut est «American_America.US7ASCII». Le jeu de caractères US7ASCII est encodé sur 7 bits et cela peut générer des erreurs de conversion. Les versions récentes d Export et Import gèrent correctement ces problèmes de conversion de jeux de caractères. 71

Migration avec Oracle Data Pump Oracle «Data Pump» est une amélioration des outils classiques Export/Import. Il offre les fonctionnalités suivantes : Un mode d exécution en parallèle. Cela permet d accroître considérablement les performances. Une API afin de pouvoir intégrer l outil avec d autres applications. Un mode de contrôle d exécution des travaux et d exécution en mode «batch». La méthode de migration la plus efficace avec cet outil est sûrement d importer directement les informations dans la base cible via un lien inter bases : Exemple : select * from dba_db_links; select * from dba_directories; base source grant exp_full_database, resource, connect to schema_source; base cible connect system/syspwd create database link migrate_dblink connect to schema_source identified by secret using ALIAS_NET'; impdp system/syspwd schemas=schema_source TRANSFORM=SEGMENT_ATTRIBUTES:n:table \ remap_schema=schema_source:schema_cible directory=data_pump_dir \ network_link=migrate_dblink 72

73

Autres possibilités 74

Autres associations impossibles 75

Attribut Un attribut est une information de détail qui sert à qualifier, identifier, classer, quantifier ou exprimer l état d une entité. Cela peut être également une description détaillée de l entité ou une structure complexe d attribut de types élémentaires. Les types des attributs les plus couramment utilisés sont texte, nombre ou date mais un attribut peut être également une vidéo, un son, une image, etc Sur l étude de cas, la compagnie aérienne peut avoir sélectionné quatre ou cinq types d appareil qui sont représentés par l entité TYPE D AVION et peut en posséder une centaine ou plus. Chaque occurrence ou instance de l entité AVION doit être identifiée par un numéro d IMMATRICULATION unique. 76

Règles concernant les attributs L attribut doit décrire l entité dans laquelle il apparaît. Cela semble évident, cependant c est une erreur que l on rencontre fréquemment. Prenons par exemple le numéro de siège qui apparaît en général sur le billet et la carte d embarquement. C est un attribut qui décrit à l évidence l entité SIEGE si elle a été représentée, dans la réalité le numéro de siège apparaît à plusieurs endroits pour des raisons pratiques de représentation de l association directe entre l avion et la carte d embarquement. 77

Indication Lorsque l on modélise, il est fréquent de rencontrer des entités ayant un nombre d attributs très important. Cela peut indiquer l omission d entités moins évidentes à définir. A l inverse, une entité constituée d un seul attribut peut indiquer une erreur d interprétation et que l entité en question devrait plutôt être considérée comme un attribut d une autre entité. Cependant, il existe des exceptions lorsque l on a affaire à une entité d intersection. C est-à-dire que l entité représente l association plusieurs vers plusieurs. Ce modèle d association est étudié plus loin dans ce chapitre. Lecture du nom de l attribut Ne pas répéter le nom de l entité comme partie du nom de l attribut. Cela introduit une redondance qui peut induire ensuite des erreurs de conception ou une complexité supplémentaire. La lecture d un attribut peut être faite sous deux formes : Nom d entité nom d attribut ou Nom d attribut nom d entité. D autre part, lorsque l on passe vers le modèle logique, les associations sont transformées en clés étrangères. Ces clés sont nommées avec comme préfixe le nom de la table qui est référencée. Par exemple, la table BILLETS qui serait liée à la table PASSAGERS contiendrait normalement une clé étrangère intitulée PASSAGERS_CODE. Si le nom de l entité à été répété sur celui de l attribut on obtiendrait PASSAGERS_CODE_PASSAGER ce qui est moins élégant. Les considérations sur le passage vers le modèle logique seront détaillées ultérieurement. 78

Objectifs de la normalisation La normalisation des données est un processus qui permet de garantir que le modèle conceptuel sera conforme à certains standard de conception de systèmes de gestion de base de données relationnelles. En ce qui concerne la modélisation des données, ces standards ont été définis pour réduire la redondance des données, pour fournir toute la souplesse nécessaire à la mise en place de processus fonctionnels complexes et de permettre d adapter facilement ces modèles à une grande variété d architecture de base de données. Contrairement à un certain nombre d idées reçues, la normalisation du modèle conceptuel de données (MCD) permet de réduire considérablement les coûts et les temps de développement dans la mesure où l on applique une démarche pragmatique (itérative). Cela peut être particulièrement adapté si l on utilise Oracle Designer car l outil automatise un certain nombre de tâches comme la génération du code par exemple et par conséquent, permet aux développeurs de se concentrer plus longtemps sur le modèle conceptuel. Passer trop vite à l écriture manuelle du code est un facteur qui incite souvent les développeur à «dénormaliser» le MCD ce qui engendre souvent des mal façons qu il faut corriger (quand cela est possible) ensuite. La première forme normale Supprimer les répétitions d attributs sur une même entité. Ce mécanisme permet de définir les entités ou les associations omises, plus difficiles à identifier. La deuxième forme normale Déplacer les attributs qui ne dépendent pas de l identifiant unique complet de l entité. Comme précédemment, ce mécanisme permet également de déterminer s il n existe pas d autre associations ou entités qui n auraient pas été définie initialement. 79

La troisième forme normale Déplacer les attributs qui ne dépendent pas de l identifiant unique. C est en général l inverse de la première forme normale. C est le mécanisme final qui permet de détecter les omissions d entité ou d associations. «Dénormalisation» C est le processus inverse. Il permet d améliorer les performances du système en production et doit normalement être appliqué pendant la phase «Design» sur le modèle logique. L erreur qui est souvent faite est de confondre le modèle conceptuel avec le modèle logique et par conséquent d appliquer des «dénormalisations» pendant la phase d analyse. Cela a souvent pour effet de produire un système compliqué et peu performant. Le problème se manifeste au moment de la mise en exploitation et il est souvent nécessaire de retoucher le code (appliquer des rustines ou patch), d optimiser les requêtes SQL ou l instance de base de données. Le procédé de «dénormalisation» n est efficace que si l on part d un modèle conceptuel normalisé. 80

Identifiant Unique Chaque occurrence ou instance d une entité doit être unique et distinctement identifiable. L identifiant unique peut être un attribut, une combinaison d attribut, une association, une combinaison d associations ou une combinaison d associations et d attributs. Le symbole # indique les attributs qui participent à l identifiant unique Le trait vertical sur l association indique que l identifiant (#NOM) de COMPAGNIE AERIENNE participe à l identifiant unique de l entité TRAJET AERIEN ( #NOM, # NO VOL) 81

Sur les diagrammes entités associations, les attributs sont représentés par leur nom en majuscules précédé d un symbole qui a la signification suivante : # le dièse représente un identifiant unique. * l astérisque indique un attribut dont la valeur est obligatoirement renseignée. o un rond signifie un attribut dont la valeur est optionnelle. 82

Objectif Le principal objectif pour pouvoir établir rapidement le modèle conceptuel des données et/ou des traitements du système est d identifier avec précision : les entités, les attributs ainsi que les associations pour le modèle de données d une part, les processus et les fonctions métier de l organisation cliente en ce qui concerne les traitements d autre part. La modélisation consiste à interpréter et comprendre de manière synthétique un ensemble de mécanismes et d objets du monde réel dans le passé, le présent ou le futur. Il ne faut pas perdre de vue que cette représentation abstraite est une interprétation plus ou moins fiable et exhaustive de ce qu est la réalité et non l inverse. C est-à-dire qu il ne faut pas faire l erreur (inconsciente) de vouloir adapter la réalité des choses à un modèle abstrait. Toute la difficulté se trouve ici, en pratique la modélisation est semée d embûches et de pièges qu il faut pouvoir contourner ou éviter afin de mener à bien cet exercice. Moyens et tactiques Glossaire Le principal piège auquel on peut être confronté est le langage (parlé ou écrit). Les méthodes utilisées sont basées principalement sur des termes visant à donner une interprétation précise du monde réel et par conséquent, si la compréhension de ces mots est différente d un individu à l autre - l utilisateur et le concepteur par exemple -, le modèle risque de dériver par rapport à la réalité. La première des choses à effectuer est de faire prendre conscience de ce problème à tous les acteurs du projet et de mettre en chantier un glossaire des termes. Le glossaire des termes sera alimenté et enrichi tout au long du projet. L élaboration du modèle conceptuel contribuera à cette tâche. Il est souhaitable que tous les mots utilisés dans le modèle de données aient une définition dans le glossaire. Inductions parasites. En pratique, les gens s expriment souvent en termes d exemples, d analogies ou d illustrations pour décrire des concepts. Lorsque l on évoque un «avion», bien souvent c est Jumbo Jet, Airbus ou 747 qui est employé. D autre part, dans un organisme, on est souvent confronté à un jargon spécifique qui diverge en fonction du rôle des individus. Egalement, la description d un concept ou d une procédure métier sera différente selon que l on s adresse à la personne compétente, responsable ou novice en la matière. Il est donc fondamental d identifier toutes ces inductions parasites afin de pouvoir récolter correctement les informations nécessaires à l élaboration du modèle conceptuel. 83

Démarche Top-Down et Bottom-Up Utiliser une démarche adaptée au contexte dans lequel on se trouve. La démarche de haut en bas est plus appropriée en début de projet ou d itération (si l on applique une méthodologie itérative). Celle de bas en haut est utile lorsque l on part d un existant. Les deux techniques ont des avantages et des inconvénients, l idéal est de pouvoir utiliser les deux. Cela est possible si l on adopte une méthodologie itérative. Collecte d informations Les moyens et tactiques décrits précédemment vont permettre d effectuer la collecte des informations avec plus d efficacité. Il existe plusieurs manières de le faire : par l interview des utilisateurs, les réunions fonctionnelles et techniques et les documents de toutes sorte (cahier des charges, interview, dossier de spécifications ). Il ne faudra pas perdre de vue que l objectif est d identifier les entités, attributs, associations, processus et fonctions sans se faire noyer par une somme d information trop importante. Ce travail consiste donc à noter, trier, élaguer et classer. 84

85

86

87