Module B4 : Projet des Systèmes d information Lille, le 25 mars 2002 LES ENTREPOTS DE DONNEES Problématique : Pour capitaliser ses informations, une entreprise doit-elle commencer par mettre en œuvre des Data marts puis évoluer vers un Data warehouse ou commencer tout de suite par un Data warehouse? www.bouchaboun.com Nordine BOUCHABOUN Michel M. Sébastien L. Jean-Pierre F.
Plan Général 1. du data warehouse 2. Le périmètre d application 3. La structure des données 4. du data warehouse 5. L exploitation de l information 6. 7. Générale
PRESENTATION DU DATA WAREHOUSE Les facteurs de changements Historique du décisionnel Définition Comparaison OLTP/OLAP
Les Facteurs de changements Facteurs stratégiques Prix, qualité, délais, services, personnalisation Facteurs technologiques Facteurs économiques Facteurs financiers
Facteurs économiques Le passage à la net économie
Facteurs financiers IDC 2001 Evolution du marché du décisionnel pour l année 2000
PRESENTATION DU DATA WAREHOUSE Les facteurs de changements Historique du décisionnel Définition du Data warehouse Comparaison OLTP/OLAP
Historique L infocentre Le côté technique L apparition du data warehouse
PRESENTATION DU DATA WAREHOUSE Les facteurs de changements Historique du décisionnel Définition du Data warehouse Comparaison OLTP/OLAP
Définition «Le data warehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées pour le support d un processus d aide à la décision» (Bill IMMON -Using the data warehouse -1994)
Définition (suite) Données organisées par thèmes Données consolidées et cohérentes Données historiques et non volatiles Data mart & data warehouse
PRESENTATION DU DATA WAREHOUSE Les facteurs de changements Historique du décisionnel Définition du Data warehouse Comparaison OLTP/OLAP
Comparaison OLTP/OLAP On Line Transaction Processing & On Line Analytical Processing L utilisation Les accès Les origines des données Le Volume des données
LE PERIMETRE D APPLICATION Les secteurs d activités Les principaux domaines d application CRM SCM SEM Data warehouse centralisé ou data marts?
Les secteurs d activités La répartition des ventes 2000 de licences d outils décisionnels par secteurs d activités Telecom 13% Services publics 11% Distribution / Commerce 14% Autres 6% Banques / Assurances / Finances 27% Industrie 29%
LE PERIMETRE D APPLICATION Les secteurs d activités Les principaux domaines d application CRM SCM SEM Data warehouse centralisé ou data marts?
Les domaines d application Stratégie E-business et Changement Partenaires et Fournisseurs <> Achat & Logistique Ressources de l'entreprise Vente & Suivi <> Clients Intégration E-business Système d'information Interne
Customer Relationship Management Gestion de la Relation Client Les concepts Le rôle du décisionnel
Supply Chain Management Gestion de la chaîne logistique Les objectifs Le rôle du décisionnel
Strategic Enterprise Management Gestion la stratégie d entreprise Les objectifs Le rôle du décisionnel
LE PERIMETRE D APPLICATION Les secteurs d activités Les principaux domaines d application CRM SCM SEM Data warehouse centralisé ou data marts?
STRUCTURE DES DONNEES La modélisation des données Les agrégats Les métadonnées
Le modèle normalisé PAYS GAMME Gamme_id Libelle Marque FOURNISSEUR Fournisseur_id Nom Adresse Pays Code_Pays Libellé PRODUIT Produit_id Nom Fournisseur Gamme Code_pays Caracteristique Prix_ht COMMANDE Commande_id Client Produit Quantité Date CLIENT Client_id Nom Prenom Adresse Pays Relationnel pur éviter la redondance
Le modèle dénormalisé GAMME Gamme_id Libelle Marque PRODUIT FOURNISSEUR Fournisseur_id Nom Adresse Pays PAYS Code_Pays Libellé VENTE Produit_id Nom Fournisseur Gamme Code_pays Caracteristique Prix_ht COMMANDE Commande_id Client Produit Quantité Date CLIENT Client_id Nom Prenom Adresse Pays Produit_id CA_janvier CA_fevrier Résultat de calculs, agrégats
Le modèle dimensionnel PERIODE GEOGRAPHIE JJMMAA * Jour_Semaine Semaine_année PRODUIT Produit_id * Nom Fournisseur Gamme Code_pays Caracteristique VENTES JJMMAA * Produit_id * Point_vente_id * Client_id * CA Marges Quantité Point_vente_id * Region Pays CLIENT Client_id * Nom Prenom Adresse Pays Schéma en étoile
Le modèle dimensionnel tables des dimensions PERIODE JJMMAA * Jour_Semaine Semaine_année GEOGRAPHIE Point_vente_id * Region Pays PRODUIT Produit_id * Nom Fournisseur Gamme Code_pays Caracteristique VENTES JJMMAA * Produit_id * Point_vente_id * Client_id * CA CLIENT Client_id * Nom Prenom Adresse Pays Marges Quantité table des faits
Le modèle dimensionnel table des faits = HYPERCUBE VENTES JJMMAA * Produit_id * Point_vente_id * CA Marges Quantité GEOGRAPHIE PRODUIT PERIODE
Le modèle des données hiérarchie Dimension temporelle : jour semaine année jour mois année Dimension géographique : ville département pays Dimension article : article type catégorie granularité Plus petit élément d une dimension: jour, ville, article profondeur Nombre d éléments dans une dimension Exemple: 5 ans = 1826 jours environ
STRUCTURE DES DONNEES La modélisation des données Les agrégats Les métadonnées
Les agrégats Ensemble d enregistrements avec des cumuls, sur une ou plusieurs hiérarchies VENTES JJMMAA * Produit_id * Point_vente_id * Client_id * CA Marges Quantité - Vente par semaine, produit, point de vente, client - Vente par jour, produit - Vente par mois, client - Vente par mois, gamme de produit, région de vente
Les agrégats Réduit considérablement le nombre d accès de la plupart des requêtes Occupe de l espace disque supplémentaire Ressemble au principe des clés secondaires Doit être transparent pour les requêtes utilisateurs Définitions stockées dans des métadonnées
STRUCTURE DES DONNEES La modélisation des données Les agrégats Les métadonnées
Les métadonnées Ensemble des référentiels de l entrepôt de données, utilisés par l OLAP : - définitions des objets - définitions des agrégats - autorisations d accès - Dictionnaire de la BD Métadonnées Données Espace de chargement
CONSTRUCTION DU DATA WAREHOUSE La gestion de projet L acquisition des données L architecture physique L architecture logicielle Data warehouse centralisé ou data marts?
La gestion de projet ALIMENTER EXPLOITER DECIDER Données opérationnelles + Données externes Extraire Nettoyer Stockage Tampon tempon (facultatif) Transformer Transporter Entrepôt de données Utiliser Outils d'analyse '
CONSTRUCTION DU DATA WAREHOUSE La gestion de projet L acquisition des données L architecture physique L architecture logicielle Data warehouse centralisé ou data marts?
L acquisition des données
L acquisition des données Découvrir Sous quelles formes sont les informations? Les informations sont-elles valides? Où sont les informations? Comment et quand les informations sont-elles modifiées?
L acquisition des données Extraire Extraction possible à partir de plusieurs plateformes (OLTP, ERP, Web, ) Chargement incrémental ou complet
L acquisition des données Transformer Uniformiser l information Gérer les différents codes page Majuscule / minuscule Orthographe
L acquisition des données Transporter par FTP ou autre outil de transfert de fichiers par EAI
L acquisition des données Charger Les tables Les agrégats
CONSTRUCTION DU DATA WAREHOUSE La gestion de projet L acquisition des données L architecture physique L architecture logicielle Data warehouse centralisé ou data marts?
L architecture physique Dépend de la taille de l entrepôt de données et des contraintes Ordinateur processeur INTEL, RISC, Mainframe simple ou multiprocesseur Disques RAID1, RAID5 duplication sur une baie distante Réseau Sauvegarde
CONSTRUCTION DU DATA WAREHOUSE La gestion de projet L acquisition des données L architecture physique L architecture logicielle Data warehouse centralisé ou data marts?
L architecture logicielle Le système d exploitation UNIX 32 ou 64 bits Windows NT, 2000 Mainframe La base de données Oracle, DB2 d IBM, Informix, Sybase Microsoft SQL server (Windows uniquement) Les outils d ETL (Extract,Transform,Load)
CONSTRUCTION DU DATA WAREHOUSE La gestion de projet L acquisition des données L architecture physique L architecture logicielle Data warehouse centralisé ou data marts?
EXPLOITATION DE L INFORMATION La Business Intelligence Les différents types d utilisation et les services de restitution Le reporting L accès libre service Analyse OLAP Data warehouse centralisé ou data marts?
La Business Intelligence Restituer l information pour: Informer Analyser Décider et piloter
EXPLOITATION DE L INFORMATION La Business Intelligence Les différents types d utilisation et les services de restitution Le reporting L accès libre service Analyse OLAP Data warehouse centralisé ou data marts?
Les différents types d utilisation Utilisation passive Navigation dans un référentiel Requête Analyse stratégique
Les services logiques de restitution Navigation dans l entrepôt Authentification et autorisation Surveillance des activités Gestion des requêtes Génération d états standards
Navigation dans l entrepôt Basé sur les métadonnées Recherche des sujets disponibles Permettre à l utilisateur d accéder aux contenus
Authentification et autorisation Authentification Identifier l utilisateur (login / mot de passe) Autorisation Détermination des informations visibles Table des filtres Utilisateur X / Filtre A / Rapport X Utilisateur Y / Filtre B / Rapport X Utilisateur Z / Filtre C / Rapport X
Authentification et autorisation Utilisateur X Filtre A Utilisateur Y Filtre B Rapport X Filtre C Utilisateur Z
Autres services Surveillance de l activité Informations sur le fonctionnement Gestion des requêtes Formulation, exécution, envoi du résultat Génération d états standards Génération et mise à disposition
EXPLOITATION DE L INFORMATION La Business Intelligence Les différents types d utilisation et les services de restitution Le reporting L accès libre service Analyse OLAP Data warehouse centralisé ou data marts?
Le mode pull Client browser HTML / XML LDAP Intranet Intranet / / Internet Internet HTTP Firewall Serveur web Serveur de rapport Métadonnées Datamarts ou Datawarehouse
Le mode pull: avantages et inconvénients Avantage Nombre de traitements limité Inconvénient Utilisation des rapports pas optimisée par rapport aux filtres
Le mode push LDAP Client browser HTML / XML Métadonnées Intranet Intranet / / Internet Internet Firewall Serveur web Serveur de rapport Datamarts ou Datawarehouse HTTP E-mail SMTP Scheduler
Le mode push: avantages et inconvénients Avantage Génération des rapports planifiable Inconvénients Utilisation des rapports pas optimisée par rapport aux filtres Pas d adéquation par rapport au besoin utilisateur
Le mode mixte LDAP Client browser HTML / XML Métadonnées Intranet Intranet / / Internet Internet Firewall Serveur web Cache mémoire Serveur de rapport Datamarts ou Datawarehouse HTTP Scheduler
Le mode mixte: avantages et inconvénients Avantages Génération des rapports planifiable Adéquation au besoin utilisateur Optimisation de la génération des rapports par rapport aux filtres Inconvénient Stockage intermédiaire des rapports
EXPLOITATION DE L INFORMATION La Business Intelligence Les différents types d utilisation et les services de restitution Le reporting L accès libre service Analyse OLAP Data warehouse centralisé ou data marts?
L accès libre service Requête simple Sur des données simples opérationnelles Interfaces utilisateurs
EXPLOITATION DE L INFORMATION La Business Intelligence Les différents types d utilisation et les services de restitution Le reporting L accès libre service Analyse OLAP Data warehouse centralisé ou data marts?
La logique OLAP: les principes Un principe logique Méthodologie de modélisation de données Outils de restitution La navigation dans un cube
La logique OLAP: exemple d analyse Temps Années Trimestre Mois Jour Clients Secteur Famille Type client Client Mesures Quantité Délai de livraison CA Marge Géographie Produits Gammes Produits Région Département Point de vente
La logique OLAP: la pyramide d analyse Indicateurs (CA, Quantité ) Agrégation Axe d analyse Produit (Gamme, produit unitaire) CA / Gamme / Année CA / Gamme / Mois CA / Gamme / Jour Axe d analyse Période (Année, trimestre, jour ) DRILL DOWN Axe d analyse Client (Secteur, famille, client ) SLICE AND DICE
La mise en œuvre par MOLAP Vue multidimensionnelle Base Multi dimensionnelle CA / Gamme / Année CA / Gamme / Mois CA / Gamme / Jour Axe d analyse Période (Année, trimestre, jour ) Axe d analyse Produit (Gamme, produit unitaire)
La mise en œuvre par MOLAP Avantages Temps de réponse très court Navigation facilitée Limites Stockage des données Pré-agrégation des indicateurs Volumes importants difficile à gérer
La mise en œuvre par ROLAP Vue multidimensionnelle Mapping Vue relationnelle Base relationnelle Axe d analyse Produit (Gamme, produit unitaire) CA / Gamme / Année Axe d analyse Période (Année, trimestre, jour ) CA / Gamme / Jour
La mise en œuvre par ROLAP Avantages Axes d analyse non nécessairement pré-définis Monde relationnel Limites Temps de réponse
La mise en œuvre par HOLAP Vue multidimensionnelle Base Multi dimensionnelle SQL dynamique Base relationnelle CA / Gamme / Année Axe d analyse Produit (Gamme, produit unitaire) CA / Gamme / Jour CA / Gamme / Mois Axe d analyse Période (Année, trimestre, jour ) DRILL THROUGH
La mise en œuvre par HOLAP Avantages Temps de réponse Limites Gestion du passage du multidimensionnel au relationnel
EXPLOITATION DE L INFORMATION La Business Intelligence Les différents types d utilisation et les services de restitution Le reporting L accès libre service Analyse OLAP Data warehouse centralisé ou data marts?
Data warehouse centralisé ou data marts Demande HOLAP Data mart Demande ROLAP Data mart Data warehouse Demande MOLAP Requête Data mart Demande de rapport
DATAMINING Définition du Data minig Processus Les techniques utilisées Choix des outils Data warehouse centralisé ou data marts?
Définition du = Forage des données Concepts et outils dérivés de l'intelligence artificielle permettant d'analyser des données pour en déduire, sans a priori, des corrélations.
DATAMINING Définition Processus Les techniques utilisées Choix des outils Data warehouse centralisé ou data marts?
Processus Extraction de l information - Nbre d exemples + Zone optimale Multiplication des apprentissages pour s assurer de la stabilité Temps de calcul trop long Trop peu d exemples par rapport à la taille du problème - Nbre de variables +
Processus La sélection des données Les actions sur les variables La recherche du modèle L évaluation des résultats
DATAMINING Définition Processus Les techniques utilisées Choix des outils Data warehouse centralisé ou data marts?
Les techniques Raisonnement à base de cas Expériences passées Nouvelles expériences Situation Recherche de cas similaires Nouvelle situation Solution et explication Adaptation Solution Amélioration de l expérience
Les techniques Les arbres de décisions Moyenne = 241,02 Écart type= 137,51 N= 9403 (94,0%) Décomposition de la durée d un appel en sec. Moyenne = 245,72 Écart type= 203,06 N= 1000 (100,0%) Revenu <= 30000 > 30000 Moyenne = 319,76 Écart type= 622,60 N= 597 (6,0%) Possède un PC Non Oui Moyenne = 234,94 Écart type= 150,85 N= 422 (4,2%) Moyenne = 524,31 Écart type= 1101,43 N= 175 (1,8%)
Les techniques Les algorithmes génétiques Chromosomes = 10111 Hybridation 01 010 10 010 10 101 01 101 Mutation 01 0 10 01 1 10 Inversion 01 010 10 010
Les techniques Les réseaux de neurones Neurones d entrée Neurones cachés Neurones de sortie
Les techniques Les associations Ensemble de règles conditionnelles de type: Si A <opérateur> B Alors C Exemple Si achat SALADE Et TOMATE Alors achat HUILE
Les techniques Evaluation: analyse de tickets de caisses Ticket 1 Ticket 2 Ticket 3 Ticket 4 Farine Sucre Lait Œufs Sucre Chocolat Farine Œufs Sucre Oeufs Œufs Chocolat Thé Chocolat Niveau de confiance de l association Farine Oeufs Chocolat Sucre : 100% : 100% Niveau de support de l association Farine Sucre : 66.6% Niveau de support de l association Oeufs Chocolat : 100% Association réversible
Les techniques Utilisations principales Analyse de tickets de caisses Diagnostiques de crédits Avantage Facilement compréhensible Inconvénient Le volume de calcul croit au carré ou au cube avec le volume de données de crédits
DATAMINING Définition Processus Les techniques utilisées Choix des outils Data warehouse centralisé ou data marts?
Le choix d un outils Apprécier la pertinence des données Obtenir des modèles sans modifier les données Le traitement du volume de données Plusieurs types de variables et de les travailler La possibilité d'utiliser plusieurs techniques de data mining
Le choix d un outil La qualité d'ajustement du résultat Facilité de compréhension du résultat L introduction des résultats dans les systèmes de gestion La volonté de l'entreprise à s'investir Le prix Les impacts sur l'organisation de l'entreprise
DATAMINING Définition Processus Les techniques utilisées Choix des outils Data warehouse centralisé ou data marts?
CONCLUSION GENERALE Problématique : Pour capitaliser ses informations, une entreprise doit-elle commencer par mettre en œuvre des Data marts puis évoluer vers un Data warehouse ou commencer tout de suite par un Data warehouse? Les avantages et inconvénients du data warehouse centralisé Les avantages et inconvénients des data marts Notre réponse
Le data warehouse centralisé Avantages et Inconvénients Demande une coopération étroite entre les différents acteurs Demande énormément de ressources financières et de compétences Facilite l uniformisation par une administration unique
Les data marts Avantages et Inconvénients Permet de commencer petit pour voir grand (notion de projet pilote) Faciliter de mise en place Permet d utiliser des outils spécialisés sur le thème métier de chaque Data mart
Notre réponse Les directions organisationnelles sont demandeurs et pressées Créer un environnement centralisé pose des problèmes de gigantisme Grouper les thèmes ne semble pas nécessaire Aujourd hui, les restrictions budgétaires font que souvent, seuls les data marts voient le jour
Questions / Réponses
Annexes
Annexe 1 Répartion des licences IDC 2001 Répartition des licences du marché par type d outils pour l année 2000
Annexe 2 Répartition du marché IDC 2001 Répartition du marché entre les éditeurs et les SSII pour l année 2000
Annexe 3 Quelques ouvrages Quelques ouvrages : Jean-Michel FRANCO & Sandrine DE LIGNEROLLES Eyrolles 2000 «Piloter l entreprise grâce au data warehouse» R. KIMBALL & L. REEVES & M. ROSS & W. THORNTHWAITE Eyrolles 2000 «Concevoir et déployer un data warehouse» R. LEFEBURE & G VENTURI Eyrolles - 1999 «Le Data Mining»
ANNEXE 4 Tableau comparatif OLTP/OLAP On Line Transaction Processing On Line Analytical Processing Caractéristique Base opérationnelle Base décisionnelle Utilisateurs La majorité de l entreprise Quelques décideurs Mises à jour Au fil de l eau, générées surtout par les utilisateurs De nuit et week-end, par lot (extraction) Fréquence d accès Continue, Pics de charge Sur demande des utilisateurs Performances Rapidité impérative Charge dépend des requêtes Modèle principal des données Normalisé ( 3NF ) Dimensionnel (en étoile, en flocon) Origine des données unique Sources multiples possibles Souplesse d accès au données Faible, accès par programmes d application Grande, accès par requêtes Besoins en données Bien compris Flou, travail de recherche Ancienneté des données Récente Historisée Taille de la base : 100 MB à 1GB 1 GB à 1 TB