MTI820 Entrepôts de données et intelligence d affaires Introduc;on à l intelligence d affaires et aux entrepôts de données C. Desrosiers Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 1
QuesFons Quelles sont vos expériences avec l intelligence d affaires? Quelle est selon vous la définifon de ce concept? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 2
Avant de commencer 1. Quel est le lien entre les couches et la bière? 2. Pourquoi les services de Google (Gmail, Calendar, Groups) sont- ils gratuits? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 3
Le lien entre les couches et la bière ObservaFons: Les ventes de bières sont parfculièrement importantes les vendredis en début de soirée; Les clients qui achètent de la bière durant ce[e période ont tendance à acheter également des couches! MarkeFng: En plaçant ces deux produits près l un de l autre, les épiceries augmentent leurs ventes et leurs profits (stratégie de vente croisée). Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 4
Le principe Google: Toute informafon a un prix; Google uflise ses services pour acquérir gratuitement de l informafon sur ses usagers: Analyse syntaxique des courriels (Gmail); Profil et liste des contacts (Google Groups); Emploi du temps (Google Calendar); etc. Ce[e informafon est uflisée pour envoyer de la publicité ciblée aux usagers. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 5
ExploitaFon de l informafon «Les entreprises qui gèrent leurs données comme une ressource stratégique et inves<ssent dans la qualité de celles- ci sont en avance sur leurs compé<teurs, au niveau de la réputa<on et de profitabilité» Sondage PricewaterhouseCoopers Global Data Management (2001) Métro / Loblaws / Super C: Entreprises qui vendent de la nourriture OU; Entreprises qui exploitent des connaissances sur: Les préférences des clients; Les biais géographiques; La chaîne logisfque; Le cycle de vie des produits; Les informafons sur les ventes des compéfteurs. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 6
QuesFon En quoi l informafon diffère- t- elle des ressources matérielles et humaines? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 7
CaractérisFques de l informafon [1/2] Temporelle: La valeur diminue avec le temps; Ex: acfons en bourse, achats des clients, etc. Partageable: Peut être copiée et distribuée facilement; Ex: réseaux sociaux, le Web, les médias, etc. Valeur augmente avec l usage: Ne se dégrade pas comme d autres ressources (ex: une voiture); Ex: algorithme PageRank de Google. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 8
CaractérisFques de l informafon [2/2] Valeur augmente avec la qualité: Une informafon erronée ou imprécise peut nuire; Ex: opérafons militaires. Valeur augmente avec la fusion: Une informafon peut avoir de la valeur que si elle est combinée avec d autres informafons; Ex: ventes + inventaire = planificafon. Valeur mesurable: Historique: combien a couté l acquisifon de ce[e informafon? Marché: combien une personne serait- elle prête à payer pour obtenir ce[e informafon; U5lité: quelle valeur peut- on espérer obtenir de ce[e informafon? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 9
QuesFon Est- ce que stocker beaucoup de données est suffisant pour aider la prise de décision d une entreprise? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 10
Données vs informafons vs connaissances Données: CollecFon d éléments de valeur brute ou de faits servant à calculer, raisonner et mesurer; Peuvent être collectées, stockées ou traitées; Ne possèdent pas de contexte ni de sens. InformaFons: Proviennent de l organisafon des données, me[ant en valeur les relafons entre les différents éléments de ces données; Fournissent un contexte et un sens aux données. Connaissances: Viennent de la compréhension de l informafon dans son contexte; Sont ufles au processus de décision. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 11
De données à stratégies Pyramide d abstracfon: Niveau d abstracfon Connaissances et intelligence InformaFons Données Intelligence d affaires: Ensemble de processus, de technologies et d oufls servant à transformer: Les données en informafons; Les informafons en connaissances; Les connaissances en stratégies menant à des acfons profitables à l entreprise. Taille des données Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 12
QuesFons Comment le marché d aujourd hui diffère- t- il d il y a 10, 20 ou 30 ans? Pourquoi avons- nous besoin de l intelligence d affaires? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 13
Taux d échec de projets: Échecs dans les projets Catégorie Film (Hollywood) AcquisiFon / fusion TI Produit alimentaire Produit pharmaceufque Taux approx. 60 % 60 % 70 % 80 % 90 % Source: Slywotzky et Weber (2007). The Upside: The 7 Strategies for Turning Big Threats into Growth Breakthroughs Causes fréquentes d échecs: Considérer trop peu de scénarios / scénarios peu réalistes; Être incapable d anfciper les acfons d un compéfteur; Ignorer les changements économiques ou sociaux; Prévoir incorrectement la demande. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 14
L environnement d affaires L environnement d affaires est en constante évolufon et devient de plus en plus complexe; Les entreprises sont sous pression: elles doivent répondre rapidement aux changements et innover dans leurs manières d opérer; La prise de décisions stratégiques et opérafonnelles complexes requiert une quanfté considérable de données et de connaissances; Les données nécessaires à la prise de décision proviennent de sources diverses et hétérogènes; L informafon de ces données doit être traitée très rapidement. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 15
Intelligence d affaires Business intelligence (BI): Un ensemble de concepts, de méthodologies et d applicafons pour rassembler, stocker, analyser, et perme[re d accéder des données, dans le but d aider les uflisateurs d entreprises dans leur processus de décision. Inclut: L entreposage de données; Les requêtes et le reporfng; L analyse mulfdimensionnelle (OLAP); L analyse stafsfque; La prédicfon (forecas<ng); Le forage de données (data mining). Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 16
Pourquoi l intelligence d affaires? Profitabilité accrue de l entreprise; DiminuFon des coûts; Meilleure gesfon des relafons avec le client (CRM); DiminuFon des risques; etc. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 17
QuesFon Qu est- ce qu un entreprôt de données et en quoi ce[e technologie diffère- t- elle des bases de données transacfonnelles? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 18
OLTP vs OLAP [1/3] OnLine TransacFon Processing (OLTP): Caractérisé par un grand nombre de courtes transacfons faites en- ligne (ex: INSERT, UPDATE, DELETE); Met l emphase sur le traitement rapide de requêtes simples, et sur l intégrité des données dans un environnement concurrenfel (c.- à- d. plusieurs requêtes simultanées). OnLine AnalyFcal Processing (OLAP): Met l emphase sur le traitement rapide de requêtes complexes (mulfples tables, agrégafon de données, etc.) ayant pour objecff d assister dans la prise de décision. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 19
OLTP vs OLAP [2/3] Critère OLTP OLAP But Types de données Contrôler et exécuter les tâches quofdiennes et fondamentales de l entreprise Données opérafonnelles (transacfons) Assister dans la planificafon, la résolufon de problème et la prise de décision Données historiques consolidées Sources de données BD transacfonnelles Entrepôts de données ou magasins de données Ce que montre les données InserFons et mises- à- jour Requêtes Portrait instantané des processus d affaires de l entreprise Courtes requêtes d inserfon et de mise- à- jour lancées par les usagers finaux Simples requêtes retournant quelques enregistrements (lignes) de la BD Vue mulfdimensionnelle de plusieurs acfvités d affaires de l entreprise Longs traitements en lot servant à rafraichir les données Requêtes complexes impliquant souvent plusieurs tables et faisant l agrégafon de valeurs Temps de réponses Instantané Quelques secondes à 1 minute max. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 20
OLTP vs OLAP [3/3] Critère OLTP OLAP Espace requis ModélisaFon de la BD Sauvegarde et récupérafon RelaFvement peft si les données historiques sont archivées Un grand nombre de tables hautement normalisées Fait de façon régulière, crifque pour l entreprise Grand due aux données historiques et aux données d agrégafon Moins de tables, tables typiquement dénormalisées, schémas en étoile ou flocon Fait de façon irrégulière, peut récupérer des données OLTP ReporFng RouFnier et très ciblé Ad hoc, mulfdimensionnel, à plus large portée Ressources requises Simple DBMS relafonnel DBMS spécialisé mulf- processeurs et à grande capacité Nombre d uflisateurs simultanés Grand PeFt Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 21
Quelques définifons Entreposage de données (data warehousing): «La copie périodique et coordonnée de données provenant de diverses sources, internes et externes à l entreprise, dans un environnement opfmisé pour l analyse» Les entrepôts de données (data warehouse): Centralisent les données de l entreprise; Sont contenus dans un environnement bien géré; Possèdent un processus cohérent et répétable pour charger les données provenant des applicafons de l entreprise; Reposent sur une architecture ouverte et extensible pouvant accommoder la croissance des données; Fournissent des oufls perme[ant aux usagers de transformer les données en informafon ufle à la prise de décision. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 22
Historique des entrepôts de données 1910 1920 1970 1980 1990 2000 2010 GIS, réseaux sociaux, Web sémanfque, etc. Oracle, IBM, Microso, SAP, etc. Naissance de l entreposage de données; Dispersion des données causée par les PC; Première solufon Teradata (RDBMS). ProducFon de rapports automafsés sur micro- ordinateurs (pas d intégrafon). Ralph Kimball Bill Inmon Mesures de la performance d une entreprise et de l impact d une stratégie de markefng. Arthur Nielsen Naissance de la recherche en markefng. Charles Coolidge Parlin Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 23
CaractérisFques des entrepôts de données Orientés sujet: Les données sont organisées par sujet (ex: clients, produits, ventes, etc.). Intégrés: Les données, qui proviennent de diverses sources hétérogènes, sont consolidées et intégrées dans l entrepôt. Historiques: Les données ont très souvent une composante temporelle (ex: date et heure d une transacfon). Non- volafles: Une fois insérées dans l entrepôt, les données ne sont jamais modifiées ou effacées; elle sont conservées pour des analyses futures. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 24
QuesFon Quels sont les avantages d ufliser les entrepôts de données? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 25
Bénéfices des entrepôts de données Directs: Perme[ent de mener des analyses poussées sur différents sujets d affaires; Fournissent une vue consolidée des données de l entreprise (une seule vérité); Procurent de l informafon de qualité, plus rapidement; Libèrent les ressources (ex: serveurs) dédiées au traitement des transacfons des tâches d analyse; Simplifient l accès aux données. Indirects: Améliorent le savoir de l entreprise; Procurent un avantage concurrenfel à l entreprise; Améliorent la safsfacfon des clients; etc. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 26
Bénéfices sociaux des entrepôts de données Meilleure communicafon/coopérafon entre les différents intervenants d une entreprise: Normalement très peu d affinités entre les intervenants du domaine des TI et ceux du domaine des affaires; Un projet d entreposage de données rapproche ces deux groupes en leur donnant un objecff commun. Meilleure communicafon/coopérafon entre les différentes branches d une entreprise: Permet d intégrer et de consolider les données des différentes branches; Fournit une plateforme et des oufls d analyse communs. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 27
Architecture d un entrepôt de données Sources de données Op;on sans datamart ERP / CRM Legacy POS OLT / Web Processus ETL Sélec;on Extrac;on Transforma;on Intégra;on Méta- données Entrepôt de données Copie Accès Datamart (marke;ng) Datamart (finances) Datamart (clients) API / Intergiciels Applica;ons (visualisa;ons) Rapports de rou;ne Forage de données / textes OLAP, tableaux de bord Externes Chargement Datamart (ventes) Autres Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 28
Sources de données Enterprise resource planning (ERP): Gèrent les processus opérafonnels d'une entreprise (ex: ressources humaines, finances, distribufon, approvisionnement, etc.). Customer rela<onship management (CRM): Gèrent les interacfons d une entreprise avec ses clients (ex: markefng, ventes, après- vente, assistance technique, etc.). Systèmes legacy: Matériels et logiciels obsolètes mais difficilement remplaçables. Point of sale (POS): Matériels et logiciels uflisés dans les caisses de sorfes d un magasin. Externes: Ex: données concurrenfelles achetées, données démographiques. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 29
QuesFons À quoi correspond le processus ETL? Pourquoi ce processus est- il essenfel à l entreposage de données? Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 30
IntégraFon des données Processus Extract, Tranform, Load (ETL): 1. Extraire les données des sources hétérogènes: IdenFfier les sources ufles; Comprendre les schémas. 2. Consolider les données: Données redondantes / manquantes; Différents noms / types; Incohérences. 3. Charger les données intégrées dans l entrepôt: Mode différé (batch); Quasi temps- réel. Représente la parfe la plus complexe de l entreposage. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 31
Les oufls d analyse de données Rapports et requêtes simples «Dis moi ce qui s est passé». Analyse d affaires «Dis moi ce qui s est passé et pourquoi». Tableaux de bord et scorecards «Donne moi l informa<on mais ne me fait pas travailler pour obtenir les réponses». Forage de données «Dis moi quelque chose de nouveau et d intéressant sans que j aille à le demander». Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 32
Exemples de tableau de bord [1/2] Données du système des finances Données de systèmes ERP Données d autres systèmes Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 33
Exemples de tableau de bord [2/2] Intégration avec MS Office Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 34
Cas d étude: Police de Richmond [1/4] Objectif: Réduire le crime en anticipant les activités criminelles. Données: Données actuelles et historiques d appels au 911; Informations relatives aux événements de la ville et des régions limitrophes; Conditions météorologiques; etc. Méthode: Analyser les interactions entre les données actuelles et historiques. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 35
Cas d étude: Police de Richmond [2/4] Composantes technologiques: Technologie Webfocus (Informa;on Builders) SPSS (IBM) ESRI Composante IntégraFon des données Analyse prédicfve Correspondance dynamique des informafons géographiques OuFl de visualisafon: ReprésentaFon des indicateurs sur la carte graphique de la ville. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 36
Cas d étude: Police de Richmond [3/4] Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 37
Cas d étude: Police de Richmond [4/4] Résultats: AffectaFon opfmale des ressources policières; Meilleure anfcipafon des acfvités criminelles; Le crime a été réduit de 49 %; Moins d appels au 911. Département de génie logiciel et des TI MTI820 Hiver 2011 S. ChaBi, C. Desrosiers 38