Qualité des données. Quelle(s) vérité(s) dans les entreprises EXPÉRIENCES ISSUES DU TERRAIN

Documents pareils
Stratégies gagnantes pour la fabrication industrielle : le cloud computing vu par les dirigeants Dossier à l attention des dirigeants

LES PME EN 2010 ATTENDRE OU ENTREPRENDRE?

la conformité LES PRINCIPES D ACTION

Groupe Eyrolles, 2004 ISBN :

INTRODUCTION A LA GESTION DE LA RELATION CLIENT

A. Le contrôle continu

Assurance et Protection sociale Les enjeux du Digital Commerce

LIVRE BLANC AMÉLIOREZ VOS PERFORMANCES MARKETING ET COMMERCIALES GRÂCE À UNE GESTION DE LEADS OPTIMISÉE

La Business Intelligence & le monde des assurances

Novembre Regard sur service desk

La Business Intelligence pour les Institutions Financières. Jean-Michel JURBERT Resp Marketing Produit

Solution. collaborative. de vos relations clients.

Comment réussir son projet de Master Data Management?

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

Le décisionnel plus que jamais au sommet de l agenda des DSI

Microsoft France. Pour en savoir plus, connectez-vous sur ou contactez notre Service Client au *

CRM Assurance. Fonctionnalités clés. Vue globale de l assuré. Gestion des échanges en Multicanal

CRM dans le secteur tertiaire : agile ou fragile?

Système d information : démystification, facteur de croissance et conduite du changement

eframe pour optimiser les reportings métiers et réglementaires

SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44

Transformation IT de l entreprise BPM ET APPROCHE MÉTIER

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Comment réussir la mise en place d un ERP?

Les activités numériques

LIVRE BLANC. Smart data, scoring et CRM automatisé : Comment acquérir, qualifier et convertir ses prospects en clients

Guide d accompagnement. Document réalisé par Softcomputing et Microsoft France.

Le temps est venu d implanter un CRM et un système de gestion de la connaissance

LIVRE BLANC. Dématérialisation des factures fournisseurs

La Gouvernance IT en France : de nombreuses avancées, encore beaucoup à faire

CRM MANAGER LES SOLUTIONS POUR BOOSTER VOTRE RELATION CLIENT

Sage 30 pour les petites entreprises

MICROSOFT DYNAMICS CRM & O Val

e-business, EAI et Business Intelligence Le triptyque gagnant profondément les structures des organisations et par conséquence

ITIL V3. Transition des services : Principes et politiques

GÉREZ VOTRE RELATION CLIENT SANS QUITTER MICRO SOFT OUTLOOK

Business & High Technology

Groupe Eyrolles, 2006, ISBN :

Sage 100. pour les PME. Faites de votre gestion un levier de performance

WHITE PAPER Une revue de solution par Talend & Infosense

L Information en Temp Réel

Notre stratégie de développement porte ses fruits

Chapitre I : Introduction

ECM ENTERPRISE CONTENT MANAGEMENT POUR

Panorama. des Solutions CRM de Sage. Placez vos clients au cœur de votre entreprise

Conseil opérationnel en organisation, processus & système d Information. «Valorisation, Protection et Innovation de votre Patrimoine Numérique»

Mobilité et Soutien Logistique des SDIS Vers plus d efficience et d agilité

TÉMOIGNAGE CLIENT ELIOR

Le rôle d un CRM dans la gestion intégrée des services à la clientèle

Réussir la transformation. Ensemble. Les défis de l expérience client différenciante. Delivering Transformation. Together.

Axe de valeur BMC Identity Management, la stratégie d optimisation de la gestion des identités de BMC Software TM

data center services Optimiser le data center Conformité Sécurité Efficacité Your business technologists. Powering progress

Jedox rafraîchit les rapports du fabricant de boissons MBG

WHITEPAPER. Quatre indices pour identifier une intégration ERP inefficace

Business & High Technology

La gestion globale des contenus d entreprise

Le Concept Dynamics Nav. B.I.Conseil

Practice Finance & Risk Management BCBS 239 enjeux et perspectives. Equinox-Cognizant, tous droits réservés

Stratégies gagnantes pour les prestataires de services : le cloud computing vu par les dirigeants Dossier à l attention des dirigeants

Solution de planifi cation et de reporting unifi é pour Sanofi

L Application Performance Management pourquoi et pour quoi faire?

IBM Global Technology Services CONSEIL EN STRATÉGIE ET ARCHITECTURE INFORMATIQUE. La voie vers une plus grande effi cacité

LES BONNES PRATIQUES DE LA RELATION CLIENTS

Développer une culture d efficience

Gestion de la relation Client (CRM)

8 bonnes raisons d utiliser un CRM pour une PME

DÉMATÉRIALISATION DES DOCUMENTS ET AUTOMATISATION DES PROCESSUS UN PREMIER PAS VERS LA BANQUE SANS PAPIER

ITIL V3. Objectifs et principes-clés de la conception des services

Livre blanc. Technologies de l Information et des Communications (T.I.C.)

Gestion de l activité commerciale

En un coup d œil le descriptif de la solution OpenERP

Nell Armonia Shuttle Web

La gestion des données de référence ou comment exploiter toutes vos informations

Gagner en performance avec un extranet. et mener son projet extranet?

Gestion des données de référence (MDM)

Livret de Stages 2014 / 2015

LES BONNES PRATIQUES DE LA RELATION CLIENTS

Les ressources numériques

Chapitre 9 : Informatique décisionnelle

Business & High Technology

Secteur Recherche Santé

Livre Blanc Oracle Novembre Le Bureau des Projets (PMO) : un levier stratégique de création de valeur pour l industrie

Chap 3 : La connaissance du client. I. Les fondements de la connaissance du client. Les principales évolutions sont résumées dans le tableau suivant :

Avec Sage HR Management, transformez votre gestion du capital humain en atout stratégique

Construire une expérience client privilégiée

CRM et GRC, la gestion de la relation client R A LLER PL US L OI

Étude «analyse, reporting et budget» Niveau d équipement et attentes des PME françaises.

MESURE DE L ÉNERGIE ET DES FLUIDES

Comment mieux lutter contre la fraude à l assurance? Gestion de sinistres Odilon Audouin, le 4 avril 2013

DÉCOMPTE D ÉNERGIE: LE POSTE

La Renaissance de L ing à la Performance

LES ENTREPRISES PROSPÈRES SE TRANSFORMENT GRÂCE À DES SOLUTIONS SAP FLEXIBLES

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

Maximiser la performance de vos projets immobiliers de bureaux

agence marketing digital

Performance Eléments clés de l étude

Du CRM à la mesure du ROI des campagnes par Google Analytics en passant par le SEO Swiss Marketing Group

À PROPOS DE TALEND...

Transcription:

Qualité des données Quelle(s) vérité(s) dans les entreprises EXPÉRIENCES ISSUES DU TERRAIN

Qualité des données Quelle(s) vérité(s) dans les entreprises EXPÉRIENCES ISSUES DU TERRAIN

Préface Qu est-ce que la vérité? Il y a la tienne, la mienne et celle de tous les autres. Toute vérité n est que la vérité de celui qui l a dite. Il y a autant de vérités que d individus. [Eric-Emmanuel Schmitt] Ce livre blanc, construit à partir de nombreux témoignages et des retours d expériences nous montre qu il en est de même lorsque l on s interroge quant à la qualité des données. La vérité dans les entreprises est multiple. Les données font partie des sources les plus stratégiques en matière de création de valeur à moyen et long terme pour l entreprise et les actionnaires. Cependant, reconnaître leur valeur est une chose, en créer et en capturer en est une autre. En effet, selon une étude que nous avons menée en 2010 auprès d un large panel d entreprises françaises, seule une entreprise sur cinq est capable de valoriser son capital informationnel. Ceci est d autant plus vrai dans le contexte actuel, marqué par un environnement réglementaire et technologique en perpétuelle évolution. S ajoutent à cela des inquiétudes grandissantes liées à la gestion des risques dans les entreprises ainsi qu une course vers l excellence opérationnelle. Le fait que les managers et décideurs soient capables ou non de s adapter à ce contexte est un enjeu stratégique ayant un réel impact sur la performance de l entreprise. 5

Afin d y parvenir, ces derniers doivent relever deux défis en particulier : le développement de moyens efficaces de gestion de la prolifération massive des données et, l établissement de relations claires vis-à-vis des données et ceci en termes de responsabilité et de propriété. Comment relever ces défis? Quelles sont les bonnes pratiques en la matière? Comment s y prennent les «best in class» et quels sont les écueils à éviter? Cet ouvrage tente de répondre à ces questions à travers des exemples de projets menés par des patriciens et nous offre une riche source d enseignement. Philippe Trouchaud Associé PricewaterhouseCoopers Advisory Zouheir Guédri Directeur PricewaterhouseCoopers Advisory 6

L augmentation croissante des volumes de données dans les organisations, conjuguée à une évolution régulière des systèmes d information, engendre des préoccupations importantes autour de la qualité des données. Dans un contexte où les organisations sont souvent contraintes de collecter plus de données pour produire plus d informations, les facteurs de dégradations de la qualité des données sont multiples et le coût de fiabilisation ou de production des informations- reste encore très élevé dans un bon nombre d entreprises. Les conséquences de la non-qualité, tant du point de vue du pilotage de l entreprise que de ses activités opérationnelles peuvent être majeures. Or, si tous les acteurs s accordent sur la nécessité de maîtriser la qualité des données, la perception de cette problématique (caractéristiques, impacts ) et les approches adoptées sont différentes selon les organisations. Ce livre blanc, s appuyant sur les témoignages de 25 entreprises, constitue une première sur cette thématique. Il apporte un éclairage inédit sur les différentes situations rencontrées par les organisations et les bonnes pratiques recommandées. Cet ouvrage reflète la prise de conscience générale autour de la nécessité de maîtriser l information. Cette ambition est partagée par nos Clients depuis plusieurs années et constitue l un des axes majeurs de notre proposition de valeur. Reda Gomery Directeur BI & EPM Micropole 7

Sommaire Qualité des données Quelle(s) vérité(s) dans les entreprises Préface... 5 Introduction... 10 Chapitre I 13 Qualité de l information dans les organisations : de quoi parle-t-on? 13 1.1 Données, information, connaissance 14 1.1.1 Données, information, connaissance 14 1.1.2 Le cycle de vie de l information 14 1.1.3 Les données 15 1.1.4 Quelques chiffres 18 1.2 Qu est-ce que la qualité des données? 20 1.2.1 La fraîcheur 20 1.2.2 La disponibilité 21 1.2.3 La cohérence 23 1.2.4 La traçabilité 24 1.2.5 La sécurisation 25 1.2.6 L exhaustivité 25 1.3 Pourquoi la qualité de l information est-elle importante? 26 1.3.1 Le coût de la non-qualité 26 1.3.2 Qualité de l information et qualité des relations entre l entreprise et clients ou partenaires 27 1.4 Aux sources de non-qualité 28 Chapitre II 29 La démarche qualité 29 2.1 Les motivations 30 2.1.1 Les événements déclencheurs des démarches QoD 30 2.1.2 La recherche de plus d efficacité métier 33 2.2 Facteurs clés de succès et bonnes pratiques 35 2.2.1 Les 7 piliers de la qualité des données 35 2.2.2 Les bonnes questions à se poser 42 2.2.3 Le pilotage du projet 48 2.2.4 La gestion des volumes 51 2.3 Vers une gouvernance de l information 53 2.3.1 D une démarche qualité à la mise en place d une gouvernance de l information 53 2.3.2 Organisation d entreprise et gouvernance des données 53 2.3.3 Une nouvelle répartition des rôles entre l Informatique et les métiers 56 2.4 Limites et pièges à éviter 58 2.4.1 Les réticences aux démarches de qualité de l information 58 2.4.2 Le coût de la sur-qualité 59 2.4.3 D autres écueils 61 8 Qualité des données Quelle(s) vérité(s) dans les entreprises

EXPÉRIENCES ISSUES DU TERRAIN Chapitre III 63 Perspectives 63 3.1 Explosion de la volumétrie 64 3.2 Changement de nature de la donnée 66 3.3 Impact du Web et des médias sociaux 66 3.4 Prise en considération accrue de la donnée non structurée 68 3.5 La prise en considération des droits d usage de l information 70 Conclusion 73 Annexes 83 25 histoires de qualité des données 83 À propos 111 des partenaires 111 A. PwC 112 B. Micropole 114 C. Electronic Business Group (EBG) 116 Bibliographie... 118 Remerciements... 119 Conclusion 73 Focus juridique 77 Focus juridique 77 1) Quel est l impact des dispositions comptables et fiscales en termes de qualité des données? 78 2) Les obligations comptables/ fiscales ne peuvent-elles pas aller à l encontre des démarches de qualité des données des entreprises? 80 Sommaire 9

Introduction À une époque où les Nouvelles Technologies de l Information et de la Communication (NTIC) emploient une part non négligeable de la population active, où l on a coutume de dire que nous sommes entrés dans l «économie de la connaissance», on pourrait penser que la gestion de la qualité des données et de l information est une discipline mûre, un fait acquis dans les entreprises. La présente étude, que nous avons menée, montre pourtant que si la majorité des entreprises s accorde sur son importance, leurs pratiques en la matière révèlent une grande diversité. Qu est-ce que la qualité des données et de l information? Pourquoi est-elle importante? Comment l atteindre? Telles sont quelques-unes des questions auxquelles nous allons tenter de répondre dans ces pages, au travers des retours d expériences de 25 entreprises de toutes tailles et de tous secteurs. 10 Qualité des données Quelle(s) vérité(s) dans les entreprises

Introduction Nous nous attacherons en un premier temps à distinguer les concepts proches, souvent confondus, que sont données, information et connaissance. Ceci nous permettra de lister une série de critères permettant de déterminer si elles sont de qualité ou non. Nous verrons également les principales causes à l origine de la nonqualité des données et de l information et les conséquences que cette non-qualité peut avoir. La deuxième partie du livre sera consacrée aux démarches de qualité des données (souvent abrégée en QoD pour Quality of Data). Quelles sont les motivations des entreprises qui se lancent dans une telle démarche? Quels sont les facteurs clés de succès pour y parvenir? Dans certains cas, nos interlocuteurs nous ont expliqué comment ils étaient allés jusqu à mettre en place une véritable gouvernance des données. Nous verrons aussi qu une série d écueils guettent les entreprises dans leur recherche de qualité et nous proposerons des pistes pour les éviter. Enfin, nous passerons en revue les grandes tendances qui sont en train de modifier en profondeur la qualité des données et de l information, depuis l explosion des volumétries jusqu à la prise en compte de l information non structurée, en passant par l impact du Web et des médias sociaux et la nécessité de définir non seulement les droits d accès mais encore les droits d usage de l information. Que votre entreprise soit déjà dans une démarche de gouvernance, en cours de mise en place d initiatives en termes de qualité des données ou en phase d interrogation sur la manière de s y prendre, les praticiens que nous avons rencontrés vont vous faire part, dans les pages qui suivent, de leurs meilleurs conseils. Nous vous laissons en leur compagnie 11

Chapitre I Qualité de l information dans les organisations : de quoi parle-t-on? On s attachera en premier lieu à définir quelques termes proches souvent confondus. 1.1 Données, information, connaissance 14 1.1.1 Données, information, connaissance 14 1.1.2 Le cycle de vie de l information 14 1.1.3 Les données 15 1.1.4 Quelques chiffres 18 1.2 Qu est-ce que la qualité des données? 20 1.2.1 La fraîcheur 20 1.2.2 La disponibilité 21 1.2.3 La cohérence 23 1.2.4 La traçabilité 24 1.2.5 La sécurisation 25 1.2.6 L exhaustivité 25 1.3 Pourquoi la qualité de l information est-elle importante? 26 1.3.1 Le coût de la non-qualité 26 1.3.2 Qualité de l information et qualité des relations entre l entreprise et clients ou partenaires 27 1.4 Aux sources de non-qualité 28 13

1.1 Données, information, connaissance 1.1.1 Données, information, connaissance Ces trois notions au cœur de la théorie de l information se recoupent et les universitaires spécialistes du domaine ne s accordent pas tous sur leurs définitions. 1 Dans le présent ouvrage, on retiendra les définitions suivantes : Données : «les données sont des faits et des statistiques qui peuvent être quantifiées, mesurées, comptées, et stockées.» (Dr Donald Hawkins, consultant en technologie de l information et chroniqueur chez Information Today). Information et connaissance : «une information est un ensemble de données organisées selon une ontologie qui définit les relations entre certains sujets. L information peut être communiquée. La connaissance est un ensemble de structures conceptuelles présentes dans le cerveau humain et imparfaitement représentées par des informations pouvant être communiquées.» (Dr H.M. Gladney, HMG Consulting). 1.1.2 Le cycle de vie de l information Ces définitions montrent que l information dépend des données auxquelles elle ajoute de l intelligence. Quant à la connaissance, elle est de nature beaucoup plus subjective et peut être capitalisée et partagée au moyen de l information. La chaîne logique unissant les trois peut être représentée sous la forme de ce schéma : Metadata Master & Transaction Data Metadata Master & Transaction Data Event Data Object Process acting on Data Information Data in Context Process acting on Information Knowledge Information at work Applications Actors Applications Actors 1 Un article du JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY de 2006 recense pas moins de 130 définitions différentes formulées par des experts : http://www.success.co.il/is/ zins_definitions_dik.pdf 14 Qualité de l information dans les organisations : de quoi parle-t-on?

Une fois générées et capturées les processus de l entreprise agissent sur les données à travers une multitude de systèmes et d acteurs. Ceci comporte l ajout d autres données (les métadonnées et les données transactionnelles, référentielles). Le résultat de ce traitement est une donnée contextualisée : une information. Une information est définie comme étant «un ensemble de données fourni avec le contexte nécessaire pour la prise de décision». D autres processus d agrégation, de désagrégation, de sélection, d analyse, de consolidation, d interprétation et de communication constituent la connaissance qui va être utilisée au profit de l entreprise plus particulièrement pour la prise de décision. Chapitre I 1.1.3 Les données Nos interlocuteurs, interrogés sur les démarches qualité des données dans leurs organisations, nous ont permis de distinguer plusieurs typologies. Données structurées/semi structurées et non structurées Les données sont dites structurées si elles peuvent être stockées dans des champs de bases de données et donc entrer dans un modèle de données clairement défini. Par exemple, il pourra s agir du chiffre d affaires d une business unit, de l audience d un site Web sur une certaine période, etc. Il s agit la plupart du temps de valeurs numériques ou de chaînes alphanumériques (ex. : l adresse d un abonné à un journal). Les données semi structurées sont des données ne répondant pas à un schéma fixe : elles ne peuvent pas être stockées dans des bases de données relationnelles. Elles sont structurées mais leur structure est implicite et irrégulière. L exemple typique est un ensemble de pages Web. 2 Les données non structurées, enfin, sont définies de la manière suivante par Bill Inmon, l un des pères des data warehouses : «tout document, fichier, image, rapport, formulaire, etc. qui n a pas de structure standard définie qui permettrait de le stocker facilement dans un dispositif de traitement automatisé. Il ne peut pas être défini en termes de lignes et de colonnes ou d enregistrements. ( ) Les données non structurées sont les e-mails, les feuilles de calcul, les documents, etc. Certaines des informations les plus précieuses de l entreprise résident dans ses données non structurées.» 3 2 Voir http://www.cis.upenn.edu/~db/abstracts/semistructured.html 3 http://www.information-management.com/glossary/u.html 1.1 Données, information, connaissance 15

Données de référentiel et données opérationnelles Une autre distinction concerne la différence entre les données opérationnelles (ou «transactionnelles» ou encore «données de flux») et les données de référentiel (master data). Les données de référentiel sont les données stables, n évoluant pas ou peu d un jour sur l autre, et dont les processus de l entreprise ont besoin pour fonctionner. Data Pyramid Exemples P&L, sales reports, inventory, business managing and reporting metrics Reporting Diferente Processes for Different Data Level Enterprise reporting lucidity depends on transactional activity Purchase orders, sales orders Pricing, document routing Material, customer, vendor Profit centers, Cost centers, Plant configurations Transactional Data Conditional Master Data Provisional Master Data Stable Key Reference Data Static Transactional data depends on conditional data and master data Conditional data applies only in specific situations (if this customer and material then this price) Master data defines both the material, vendor and customer, and how they will behave in the system Reference data defines your system and the limits of all elements Par exemple, Thierry Savit, DSI de la branche française du constructeur de copieurs et multifonctions Ricoh, nous présente les données qui sont utilisées chez eux : Ricoh France : une diversité de référentiels «Concernant les référentiels, nous en maintenons plusieurs : référentiel clients ; référentiel employés ; référentiel articles ; référentiel parc. Le référentiel parc contient les informations des 350 000 machines installées chez nos clients. référentiel contrats. Dans notre métier, nous exploitons la plupart du temps nos machines sur la base de contrats. Ces contrats intègrent la location mais aussi le support : la maintenance, le réapprovisionnement des toners, etc. 16 Qualité de l information dans les organisations : de quoi parle-t-on?

Les données de ces référentiels évoluent lentement : le parc, le nombre de clients, sont des données assez stables sur une période de temps donnée. Ces référentiels sont d une certaine façon les indicateurs de notre puissance économique : ils permettent de comparer la taille de notre entreprise à une autre. À noter que le référentiel client est clé pour traiter avec pertinence la relation client. La base client n est toutefois pas une fi n en soi (il faut l exploiter) mais c est le prérequis de toute approche CRM. Avec un mauvais référentiel clients (avec des clients en double ou en triple dans la base, par exemple), nous aurions du mal à lancer des campagnes commerciales effi caces, et à satisfaire correctement nos clients. Avec 200 000 clients, il est indispensable d avoir un référentiel clients de qualité.» Thierry Savit, DSI Chapitre I Les données opérationnelles, au contraire, sont liées à l activité quotidienne de l entreprise et sont beaucoup plus volatiles. Si l on reprend l exemple de Ricoh, il peut s agir des relevés compteurs des machines installées chez les clients : «contrairement aux référentiels, les données opérationnelles évoluent vite, voire concernent des événements ponctuels (comme un client qui passe une commande un jour J, par exemple), explique Thierry Savit. Leur valeur est souvent reliée à l axe temps.» Données observées et données calculées Cette autre distinction importante concerne les données collectées sur le terrain et les données calculées à partir de ces dernières, par exemple par un service reporting ou contrôle de gestion. Rudy Buchser d HSBC nous explique comment s insère la problématique qualité dans cette dichotomie entre «données primaires» et «données secondaires» : HSBC : deux niveaux de données imbriqués «Nous distinguons deux types de données : les données primaires, celles qui sont captées par les systèmes opérants, par exemple en agence ; Une donnée de ce type est de qualité si elle a été correctement captée et transmise. les données secondaires, provenant d un recalcul à partir des données primaires. Les processus de calcul sont robustes et ont été testés : ils n introduisent pas d erreur. La qualité des données secondaires dépend donc uniquement de la qualité des données primaires.» Rudy Buchser, Responsable Pôle décisionnel Données possédées en propre par l entreprise et données externes Autre distinction de plus en plus prégnante : celle existant entre les données internes à l organisation et celles auxquelles elle n a pas accès directement. Parmi ces dernières, on trouve notamment le cas des données «collectées» sur les réseaux sociaux comme Facebook. 1.1 Données, information, connaissance 17

Printemps : le difficile «embasement» des fans de la marque «Nous constatons qu il y a un tassement des taux d ouverture et des taux de clics de l e-mail. Le canal e-mail va perdurer mais il y a une sur-sollicitation progressive des internautes. C est notamment pourquoi Printemps s ouvre aux réseaux sociaux. Nous avons choisi Facebook, Twitter, Flickr et YouTube pour être présents au plus près de notre cible. Une de nos problématiques fortes sur ces réseaux est celle de l «embasement». L embasement est le fait de transformer un individu complètement volatile en un contact connu dans une base de données. Avec Facebook ou Twitter, nous ne sommes pas sur notre propre base de données, et les réseaux ne nous donnent que la possibilité d utiliser cette base. Pour «embaser» des gens qui sont sur les réseaux sociaux, nous faisons part de notre existence sur ces réseaux sociaux via nos autres canaux. Dans un deuxième temps, nous mettons en place des propositions de valeur plus particulières : un ton, une connivence, quelque chose de différenciateur qui donne envie d aller vers ces réseaux sociaux pour avoir un niveau d informations différent sur Printemps.» Benoît Rigaut, Directeur technique de l activité numérique 1.1.4 Quelques chiffres La croissance exponentielle de la quantité des données et d information rend les problématiques de qualité de plus en plus importantes. Au niveau macroscopique, les chiffres donnent le tournis. D après IDC, l information totale produite chaque année par les entreprises devrait connaître une croissance annuelle de 67 % de 2007 à 2011, passant de 75 exaoctets à 580 exaoctets 4. Growth of Enterprise Information (Digital and Paper) Total Exabytes* Produced Worldwide a Tear *An exabyte is one billion gigabytes Source: IDC, 2008 75 67% annual growth 580 2007 2011 Évolution de l information des entreprises (Nombre d Exabyte produits/an) 4 1 exaoctet = 1 milliard de gigaoctets. 18 Qualité de l information dans les organisations : de quoi parle-t-on?

Mais cette progression n est rien au regard de ce qui nous attend. Ce qu IDC appelle l univers numérique, c est-à-dire la quantité d informations numériques créée ou répliquée annuellement, va être multipliée par 44 en 2020 par rapport à son niveau de 2009, pour atteindre 35 zettaoctets 5. L Univers numérique 2009-2020 Chapitre I Figure 1: The Digital Universe 2009-2020 Growing by a Factor of 44 2009 0.8 ZB* 2020 35 ZB* * Zettabyte = 1 trillion gigabytes Source: IDC Digital Universe Study, sponsored by EMC, May 2010 5 1 zettaoctet = 1 000 milliards de gigaoctets 1.1 Données, information, connaissance 19

1.2 Qu est-ce que la qualité des données? Définir la qualité des données n est pas simple et il est souvent plus aisé de tenter de définir la non-qualité. On peut néanmoins retenir la définition suivante, qui pose bien les enjeux : «la qualité des données désigne l aptitude de l ensemble des caractéristiques intrinsèques des données (fraîcheur, disponibilité, cohérence fonctionnelle et/ou technique, traçabilité, sécurisation, exhaustivité) à satisfaire des exigences internes (pilotage, prise de décision ) et des exigences externes (réglementations, ) à l organisation.». Ces critères sont appliqués dans les démarches normées d audit également connues sous le nom de «CAVAR» (Completeness, Accuracy, Validity, Availability, Restricted access). Passons en revue chacun de ces critères. 1.2.1 La fraîcheur La fraîcheur des données est essentielle pour avoir une bonne vision d une situation à un instant t et pour prendre les bonnes décisions. C est en effet sous deux aspects que la fraîcheur est importante : un bref délai entre l observation d un phénomène (collecte de la donnée) et son analyse, un bref délai entre le reporting sur une donnée et l action (optimisation, correction) qui en découle. Les données : à consommer de préférence avant 1. The gap between a time period and when you analyze it Data Gathering Analysis Reporting Optimization 2. The gap between your analysis and your action Source : http://www.clickequations.com/learn/email-newsletter/recency-frequency-monetary-value 20 Qualité de l information dans les organisations : de quoi parle-t-on?

Dans certains secteurs, la fraîcheur ne suffit même plus : c est la recherche du temps réel qui prévaut. C est en particulier le cas dans le domaine des études quantitatives (GfK) et de l analyse des médias (Kantar Media). GfK : le temps réel, inhérent à la qualité des données fournies aux clients «Le traitement en temps réel fait intégralement partie de la qualité du service fourni par GfK. GfK s engage en effet à livrer un périmètre de données avec une profondeur particulière d information et d analyse, dans un délai planifi é sur l année. GfK ne peut pas se permettre de ne pas livrer l information à la période, à la date voire à l heure prévue au départ.» Fabrice Benaut, CIO IFR Global Chapitre I Kantar Media : prégnance du temps réel et augmentation exponentielle des volumes d information à traiter «Les médias évoluent à une vitesse effrénée. Tout va extrêmement vite dans les domaines qui nous occupent. L information est véhiculée très rapidement. Pour prendre un exemple concret, en fi n d année 2010, on a pu observer un grand nombre de campagnes publicitaires orchestrées par des constructeurs automobiles et relatives à la prime à la casse. Or, lorsque Volkswagen, pour citer un constructeur en particulier, lançait une campagne autour d une offre bien particulière de reprise, les autres constructeurs se devaient d en être informés le plus rapidement possible afi n de pouvoir faire montre d une forte réactivité. Or, si nous sommes en retard, c est tout le reste de la chaîne qui en pâtit. Notre rôle est donc d être les plus proches du temps réel que faire se peut et d alerter le plus rapidement possible le client. ( ) Tout notre savoir-faire de centre serveur est mis au service de la structuration de la base pour pouvoir accéder à l information le plus rapidement possible. De même, nos moteurs d extraction nous permettent, avec des index bien particuliers, d aller rechercher, mais aussi de croiser les informations dans les meilleurs délais.» Denis Gaucher, Directeur Pôle Publicité 1.2.2 La disponibilité Ce concept recouvre deux notions : l accessibilité, d une part, et d autre part ce que les anglo-saxons appellent findability, littéralement la «trouvabilité». L accessibilité L accessibilité des données dépend de plusieurs facteurs, parmi lesquels on peut citer : la robustesse technique des supports de stockage et des réseaux : les temps d interrogation des bases de données sont-ils suffisants? Plus les bases de données sont volumineuses, plus il est compliqué de garantir des temps d accès corrects. C est une performance à toujours renouveler, comme 1.2 Qu est-ce que la qualité des données? 21

l illustre Aurore Ferreira Lima, du groupe Moniteur : «nous avons parfois un peu de ralentissements. Cela s explique aussi par la complexité et la volumétrie de notre base. Mais globalement, la situation est tout à fait vivable.» On notera que des contingences matérielles peuvent ralentir l accès aux données qui ne sont pas toujours stockées numériquement : «les temps d accès sont bons, explique ainsi Patxi Plaa, de Carmen Immobilier. Ils peuvent cependant être dégradés, pour les documents papier, si la personne qui cherche une information n est pas sur le site où l information est stockée.» Le classement des données : est-il logique et documenté? Comme l indique Patxi Plaa : «l accessibilité dépend aussi du fait de savoir où est réellement l information. Nous avons mis en place des procédures de classement qui font qu il y a peu de soucis.» La Présentation des données : est-elle claire et intelligible? L Assistance aux utilisateurs : l organisation met-elle à leur disposition les outils techniques et/ou l accompagnement nécessaire? À l extrême, l information doit aller elle-même à la rencontre des besoins des utilisateurs, sans que ceux-ci aient besoin de «fouiller» dans des bases de données. C est en tout cas l idéal que se fixe Ricoh : Ricoh : l information accessible, c est celle qui va à l utilisateur «L information doit être accessible à tous ceux qui en ont besoin là où ils en ont besoin, quand ils en ont besoin (ceci en toute sécurité). Je parle de mobilité de l information car j aime dire que la mobilité consiste à faire en sorte de rester immobile : l information vient à vous, ce n est pas vous qui devez aller vers elle. Toutes les solutions mises en place chez Ricoh (smartphones, extranet, GED, bibliothèque documentaire) ne sont que des déclinaisons de ce parti pris.» Thierry Savit, DSI La trouvabilité L information peut être disponible, accessible grâce à des outils de requête et pourtant ne pas atteindre son destinataire. Encore faut-il qu elle puisse être trouvée facilement. Selon une étude réalisée par IDC, 56 % du temps des «travailleurs du savoir» est occupé par la recherche d informations. Analysis of Information 26% Successful Search 25% Recreate Existing Content 8% Unsuccessful Search 9% Conversion from other Formats 9% Gathering Information for Documents 22% Source : http://static.googleusercontent.com/ external_content/untrusted_dlcp/www.google.com/ en/us/enterprise/enterprise_solutions/pdf/findabilitywp.pdf 22 Qualité de l information dans les organisations : de quoi parle-t-on?

La trouvabilité de l information constitue donc un levier de productivité important. L enjeu est de taille, notamment pour les données non structurées. Schneider Electric : une trouvabilité plus dure à assurer pour les données non structurées «Dans notre système transactionnel, l information est facilement trouvable car elle est structurée et obéit à des règles de gestion. Quand nous voulons trouver un fournisseur ou un article, nos systèmes de business intelligence sont très puissants et peuvent parcourir toute la base de données, à la fois au niveau local et au niveau global. Le problème se pose plus au niveau des informations non structurées, telles que les e-mails. Aujourd hui, nous ne disposons pas encore de solution de gestion documentaire capable de faire du text mining pour retrouver la bonne information.» Joël Aznar, Business Process Owner Chapitre I 1.2.3 La cohérence Dans le meilleur des cas, la cohérence des données reçues de l extérieur peut être garantie par leur dimension institutionnelle ou quasi institutionnelle. C est ce qui arrive par exemple dans l immobilier où les données reçues du cadastre ou d autres organismes sont très normées, comme l explique Patxi Plaa de Carmen Immobilier : «ce qui nous aide et nous garantit une bonne homogénéité des informations, c est leur caractère réglementaire, qui les rend très standardisées.» Mais cette cohérence à la source n est pas le cas le plus fréquent. Pour les données produites par l entreprise elle-même, cela peut être encore plus compliqué. Cette cohérence des données entre les systèmes et les directions de l entreprise est pourtant essentielle à une époque où les processus sont de plus en plus intégrés. Le groupe PSA en a fait un de ses chevaux de bataille : PSA : Mettre en cohérence les référentiels pour décloisonner les métiers «La mise en cohérence de nos codifi cations est inséparable du décloisonnement des métiers. C est d autant plus vrai à notre époque où nous voulons proposer à nos clients des offres «produits + services» packagées. Par exemple, sur le Web, nous voulons que nos clients puissent accéder à des formules intégrant à la fois le véhicule, les accessoires, les services et le fi nancement. Auparavant, toutes ces informations étaient dissociées. Pour pouvoir proposer ces offres intégrées, nous devons créer un référentiel d offres, c est-à-dire un meta-référentiel intégrant des référentiels jusqu à présent disparates.» Florent Martin & Jean-Luc Laréquie, Architectes d Entreprise 1.2 Qu est-ce que la qualité des données? 23