Data centric Une plateforme centrée sur les données au service de votre organisation Benjamin Boutros et Jean-Michel Franco bboutros@talend.com jfranco@talend.com (@jmichel_franco)
Agenda 1. Talend en bref 2. MDM et Data Gouvernance : pourquoi? 3. MDM et Data Gouvernance : comment? 4. Références et cas d usage 5. MDM et Big Data : l association gagnante
Présentation de Talend Modèle de déploiement-croissance VISIBILITE 1,6 million de téléchargements EN BREF Fondée en 2006 400 employés dans 7 pays FIDELITE DES CLIENTS Taux de renouvellement de 86% COMMUNAUTÉ DYNAMIQUE 100 000 utilisateurs enregistrés Deux sièges : Los Altos, en Californie et Paris, en France Modèle Open Core Licence (souscription) Services et formations Solutions MONÉTISATION 1 800 souscripteurs actifs Solutions d intégration évolutives pour le Big Data, l intégration de données et d applications, la qualité de données, le MDM et BPM. Classé Leader Visionnaire par Gartner et Forrester sur le marché de l intégration 2007 2008 2009 2010 2011 2012
La Plateforme Talend GESTION DES DONNEES USAGE DE L INFORMATION
Data centric? L exemple d Amazon Connaître son client Elargir son offre produits & services Valoriser tout l écosystème
MDM et data gouvernance? Maîtriser le «qui, quoi, comment et où» de vos activités Comportement Client Profil Qui? (33%) Comment? (21%) Où? (3%) Sources : Gartner Identité Compliance Comptes Standards Employé Organisa tions et codifications Territoires Adresse Agence Magasins Talend MDM Géolocalisation Actif (Asset) Fournisseur Produit Contrat Nomenclatures Catalogue Attributs Prix Quoi? (44%)
Le processus MDM Fonctionnalités clés d un MDM Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information
Le processus MDM 1) Intégration des sources Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information Plateforme Talend Data Profiling: > 100 indicateurs, rapports d audit, suivi dans le temps Active Data Model: tous domaines, validation synchrone ou asynchrone Data Integration: > 500 connecteurs (dans l ADN de Talend!) Application Integration: services, messages, routing, mediation
Six dimensions de la qualité de données
La Complétude Complétude Complétude : le type n est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut
La Conformité Complétude Conformité Complétude : le type n est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut Conformité : l adresse n est pas correcte pour DUPONT PIERRE et LAPEYRE
La Cohérence Complétude Conformité Cohérence Complétude : le type n est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut Conformité : l adresse n est pas correcte pour DUPONT PIERRE et LAPEYRE Cohérence : YAHOO n est pas une personne et BOUTROS BENJAMIN n est pas une entreprise
L exactitude Complétude Conformité Cohérence Exactitude Complétude : le type n est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut Conformité : l adresse n est pas correcte pour DUPONT PIERRE et LAPEYRE Cohérence : YAHOO n est pas une personne et BOUTROS BENJAMIN n est pas une entreprise Exactitude : l information POIDS n est pas applicable aux entreprises
La Duplication Complétude Conformité Cohérence Exactitude Duplication Complétude : le type n est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut Conformité : l adresse n est pas correcte pour DUPONT PIERRE et LAPEYRE Cohérence : YAHOO n est pas une personne et BOUTROS BENJAMIN n est pas une entreprise Exactitude : l information POIDS n est pas applicable aux entreprises Duplication : J BLANC et MR JACQUES BLANC sont la même personne
L intégrité Complétude Conformité Cohérence Exactitude Duplication Intégrité Complétude : le type n est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut Conformité : l adresse n est pas correcte pour DUPONT PIERRE et LAPEYRE Cohérence : YAHOO n est pas une personne et BOUTROS BENJAMIN n est pas une entreprise Exactitude : l information POIDS n est pas applicable aux entreprises Duplication : J BLANC et MR JACQUES BLANC sont la même personne Intégrité : le lien qui unit ces deux personnes n est pas établie dans le fichier
Le processus MDM 2) Nettoyage & alignement des données Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information Plateforme Talend Data Quality: parsing, synonymes, correspondances, standardisation Composants specialisés: prenoms, nicknames, telephones Composants de validation d adresses: Google, Uniserv, Loqate
Le processus MDM 3) Rapprochement («Entity Resolution», «Record Linkage» ) Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information Plateforme Talend Algorithmes de matching: détection des similaires, scoring, seuils d incertitude Stewardship Console: visualisation graphique des rapprochements
Le processus MDM 4) Consolidation, «Survivorship» Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information Plateforme Talend Algorithmes de survivorship: fonctions intégrées et règles personnalisées Stewardship Console: arbitrage / correction manuelle de la fusion
Le processus MDM 5) Améliorations, enrichissement Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information Plateforme Talend Formulaires Web: auto-générés sur le modèle, vues dépendantes du rôle, droits d accès Workflow: moteur de BPM complet (designer de formulaires métier, rôles, assignations, délégations, deadlines, notifications )
Le processus MDM 6) Publication, mise à disposition Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information Plateforme Talend Data Integration: export dans virtuellement n importe quel format vers n importe quelle cible ESB: publication dans le bus de service Talend
Quelques clients MDM Multi-Domaine Client Produit Autres domaines Employés, Founisseurs, Site & Meta-Data Management Reference Data Management
Etude de cas : Veolia L entreprise : Veolia Propreté est la division de Veolia Environnement spécialisée dans la gestion et la valorisation des déchets.. Plus de 47 millions d'habitants desservis, 64 291 collaborateurs, 686 unités de traitement, 575000 clients, flotte de 10000 véhicules L enjeu: Produire, de façon automatisée, des indicateurs clés de performance pour la DG et tous les niveaux de l organisation Unifier la gestion de l activité aux travers des organisations et des systèmes d information Solution: Un référentiel des matériels pour les 1200 catégories de déchets traités Un référentiel véhicules pour les 10000 véhicules de la flotte Une organisation associée pour le data stewardship Résultats : Des processus rationalisé grâce à une élimination des incohérences et doublons (exemple : évolution de 10000 à 1200 codes matériel après la phase de collecte et dédoublonnage. La capacité à déployer rapidement de nouveaux domaines et l organisation de gouvernance associée : déploiement de chaque nouveau modèle en 6 à 8 semaines
Pourquoi le Big Data a-t-il besoin du MDM et de la data quality? Exemple : la dématérialisation du Père Noël Extraction du contenu Gestion de la qualité Réconciliation avec les master data Enrichissement Id_Client Prénom Nom Produit Fournisseur Date Montant 92584789 Anne B. TXF98 Dell 24/12/2013 650 92584789 Anne B. AXC54 Maped 24/12/2013 2,44 92584789 Anne B. TRE56 Playmobil 24/12/2013 129,36. 23
Pourquoi le Big Data a t il besoin du MDM et de la DQ? Ex: Du MDM client au «client augmenté» et la recommandation temps réel Données décisionnelles Données de parcours, sentiments et interactions Données transactionnelles MDM, Data Quality Customer Data Platform Centre de contacts Face à face (Boutique, agence ) SMS/Mail/Chat Service après vente Applications mobiles et Web 24
La plate-forme Talend pour le Big Data Talend Platform for Big Data Big DATA QUALITY Hive Data Profiling M/R Parsing, Matching Drill-down to Values DQ Portal, Monitoring Data Stewardship Report Design Address Validation Custom Analysis BIG DATA Hadoop 2.0 HDFS MapReduce ETL/ELT Hcatalog/ meta-data Pig, Sqoop, Hive Hadoop Job Scheduler Google Big Query NoSQL Support DATA INTEGRATION Data Access ETL / ELT Version Control Business Rules Change Data Capture Scheduler Parallel Processing High Availability TALEND UNIFIED PLATFORM Studio Repository Deployment Execution Monitoring RUNTIME PLATFORM (JAVA, Hadoop, SQL, etc.)
Conclusion Talend MDM et Data Quality Rapide Simple Flexible Open Extensible Rapide à implémenter Plateforme avec tous les composants pour le MDM Se prête à l implémentation incrémentale Approche simple et intuitive Modélisation, configuration, design Pas de programmation, réutilisation des composants Talend VOTRE domaine, VOS règles Modélisation ultra flexible basée sur XML Système évènementiel pour validations & corrections auto Rejoignez la communauté Open Source Basé sur les standards et frameworks Open Source Ouvert et extensible Prêt à embarquer le Big Data Gestion des 4V (volume, variété, vitesse et véracité) Capacité à traiter les données là où elles sont
Des questions?