Data centric. Une plateforme centrée sur les données au service de votre organisation. Benjamin Boutros et Jean-Michel Franco

Documents pareils
Talend Technical Note

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

ORACLE DATA INTEGRATOR ENTERPRISE EDITION - ODI EE

Les 10 causes principales des problèmes de qualité de données

Créer un référentiel client grâce à Talend MDM

Surmonter les 5 défis opérationnels du Big Data

Labs Hadoop Février 2013

Les technologies du Big Data

Les quatre piliers d une solution de gestion des Big Data

Offre formation Big Data Analytics

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Semarchy Convergence for Data Integration La Plate-Forme d Intégration pour le MDM Évolutionnaire

NOVA BPM. «Première solution BPM intégr. Pierre Vignéras Bull R&D

Projet CASI: Master Data Management

Semarchy Convergence for MDM La Plate-Forme MDM Évolutionnaire

27 janvier Issam El Hachimi Ludovic Schmieder

WHITE PAPER Une revue de solution par Talend & Infosense

Le guide de votre voyage d intégration. Talend

Fouille de données massives avec Hadoop

HADOOP ET SON ÉCOSYSTÈME

Catalogue Formation «Vanilla»

FOSS Enterprise Integration Plattaform

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

L ÉCHANGE DE DONNÉES TEMPS RÉEL

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI ALTIC & SYNOTIS - TRAINING CENTER 24 RUE DE L EGLISE VINCENNES

SpagoBI: la seule suite décisionnelle 100% open source, complète et flexible

LE MEILLEUR DES SOLUTIONS COLLABORATIVE OPEN SOURCE. et pas que la GED

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

À PROPOS DE TALEND...

Fouillez facilement dans votre système Big Data. Olivier TAVARD

IIGF04 : Données maîtres et gouvernance. Vincent Poncet. IBM SWG MDM Technical Sales Vincent.Poncet@fr.ibm.com

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI SYNALTIC 24 RUE DE L EGLISE VINCENNES

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Gestion des données de référence (MDM)

Petit Déjeuner Pépinière du Logiciel Libre. 25 juin 2008

BizTalk Server Principales fonctions

Master Informatique et Systèmes. Architecture des Systèmes d Information. 02 Architecture Applicative

Fiabilisation des bases de données BtoB : Un enjeu majeur

SQL Server 2012 et SQL Server 2014

Master Data Management en Open Source C est le Bon Moment

Analyse de performance, monitoring

Avant-propos... Introduction... Première partie Comprendre : les concepts. Chapitre 1 La gestion des données de référence... 3

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

Le MDM (Master Data Management) Pierre angulaire d'une bonne stratégie de management de l'information

Panorama des solutions analytiques existantes

Guide de référence pour l achat de Business Analytics

Oracle Fusion Middleware Concepts Guide 11g Release 1 (11.1.1) Figure 1-1 Architecture Middleware

Agenda. Impact d une mauvaise gestion des données. Les stratégies de promotion interne de la gestion de données

Architecte d entreprise, fonctionnel et applicatif

Le Data Excellence Management Gouverner par la valeur. Dr. Walid el Abed Founder & CEO Global Data Excellence Ltd

FORMATION TALEND. Page 1 sur 9

Hadoop, les clés du succès

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Quantification des Risques

Guide de référence pour l achat de Business Analytics

Introduction à la SOA. Youen Chéné 15/06/2010

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

Stratégie Microsoft pour les opérateurs de services. Marc Gardette Directeur Stratégie Cloud Microsoft France

INGÉNIEUR - DÉVELOPPEUR CONFIRMÉE ORACLE - PL/SQL. 27 ans - 4 ans d'expérience

Urbanisation des Systèmes d Information Architecture d Entreprise. 05 Architecture des données. Plan du chapitre. Références. 1 Définitions & enjeux

Les journées SQL Server 2013

Partner Business School

ILM ou Archivage Une démarche Métier

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

Nous vous garantissons un niveau élevé d exploitation de vos données

IBM Business Process Manager

Vision Infonuagique VMware

Enterprise Data Quality : fiabilisez vos processus E-Business Suite en améliorant la qualité des données

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

CA 2011 M. +40% de croissance 7. agences en France. Paris Lyon Nantes Bordeaux Montpellier Aix en Provence

VOTRE OFFRE CRM 360 ALL INCLUSIVE.

Sauvegarde et Restauration d un environnement SAS

GESTION DU CYCLE DE VIE. Albert Amar Avant-vente Middleware


Agenda. Le groupe Keyrus. Orange Tunisie. Présentation du projet. Choix initial de Talend Open Studio. Evolution de la plateforme. Nécessité de migrer

LA VISION UNIQUE DU CLIENT, PASSAGE OBLIGÉ DE LA MODERNISATION DU CRM VERS LA TRANSFORMATION DIGITALE?

Nous vous garantissons un niveau élevé d exploitation de vos données

Programme de partenariat Uniserv

Comment réussir son projet de Master Data Management?

Echapper légalement à l impôt sur les données

25 octobre JD EDWARDS ENTERPRISEONE et DÉMATÉRIALISATION

Les enjeux de la dématérialisation du courrier entrant

Avis d expert. Quels choix technologiques pour une meilleure productivité?

Renforcez la flexibilité et la réactivité de votre entreprise Dotez votre entreprise d'un système de gestion des données de référence éprouvé

VOTRE OFFRE CRM 360 ALL INCLUSIVE. crm.amabis.com

I. Instalation de l environnement JDK et JRE : II. Configuration outil Reporting : Pentaho... 4

Jean-Philippe VIOLET Solutions Architect

Big Data Jean-Michel Franco

Introduction Big Data

SOA Open Source Intégration des services et business process dans une architecture SOA Open Source. Bruno Georges JBoss, a Division of Red Hat

Big Data, un nouveau paradigme et de nouveaux challenges

Plateforme IoT flexible et configurable:

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM

Fiche Produit MediaSense Extensions

Pentaho Business Analytics Intégrer > Explorer > Prévoir

L Information en Temp Réel

Transcription:

Data centric Une plateforme centrée sur les données au service de votre organisation Benjamin Boutros et Jean-Michel Franco bboutros@talend.com jfranco@talend.com (@jmichel_franco)

Agenda 1. Talend en bref 2. MDM et Data Gouvernance : pourquoi? 3. MDM et Data Gouvernance : comment? 4. Références et cas d usage 5. MDM et Big Data : l association gagnante

Présentation de Talend Modèle de déploiement-croissance VISIBILITE 1,6 million de téléchargements EN BREF Fondée en 2006 400 employés dans 7 pays FIDELITE DES CLIENTS Taux de renouvellement de 86% COMMUNAUTÉ DYNAMIQUE 100 000 utilisateurs enregistrés Deux sièges : Los Altos, en Californie et Paris, en France Modèle Open Core Licence (souscription) Services et formations Solutions MONÉTISATION 1 800 souscripteurs actifs Solutions d intégration évolutives pour le Big Data, l intégration de données et d applications, la qualité de données, le MDM et BPM. Classé Leader Visionnaire par Gartner et Forrester sur le marché de l intégration 2007 2008 2009 2010 2011 2012

La Plateforme Talend GESTION DES DONNEES USAGE DE L INFORMATION

Data centric? L exemple d Amazon Connaître son client Elargir son offre produits & services Valoriser tout l écosystème

MDM et data gouvernance? Maîtriser le «qui, quoi, comment et où» de vos activités Comportement Client Profil Qui? (33%) Comment? (21%) Où? (3%) Sources : Gartner Identité Compliance Comptes Standards Employé Organisa tions et codifications Territoires Adresse Agence Magasins Talend MDM Géolocalisation Actif (Asset) Fournisseur Produit Contrat Nomenclatures Catalogue Attributs Prix Quoi? (44%)

Le processus MDM Fonctionnalités clés d un MDM Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information

Le processus MDM 1) Intégration des sources Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information Plateforme Talend Data Profiling: > 100 indicateurs, rapports d audit, suivi dans le temps Active Data Model: tous domaines, validation synchrone ou asynchrone Data Integration: > 500 connecteurs (dans l ADN de Talend!) Application Integration: services, messages, routing, mediation

Six dimensions de la qualité de données

La Complétude Complétude Complétude : le type n est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut

La Conformité Complétude Conformité Complétude : le type n est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut Conformité : l adresse n est pas correcte pour DUPONT PIERRE et LAPEYRE

La Cohérence Complétude Conformité Cohérence Complétude : le type n est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut Conformité : l adresse n est pas correcte pour DUPONT PIERRE et LAPEYRE Cohérence : YAHOO n est pas une personne et BOUTROS BENJAMIN n est pas une entreprise

L exactitude Complétude Conformité Cohérence Exactitude Complétude : le type n est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut Conformité : l adresse n est pas correcte pour DUPONT PIERRE et LAPEYRE Cohérence : YAHOO n est pas une personne et BOUTROS BENJAMIN n est pas une entreprise Exactitude : l information POIDS n est pas applicable aux entreprises

La Duplication Complétude Conformité Cohérence Exactitude Duplication Complétude : le type n est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut Conformité : l adresse n est pas correcte pour DUPONT PIERRE et LAPEYRE Cohérence : YAHOO n est pas une personne et BOUTROS BENJAMIN n est pas une entreprise Exactitude : l information POIDS n est pas applicable aux entreprises Duplication : J BLANC et MR JACQUES BLANC sont la même personne

L intégrité Complétude Conformité Cohérence Exactitude Duplication Intégrité Complétude : le type n est pas renseigné pour DUPONT PIERRE/DIDIER JOSEPHINE et PAYS est renseignée avec une valeur par défaut Conformité : l adresse n est pas correcte pour DUPONT PIERRE et LAPEYRE Cohérence : YAHOO n est pas une personne et BOUTROS BENJAMIN n est pas une entreprise Exactitude : l information POIDS n est pas applicable aux entreprises Duplication : J BLANC et MR JACQUES BLANC sont la même personne Intégrité : le lien qui unit ces deux personnes n est pas établie dans le fichier

Le processus MDM 2) Nettoyage & alignement des données Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information Plateforme Talend Data Quality: parsing, synonymes, correspondances, standardisation Composants specialisés: prenoms, nicknames, telephones Composants de validation d adresses: Google, Uniserv, Loqate

Le processus MDM 3) Rapprochement («Entity Resolution», «Record Linkage» ) Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information Plateforme Talend Algorithmes de matching: détection des similaires, scoring, seuils d incertitude Stewardship Console: visualisation graphique des rapprochements

Le processus MDM 4) Consolidation, «Survivorship» Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information Plateforme Talend Algorithmes de survivorship: fonctions intégrées et règles personnalisées Stewardship Console: arbitrage / correction manuelle de la fusion

Le processus MDM 5) Améliorations, enrichissement Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information Plateforme Talend Formulaires Web: auto-générés sur le modèle, vues dépendantes du rôle, droits d accès Workflow: moteur de BPM complet (designer de formulaires métier, rôles, assignations, délégations, deadlines, notifications )

Le processus MDM 6) Publication, mise à disposition Alimentation Capture Nettoyage Rapprochements Consolidations Enrichissements Distribution Publication Audit des sources Chargement initial Insertions / mises à jour, batch et fil de l eau Corrections (erreurs de saisies, formats ) Alignement sur un standard Validation d adresses postales Trouve et relie les doublons potentiels Algorithmes et Fusionne les doublons avec des règles automatiques et des processus Ajoute des informations transverses Sources externes Enrichissements et Met les Master Data à disposition de tout le système d information Plateforme Talend Data Integration: export dans virtuellement n importe quel format vers n importe quelle cible ESB: publication dans le bus de service Talend

Quelques clients MDM Multi-Domaine Client Produit Autres domaines Employés, Founisseurs, Site & Meta-Data Management Reference Data Management

Etude de cas : Veolia L entreprise : Veolia Propreté est la division de Veolia Environnement spécialisée dans la gestion et la valorisation des déchets.. Plus de 47 millions d'habitants desservis, 64 291 collaborateurs, 686 unités de traitement, 575000 clients, flotte de 10000 véhicules L enjeu: Produire, de façon automatisée, des indicateurs clés de performance pour la DG et tous les niveaux de l organisation Unifier la gestion de l activité aux travers des organisations et des systèmes d information Solution: Un référentiel des matériels pour les 1200 catégories de déchets traités Un référentiel véhicules pour les 10000 véhicules de la flotte Une organisation associée pour le data stewardship Résultats : Des processus rationalisé grâce à une élimination des incohérences et doublons (exemple : évolution de 10000 à 1200 codes matériel après la phase de collecte et dédoublonnage. La capacité à déployer rapidement de nouveaux domaines et l organisation de gouvernance associée : déploiement de chaque nouveau modèle en 6 à 8 semaines

Pourquoi le Big Data a-t-il besoin du MDM et de la data quality? Exemple : la dématérialisation du Père Noël Extraction du contenu Gestion de la qualité Réconciliation avec les master data Enrichissement Id_Client Prénom Nom Produit Fournisseur Date Montant 92584789 Anne B. TXF98 Dell 24/12/2013 650 92584789 Anne B. AXC54 Maped 24/12/2013 2,44 92584789 Anne B. TRE56 Playmobil 24/12/2013 129,36. 23

Pourquoi le Big Data a t il besoin du MDM et de la DQ? Ex: Du MDM client au «client augmenté» et la recommandation temps réel Données décisionnelles Données de parcours, sentiments et interactions Données transactionnelles MDM, Data Quality Customer Data Platform Centre de contacts Face à face (Boutique, agence ) SMS/Mail/Chat Service après vente Applications mobiles et Web 24

La plate-forme Talend pour le Big Data Talend Platform for Big Data Big DATA QUALITY Hive Data Profiling M/R Parsing, Matching Drill-down to Values DQ Portal, Monitoring Data Stewardship Report Design Address Validation Custom Analysis BIG DATA Hadoop 2.0 HDFS MapReduce ETL/ELT Hcatalog/ meta-data Pig, Sqoop, Hive Hadoop Job Scheduler Google Big Query NoSQL Support DATA INTEGRATION Data Access ETL / ELT Version Control Business Rules Change Data Capture Scheduler Parallel Processing High Availability TALEND UNIFIED PLATFORM Studio Repository Deployment Execution Monitoring RUNTIME PLATFORM (JAVA, Hadoop, SQL, etc.)

Conclusion Talend MDM et Data Quality Rapide Simple Flexible Open Extensible Rapide à implémenter Plateforme avec tous les composants pour le MDM Se prête à l implémentation incrémentale Approche simple et intuitive Modélisation, configuration, design Pas de programmation, réutilisation des composants Talend VOTRE domaine, VOS règles Modélisation ultra flexible basée sur XML Système évènementiel pour validations & corrections auto Rejoignez la communauté Open Source Basé sur les standards et frameworks Open Source Ouvert et extensible Prêt à embarquer le Big Data Gestion des 4V (volume, variété, vitesse et véracité) Capacité à traiter les données là où elles sont

Des questions?