Introduction Big Data
SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE
Ce document constitue le support d une présentation orale. Privé des commentaires l accompagnant, il peut donner lieu à des interprétations erronées. Data & Information System Avertissement Présentation AXIODIS
Historique & contexte L évolution du SI amène les entreprises à traiter de plus en plus de données issues de sources toujours plus variées. Les prévisions de taux de croissance des volumes de données traitées dépassent les limites des technologies traditionnelles. On parle de pétaoctet (billiard d octets) voir de zettaoctet (trilliard d octets) Quelle solution pour exploiter ces données? 4
Marché du Big Data 5
Définition Big Data : exploration de très vastes ensembles de données pour obtenir des renseignements utilisables Le terme Big Data se réfère aux technologies qui permettent aux entreprises d'analyser rapidement un volume de données très important et d'obtenir une vue synoptique. En mixant intégration de stockage, analyse prédictive et applications, le Big Data permet de gagner en temps, en efficacité et en qualité dans l interprétation de données. Les objectifs de ces solutions d intégration et de traitements des données sont de traiter un volume très important de données aussi bien structurées que non structurées, se trouvant sur des terminaux variés (PC, smartphones, tablettes, objets communicants...), produites ou non en temps réel depuis n'importe quelle zone géographique dans le monde. le Big Data sera un outil majeur à la fois pour la prise de décisions et l'optimisation de la compétitivité au sein des entreprises. 6
Problématique Le Big Data se caractérise par la problématique des 3V : Vélocité : la vitesse à laquelle les données sont traitées simultanément Variété : l'origine variée des sources de données qui arrivent non structurées (formats, codes, langages différents...) Volume : le poids total des données collectées Vous êtes confronté à une problématique de gestion de données correspondant à ces trois critères ou plus simplement vous ne savez plus gérer ces données avec les architectures traditionnelles, alors vous avez une problématique de type Big Data. Il faut en effet penser à collecter, stocker puis analyser les données d une façon qui ne peut plus être traitée par une approche traditionnelle pour permettre de satisfaire au 4ème V la Valorisation des données. 7
Est-ce une innovation?. L explosion des volumes des données nécessite une innovation en terme de : Accélération matérielle Abandon des disques durs au profit des mémoires dynamiques DRAM ou flash meilleur bénéfice des processeurs multicoeurs. Bases de données d'analyse massivement parallèle (MPP). Ces bases de données conformes SQL sont conçues pour répartir le traitement des données sur plusieurs machines Modèle Map-Reduce, Hadoop, et autres approches NoSQL. Ces approches, appelées collectivement "NoSQL" ou "Not Only SQL" permettent d'accéder aux données via des langages de programmation sans utiliser les interfaces basées sur SQL et permettent de répartir les données sur plusieurs machines distinctes. 8
Vocabulaire Datavizualisation : capacité à représenter des données de façon visuelle (graphiques, diagrammes, cartographies, infographies). Plus largement c est la capacité à naviguer rapidement et simplement dans les données. Not Only SQL / Bases sans schéma : catégorie de systèmes de gestion de base de données (SGBD) qui n'est plus fondée sur l'architecture classique des bases relationnelles. L'unité logique n'y est plus la table, et les données ne sont en général pas manipulées avec SQL. Map Reduce : modèle de programmation permettant de manipuler de grandes quantités de données non obligatoirement structurées. Hadoop / Cassandra / MongoDB : framework d application utilisant le modèle Map Reduce. de développement Data Flow / Pig / Hive..: logiciel et langage d analyse de données permettant d utiliser Hadoop. 9
Pourquoi faire du Big La compréhension de votre environnement passe la par la valorisation des toutes les données accessibles pour les raisons suivantes : Qu'est-ce que le Big Stratégiques (Créer un avantage concurrentiel, Contrôler son image) Organisationnelles (Piloter en temps réel, Impliquer les collaborateurs) l environnement actuel toujours plus d informations exploitables nécessite une nouvelle approche de l analyse des données. 10
Big Data : Secteurs & activités Qu'est-ce que le Big De nombreux secteurs sont concernés : (e-) (m-) Commerce & CRM Santé Défense, renseignement (e.g. cybersécurité, biométrie) Banque/Finance Transports intelligents Et concerne différentes activités : Moteurs de recherche, moteurs de recommandation Maintenance prédictive Marketing viral à travers les réseaux sociaux Détection des fraudes Médecine individualisée Publicité en ligne (retargeting) 11
Impacts du Big Data dans l entreprise L émergence de nouveaux métiers capables de gérer vos données d intérêt et d en extraire les bonnes informations : Qu'est-ce que le Big Architecte Big Data: Connaissance infrastructures et logiciels Big Data Connaissances en modélisations Data Analyst: Connaissance des logiciels & langages Big Data Connaissance en modélisations Data Scientist: Connaissance des logiciels & langages Big Data Connaissance en modélisations Connaissances métiers Chief-Data-Officer (Directeur des données) Responsable des données et de leur gouvernance (collecte, traitement, sauvegarde, accès) Responsable de l analyse des données et aide à la décision Mettre en œuvre des équipes agiles & transverses 12
Architecture Big Data Qu'est-ce que le Big Faire évoluer votre SI traditionnel vers un SI BigData Source de données hétérogènes Consommation / valorisation des données Sources hétérogènes Intégration des données Stockage et traitement de données Analyse des données 13
Stockage des données Les approches NoSQL (data in memory) sont particulièrement importantes pour les tâches d'analyse qui ne peuvent pas être codées efficacement dans SQL (itérations multiples sur les données, analyse de textes ) Qu'est-ce que le Big HDFS Map-Reduce et Hadoop sont les «outils» NoSQL les plus répandus pour mettre à disposition les données non structurée au niveau des applications 14
Data visualisation Les utilisateurs / décideurs doivent pouvoir visualiser et comprendre les résultats. Le «Reporting version Big Data» doit être conçu pour pouvoir trouver "une aiguille dans une botte de foin " on parle de datavizualisation. Qu'est-ce que le Big Les présentations peuvent être simples, dynamiques il faut choisir ce qu on veut montrer. Un graphique n est qu une présentation de la réalité 15
Sécurité et supervision Il est nécessaire d inclure dans votre architecture des solutions de supervision à même d auditer en permanence votre environnement. Qu'est-ce que le Big Provenance et fiabilité des données Archivage, entrepôts de données Accès & sécurité Programmes de traitements, contrôles d accès Garantir l anonymisation des données la sécurité des traitements Se prémunir des risques d atteintes à la vie privée Respecter les contraintes légales et réglementaires évolutifs. 16
Le Big Data apporte une nouvelle dimension aux RH Repenser les fonctions RH GPEC Exploiter et croiser plus de sources de données H@rp Fidélisation des employés Ciblage des candidats / impact formation Corrélation de la performance et la structure d une unité Explication de l absentéisme / santé Résolutions de conflits Satisfaction au travail 17
De nouvelles ambitions CEB indique dans son étude de 2012 que 77 % des professionnels RH ne savent pas évaluer l impact du potentiel des salariés de leur entreprise sur ses résultats financiers. Le gain de productivité dû au Big Data pour les services RH s élèverait à environ 70% et permettrait ainsi de traiter plus de sujets pour une meilleure connaissance des collaborateurs. Anticiper Sécuriser Valoriser 18
L exemple du recrutement Les premiers acteurs RH à avoir utilisé le Big Data sont les sous-traitants RH souhaitant améliorer le recrutement: Démultiplication les sources d informations : Paye par action/motif sur une historique complet par collaborateur Analyse des demandes de recrutement trop récurrente sur certains postes Analyse des CV et banques externes (yc monster ) Modélisation du parcours de recrutement permettant d éviter les erreurs de recrutement. En complement le Big Data leur a permis de développer : une expertise sur les données collectées pour répondre à leurs clients Une offre de services et de conseil à forte valeur ajoutée complémentaire à la sous-traitance 19
L exemple de la gestion des compétences Prévoir l évolution des métiers de l entreprise et des effectifs en croisant des données concernant tout type d information : La stratégie de l entreprise => secteurs, marchés, technologies Les compétences présentes aujourd hui Les formations internes et externes => durées, coûts, Les coûts RH => recrutements, salaires, Le Big Data leur a permis de concevoir un plan de maintient des effectifs et de prévision des compétences nécessaire dans le futurs Prévoir les campagnes de recrutement, de formation Accompagner les salariés vers de nouveaux challenges Chiffrer ces évolutions 20
Définition autres notions Autour du Big Data, on trouve également les termes : Open Data : solution visant à rendre accessibles à tous des bases de données, s'appuyant sur le participatif et la transparence. Little Data: parfois utilisé pour permettre aux entreprises qui n auraient pas les 3V pour utiliser les technologies Big Data Smart Data: Extraire parmi l ensemble des données du Big Data les données intelligentes permettant de piloter vos activités nouvelle expression synonyme de Business Intelligence. Attention à ne pas être confronté au final au Bad Data! 21
Thématiques RH Quelles variables expliquent la performance d une unité d affaire ou d une équipe? Quelles variables expliquent les statistiques obtenues en santé, en sécurité, en absentéisme, les plaintes clients, la fidélisation des clients, les ventes? Quels profils et quelles compétences prédisent le mieux la fidélisation d employés et la performance des employés et des candidats? Quels managers génèrent les meilleurs résultats en terme de civilité organisationnelle, de résolutions de conflits, de règlement de plaintes, de satisfaction au travail, de promotion ou de départ? Quelle initiative de formation a eu le meilleur impact? Quelles statistiques influencent le plus la profitabilité et la croissance de l entreprise? 22
Références bibliographiques http://www.forbes.com/sites/gilpress/2013/05/09/a-veryshort-history-of-big-data/ http://www.martinhilbert.net/worldinfocapacityppt.ht ml Cabinets conseils Big Data : IDATE DATA&DATA Consulting Enquête IBM Big Data 2012 23
MERCI www.axiodis.com