Le Data Scientist : enjeux du profil, impacts sur les organisations



Documents pareils
Titre : La BI vue par l intégrateur Orange

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Introduction Big Data

Mastère spécialisé MS : «Ingénierie de l innovation et du produit nouveau

Conseil opérationnel en organisation, processus & système d Information. «Valorisation, Protection et Innovation de votre Patrimoine Numérique»

Faire de l infrastructure informatique une source de valeur ajoutée pour l entreprise.

Stage Ingénieur en développement logiciel/modélisation 3D

son offre Executive Education

Position de l ASTEE sur l innovation en matière de services d eau et de déchets

Surmonter les 5 défis opérationnels du Big Data

55, rue du Faubourg Montmartre Paris +33 (0)

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

GESTION DE PROJET SÉANCE 2 : LES CYCLE DE VIE D'UN PROJET

PÉRENNISER LA PERFORMANCE

La rencontre du Big Data et du Cloud

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data

L Edition Pilotée XL

Maîtriser les mutations

La gestion globale des contenus d entreprise

Comment réussir son projet de Master Data Management?

Mastère spécialisé. «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché»

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Cette première partie pose les enjeux de la BI 2.0 et son intégration dans le SI de l entreprise. De manière progressive, notre approche situera le

60 salariés. 3 MINISTÈRE est une agence Web, experte en CRM, e-commerce, data et analytics. Elle compte à ce. jour 25 salariés.

Contexte. Objectif. Enjeu. Les 3 questions au cœur du Pilotage de la Performance :

La révolution des Métiers Nouveaux métiers, nouvelles compétences: quels enjeux pour l entreprise. Février 2015

Introduction à la méthodologie de la recherche

Vendeur du 3 e millénaire

P résentation. L ensemble des concepts et des outils de la Gestion des Ressources Humaines. La Gestion des Ressources Humaines (collection Les Zoom s)

Alignement stratégique du SI et gestion de portefeuille de projets

2015Dossier de presse

RESUME DESCRIPTIF DE LA CERTIFICATION (FICHE OPERATIONNELLE METIERS)

SPECIALISATIONS DU MASTER GRANDE ECOLE

Quels outils pour prévoir?

Petit guide pour choisir une solution CRM

Retour d expérience. Le rôle du Business Analyst chez Orange. Nadia Magarino & Christophe Dufour 29 avril 2015

LES 11 COMPÉTENCES CLÉ DU COACH SELON LE RÉFÉRENTIEL ICF OBJECTIFS CERTIFICATION PRINCIPES ET ORIENTATIONS

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

GT Big Data. Saison Bruno Prévost (Safran), Marc Demerlé (GDF SUEZ) CRiP Thématique Mise en œuvre du Big Data 16/12/14

3 minutes. relation client. avec Orange Consulting. pour tout savoir sur la. construisez et pilotez votre relation client

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

Partie I Le Management des Systèmes d Information : un défi pour les PME

1. Le service Commercial

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

Développer une culture d efficience

Vision prospective et obstacles à surmonter pour les assureurs

Guide d Intégration PPM et ERP:

CIHEAM-IAMM - Janvier 2002 Synthèse documentaire - C. Adamolle. VEILLE STRATEGIQUE & RESEAU INTERNET des outils et méthodes à maîtriser

Pole Formation Catalogue

STRATEGIE, GOUVERNANCE ET TRANSFORMATION DE LA DSI

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

IBM Business Process Manager

ACCOMPAGNEMENT INDIVIDUEL

Business Intelligence et Data Visualisation

La Business Intelligence & le monde des assurances

Bienvenue. au Pôle. de l ENSAMl

Big Data et Marketing : les competences attendues

SOCIAL CRM: DE LA PAROLE À L ACTION

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Novembre Regard sur service desk

Table des matières CID CID CID CID CID

MODELE DE MATURITE SOCIAL MEDIA MARKETING

S e r v i r l e s clients actuels de maniè r e e f f ic a ce grâce a u «Co n s u m er Insight»

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

MYXTRACTION La Business Intelligence en temps réel

ZOOM SUR. le métier du SFE. N 5 Janvier Un nouveau regard sur la stratégie opérationnelle de l industrie pharmaceutique

agence marketing digital

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

IBM Software Business Analytics. IBM Cognos FSR Automatisation du processus de reporting interne

MANUEL DU BLENDED LEARNING

1. Étude réalisée par l AFOPE en Hellriegel D., Slocum J. W., Woodman R. W., Management des organisations, Bruxelles, De Boeck, 1992.

ISD Consulting Pharmaceuticals. Présentation Générale

La formation continue Supply Chain & Achats Centrale Paris Executive Education. Ecole Centrale Paris Executive Education

- Dossier de presse -

De la captation de données à la Datavisualisation

SMARC La révolution des usages et des technologies : Quels impacts sur votre Stratégie Digitale. Mardi, le 21 avril 2015 SMARC G16

La Chaire Accenture Strategic Business Analytics de l ESSEC

Forum AMOA ADN Ouest. Présentation du BABOK. 31 Mars 2013 Nadia Nadah

Les activités numériques

Tout ce que vous avez toujours voulu savoir sur Les Assessment Centers.

Chapitre 9 : Informatique décisionnelle

5èmes Rencontres du tourisme en Maurienne Mercredi 5 novembre 2014 St Michel de Maurienne

Rapport d évaluation du master

ELCA Forum 2014 BIG DATA

360 feedback «Benchmarks»

Les Ressources Humaines à l heure du Big Data : progrès, perspectives et limites CORNERSTONE WHITEPAPER

Taille d entreprise Moins de 50 salariés 0% De 50 à 250 salariés 40% De 251 à salariés 40% Plus de salariés 20%

agence marketing digital

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

LE PROJET D ÉTABLISSEMENT DE L ENIL DE MAMIROLLE. Réunion du 28 mars 2014

WHY CONSULTING. Performance Commerciale en B2B

Migration SAP HANA de PASàPAS : SAP BI, la suite logique

BI Open Source Octobre Alioune Dia, Consultant BI

Transcription:

Non Confidentiel Confidentiel Le Data Scientist : enjeux du profil, impacts sur les organisations Programme : MASTERE - 2014 - Grenoble (2013-2014) Année : 2013-2014 EA - Session de programme : Mission Thèse 2013-2014 Nom de l'étudiant : Pougnard Raphaël Nom du tuteur / évaluateur : Pigni Federico A renseigner s'il s'agit d'une alternance: Nom de l'entreprise : CGI Ville : Grenoble Pays : France Fonction occupée durant le stage : Consultant en Business Intelligence Résumé informatif de la mission : Les données sont des actifs que les organisations devront recentrer dans les processus décisionnels stratégiques et opérationnels pour saisir de nouvelles opportunités, mieux connaitre leur marché et mieux se connaitre ellesmêmes. Ces activités nouvelles font appel à des ressources techniques, technologiques, mais surtout humaines inédites. Nouveau métier peu connu et mal défini, le Data Scientist a potentiellement de forts impacts sur l avenir de l entreprise. Quelles missions rentrent dans son champ d action? Quelles compétences techniques, business et humaines doit il avoir? Quel est son rôle vis-à-vis du reste de l entreprise? Où se place-t-il dans l organisation? A quel moment les entreprises devraient-elle le recruter? Quel management adopter pour des projets si transverses? Par une analyse lexicale d offres d emploi, des entretiens avec des professionnels du secteur, et des études de cas, cette thèse définit le profil complexe du Data Scientist. Le recueil d informations selon six axes, son analyse, et les conclusions nous ont permis de tirer des recommandations pratiques sur les missions stratégiques qu il aura à mener ; à mieux définir ses interactions avec les métiers et la DSI ; à cerner les compétences, savoirs, et savoirs-être qu il devra avoir; à décider d un modèle de placement selon la chaine de valeur de l organisation ; à préciser le tempo dans lequel l entreprise doit investir ; et à émettre des conseils sur les méthodologies à utiliser. Mots-clés principaux décrivant la mission INFORMATIQUE - ANALYSE INFORMATIQUE SCIENCE DU MANAGEMENT - AIDE A LA DECISION MANAGEMENT - MANAGEMENT TECHNOLOGIQUE TRAITEMENT DE L'INFORMATION - ANALYSE DE L'INFORMATION

CGI & GRENOBLE ECOLE DE MANAGEMENT Etude de cas : TOTAL MARKETING & SERVICES Le Data Scientist : enjeux du profil, impacts sur les organisations Thèse Professionnelle de Mastère spécialisé en Management Technologique et Innovation Raphaël Pougnard 04/12/2014 2

INTRODUCTION RESUME Les données sont des actifs que les organisations devront recentrer dans les processus décisionnels stratégiques et opérationnels pour saisir de nouvelles opportunités, mieux connaitre leur marché et mieux se connaitre elles-mêmes. Ces activités nouvelles font appel à des ressources techniques, technologiques, mais surtout humaines inédites. Nouveau métier peu connu et mal défini, le Data Scientist a potentiellement de forts impacts sur l avenir de l entreprise. Quelles missions rentrent dans son champ d action? Quelles compétences techniques, business et humaines doit il avoir? Quel est son rôle vis-à-vis du reste de l entreprise? Où se place-t-il dans l organisation? A quel moment les entreprises devraient-elle le recruter? Quel management adopter pour des projets si transverses? Par une analyse lexicale d offres d emploi, des entretiens avec des professionnels du secteur, et des études de cas, cette thèse définit le profil complexe du Data Scientist. Le recueil d informations selon six axes, son analyse, et les conclusions nous ont permis de tirer des recommandations pratiques sur les missions stratégiques qu il aura à mener ; à mieux définir ses interactions avec les métiers et la DSI ; à cerner les compétences, savoirs, et savoirs-être qu il devra avoir; à décider d un modèle de placement selon la chaine de valeur de l organisation ; à préciser le tempo dans lequel l entreprise doit investir ; et à émettre des conseils sur les méthodologies à utiliser. 3

REMERCIEMENTS Je tiens tout d abord à remercier Federico Pigni, directeur de cette thèse. Par sa passion et son dévouement, il m a permis de prendre la hauteur nécessaire à la rédaction de ce document tout en m alimentant par sa méthode, son savoir pour ne pas me laisser dérailler. Je tiens aussi particulièrement à remercier François Blondel, mon manager, qui a su me lancer, me faire réfléchir, m aiguiller et m encourager, tout en me laissant libre de développer ma pensée, ma maturité et la confiance nécessaire à l accomplissement d un tel travail. Je tiens à remercier mes responsables, Renaud Cochet et Thibaut Reboullet qui m ont permis de travailler à CGI, et d évoluer dans un environnement propice au développement des compétences managériales, et de l esprit d innovation nécessaire dans ce monde extrêmement mouvant. Sans compter leurs encouragements et leur participation à cette thèse qui m ont permis de capitaliser autour de la valeur qui y est injectée. Je voudrais également remercier mon client, Arnaud Thomas, pour sa participation, ses encouragements et son énergie. Merci de m avoir laissé libre de participer à des sujets sur lesquels je n étais pas nécessairement impliqué. Je tiens à remercier chacun des membres, un par un, des équipes TOTAL à Grenoble et Lyon qui m ont entouré depuis plus d un an. Ils m ont permis de m intégrer et d apprendre dans la bonne humeur et m ont laissé prendre le temps de bien faire les choses. En particulier Chloé, pour son aide dans l alimentation de la revue de littérature, et Gaël, qui a su m éclairer dans l obscurité des soirées de travail. Enfin, je remercie ma famille et mes amis pour leur aide et leur soutien indéfectible. 4

TABLE DES MATIERES TABLE DES MATIERES Introduction... 3 Résumé... 3 Remerciements... 4 Table des matières... 5 Introduction (Thématique)... 7 Un nouveau paradigme à saisir pour le business... 7 Les difficultés techniques connues et adressées... 7 Des difficultés managériales encore floues... 8 Lien entre le sujet choisi et la mission en entreprise... 9 Partie Thèse...10 Methodologie...10 Présentation de la méthodologie...10 Le modèle...10 Recueil d informations Pour alimentation du modèle...13 Offres d emploi...13 Entretiens...19 Etudes de cas...26 Vue globale...31 Analyse...33 Synthèse du recueil d informations...33 Missions...33 Caractéristiques...34 Rôle...35 Placement...36 Quand...37 Comment...38 Partie conclusive...40 5

Discussion / Conclusion...40 Apports théoriques...40 Limites théoriques...41 Limites méthodologiques...41 Pistes de prolongement...41 Annexes...43 Analyse lexicale complète...43 Interviews...47 Renaud Cochet...47 Thibaut Reboullet...50 Arnaud Thomas...53 Références...58 6

INTRODUCTION (THEMATIQUE) UN NOUVEAU PARADIGME A SAISIR POUR LE BUSINESS La révolution des données est en marche : avec 12 Milliards d objets connectés et une augmentation de 90% de la quantité de données stockées ces deux dernières années 1, le monde entier est en passe d être mis en données. Ces objets et enregistrements ne sont rien d autres que des représentations de l activité humaine. On sous-estime certainement encore les possibilités offertes par leur analyse, afin de comprendre, cerner, détecter et prévoir les comportements d un groupe ou d un individu en particulier. D un autre côté, les progrès quasi exponentiels des capacités informatiques de stockage, de calcul et de mise à disposition permettent de traiter ces données et de les restituer aussi bien à un consommateur, qu à un professionnel n importe où, n importe quand, en quasi temps-réel. Vu au travers du prisme de l entreprise, cette révolution est un point d inflexion stratégique qui créé des risques, menaces, mais surtout qui produit des opportunités semblables à celles des innovations de rupture les plus importantes. Quatre types de stratégies clients «datadriven» sont exacerbés par cette nouvelle donne : réduire les coûts ; recruter des clients ; récompenser la fidélité ; personnaliser l expérience 2. Recruter des clients par une stratégie data-driven, c est le service qu offre Google avec Adwords à toutes les entreprises. En parallèle, quatre axes de valorisation en temps réel pour l entreprise sont maintenant accessibles : détection; visibilité de masse; expérimentation ; coordination 3. Par exemple, Starbucks, lors du lancement d un nouveau produit, a pu analyser l accueil que lui ont réservé ses consommateurs sur Twitter. Ainsi, il a pu être détecté un désamour du consommateur pour le nouveau café, et cerné que ce problème venait du prix. Dès le lendemain, Starbucks a adapté ce prix et le lancement fut un succès. 4 Chez ThyssenKrupp, avec l aide de CGI, la décision de connecter et d analyser l ensemble de l activité de leurs ascenseurs a été prise. Grâce à des modèles prédictifs d usure de leurs pièces, ils peuvent mettre en relief l utilisation de n importe quel ascenseur et prévoir les pannes ; ou bien encore, connaitre le problème dès qu il se produit. Ainsi ThyssenKrupp peut proposer un niveau de service d une valeur ajoutée supérieure par rapport à ses concurrents et peut optimiser son service de maintenance en réduisant les coûts engendrés. LES DIFFICULTES TECHNIQUES CONNUES ET ADRESSEES Pour atteindre ces possibilités, la réalité est remplie de défis. Des défis techniques et technologiques d abord. En effet, récupérer, stocker, transformer une quantité de données aussi grande qu hétérogène et déstructurée n est pas sans mal. Les schémas historiques du stockage ont été remis en cause et de nouvelles solutions ont été imaginées (Solutions NoSQL : MongoDB, Cassandra ou Redis). Il en va de même pour les transformations et traitements (Infrastructures distribuées ; Memtables). 5 7

Il a fallu sortir des schémas historiques des bases de données, dites relationnelles, afin de pouvoir distribuer le stockage et le traitement de ces données. La quantité n est d ailleurs pas le seul défi à gérer dans l approche, il y a aussi et surtout la richesse et l hétérogénéité des sources qui nous mettent face à des données déstructurées comme des textes, de la vidéo, des données sonores, en provenance du milieu de la santé, d un appareil mobile, ou d une caméra de vidéosurveillance 6 L approche centralisée du stockage doit maintenant faire de la place à un modèle de stockage qui s adapte au cycle de vie de la donnée et à sa complexité 7. Et même si aujourd hui il s agit de manager du contenu déstructuré, les plus avancées des entreprises aux stratégies data-driven font face à l étape suivante : quelles données tirer de ces milliards d appareils mobiles ou senseurs en général qui feront la valeur de nouveaux services, et nouvelles analyses, demain. DES DIFFICULTES MANAGERIALES ENCORE FLOUES Mais qui dit nouvelles techniques et technologies pose alors la question des nouveaux savoirs et savoir-faire nécessaires pour les mettre en place, les exploiter. Ce changement de paradigme demande aux professionnels de gérer le chaos avec de nouveaux profils et de nouvelles expertises 8, là où auparavant nous avions un milieu organisé. Comme énoncé plus haut, c est d abord un défi technique qu il faudra traiter avec le recrutement de profils experts. Bien que les solutions créées soient d une richesse et complexité importantes, les éditeurs et fournisseurs sont au rendez-vous. Reste alors à former des professionnels aux compétences adéquates. Mais la question n est pas seulement technique. Le traitement des données affecte directement la stratégie de l entreprise. Le problème de management est donc transverse et chamboule les modèles établis : une DSI et un métier travaillant avec des interfaces ; des projets souvent menés en cycle en V ; des compétences techniques et métiers imperméables entre les collaborateurs. On entrevoit alors le problème de management sur lequel il faudra que l entreprise tranche pour prendre le meilleur du point d inflexion stratégique le plus important depuis internet : Le Data Scientist est le nouveau métier consacré, central, et pivot d une révolution business en marche 9. Quelles compétences techniques, business, méthodologiques et humaines doitil avoir? Face à une problématique aussi technique que business, où doit-on placer ces compétences dans l entreprise? De quelle typologie de management, de gestion des interactions, et de quels processus doiton entourer ces compétences pour optimiser leur création de valeur et impact business? La structure et la culture de l entreprise devrait-elle être conduite vers le changement afin de mieux s adapter à cette donne? 8

LIEN ENTRE LE SUJET CHOISI ET LA MISSION EN ENTREPRISE TOTAL, 1 ère entreprise française du CAC40, 25 ème compagnie mondiale (Forbes) tous secteurs confondus, se divise en trois entités : une branche extraction ; une branche raffinage et chimie ; et une branche marketing et services. Cette dernière est un retailer de produits pétroliers et de services associés. Comme tout retailer, elle fait face aux enjeux de la fidélisation et de la montée en valeur des services fournis aux clients. Employé chez CGI depuis plus d un an, je fais parti d une structure innovante accolée à une TMA historique prenant en charge la maintenance du data warehouse de TOTAL Marketing & Service. Cette structure, BING (BI Next Generation) a pour objectif d accompagner TOTAL M&S dans le virage vers l entreprise numérique de demain assouplissant le cadre d une relation client fournisseur qui parfois peut entraver une agilité nécessaire dans le milieu incertain de l innovation. BING a été créé comme un laboratoire d innovation, un bac à sable permissif pour les expérimentations potentiellement créatrices de valeur. Dans ce cadre, j ai pu m intéresser à chacun des chaînons de la Business Intelligence générique : acquisition ; transformation ; restitution. Naturellement, l objectif était de coller aux besoins des métiers et d aller au-delà dans la montée en valeur lorsque c était possible. Un projet de segmentation client a permis d effleurer les problématiques qu un Data Scientist rencontrerait dans son installation et l exploitation des données dans une grande entreprise. 9

PARTIE THESE METHODOLOGIE PRESENTATION DE LA METHODOLOGIE Centrée sur le Data Scientist, il est nécessaire de comprendre l ensemble des facteurs influençant son action dans l environnement complexe de l entreprise. Le recueil d informations, l analyse, l émission d hypothèses et de réponses aux questions précédemment énoncées se font en mettant en perspective chacune de ces étapes avec la complexité de ce système. La première étape est donc de définir cet environnement en caractérisant chacun des éléments participants. Cette étape est en fait le choix d un modèle sur lequel est basée l étude. Ensuite, il est nécessaire de placer le Data Scientist dans ce système afin de comprendre quelles sont les influences autour de lui. Grâce à cela, il sera possible de construire un modèle centré sur le Data Scientist, entouré des éléments qui l influencent. D autre part, une des étapes cruciales de cette thèse est dans le recueil de données et informations tant qualitatives que quantitatives. Ces informations nécessitent d être organisées et classées pour faciliter leur analyse et leur réutilisation lors de l écriture d un recueil de recommandations. C est pour cette raison qu un système de classement en accord avec le premier modèle est réalisé. Cela permet, une fois le recueil terminé de revenir au premier système qui tient compte de toute la complexité de l environnement de l entreprise. LE MODELE Le Data Scientist, par sa technicité et les ressources qu il utilise, est fortement emprunté d un rôle IT tant par son champ d action que par ses compétences et les ressources dont il a besoin pour évoluer. De plus, le bouleversement des pratiques et des business models expliqué dans l introduction nécessitent des évolutions culturelles importantes qui vont de pair avec des contraintes sociales et sociologiques qu il faut donc intégrer. C est pour cette raison que le modèle de base retenu pour cette étude est celui proposé de manière générique dans le manuel «MIS Problems and Failures: A Socio-Technical Perspective» de Robert P. Bostrom and J. Stephen Heinen. 10

Process People Strategy Technology Structure Technical System Social Figure 1 : «MIS Problems and Failures: A Socio-Technical Perspective», Robert P. Bostrom and J. Stephen Heinen Ce système, centré sur la stratégie de l organisation, se divise en deux sous-parties dépendantes qui se différencient par leur nature. En effet le sous-système technique comprend les appareils, les outils et les techniques qui permettent de transformer de l entrée vers la sortie en améliorant la performance économique de l entreprise le plus efficacement possible. Le sous-système social quant à lui comprend tous les employés, les connaissances, les compétences, les attitudes, les valeurs et les besoins qu ils apportent au système. Cet axiome, nous permet d isoler le Data Scientist en son sein. Celui-ci est considéré comme une «Personne». Afin d étudier l entité «Data Scientist» il est nécessaire d en tirer un nouveau modèle centré sur lui, en l entourant des éléments du sous-système qui l alimentent ou le modifient. Structure People Strategic Goal Process Data Scientist Technology 11

Ce modèle d étude est donc une réinterprétation dérivée utilisant les mêmes éléments que le modèle retenu plus haut. Enfin, comme expliquer plus haut, l analyse du Data Scientist permet d alimenter le modèle ci-dessus. Ainsi, six axes d analyse du DS sont retenus : Missions Comment Caractéristiques Data Scientist Quand Rôles Placement 12

RECUEIL D INFORMATIONS POUR ALIMENTATION DU MODELE Comme expliqué dans l introduction, le Data Scientist est un nouveau métier. Son actualité et les écrits de valeur restent pauvres. Afin de mettre en lumière toutes les faces du prisme du sujet, le recueil d information fait appel à quatre sources : - Etude d offres d emploi - Interview - Etude de cas - Revue de littérature Ces quatre sources d informations permettent de mêler un recueil d informations qualitatives par les interviews, les études de cas, et la revue de littérature, avec un recueil d informations quantitatives grâce à l analyse des offres d emploi. De part la récence du sujet et la spéculation qui s est installée autour de celui-ci, il est important de récupérer les deux types d informations afin d éviter le piège d une mauvaise interprétation qualitative. Pour classer et analyser plus facilement les informations recueillies, voici la grille retenue pour alimenter les six axes d évaluation du Data Scientist : Axes de recherche Analyse Lexicale Interview 1 Interview 2 Interview 3 Etude de cas 1 Etude de cas 2 Missions Caractéristiques Rôle Placement Quand Comment Ces six axes se logeront ensuite dans un modèle logique basé sur le premier présenté et enrichi si besoin. OFFRES D EMPLOI Afin de mieux cerner les éléments qui constituent un Data Scientist, une analyse des offres d emploi proposées permet un recueil d information efficace et de mieux cerner les attentes des entreprises confrontées à ce nouveau rôle. Trois types de sources d offres sont retenus : - Sites de recherche d emploi généralistes 13

- Sites de recherche d emploi spécialisés dans les technologies de l information - Sites institutionnels d entreprises spécialisées dans l analyse de données Le mot clé cherché est «Data Scientist». En effet, il convient de faire la distinction entre le poste de Data Scientist, Data Miner ou BI Analyst. Type Sites retenus Nombre d annonces Sites de recherche d emploi généralistes Indeed, Monster, Apec 35 Sites de recherche d emploi spécialisés dans les technologies de l information LesJeudis, Jobtic 4 Sites institutionnels d entreprises spécialisées dans l analyse de données Amazon, Google, IBM, VMWare, Yahoo 39 TOTAL 78 La démarche de qualification des annonces ainsi récupérées a été réalisée grâce au logiciel NVivo. Le but est de compter les occurrences de mots afin de détecter les éléments communs entre les annonces et ainsi dégager des caractéristiques importantes du Data Scientist. L emploi de Data Scientist n est fait que par des entreprises qui sont suffisamment avancées pour le faire, d où la logique de cette démarche. Voici la retranscription des 150 mots les plus utilisés dans les annonces (mots de liaisons, ou jugés inutiles, exclus) : Mot Nombre Pourcentage pondéré (%) data 389 1,69 experience 171 0,74 business 132 0,57 research 131 0,57 learning 93 0,40 machine 84 0,36 work 79 0,34 skills 76 0,33 14

données 74 0,32 team 72 0,31 google 71 0,31 solutions 69 0,30 scientist 66 0,29 science 63 0,27 analytics 60 0,26 analysis 59 0,26 products 55 0,24 software 51 0,22 world 50 0,22 information 49 0,21 techniques 49 0,21 technologies 49 0,21 description 48 0,21 development 47 0,20 knowledge 47 0,20 yahoo 47 0,20 clients 46 0,20 large 46 0,20 product 46 0,20 degree 45 0,20 profil 45 0,20 computer 44 0,19 design 44 0,19 management 42 0,18 problems 42 0,18 qualifications 42 0,18 services 42 0,18 ability 41 0,18 modeling 41 0,18 statistical 41 0,18 strong 41 0,18 technology 41 0,18 engineering 40 0,17 systems 40 0,17 algorithms 39 0,17 mining 38 0,16 across 36 0,16 projects 36 0,16 python 36 0,16 statistics 36 0,16 votre 36 0,16 formation 35 0,15 marketing 35 0,15 related 35 0,15 scale 35 0,15 using 35 0,15 working 35 0,15 algorithmes 34 0,15 develop 34 0,15 teams 34 0,15 15

équipe 34 0,15 développement 33 0,14 poste 32 0,14 recherche 32 0,14 analytical 31 0,13 help 31 0,13 mobile 31 0,13 performance 31 0,13 scientific 31 0,13 user 31 0,13 java 30 0,13 statistiques 30 0,13 technical 30 0,13 environment 29 0,13 expertise 29 0,13 missions 29 0,13 outils 29 0,13 security 29 0,13 tools 29 0,13 labs 28 0,12 required 28 0,12 search 28 0,12 communication 27 0,12 organization 27 0,12 company 26 0,11 expérience 26 0,11 language 26 0,11 partners 25 0,11 place 25 0,11 reporting 25 0,11 high 24 0,10 société 24 0,10 analyzing 23 0,10 customers 23 0,10 including 23 0,10 intelligence 23 0,10 quality 23 0,10 responsabilités 23 0,10 understanding 23 0,10 apply 22 0,10 build 22 0,10 closely 22 0,10 drive 22 0,10 entreprise 22 0,10 hadoop 22 0,10 scientists 22 0,10 service 22 0,10 compétences 21 0,09 engineers 21 0,09 leader 21 0,09 model 21 0,09 opportunity 21 0,09 16

preferred 21 0,09 programming 21 0,09 quantitative 21 0,09 users 21 0,09 based 20 0,09 insights 20 0,09 like 20 0,09 status 20 0,09 time 20 0,09 academic 19 0,08 areas 19 0,08 committed 19 0,08 employment 19 0,08 fluent 19 0,08 location 19 0,08 mathématiques 19 0,08 methods 19 0,08 models 19 0,08 provide 19 0,08 vmware 19 0,08 applications 18 0,08 demonstrated 18 0,08 global 18 0,08 highly 18 0,08 matlab 18 0,08 modèles 18 0,08 nouveaux 18 0,08 online 18 0,08 participate 18 0,08 traitement 18 0,08 analyse 17 0,07 client 17 0,07 community 17 0,07 connaissances 17 0,07 content 17 0,07 create 17 0,07 Leur classement selon les 6 axes alimente l analyse et permet déjà de tirer des conclusions : Axe de recherche Missions Caractéristiques Rôle Placement informations business, products, clients experience, business, research, machine learning, team, analytics, software, world, techniques, technologies, clients, computer, management, design, modeling, statistical, engineering, systems, technology, algorithmique, data mining, python, marketing, développement, analytical, mobile, scientific, java, communication, langage R, reporting, hadoop, insights, mathématiques, matlab, leadership business, research, world business, products, across, marketing 17

Quand Comment Experience research, labs Cette analyse nécessite de prendre de la hauteur. Le comptage de mots sortis de leur contexte ne permet pas d avoir l entièreté du sens qui leur est attaché. Cependant, nous pouvons constater un champ lexical le plus souvent accolé à une annonce d emploi de Data Scientist. Les mots «business», «products» et «customers» (toutes langues confondues) nous conduisent logiquement vers un impact direct avec le cœur du métier de l entreprise. En effet, là où auparavant le service en charge des données pouvait arriver en support des fonctions qui sont en lien direct avec le marché, nous avons maintenant un métier de data scientist au plus proche du marché. Au niveau des savoirs, savoir-faire et savoir-être, l analyse lexicale est particulièrement pertinente puisqu elle fait ressortir des mots spécialisés dont le contexte importe peu. Le data scientist est avant tout un expert technique. Les mots «machine learning, analytics, software, techniques, technology, modeling, statistical, engineering, systems, algorithmique, data mining, Python, scientific, Java, langage R, Hadoop, mathématiques, Matlab» nous donnent une bonne vision de l étendue des compétences nécessaires et attendues dans l effectuation du métier d analyste de données. Nous avons donc un scientifique, mathématicien, statisticien, doté de très bonnes connaissances en développement informatique sur divers langage et qui doit être opérationnel sur les nouveaux frameworks et nouvelles plateformes big data. Ensuite, d un point de vue fonctionnel, le Data Scientist doit être armé pour faire bénéficier ses analyses d une bonne connaissance du «business» de l entreprise. Les mots «business, products et customers» nous y conduisent également naturellement. A partir de là, on entrevoit la difficulté d obtenir d une seule et même personne qu il soit un scientifique et un technicien pointu autant qu un professionnel du marché sur lequel son entreprise ou client évolue. Enfin, les qualités humaines attendues d un Data Scientist sont somme toute classiques pour un professionnel qui évolue transversalement dans l entreprise et à un niveau relativement élevé. Il doit être expérimenté, être doté d un bon leadership et d une très bonne capacité de travailler en équipe. Il doit également être doté d une intelligence managériale importante. D un point de vue méthodologique et placement dans l entreprise, les informations recueillies sont d une clarté moins franche. Cependant, sans risque, on peut admettre qu il effectuera un travail de «chercheur», ou du moins en mode «laboratoire» dans l entreprise. En connexion directe avec le «marketing» et de manière «transversale» («across»), sa mission portera sur des marchés internationaux («world»). En conclusion de cette analyse lexicale, on se rend bien compte de la complexité et de la richesse des caractéristiques techniques, fonctionnelles, méthodologiques, et de la personnalité d un Data Scientist. 18

ENTRETIENS Entouré de professionnels accessibles, experts, offreurs ou clients, je peux m appuyer sur leur vision des opportunités et contraintes nouvelles qui s ouvrent. Chacun avec leur prisme, ils ont une idée factuelle de ce que doit apporter un Data Scientist pour répondre à leurs besoins et à celui de leurs clients ou clients internes. LE QUESTIONNAIRE D ENTRETIEN Grâce à un questionnaire d entretien construit autour des 6 axes d analyse énoncés plus haut, il est possible de tirer la substantifique moelle des interlocuteurs interrogés. 1 Missionsd un Data Scientist (Pourquoi) Pourquoi les données changent la donne pour l entreprise dès aujourd hui et demain? De quels avantages l entreprise pourra-t-elle bénéficier? Pourquoi les compétences en entreprises sont insuffisantes actuellement? Pourquoi le rôle du Data Scientist va être prépondérant dans le traitement de la donnée? 2 Rôle (Qui) Comment définissez-vous le rôle du DS dans l entreprise? Comment définissez-vous le rôle du DS auprès de la DSI? Comment définissez-vous le rôle du DS auprès du Métier? 3 Caractéristiques (Quoi) Quelles compétences techniques attribuez-vous au DS? Quelles compétences métier attribuez-vous au DS? Quelles compétences «humaines» attribuez- vous au DS? 4 Placement dans l entreprise (Où) Sous quelle direction placeriez-vous le DS? Géographiquement dans l entreprise, où placeriez-vous le DS (dans quel service, sous quelle direction)? 5 A quelle étape de maturité de l entreprise (Quand) Quels sont les pré-requis que devraient remplir l entreprise avant de se doter d un DS? Comment juger si une entreprise devrait se doter d un DS? 6 Avec quels moyens (Comment) 19

Quel type fonctionnement recommanderiez-vous? (Typologie de management de projet) De quels process entoureriez-vous le DS s il devait y en avoir? Dans quelle mesure les entreprises devraient investir? 7 Ouverture Y a-t-il un point que nous n avons pas abordé qui vous semble important? THIBAUT REBOULLET Métier : Directeur Adjoint chez CGI Responsable Offre Business Intelligence et Big Data Responsable Practice Business Intelligence Expérience : 10 ans de Consulting en Business Intelligence Formation : Mastère spécialisé Grenoble Ecole de Management Ingénieur des SI Axes de recherche Missions Caractéristiques Rôle Informations - Mutation de l'avantage concurrentiel à avoir : connaissance du marché - Mieux comprendre les attentes - Informations plus précises et qui proviennent directement du marché - Informations qui arrivent plus rapidement - Parfois en temps réel - Changement de culture dans l'entreprise (centrée produit vers centrée marché) - Pour y parvenir nécessité d'avoir un nouveau profil technique et métier qui comprend le marché et le produit - Profil qui donne du sens aux données pour les transformer en informations Technologique : outils, statistique, algorithmique - DS spécialisé dans un secteur d'activité : expert métier - Compétence : Curiosité, sens de l'innovation, pas peur du changement, recherche de nouveautés, analytique, travail en équipe - Dépend des organisations : si entreprise qui commercialise un produit alors DS côté métier (4P), si entreprise qui commercialise un service (intangible) 20

alors côté DSI Placement Quand Comment - Sous le digital office ou le data officer porteur de la tranformation digitale de l'entreprise - à défaut, sous le directeur marketing - orienté moyen et long terme : au siège - C'est la stratégie d'entreprise qui dicte ce besoin - Dès que le besoin de transformer le business model est présent - Toutes les entreprises qui gagnent à connaitre le comportement du consommateur, maintenant - Cycles itératifs courts : 1 à 4 mois - Détection de l'opportunité jusqu'au test de l'algorithme : 1 à 3 mois Thibaut Reboullet, fort de ses 10 ans de consulting en Business Intelligence et de sa position actuelle à CGI a déjà dû effectuer la démarche intellectuelle déroulée pour ce sujet. Il a dû l effectuer de manière stratégique et opérationnelle afin d alimenter les offres, et les réponses aux clients pour le compte de CGI. Selon lui, nous sommes dans une mutation des avantages concurrentiels des entreprises. La connaissance de son marché sera prépondérante pour l entreprise dans son aptitude à proposer la bonne réponse à un besoin toujours plus spécialisé, spécifique et complexe. Les entreprises françaises auparavant focalisées sur le produit doivent maintenant s attacher à porter toute leur attention sur le marché. Face à des entreprises anglo-saxonnes qui culturellement étaient déjà plus attentives au marché et à tout ce qui gravite autour du produit, les entreprises françaises doivent surmonter le retard accumulé. Les données peuvent maintenant alimenter et enrichir cette démarche de connaissance du marché plus précisément et plus rapidement. Pour traiter ces nouvelles données, leur afflux plus rapide, et leur importance stratégique et marché, de nouveaux profils doivent être recrutés. Le Data Scientist doit être en mesure de combler cet appel d air. On entrevoit déjà la dimension technique et métier dont il doit être doté afin de transformer les données en informations. Thibaut Reboullet recommande que le Data Scientist soit un technicien expert d un métier et d un secteur d activité. Il devrait être spécialiste en statistique, algorithmique, et maitriser les outils permettant la modélisation des données. En outre, il doit être spécialisé dans un secteur d activité afin de comprendre précisément les facteurs d influence qui interagissent. C est une condition sine qua non sans laquelle il ne lui est pas possible de produire des analyses pertinentes ou d innover en sachant où et quoi chercher. Humainement, le Data Scientist doit être curieux, tourné vers l innovation tout en maîtrisant le changement, toujours apte à travailler en équipe et évidemment analytique. Son rôle est différent suivant si l entreprise commercialise un produit ou un service. Si l entreprise est sur un marché tangible (produit), le Data Scientist devrait être placé au plus proche du métier. A l inverse, si l entreprise évolue sur un marché intangible (service) le Data Scientist devrait être placé côté DSI. Thibaut Reboullet généralise ce placement en le 21