Laura Roguet, Meryem Ben Mouaz ESCP Europe 24 ans Les entreprises de 2020 seront dirigées par les Data Scientists I «Sexiest job of the century», «Les nouvelles rock stars de l'it», l engouement récent des revues spécialisées pour les data scientists lève le voile sur un métier encore méconnu et un potentiel d emploi inexploité. En 2013, la Maison Blanche a lancé un pro- jet financé à hauteur de 37,8M$, impliquant les univer- sités de New York, Californie- Berkeley et Washington, afin de développer l offre de data scientists parmi les diplômés américains. Un détour historique s impose pour comprendre ce que recouvre ce poste et définir sa place dans l entreprise de 2020. Un demi- siècle de Data Science, des mathéma- tiques au hacking La Data Science, en français la Science des Données, voit sa première mention en 1962 dans l ouvrage de John W. Tukey, The Future of Data Analysis. Les statis- tiques, jusqu alors pré- carré des mathématiques, sont confrontées au développement rapide des computer sciences. Dans les années 1960 et 1970, les pionniers de la culture hacking développent leur propre exper- tise: à la différence des statistiques, qui tendent à ap- pliquer des modèles à une base de données, ces der- niers observent et manipulent la data pour en extraire des modèles. Avec l apparition des codes barres dans les années 1980, les données disponibles aux entre- prises se multiplient en si grand nombre que les mo- dèles statistiques traditionnels ne suffisent plus. Les statisticiens consentent à composer avec les informati- ciens, les data scientists sont nés. A l heure du Big Data, les entreprises collectent des masses de données caractérisées par leur Vélocité, leur Variété et l explosion de leur Volume (les trois V de Gartner). En 2009, Hal Varian, Chief Economist chez Google, déclare au McKinsey Quarterly: La faculté de manipuler des données - être capable de les com- prendre, de les traiter, d en extraire de la valeur, des les visualiser et de les communiquer- voilà une compé- tence qui va être extrêmement demandée dans les prochaines décennies. Le nouveau défi pour 2020 se précise: faire collaborer les data scientists avec les ma- nagers, à l origine des décisions opérationnelles et stratégiques des entreprises. Une évolution du métier liée au progrès et à la dé- mocratisation de ses outils A l horizon 2020, les données disponibles aux entre- prises seront nombreuses, dispersées et protéiformes. Elles proviendront aussi bien des tags usuels (RFID, QR Codes), que des usages du web, des smartphones, tablettes, et objets connectés personnels ou industriels (quantified self, smart cities ). La quantité de données disponibles dans le monde augmente de 40% chaque année, tandis que celle de données stockées augmente de 400% ; à titre d exemple, en 2012, Walmart a collec- té 2,5 petabyte 1 par heure 2. Dans un même temps, les nouvelles solutions de ges- tion et d exploitation de bases de données sont plus intégrées, scalables et efficaces. Au départ, ces techno- logies, qui permettent de collecter des données non traitées et d en harmoniser les formats, ont été déve- loppées par quelques grandes entreprises américaines du web qui en avaient jusqu alors la compétence ex- clusive. Puis l écosystème s est étoffé à mesure que se propageaient les hackathons et la culture geek, tou- jours sous les regards attentifs des leaders établis, comme IBM, Oracle et Amazon. Proposés clé en main et en open source par des déve- loppeurs indépendants comme la Apache Software Foundation 3 ou le projet GNU de la Free Software Foundation 4, ces outils faciles à implémenter et ren- tables se sont démocratisés. 1
A terme, le data scientist interviendra jusqu aux décisions stratégiques de l entreprise Ces technologies permettent d obtenir des données lisibles, mais elles peuvent difficilement être exploitées en l état par les dirigeants. De leur côté, les ingénieurs ne sont pas formés à exprimer des recommandations aux managers à partir de ces ressources. C est le data scientist qui est en mesure d analyser les résultats des requêtes qu il effectue pour les transcrire en proposi- tions concrètes. A titre d exemple, des data scientists d UPS ont étudié les différences de coûts des milliers de trajets de leurs véhicules, afin de les optimiser. Cette étude a révélé qu une stratégie visant à minimiser le nombre de vi- rages à gauche économiserait $30 millions en dé- penses de carburant et l équivalent des rejets de CO2 de 5 300 voitures. Cet exemple illustre le caractère hybride du profil du data scientist, qui mêle compé- tences techniques, curiosité et connaissance du cœur de métier de son entreprise. Les données qu il appréhende dépassent le périmètre du produit ou service de son entreprise. A la manière d un détective, il recherche parmi les informations contextuelles celles qui lui permettront par exemple d identifier des modèles de comportement récurrents ou des segmentations du marché plus pertinentes. En définitive, il sonde les masses de données pour dévoi- ler des opportunités ou des risques contre- intuitifs, afin d optimiser la stratégie globale de l entreprise. Un profil très recherché Dans une étude menée par l entreprise Terradata sur un échantillon de 300 dirigeants européens, 42% des sondés envisagent de recruter un data scientist. Et pourtant, ils sont 62% à regretter un manque de can- didats qualifiés pour ce poste. La majorité des recrutements sont pour l heure tour- nés vers les profils IT. Mais à l horizon 2020, les recru- tements de data scientists s ouvriront plus largement aux nouveaux diplômés et aux professionnels d horizons divers. A ce titre, 35% des dirigeants inter- rogés placent la créativité dans les compétences les plus recherchées pour un data scientist, tandis qu ils sont seulement 20% à citer les compétences mathéma- tiques. Preuve que les exigences ont bien changé, en à peine quelques décennies. 2
3
NOTES 1 1 petabyte 10 15 bytes 2 Big data: The next frontier for innovation, competition, and productivity 3 Hadoop 4 R est le logiciel libre de traitement des données et d analyse statistique le plus répandu SOURCES Rapports «Big data: The next frontier for innovation, competition, and productivity»- McKinsey Global Institute 2011 http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation «Data science in Europe skills gap or emerging talent?» - Terradata 2013 https://site.teradata.com/microsite/data-in-europe/download/0.ashx Wikipedia http://en.wikipedia.org/wiki/cloud_computing http://fr.wikipedia.org/wiki/sun_microsystems http://fr.wikipedia.org/wiki/java_(technique) http://en.wikipedia.org/wiki/ibm_system_r http://fr.wikipedia.org/wiki/gnu_r http://fr.wikipedia.org/wiki/projet_gnu http://en.wikipedia.org/wiki/emarketplace Articles http://hbr.org/2012/10/data- scientist- the- sexiest- job- of- the- 21st- century/ http://www.journaldunet.com/solutions/expert/56293/les- data- scientists- - - nouvelles- rock- stars- de- l- it.shtml http://projecteuclid.org/dpubs?service=ui&version=1.0&verb=display&handle=euclid.aoms/1177704711 http://www.mckinsey.com/insights/innovation/hal_varian_on_how_the_web_challenges_managers 4
http://thegovlab.org/govlab- index- the- digital- universe/ http://www.prognosive.com/node/9 http://lecercle.lesechos.fr/entreprises- marches/high- tech- medias/informatiques/221171791/big- data- est- mode- veritable- revolution http://www.gartner.com/it- glossary/big- data/ http://aws.amazon.com/fr/elasticmapreduce/ http://www- 01.ibm.com/software/data/infosphere/hadoop/ http://compass.ups.com/ups- driver- avoid- left- turns/ http://hbr.org/2013/12/you- may- not- need- big- data- after- all/ar/1 http://blog.sqlauthority.com/2013/10/02/big- data- what- is- big- data- 3- vs- of- big- data- volume- velocity- and- variety- day- 2- of- 21/ http://www.journaldunet.com/solutions/expert/56293/les- data- scientists- - - nouvelles- rock- stars- de- l- it.shtml http://www.forbes.com/sites/sap/2014/01/21/data- scientist- sexiest- job- of- the- century/ http://www.fastcompany.com/3021614/fast- feed/white- house- to- universities- we- need- more- data- scientists http://blog.revolutionanalytics.com/2014/01/in- data- scientist- survey- r- is- the- most- used- tool- other- than- databases.html http://hortonworks.com/blog/how- to- get- started- in- data- science/ http://www.thisisthegreenroom.com/2011/data- science- vs- business- intelligence/ 5