BIG Data et R: opportunités et perspectives

Documents pareils
Introduction à MapReduce/Hadoop et Spark

Big Data et Graphes : Quelques pistes de recherche

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Introduction Big Data

Big Data et Graphes : Quelques pistes de recherche

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Cartographie des solutions BigData

Panorama des solutions analytiques existantes

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Ne cherchez plus, soyez informés! Robert van Kommer

Big Data -Comment exploiter les données et les transformer en prise de décisions?

M2 GL UE DOC «In memory analytics»

Programmation parallèle et distribuée

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

SÉRIE NOUVELLES ARCHITECTURES

BIG DATA en Sciences et Industries de l Environnement

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Programmation parallèle et distribuée (Master 1 Info )

Exemple PLS avec SAS

Les défis statistiques du Big Data

Conserver les Big Data, source de valeur pour demain

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

Les technologies du Big Data

Anticiper et prédire les sinistres avec une approche Big Data

Big Data On Line Analytics

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

HADOOP ET SON ÉCOSYSTÈME

Big Graph Data Forum Teratec 2013

Pentaho Business Analytics Intégrer > Explorer > Prévoir

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Les journées SQL Server 2013

Labs Hadoop Février 2013

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

Change the game with smart innovation

Entreprise et Big Data

Le BigData, aussi par et pour les PMEs

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

À PROPOS DE TALEND...

Programmation parallèle et distribuée

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Kick Off SCC 2015 Comment faire de votre infrastructure de stockage une source d économie? Vers de nouveaux horizons

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

MANIPULATION ET VISUALISATION DE GROSSES BASES DE DONNÉES AVEC R

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

ACCOMPAGNER L EXPLOSION DES VOLUMES DE DONNEES : LES NOUVEAUX ENJEUX DU STOCKAGE

IBM Software Big Data. Plateforme IBM Big Data

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Hadoop, les clés du succès

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

Accès aux données Sentinelles

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Fouillez facilement dans votre système Big Data. Olivier TAVARD

BNP Paribas Personal Finance

Offre formation Big Data Analytics

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Bases de données documentaires et distribuées Cours NFE04

Les quatre piliers d une solution de gestion des Big Data

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

Enjeux mathématiques et Statistiques du Big Data

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Introduction au Data-Mining

Jean-François Boulicaut & Mohand-Saïd Hacid

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Exploration des Big Data pour optimiser la Business Intelligence

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Big Data & HR. Winter Dans quelle mesure le Big Data pourrait op2miser la prise de décision RH. Lynda ATIF 18/06/2015

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Transformez vos données en opportunités. avec Microsoft Big Data

Découverte et investigation des menaces avancées PRÉSENTATION

Bigdata et Web sémantique. les données + l intelligence= la solution

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM

SysFera. Benjamin Depardon

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Big Data et Statistique Publique

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

SAN07 IBM Social Media Analytics:

De à 4 millions. Khanh Tuong

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Surmonter les 5 défis opérationnels du Big Data

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Contents Windows

EMC Forum EMC ViPR et ECS : présentation des services software-defined

Transcription:

BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat, Maroc, h.hajji@iav.ac.ma Résumé. Récemment, de nouvelles techniques ont été proposées pour améliorer le stockage et le traitement de données massives, en s appuyant sur le projet Hadoop et sur la distribution des calculs et de stockage sur un cluster de serveurs. Bien que ces solutions ont permis de résoudre un certain nombre de problèmes, ce n est que le couplage récent entre Hadoop avec le logiciel R qui a permis de donner un nouvel élan pour une meilleure exploitation des données massives. L article explique l architecture de ce couplage, et montre à travers quelques exemples comment les commandes sont exécutées à l intérieur de Hadoop. Mots-clés. BIG Data, Logiciel R, Hadoop, Statistiques, Modélisation Abstract. Recently, new techniques have been proposed to improve the storage and processing of BIG Data, based on the Hadoop project and the distribution of computation and storage on a servers cluster. Although these solutions have solved a number of problems, it is only the recent coupling between Hadoop with R software that has given new impetus to a better exploration of massive data. The paper describes the architecture of this coupling, and shows some examples of how the commands are executed within Hadoop. KeyWords BIG Data, R software, Hadoop, Statistics, Modelling 1 Introduction 1.1 BIG Data L importance prise par le numérique dans le quotidien, a permis de générer des volumes d informations sans cesse plus importants. Selon IBM (Jacobs et Dinsmore(2013)), chaque heure sont générés 2,5 trillions d octets de données, soit 2,5 Po. Il est prévu également que pendant l année 2020 seront générés 35 Zettaoctets, alors que seulement 1 Zettaoctets de données numériques ont été générés par l humanité entre le début de l informatique (1940) et 2010. Formellement, une définition du BIG Data a été proposée pour mieux comprendre ce phénomène de données massives (Davenport et Barth (2012)). Elle est basée sur les trois dimensions: Volume, Vélocité et Variété (ou 3V). 1

Volume : Le volume des données stockées aujourd hui est en pleine expansion. Ainsi, Twitter génère quotidiennement à l heure actuelle 7 teraoctets de données et Facebook 10 teraoctets. Vélocité: Elle représente à la fois la fréquence à laquelle les données sont générées, capturées et partagées. Par exemple, chaque seconde sont émis plus de 500 tweets, ce qui fait 50 millions chaque jour. Variété : En plus des données du types bases de données relationnelles, le Big Data s intéresse également à un nombre important de formats et variétés de données: image, texte, réseaux sociaux, capteurs. Les techniques Big Data doivent répondre à un certain nombre de problématiques, comme l extraction de sens à partir de ces données, et permettre la possibilité de passer d une analyse reporting (du passé), vers une analyse prédictive (futur). 1.1.1 Hadoop comme framework pour le BIG Data Etant donné que les bases de données traditionnelles ne sont pas capable de gérer correctement ce volume important de données, de nouvelles techniques ont été proposées. La plus connue est celle autour du système Hadoop (Anand (2008)). Hadoop est un environnement d exécution distribué, performant et scalable, dont la vocation est de traiter des volumes de données considérables. Il repose sur un principe simple: distribuer les données sur un cluster de serveurs (nœuds de données), et migrer les traitements vers ces nœuds. Cette approche assure une mise à l échelle des algorithmes et des traitements à développer. 1.2 Les techniques statistiques et les données massives Les techniques statistiques et économétriques classiques fonctionnent souvent bien avec des volumes de données moins importants, cependant dès que le volume de données devient important, il y a un certain nombre de problèmes qui apparaissent (Fan et Han (2013)); d abord le volume des données peut exiger des outils de manipulation de données plus sophistiqués. Ensuite, il peut y avoir des estimateurs potentiels plus appropriés pour l estimation, d où le besoin d effectuer une sélection de variables. Également, les données massives peuvent permettre la découverte de relations plus flexibles que de simples modèles linéaires. Des techniques d apprentissage, comme les arbres de décision, SVM, les réseaux neuronaux peuvent permettre des modélisations plus efficaces des relations complexes. Pour un aperçu plus complet des contraintes et défis statistiques liés au BIG Data, voir Fan et Han(2013). 2

2 Outils R pour l analyse des données massives Comme expliqué auparavant, Hadoop représente actuellement le système de référence pour le stockage et le traitement des données massives. En donnant la possibilité aux concepteurs de distribuer leurs algorithmes sur des noeuds de données, Hadoop offre une scalabilité sans précédant aux algorithmes qui demandaient des ressources de plus en plus importantes pour l exécution des applications sur un large volume de données. Néanmoins les développements sur Hadoop nécessitent la réécriture des algorithmes en des modules MapReduce 1 pour pouvoir les partager sur les noeuds de données. Le même problème se pose pour exécuter les algorithmes statistiques sur de grands volumes de données. Il est nécessaire de réécrire les algorithmes statistiques selon le modèle MapReduce pour pouvoir les exécuter avec Hadoop. Récemment, Revolution Analytics 2 a proposé, une extension de Hadoop et R pour permettre aux utilisateurs d utiliser R sur des grands volumes de données, sans être obligé de les réécrire en format MapReduce. Une approche qui permet de cacher la complexité de Hadoop et MapReduce aux utilisateurs de R, et leur permette de se concentrer sur leurs algorithmes et méthodes statistiques. 2.1 Composantes clés de l architecture R avec Hadoop L architecture proposée repose sur l abstraction des difficultés liées aux BIG Data et sur l utilisation de modèles de distributions des algorithmes comme MapReduce. L architecture ainsi proposée (fig. 2) est composée principalement de trois éléments: Figure 1: Composantes clés de l architecture R avec Hadoop DistributedR C est un Framework d exécution parallèle adaptable qui fournit des services incluant les communications, le stockage, la gestion de la mémoire pour permettre aux algorithmes statistiques de ScaleR d analyser rapidement et d être scalable. ScaleR C est ce module qui fournit les algorithmes statistiques optimisés pour une exécution parallèle sur les données massives. 1 le langage de développement de Hadoop 2 http://fournisseur commercial de logiciels et services pour le projet open source R www.revolutionanalytics.com/ 3

ConnectR Permet d établir des connections à plusieurs sources de données, allant d une base de données aux clusters d ordinateurs comme dans le cas de Hadoop. 2.2 Exemples d algorithmes R dans Hadoop Cet article illustre l utilisation de R dans Hadoop à travers un large ensemble de données de presque 120 millions de lignes au total(de 120 gigaoctets) 3. La série de données représente des données des lignes aériennes et se composent des détails d arrivée et des départ de tous les vols commerciaux au sein des Etats-Unis, du 10/1987 à 04/2008. 2.2.1 Fonctionnement des commandes R dans Hadoop Les données sont stockées dans le système Hadoop 4, et distribuées à travers les nœuds de données. L utilisateur en exécutant une commande R, déclenche une distribution de la commande sur l ensemble des nœuds en utilisant le langage MapReduce. Une fois que la commande est exécutée sur l ensemble des nœuds (fig.2), l extension Hadoop se charge pour agréger les réponses et les présenter à l utilisateur de R. Le grand avantage de ce Framework c est qu il permet à l utilisateur d exécuter ses commandes R sans se soucier de la manière avec laquelle elles seront distribuées à travers l ensemble des données. Figure 2: Distribution de la commande rxsummary à travers les nœuds de données 2.2.2 Description des données avec R Pour afficher le résumé des neuf variables qui constituent les données exemples, la commande rxsummary peut être utilisée, avec MyData est la référence aux données distribuées à travers les nœuds de données de Hadoop: 3 Fichier exemple du site de Revolution Analytics www.revolutionanalytics.com 4 Principalement dans le HDFS Hadoop Distributed File System 4

rxsummary(~., mydata) Name Mean StdDev Min Max ValidObs MissingObs Year 2000.6216670 7.2197464 1987 2012 10399755 0 CRSDepTime 13.5039649 4.7525385 0 24 10399755 0 DepDelay 8.1574627 29.2068325-1199 2467 10211531 188224 TaxiOut 15.5218607 10.6178418 0 1439 7632487 2767268 TaxiIn 6.4172542 8.2726772 0 1439 7618449 2781306 ArrDelay 6.5668612 31.6039828-1233 2453 10186272 213483 ArrDel15 0.2000864 0.4000648 0 1 10186272 213483... Number of valid observations: 10399755 Number of missing observations: 0 DayOfWeek Counts Mon 1531219 Tues 1518605 L exécution de la commande rxsummary permet d afficher un résumé sur les différentes variables rencontrées dans les données. Ainsi le nombre d observations valide est de 10399755, et le retard à l arrivée moyen sur toute la période est de presque 6,5 minutes. 2.2.3 Estimation d un modèle linéaire d un large ensemble de données Pour créer un modèle linéaire, le même principe est à appliquer. L utilisateur construit à travers sa commande les différentes variables qu il compte utiliser pour composer son modèle, et laisse au Framework le soin de distribuer la commande sur les noeuds de données, et l agrégation des résultats pour les présenter à l utilisateur. formula <- ArrDel15 ~ DayOfWeek + UniqueCarrier + Origin + Dest + CRSDepTime + DepDelay + TaxiOut + CRSElapsedTime + Distance model <- rxlinmod(formula, trainingdata) summary(model) Estimate Std. Error t value Pr(> t ) DayOfWeek=Mon 9.093e-03 1.685e-03 5.396 6.84e-08 *** DayOfWeek=Tues 4.721e-03 1.696e-03 2.784 0.005373 **... DayOfWeek=Sat -1.872e-03 1.763e-03-1.062 0.288298 DayOfWeek=Sun Dropped Dropped Dropped Dropped CRSDepTime 5.388e-03 1.001e-04 53.855 2.22e-16 *** DepDelay 6.953e-03 1.413e-05 492.024 2.22e-16 *** TaxiOut 1.175e-02 5.671e-05 207.276 2.22e-16 *** CRSElapsedTime -3.392e-03 6.918e-05-49.032 2.22e-16 ***... Distance 4.080e-04 8.370e-48.739 2.22e---- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 L exécution du modèle montre que les variables sont significatives. 5

3 Conclusion et discussions Les techniques Big Data apportent de nouvelles opportunités intéressantes pour les organisations, et de nouveaux challenges aux statisticiens et gestionnaires de données. Bien que le framework présenté dans cet article essaye de montrer une approche qui répond au problème de mise à l échelle des algorithmes statistiques. Il reste néanmoins un certain nombre de contraintes et d améliorations à développer. D un coté, la taille et le volume ainsi que la grande dimensionnalité de données introduisent des défis statistiques qu il reste à résoudre comme l accumulation du bruit, les fausses corrélations, l hétérogénéité et les erreurs de mesures. D autre coté, parallèlement à Hadoop, s est développé un autre framework largement plus performant: le projet Spark (Matei et al (2012)). Bien que l idée de distribuer les calculs sur un ensemble de nœuds de données, a été maintenu comme Hadoop, le framework Spark réalise les calculs distribués directement en mémoire, ce qui accélère nettement les calculs itératives qui sont souvent rencontrés dans les algorithmes statistiques. 5 Bibliographie [1] Matei, Z. Mosharaf, C. Tathagata, D. Ankur, D. Justin, M. Murphy M. Franklin, M. Shenker, S. Stoica, I. (2012), Fast and Interactive Analytics over Hadoop Data with Spark, Number 4 Volume 37, USENIX. [2] Anand, A. (2008), Scaling Hadoop to 4000 nodes at Yahoo! http://goo.gl/8drmq [3] Davenport et Barth, A. (2012), How Big Data Is Different, In MIT Sloan Management Review [4] Jacobs, B. Dinsmore, T.(2013), Delivering Value from Big Data with Revolution R Enterprise and Hadoop, http://www.revolutionanalytics.com/sites/default/files/drivingvalue-from-big-data-rre-hadoop.pdf [5] Fan, J. et Han, F.(2013), Challenges of Big Data Analysis, http://arxiv.org/pdf/1308.1479.pdf 5 Le blog de revolution analytics prévoit une version augmentée de spark avec R au courant de l année 2014 http://blog.revolutionanalytics.com/2013/12/apache-spark.html 6