Big Data, Green & Dirty Data

Dimension: px
Commencer à balayer dès la page:

Download "Big Data, Green & Dirty Data"

Transcription

1 PSIR IR (2015) Projet Scientifique d Initiation à la Recherche (PSIR) Big Data, Green & Dirty Data E. Robin, M. Canat, B. Martin, A. Keller, N. Gutowski* Groupe Esaip 18 rue du 8 mai 1945, CS St Barthélémy d Anjou Cedex ARTICLE INFO Article : Créé le 11/02/2015 sur le thème du Big Data et de ses enjeux Mots-clés : Big Data Hadoop Green & Dirty Data Fourth ABSTRACT We live in a world where technology has evolved at a very high speed. Considering that evolution, they have succeeded in being a significant factor in each field and they now represent a major issue for the global economy. However, this has not only advantages. In fact, the growing storage capabilities can be associated with the generation of more and more data and data increasingly big. This gave birth to the new concept of "Big Data", which roughly means all the massive data generated and that can t be processed or analyzed without using special tools. Analysis of these data can predict a "future" and is generally used for decision support, especially in a world in which business is really important. In addition to the technological and economic aspect, Big Data also has an impact on the environment, since it stores the data sometimes over long periods and it requires electrically powered machines. How can we process and analyze all that data? What are the impacts on our society? Is there an effective way to reduce the environmental impact due to Big Data? 1. INTRODUCTION Depuis 1990, les réseaux sociaux se sont petit à petit ancrés dans la vie quotidienne des Hommes. Par leur biais, tous les utilisateurs de l Internet peuvent échanger librement des fichiers de toutes tailles et de tous types. Par exemple, il sera possible d échanger des images sur Instagram ou Facebook, tandis que l on partagera des vidéos sur YouTube. En parallèle, les capacités de stockage informatique ont constamment augmenté, permettant de répondre à la problématique posée par la taille massive des données générées via Internet. Toutes ces données créées, au vu de leur nombre massif, finissent par être stockées sur des serveurs, voire même oubliées/laissées à l abandon sur ces derniers. On peut alors se poser la question suivante : «Comment peut-on traiter et analyser un tel volume de données provenant de différentes sources?» Pour répondre à cette problématique, il est nécessaire d étudier dans un premier temps ce qu est le «Big Data», ses intérêts et les enjeux qui en découlent, dans un second temps, étudier les outils qui permettent de traiter ce phénomène et enfin d analyser l impact environnemental. 2. BIG DATA 2.1. Qu est-ce que c est? Le «Big Data» est le terme qui décrit toutes les données massivement produites et/ou stockées. Pour donner une idée, au début de l humanité jusqu en 2003, l'humanité entière a généré environ 5 exaoctets de donnés. En 2011, nous avons généré le même volume en deux jours, et en 2013 seulement 10 minutes. Comme nous le prouvent ces chiffres, le volume de données générées ne fait que croître de plus en plus chaque année. Elle est due à l'émergence des nouvelles technologies, et surtout des réseaux sociaux qui nous permettent de produire et de stocker de plus en plus de données, telle que des vidéos sur YouTube, ou des photos sur Instagram, etc. *Contact :

2 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) 2 Il est important de ne pas oublier une seule de ces caractéristiques lors du traitement de données. Sans valeur, la donnée n est pas réellement utile ni utilisable. Sans volume, la donnée perd en crédibilité et donc perd en valeur aussi. Sans variété, les analyses ne s appliqueraient qu à un seul type de données, voire une seule source de données, ce qui nous conduirait à des analyses et des résultats similaires, voire identiques. Enfin, sans vélocité, nous ne pourrions pas traiter rapidement l information, ce qui signifie que la donnée ainsi que le résultat obtenu pourraient devenir obsolètes après analyse. En prenant en compte ces 4 caractéristiques, le Big Data peut rapidement devenir une carte maîtresse en influant sur la prise de décision de ceux qui sauront s en servir. Fig. 1. Quelques chiffres à propos du Big Data 2.2. Description détaillée du Big Data Le Big Data est composé d une multitude d informations provenant toutes de sources diverses et variées. Cela peut être des données prélevées d une base de données ou bien tout simplement les informations que tous les utilisateurs divulguent sur les réseaux sociaux Ses enjeux D une manière générale, le «Big Data» est utilisé pour analyser un fait. Par exemple, nous pouvons analyser les sentiments des clients sur un produit en particulier afin de savoir ce qui doit être amélioré, ce qui était bien, etc. Il permet aux fournisseurs de savoir quoi faire pour attirer plus de clients et de changer sa stratégie de marketing. Le savoir est synonyme de pouvoir et ceux qui détiennent le savoir/la connaissance peuvent s adapter à ce qui est attendu d eux. Quels sont les véritables enjeux du Big Data? À l heure actuelle, notre monde devient de plus en plus informatisé ainsi chaque étape de notre vie quotidienne laisse une trace numérique. Ces informations, autrefois jugez inutiles sont désormais le nouvel «Or noir». Le Big Data est devenu un secteur important de l économie du monde informatique. Ce secteur devrait valoir dans les 24 milliards de dollars en 2016 selon une étude de la société d analyse IDC. Fig. 2. Détail concernant le Big Data Comme le décrit l IDC dans l un de ses rapports, big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling the high-velocity capture, discovery, and/or analysis. [1]. À partir de cette définition, on peut alors résumer le Big Data en 4 caractéristiques principales, que l on appelle aussi la règle des «4 V» : - La valeur : ce que l on peut récupérer de la donnée - Le volume : corresponds à la quantité de données - La variété : tous les types de données possibles - La vélocité : la vitesse de traitement des données Un des enjeux principaux du Big Data est l enjeu sociétal, c est-à-dire la récupération de données personnelles par des sociétés non connues et auxquelles les utilisateurs n ont pas donné explicitement leurs accords pour la récupération de ces données. Ces données peuvent semblées anodine tel que le nom, prénom et date de naissance lors d une inscription sur un site de commerce. Mais le cumul de ces informations permet de réaliser un profil très complet. Fig. 3. Les enjeux du Big Data [10]

3 3 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) Par ce procédé, de multiples droits tels que le droit à l oubli, le respect de la vie privée ainsi que d autres ne sont possiblement pas respectés lors de la collecte de ces masses de données. Ces datamasses ont pour but de réaliser un catalogue «humain» des utilisateurs d Internet qui deviennent alors des produits. Mais il existe aussi un autre enjeu qui impacte lui, le monde du travail et de la formation. En effet, le secteur du Big Data vaut de plus en plus, ce qui nécessite de plus en plus de mains d œuvres ainsi que de formateurs. Selon l institut Mc Kinsey Global, le recrutement des États-Unis en analystes Big Data, serait de à travailleurs d ici à Ces offres d emploi nécessitent des compétences technologiques dans le domaine du Big Data mais aussi dans la maîtrise de mathématiques et statistiques de haut niveau ainsi que des compétences en programmations. Pour manipuler ces datamasses, il est nécessaire d avoir de la puissance, et celle-ci est obtenue en combinant de puissants ordinateurs. Mais toutes les entreprises, collectivités ou états utilisant de manière ponctuelle, ces différentes analyses de ces données, ne peuvent posséder un tel équipement. Cela ne serait pas rentable pour eux d investir dans un tel matériel qui ne serait pas utilisé à 100 %. Il existe donc des sociétés, une poignée seulement, qui elles gèrent les données des activités de trading tel que celles de Wall Street, ou les données de gestion du réseau d EDF. Parmi ces sociétés, il y a en toute logique les monstres Google, Microsoft et Amazon, mais il y a aussi des structures plus modestes telles que le CEA (Commissariat à l énergie atomique et aux énergies alternatives) et quelques centres universitaires. Fig. 4. Des chiffres sur l enjeu économique Mais dans ce monde où de plus en plus de nos actions laisse une trace digitale, les quantités de données sont de plus en plus gigantesque! Dans ce cas-là, une entreprise comme Facebook, qui possède un très grand nombre d utilisateurs et qui collectent beaucoup d informations sur chacun d entre eux, ne peut ni stocker en interne ni traiter via les outils classiques d analyse de base de donnée, les données récupérées sur ses utilisateurs. Cette problématique exprime donc un des enjeux du Big Data : l enjeu technologique. Pour répondre à ce besoin, il faut s intéresser au cœur du Big Data, c est-à-dire le calcul distribué qui permet d analyser toute ces masses gigantesques de données Son Avenir Fig. 5. Des chiffres sur le Big Data actuel On peut désormais dire que l année 2014 fût l année du Big Data, mais quid du futur? Selon le cabinet McKinsey, l évolution du nombre d objets connectés serait de l ordre de 400 % pour atteindre 50 milliards! Le volume de données créées par l industrie (entreprises & machines) et par les particuliers croît chaque année de 40 %. Ceci impliquerait une forte augmentation du besoin en spécialiste aux États-Unis, de l ordre de à spécialistes, et pour la France.

4 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) 4 L année 2015, le marché du Big Data sera de 16.9 milliards de dollars, c est-à-dire 5 fois plus qu en Tous les secteurs, tels que le marketing, l assurance, la sécurité, la finance et d autres, auront de nouvelles perspectives grâce à l analyse des datamasses. Dans ces domaines, le Big Data permettra de cibler les clients actuels ou potentiels afin de leur proposer des produits adaptés à chacun. Tout ceci permettra aux industriels d économiser des sommes importantes. Mais le Big Data influencera aussi des domaines du quotidien, tel que la gestion des feux de signalisations afin d améliorer la fluidité du trafic d une ville ou alors de parfaire les prévisions météorologiques. Avec l évolution du Big Data suivra la découverte et création de nouvelles méthodes de traitements et d analyses de l information ce qui pourra révolutionner la science informatique millions d'utilisateurs mettent à jour leur profil au moins une fois par jour - Plus de 1 milliard de photos mises en ligne chaque mois - Plus de 10 millions de vidéos mises en ligne chaque mois - Plus de 1 milliard de contenus partagés chaque semaine (liens, notes, photos...) Le traitement en masse des données ne dépend pas que du secteur du numérique. En effet, cette manipulation est utilisée dans d'autres domaines notamment dans celui de la recherche. Dans le domaine scientifique, la recherche avance vers le stockage de l'adn humain. Le volume associé représenterait 100 Go de données soit l'équivalent de photos [23]. L'objectif étant pour les chercheurs de comprendre les mutations génétiques et le processus biologique. De plus, le fait de comparer deux génomes (un sain et un autre atteint d'une tumeur) représente le traitement de 1 To de données non compressées. Un million de génomes équivaudraient à analyser 1 Exaoctet. Dans un autre domaine scientifique, l'observatoire Solaire de la NASA capture environ 1.6 To de données chaque jour contre 140 To pour le «Large Synoptic Survey Telescope». Hadoop embarque MapReduce. Il s'agit de l'élément central du traitement des données. MapReduce effectue des travaux de pré manipulation en vue d'accélérer l'accès aux données lors des différentes requêtes. Chaque donnée est représentée sous la forme d'une <clé, valeur>. La première opération est le «Map». Il s'agit de retrouver toutes les occurrences d'une clé donnée. Les travaux parcourent l'ensemble des sources de données puis réalisent un mappage d'une ou plusieurs clés. La figure 1 représente un exemple de cette opération. Fig. 6. Des chiffres sur l avenir du Big Data 3. HADOOP 3.1. Hadoop ou comment traiter du Big Data? Hadoop est une technologie basée sur la technologie MapReduce de Google. Elle est utilisée en vue de traiter de grandes quantités de données non structurées. Les études montrent que la quantité de données générée chaque jour augmente de façon exponentielle (la quantité de données double chaque 18 mois) [21]. Ce phénomène est dû en partie aux réseaux sociaux. En effet, Facebook est un acteur majoritaire dans le secteur du numérique. L'entreprise permet l'échange et le traitement de données à grande échelle à travers le monde entier. Facebook génère des données en grande quantité [22] : Fig. 7. Opération «Map» Ici, le travail associé à cette opération de «Map» cherche l'ensemble des clés correspondantes à 1949, 1950,1951. On remarque que pour une clé donnée, plusieurs occurrences apparaissent. C'est le point d'entrée avant la seconde opération : le «Reduce». Lors d'une opération «Reduce», les travaux associés vont reprendre les résultats du «Map». L'objectif ici est de réduire l'ensemble des données en incluant les valeurs au sein d'une seule et même clé. C'està-dire que pour une clé K on retrouvera les valeurs X, Y, Z associées.

5 5 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) Des études ont été réalisées [24] mais nous ne tiendrons compte que des réalisations de tests sur de grandes données, pour rester en lien avec le Big Data. Tout d'abord, l'expérience commence avec une requête de type «Scan». Celle-ci vise à obtenir un ensemble de données à partir d'une requête simple. Fig. 8. Opération «Reduce» La figure 8 montre qu'avec l'ensemble des données repérées par l'opération «Map», il est possible de les regrouper et d'éviter la redondance de clé. Pour un ensemble de clés, valeurs suivantes : <1,a> ; <2,b> ; <3,c> ; <3,i> ; <1,k> ; <3,o> L'opération de «Reduce» retournera le nouvel ensemble de clés valeurs suivant : <1,[a k]> ; <2,[b]> ; <3,[c i o]> L'algorithme de recherche de valeur sera plus rapide car il n'aura pas à rechercher chacune des clés avant de pouvoir traiter la donnée. Une seule opération sera nécessaire au lieu de n fois le nombre de clés grâce au prétraitement de MapReduce Un environnement modulable L'écosystème Hadoop permet de traiter plus rapidement des données. Pour ce faire, des modules doivent être inclus en vue de ce traitement. Par défaut, Hadoop embarque les éléments suivants : Fig. 9. Résultats d une requête «Scan» Pour obtenir les résultats présentés dans la figure 9, une requête sur les données «SELECT pageurl, pagerank FROM rankings WHERE pagerank > X» a été effectuée. On peut dès cette requête s'apercevoir que le data warehouse HIVE inclus dans Hadoop n'est pas le plus rapide pour exécuter cette requête. Shark-mem arrive en tête avec un temps d'exécution de 3.6 secondes. Sharkmem utilise le cache afin de pouvoir stocker les tables en entrée et les tables en sorties. L'étude se poursuit avec une requête de type «Agrégation». - OOZIE : système de planification des tâches de traitements. - PIG : plate-forme d'analyse de données. - HIVE : data warehouse de Hadoop pour la gestion de grandes données. - HBASE : base de données de Hadoop. - MAPREDUCE : algorithme de mappage des données et de réduction des associations. - HDFS : système de fichiers distribué de Hadoop. L'écosystème Hadoop est facile et rapide à mettre en œuvre, d'où une implémentation classique utilisée dans les entreprises manipulant de grosses données. Cependant, dans cette utilisation classique, on peut constater certains axes d'amélioration possible. Prenons par exemple, le cas de «HIVE», représentant le data warehouse de Hadoop par défaut, il en existe d'autres pouvant être incorporés à la solution et se substituer à HIVE. Des tests ont été effectués en vue de comparer la vitesse d'exécution de ce data warehouse avec d'autres produits sur le marché. Ces tests représentent différentes requêtes pouvant être effectuées sur le data warehouse. Fig. 10. Résultats d une requête «Agrégation»

6 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) 6 La figure 10 montre les résultats de la requête «SELECT SUBSTR(sourceIP, 1, X), SUM(adRevenue) FROM uservisits GROUP BY SUBSTR(sourceIP, 1, X)». HIVE est encore le plus lent pour traiter cette requête. Redshift retourne la réponse le plus rapidement. Il s'agit d'un produit propriétaire d'amazon. Ici, il est utilisé avec l'ensemble de ses paramètres par défaut. Shark vient se positionner en deuxième position pour ce test. Le test suivant propose l'analyse d'une opération de requête de jointure. La requête utilisée est la suivante : «SELECT sourceip, totalrevenue, avgpagerank FROM (SELECT sourceip, AVG(pageRank) as avgpagerank, SUM(adRevenue) as totalrevenue FROM Rankings AS R, UserVisits AS UV WHERE R.pageURL = UV.destURL AND UV.visitDate BETWEEN Date(` ') AND Date(`X') GROUP BY UV.sourceIP) ORDER BY totalrevenue DESC LIMIT 1» La démonstration souhaite évaluer le temps d'exécution d'une requête multiple. des requêtes sur son data warehouse. Sachant que HIVE s'exécute avec MapReduce, on peut émettre certaines hypothèses selon lequelles soit le data warehouse joue un rôle important dans l'obtention des résultats soit il s'agit de l'algorithme lui-même qui est à prendre en compte. Il serait intéressant de pouvoir réaliser ces mêmes tests en incluant l'algorithme MapReduce à Shark. On pourrait alors voir s'il s'agit d'un dat warehouse performant ou d'un algorithme de traitement des données efficace. 4. LES DIRTY ET CLEAN DATAS 4.1. Que sont les «Dirty data» et leur inverse les «clean data»? Avec le Big Data et sa quantité impressionnante de données enregistrées tous les jours ; il est normal que des erreurs s y glissent. Ce sont les Dirty data. Elles peuvent être dues à des entrées utilisateur incorrectes, des fautes de frappe, un mauvais champ de formulaire renseigné ou bien une fusion de plusieurs bases de données. Mais elles peuvent aussi être générées par une mauvaise méthode de stockage ou un mauvais traitement logiciel. Ci-dessous une liste non exhaustive de dirty data : La donnée incorrecte Pour s'assurer de la validité de la donnée, il est nécessaire de vérifier que l'entrée utilisateur correspond au type de donnée requis. La donnée imprécise quelques fois la donnée sera correcte mais imprécise, ce qui la rend peu valable. La donnée qui contredit une règle métier Ex. : Une date d'expiration plus ancienne que la date de création. Fig. 11. Résultats d une requête «Jointure» On constate que Redshift est encore le data warehouse le plus rapide devant Shark mem. HIVE arrive en dernière position. Par la représentation de ces tests, on peut en conclure que les solutions Shark-mem et Redshift(HDD) sont les plus efficaces dans le traitement d'un volume important de données. Redshift semble être une solution de substitution à HIVE. Cependant, cette solution n'incorpore pas le traitement de scripts à distance contrairement à Shark-mem. Les deux solutions sont compatibles avec le système de fichier de HADOOP (HDFS). Le data warehouse Shark a été utilisé avec son algorithme de traitement Spark. Il utilise le langage SQL afin de réaliser Les données contradictoires : la non-vérification des données entraine la création de données qui se contredisent. Les données incomplètes : Les données enregistrées avec des champs manquants. Les doublons : Ce sont les données enregistrées plusieurs fois. Selon une étude menée par «Experian Data Quality [25]» (Experian Data Quality, 2014) 94% des entreprises admettent avoir des doublons et 92% que les données utilisateurs pourraient être erronés. 91% des entreprises interrogées pensent que les dirty data ont causée des pertes financières dans l année écoulée. C est en moyenne 12% du budget qui est perdu à cause de ces données de mauvaise qualité. Cette perte est due au temps humain perdu à rechercher l information ainsi qu à la perte financière brute causée par ces erreurs.

7 7 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) Pour améliorer la qualité de ces données on utilise le Data Scrubbing ou Data cleansing. Ce processus d amélioration peut consister à corriger des fautes de frappe ou bien à valider la donnée par rapport à une liste connue de données «saines». Certains algorithmes dédiés à cette tache analysent les données pour en comprendre la logique et remontent une alerte pour chaque donnée qui lui parait «anormale» dans son contexte. De plus en plus d entreprises fournissent des logiciels de «Data Cleansing». On peut citer Google avec son «Google refine», SQLPower avec DQguru, ou bien encore «Data Cleaner» qui est une solution open source. Les limites de ces logiciels sont qu ils demandent beaucoup de temps de fonctionnement et des ressources matérielles importantes ; de plus une vérification manuelle est préférable pour éviter de créer des mauvaises données supplémentaires. Il est nécessaire de limiter l utilisation de ces logiciels uniquement aux données nouvellement insérées dans la base, pour un souci évident de gain de temps/argent. On peut citer les bonnes pratiques suivantes pour garder ses données propres. Établir des standards pour la saisie de données. Prévenir l enregistrement de doublons Mettre les informations existantes à jour plutôt que de recréer une entrée. Si les données sont le pétrole de demain le data cleansing sera le raffinage. 5. CONCLUSION En résumé, le Big Data est un ensemble de données massivement générées qui ne peuvent être ni traitées, ni analysées telles qu elles sont. Etant donné qu elles proviennent de sources différentes, ces dernières peuvent décrire un même type de données mais sont définies par des normes différentes (par exemple, une date année/mois/jour et une autre date jour/mois/année) ce qui rend donc l analyse et la relation entre les données très complexes. C est ce que l on appelle les Dirty Data. Ces données sont traitées par des outils spécifiques tels que Hadoop par exemple, se servant d un algorithme de calcul appelé MapReduce, qui va permettre entre autre de regrouper des données similaires afin de les traiter plus rapidement. De ce traitement de données découle l analyse de ces mêmes données. Elle permet d étudier certains comportements et de prévoir certaines réactions, ce qui donne à celui qui est capable de les analyser le pouvoir d anticiper. Par l anticipation, on est capable de connaître par exemple la réaction d un consommateur face à un changement spécifique du produit. Cette capacité représente en soi un enjeu économique pour les grandes firmes vis-à-vis de leurs clients. De plus, l analyse de données traitées se fait beaucoup plus rapidement que celle de données non traitées/triées. Or, il est nécessaire de faire fonctionner des machines pour cela, ce qui signifie que plus les calculs seront brefs, moins cela aura d impact sur l environnement. REFERENCES [1] Gantz J, Reinsel D (2011) Extracting value from chaos. IDC iview, pp 1 12 [2] Datafloq Connecting Data and people Disponible : https://datafloq.com/ [3] Edd Dumbil. (1/14/2014) The Data Lake Dream. [En ligne] Disponible :http://www.forbes.com/sites/edddumbill/201 4/01/14/the-data-lake-dream/ [4] Matt Turck, The state of big data in 2014, Disponible: [5] IBM Insight 2014 by the numbers Disponible : numbers [6] Pratt Institute - City by Numbers: Big Data and the Urban Future. Disponible:https://www.pratt.edu/events/single/?id= [7] Pratt Institute - City by Numbers: Big Data and the Urban Future. Disponible:https://www.pratt.edu/events/single/?id= [8] Susan Hutton - Twitter, Big Data, and Jobs Numbers. Disponible:http://www.lsa.umich.edu/lsa/ci.twitterbigdat aandjobsnumbers_ci.detail [9] Jeff Bertolucci IMB s Predictions : 6 Big Data Trends in Disponible : [10] Future Mag - Big Data - Préparez-vous à la révolution!. Disponible : [11] Future Mag - Les enjeux du big data Disponible : [12] Arte Volet I : Big Data I : des données à vitesse grand V Volet 2 : Big Data II - Bienvenue dans le monde des Yottaoctets Volet 3 : Big Data III - Moi, l'octet Disponible : [13] Phillipe Rigaux CNAM - Big data, décodage et analyse des enjeux. Disponible :http://recherche.cnam.fr/equipes/sciencesindustrielles-et-technologies-de-l-information/big-datadecodage-et-analyse-des-enjeux kjsp [14] Blandine Laffargue Corp Events - Les nouveaux enjeux du Big Data. Disponible :http://www.bigdataparis.com/2014/enjeuxbig-data-blandine-laffargue.php [15] Didier Gaultier JDN - Les enjeux du Big Data dans la connaissance client en Disponible :

8 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) 8 s-enjeux-du-big-data-dans-la-connaissance-client-en shtml [16] Alexandre Dolique JDN - Le Big Data se démocratise : impacts et enjeux sur l organisation des entreprises. Disponible :http://www.journaldunet.com/solutions/expe rt/58779/le-big-data-se-democratise---impacts-et-enjeuxsur-l-organisation-des-entreprises.shtml [17] Data business - BIG DATA : Définition, Enjeux, Etudes de cas.disponible : [18] L Usine Nouvelle - Infographie : Big data, un marché à 100 milliards de dollars. Disponible : digitale.fr/article/infographie-big-data-un-marche-a-100- milliards-de-dollars.n [19] Transformation Digitale - Infographie : le Big Data, un défi incroyable. Disponible : analytics/infographie-le-big-data-un-defi-incroyable_a html [20] Michael Meyers - BIG DATA Take a Look at the Numbers. Disponible : %E2%80%93-take-look-numbers [21] «Big Data, big leap?»,2014, Jean-Baptiste HEITZMANN, Talend [22] 9_presentations/keynotes/DhrubaBorthakur- Hadoop_File_System_Architecture_Facebook.pdf [23] Big data, Hadoop and cloud computing in genomics by Aisling O Driscoll, Jurate Daugelaite, Roy D. Sleator [24] https://amplab.cs.berkeley.edu/benchmark/ [25]

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages 1 Mehdi LOUIZI Plan Pourquoi Hadoop? Présentation et Architecture Démo Usages 2 Pourquoi Hadoop? Limites du Big Data Les entreprises n analysent que 12% des données qu elles possèdent (Enquête Forrester

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

La rencontre du Big Data et du Cloud

La rencontre du Big Data et du Cloud La rencontre du Big Data et du Cloud Libérez le potentiel de toutes vos données Visualisez et exploitez plus rapidement les données de tous types, quelle que soit leur taille et indépendamment de leur

Plus en détail

Le BigData, aussi par et pour les PMEs

Le BigData, aussi par et pour les PMEs Parole d expert Le BigData, aussi par et pour les PMEs Stéphane MOUTON, CETIC Département Software and Services Technologies Avec le soutien de : LIEGE CREATIVE Le Big Data, aussi par et pour les PMEs

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

Les défis statistiques du Big Data

Les défis statistiques du Big Data Les défis statistiques du Big Data Anne-Sophie Charest Professeure adjointe au département de mathématiques et statistique, Université Laval 29 avril 2014 Colloque ITIS - Big Data et Open Data au cœur

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

KARMA Le système de Revenue Management d'air France KLM avec Hadoop

KARMA Le système de Revenue Management d'air France KLM avec Hadoop KARMA Le système de Revenue Management d'air France KLM avec Hadoop Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 16 Décembre 2014 Martial AYAS maayas@airfrance.fr 2 Agenda 1. Présentation

Plus en détail

Conserver les Big Data, source de valeur pour demain

Conserver les Big Data, source de valeur pour demain Le potentiel et les défis du Big Data UIMM Mardi 2 et mercredi 3 juillet 2013 56 avenue de Wagram 75017 PARIS Conserver les Big Data, source de valeur pour demain Définir les Big Data Les Big Data à travers

Plus en détail

Introduction Big Data

Introduction Big Data Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue

Plus en détail

L IT, l Immatérielle Transformation. Frédéric Simottel Directeur de la rédaction 01B&T Présentateur de l émission : IT For Business

L IT, l Immatérielle Transformation. Frédéric Simottel Directeur de la rédaction 01B&T Présentateur de l émission : IT For Business L IT, l Immatérielle Transformation Frédéric Simottel Directeur de la rédaction 01B&T Présentateur de l émission : IT For Business PLUS D INNOVATION, PLUS DE SIMPLICITE ET UN MARCHE IT SOUS TENSION Des

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Performances Veille. Système d Information. Semaine 25 du 18 au 24 juin 2012. Numéro 228

Performances Veille. Système d Information. Semaine 25 du 18 au 24 juin 2012. Numéro 228 Performances Veille Système d Information Semaine 25 du 18 au 24 juin 2012 Numéro 228 TABLE DES MATIÈRES LA GÉNÉRATION Y DÉFIE LA DSI... 2 SOLUTIONS LINUX : BIG DATA ET BI OPEN SOURCE FONT BON MÉNAGE 01

Plus en détail

L analytique en temps réel en un clic. Jean-Michel Franco Directeur Marketing Produit @jmichel_franco

L analytique en temps réel en un clic. Jean-Michel Franco Directeur Marketing Produit @jmichel_franco L analytique en temps réel en un clic Jean-Michel Franco Directeur Marketing Produit @jmichel_franco 2015 Talend Inc. 1 1 Dynamiser l entreprise par ses données Les entreprises orientées données 23X plus

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

LE LIVRE BLANC Le Cloud, nouvelle source de performance pour votre entreprise. [ NetExplorer, partage de fichier et travail collaboratif ]

LE LIVRE BLANC Le Cloud, nouvelle source de performance pour votre entreprise. [ NetExplorer, partage de fichier et travail collaboratif ] LE LIVRE BLANC Le Cloud, nouvelle source de performance pour votre entreprise. [ NetExplorer, partage de fichier et travail collaboratif ] LE CLOUD, UNE NOUVELLE SOURCE DE PERFORMANCE POUR VOTRE ENTREPRISE.

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

New Features. Developed by. BPM Conseil - SARL au capital de 70 000 euros - RCS LYON 479 400 129 9, rue Pierre Blanc - 69001 Lyon - France 1/20

New Features. Developed by. BPM Conseil - SARL au capital de 70 000 euros - RCS LYON 479 400 129 9, rue Pierre Blanc - 69001 Lyon - France 1/20 5 New Features Developed by 1/20 Sommaire 1 Introduction... 3 2 Evolutions des studios de développement et améliorations fonctionnelles... 5 3 Portail Vanilla... 6 3.1 Open Street Maps... 6 3.2 Gestion

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

Rational Team Concert

Rational Team Concert Une gestion de projet agile avec Rational Team Concert Samira Bataouche Consultante, IBM Rational France 1 SCRUM en Bref Events Artifacts Development Team Source: Scrum Handbook 06 Décembre 2012 Agilité?

Plus en détail

Jean-François Boulicaut & Mohand-Saïd Hacid

Jean-François Boulicaut & Mohand-Saïd Hacid e siècle! Jean-François Boulicaut & Mohand-Saïd Hacid http://liris.cnrs.fr/~jboulica http://liris.cnrs.fr/mohand-said.hacid Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205

Plus en détail

Services à la recherche: Data Management et HPC *

Services à la recherche: Data Management et HPC * Services à la recherche: Data Management et HPC * Pierre-Yves Burgi et Jean-François Rossignol Division informatique (DINF) * HPC = High-Performance Computing Réunion CIF Sciences du 6.12.11 1/19 Contenu

Plus en détail

Product Platform Development: A Functional Approach Considering Customer Preferences

Product Platform Development: A Functional Approach Considering Customer Preferences Product Platform Development: A Functional Approach Considering Customer Preferences THÈSE N O 4536 (2009) PRÉSENTÉE le 4 décembre 2009 À LA FACULTé SCIENCES ET TECHNIQUES DE L'INGÉNIEUR LABORATOIRE DES

Plus en détail

Conférences invitées

Conférences invitées Conférences invitées The Process of Process Modeling Barbara Weber University of Innsbruck, Austria Barbara.Weber@uibk.ac.at ABSTRACT. Business process models have gained significant importance due to

Plus en détail

FAITES DE LA DONNÉE LE MOTEUR DE VOTRE BUSINESS. Alexandre Vasseur Responsable Avant-Vente Europe du Sud Pivotal, EMC

FAITES DE LA DONNÉE LE MOTEUR DE VOTRE BUSINESS. Alexandre Vasseur Responsable Avant-Vente Europe du Sud Pivotal, EMC FAITES DE LA DONNÉE LE MOTEUR DE VOTRE BUSINESS Alexandre Vasseur Responsable Avant-Vente Europe du Sud Pivotal, EMC 1 Big Data = Volume, Variété, Vélocité et Valorisation Internet des objets Informations

Plus en détail

Bigdata et Web sémantique. les données + l intelligence= la solution

Bigdata et Web sémantique. les données + l intelligence= la solution Bigdata et Web sémantique les données + l intelligence= la solution 131214 1 big data et Web sémantique deux notions bien différentes et pourtant... (sable et silicium). «bigdata» ce n est pas que des

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting NewPoint IT Consulting BIG DATA WHITE PAPER NewPoint Information Technology Consulting Contenu 1 Big Data: Défi et opportunité pour l'entreprise... 3 2 Les drivers techniques et d'entreprise de BIG DATA...

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail

PANORAMA DES MENACES ET RISQUES POUR LE SI

PANORAMA DES MENACES ET RISQUES POUR LE SI PANORAMA DES MENACES ET RISQUES POUR LE SI LEXSI > CNIS EVENT CNIS EVENT 05/11/2013 SOMMAIRE Big Data Cloud Computing Virtualisation 2 BIG DATA Définition Chaque jour, 2,5 trillions d octets de données

Plus en détail

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE) Donner du sens à la science Rechercher Se connecter / S'inscrire Suivre VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE MES THÈMES Types DOSSIER Paru le 15.11.2012 Mis à jour le 29.01.2014 Big Data, la

Plus en détail

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France L Art d être Numérique Thierry Pierre Directeur Business Development SAP France La Transformation Numérique «Plus largement, l impact potentiel des technologies numériques disruptives (cloud, impression

Plus en détail

Big Graph Data Forum Teratec 2013

Big Graph Data Forum Teratec 2013 Big Graph Data Forum Teratec 2013 MFG Labs 35 rue de Châteaudun 75009 Paris, France www.mfglabs.com twitter: @mfg_labs Julien Laugel MFG Labs julien.laugel@mfglabs.com @roolio SOMMAIRE MFG Labs Contexte

Plus en détail

Hadoop, les clés du succès

Hadoop, les clés du succès Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

Intelligence Economique - Business Intelligence

Intelligence Economique - Business Intelligence Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit

Plus en détail

FORMATION HADOOP Développeur pour Hadoop (Apache)

FORMATION HADOOP Développeur pour Hadoop (Apache) FORMATION HADOOP Développeur pour Hadoop (Apache) Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l objet d une demande écrite auprès de Cyrès.

Plus en détail

Testing : A Roadmap. Mary Jean Harrold. Présentation de Olivier Tissot

Testing : A Roadmap. Mary Jean Harrold. Présentation de Olivier Tissot Testing : A Roadmap Mary Jean Harrold Présentation de Olivier Tissot Testing : A Roadmap I. L auteur II. Introduction sur les test : les enjeux, la problématique III. Les tests : roadmap IV. Conclusion

Plus en détail

Les datas = le fuel du 21ième sicècle

Les datas = le fuel du 21ième sicècle Les datas = le fuel du 21ième sicècle D énormes gisements de création de valeurs http://www.your networkmarketin g.com/facebooktwitter-youtubestats-in-realtime-simulation/ Xavier Dalloz Le Plan Définition

Plus en détail

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend 2012 2

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend 2012 2 Big Data: au delà du Buzz Yves de Montcheuil @ydemontcheuil Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend 2012 2 Hype Cycle Gartner Talend 2012 3 Big Data

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction du cours Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

NoSQL Faut-il franchir le pas?

NoSQL Faut-il franchir le pas? NoSQL Faut-il franchir le pas? Guillaume HARRY Journées rbdd Octobre 2015 Sommaire 1. Evolution des bases de données 2. Le mouvement NoSQL 3. Les grandes familles du NoSQL 4. Aller ou non vers le NoSQL?

Plus en détail

Un ACTIF InConToURnABLE PoUR DEs PARTEnARIATs significatifs. social. An ASSeT To meaningful PARTneRSHIPS

Un ACTIF InConToURnABLE PoUR DEs PARTEnARIATs significatifs. social. An ASSeT To meaningful PARTneRSHIPS Le capital Un ACTIF InConToURnABLE PoUR DEs PARTEnARIATs significatifs social capital An ASSeT To meaningful PARTneRSHIPS Présentation des participants participants presentation Fondation Dufresne et Gauthier

Plus en détail

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015 Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS Salon du Big Data 11 mars 2015 Accélération de l innovation +500 +280 Amazon EC2 Container Service +159 AWS Storage Gateway Amazon Elastic Transcoder

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail

Instructions Mozilla Thunderbird Page 1

Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Ce manuel est écrit pour les utilisateurs qui font déjà configurer un compte de courrier électronique dans Mozilla Thunderbird et

Plus en détail

Business Intelligence : le pilotage du cabinet 2.0. - Plénière 2 -

Business Intelligence : le pilotage du cabinet 2.0. - Plénière 2 - Business Intelligence : le pilotage du cabinet 2.0 - Plénière 2 - Business Intelligence : le pilotage du cabinet 2.0 Apprivoiser la Big Data : du conseil juridique & fiscal à l appui stratégique à l Entreprise

Plus en détail

Cloud Computing : forces et faiblesses

Cloud Computing : forces et faiblesses Chapitre 7 Cloud Computing : forces et faiblesses 1. Présentation Cloud Computing : forces et faiblesses Le monde informatique a connu une véritable révolution ces dernières années avec l'apparition d'un

Plus en détail

Collecter les 54 milliards d'euros de bénéfices issus des nouveaux usages de la donnée

Collecter les 54 milliards d'euros de bénéfices issus des nouveaux usages de la donnée Livre Blanc Collecter les 54 milliards d'euros de bénéfices issus des nouveaux usages de la donnée Sponsorisé par : Microsoft Sebastien Lamour mai 2014 QUELS SONT LES NOUVEAUX BENEFICES POTENTIELS ISSUS

Plus en détail

Projet Datalift : retour d expérience sur les standards

Projet Datalift : retour d expérience sur les standards ign.fr Les outils du web Sémantique comme supports des données et métadonnées géographiques Projet Datalift : retour d expérience sur les standards Forum Décryptagéo Marne La Vallée 8 avril 2014 Bénédicte

Plus en détail

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca Une brève introduction aux Données Massives - Challenges et perspectives Romain Picot-Clémente Cécile Bothorel Philippe Lenca Plan 1 Big Data 2 4Vs 3 Hadoop et son écosystème 4 Nouveaux challenges, nouvelles

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL AGENDA 14:15-14:30 Bienvenue & Introduction Jérôme Berthier et Manuel Fucinos 14:30-14:45 Le concept de la Data Viz et

Plus en détail

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Soutenance de projet ASR 27/01/2011 Julien Gerlier Siman Chen Encadrés par Bruno

Plus en détail

Objectif : Programme: Projet coordonné par l Office International de l Eau. Evènement labellisé World Water Forum 6

Objectif : Programme: Projet coordonné par l Office International de l Eau. Evènement labellisé World Water Forum 6 Atelier WaterDiss2.0: Valoriser les résultats de la recherche sur l'eau comme catalyseur de l'innovation. Paris, Pollutec, 1 er Décembre 2011 De 14h à 17h Salle 617 Objectif : L'objectif du projet WaterDiss2.0

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Mathématiques et énergie quelles opportunités dès demain? SMAI 10 Avril 2012

Mathématiques et énergie quelles opportunités dès demain? SMAI 10 Avril 2012 CONFIDENTIEL - Copyright 2012 Clean Horizon Consulting 1 Mathématiques et énergie quelles opportunités dès demain? SMAI 10 Avril 2012 Source: Clean Horizon CONFIDENTIEL - Copyright 2012 Clean Horizon Consulting

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013 Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine

Plus en détail

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 2 Plan Data mining : définition, utilisations et concepts Wolfram Alpha : extraction de données d'un compte

Plus en détail

Vision prospective et obstacles à surmonter pour les assureurs

Vision prospective et obstacles à surmonter pour les assureurs smart solutions for smart leaders Le «Big Data» assurément Rédigé par Pascal STERN Architecte d Entreprise Vision prospective et obstacles à surmonter pour les assureurs Un avis rendu par la cour de justice

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

Les licences Creative Commons expliquées aux élèves

Les licences Creative Commons expliquées aux élèves Les licences Creative Commons expliquées aux élèves Source du document : http://framablog.org/index.php/post/2008/03/11/education-b2i-creative-commons Diapo 1 Creative Commons presents : Sharing Creative

Plus en détail

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée Communiqué de presse Charles-Yves Baudet Twitter: Les clients de Teradata Teradata Corporation peuvent dan.conway@teradata.com tirer parti de plusieurs + 33 1 64 86 76 14 + 33 (0) 1 55 21 01 48/49 systèmes,

Plus en détail

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Big Data. Concept et perspectives : la réalité derrière le buzz Big Data Concept et perspectives : la réalité derrière le "buzz" 2012 Agenda Concept & Perspectives Technologies & Acteurs 2 Pierre Audoin Consultants (PAC) Pierre Audoin Consultants (PAC) est une société

Plus en détail

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement Ne laissez pas le stockage cloud pénaliser votre retour sur investissement Préparé par : George Crump, analyste senior Préparé le : 03/10/2012 L investissement qu une entreprise fait dans le domaine de

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France setting the scene: perspectives on global data and computing e-infrastructure challenges 11dec 14 mark asch MENESR/DGRI/SSRI - France 1 questions The volume, variety and complexity of research data require

Plus en détail

Présentation Société Actulligence Consulting

Présentation Société Actulligence Consulting Présentation Société Actulligence Consulting Conseil et Accompagnement Intelligence économique Veille stratégique e-réputation Actulligence Consulting : Présentation Frédéric Martinet, Consultant indépendant

Plus en détail

CONFÉRENCE WEB 2.0. UPDATE ASBL Michaël Barchy 23 janvier 2013

CONFÉRENCE WEB 2.0. UPDATE ASBL Michaël Barchy 23 janvier 2013 CONFÉRENCE WEB 2.0 UPDATE ASBL Michaël Barchy 23 janvier 2013 POINTS ABORDÉS Qu est-ce que le Web 2.0? Introduction Différents aspects du Web 2.0 Aspects techniques Syndication et agrégation de contenu

Plus en détail

Transformez vos données en opportunités. avec Microsoft Big Data

Transformez vos données en opportunités. avec Microsoft Big Data Transformez vos données en opportunités avec Microsoft Big Data 1 VOLUME Augmentation du volume de données tous les cinq ans Vélocité x10 4,3 Nombre d appareils connectés par adulte VARIÉTÉ 85% Part des

Plus en détail

«Rénovation des curricula de l enseignement supérieur - Kazakhstan»

«Rénovation des curricula de l enseignement supérieur - Kazakhstan» ESHA «Création de 4 Ecoles Supérieures Hôtelières d'application» R323_esha_FT_FF_sup_kaza_fr R323 : Fiche technique «formation des enseignants du supérieur» «Rénovation des curricula de l enseignement

Plus en détail

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group 1 Catherine Chochoy I/T Specialist, IBM Information Management on System z, Software Group Alain Maneville Executive I/T specialist, zchampion, IBM Systems and Technology Group 2 Le défi du Big Data (et

Plus en détail

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Responsable du stage : Nabil Belcaid Le Guyader Chef de projet : Ali Belcaid Déroulement du stage

Plus en détail

SHAREPOINT PORTAL SERVER 2013

SHAREPOINT PORTAL SERVER 2013 Powered by TCPDF (www.tcpdf.org) SHAREPOINT PORTAL SERVER 2013 Sharepoint portal server 2013 DEVELOPING MICROSOFT SHAREPOINT SERVER 2013 CORE SOLUTIONS Réf: MS20488 Durée : 5 jours (7 heures) OBJECTIFS

Plus en détail

Le nouveau visage de la Dataviz dans MicroStrategy 10

Le nouveau visage de la Dataviz dans MicroStrategy 10 Le nouveau visage de la Dataviz dans MicroStrategy 10 Pour la première fois, MicroStrategy 10 offre une plateforme analytique qui combine une expérience utilisateur facile et agréable, et des capacités

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

The potential of the building sector in sustainable and lowcarbon

The potential of the building sector in sustainable and lowcarbon The potential of the building sector in sustainable and lowcarbon strategies Arab Hoballah, UNEP SUSTAINABLE AND COMPETITIVE HOTELS THROUGH ENERGY INNOVATION - NEZEH 2015 L'INNOVATION ÉNERGÉTIQUE AU SERVICE

Plus en détail

Les quatre piliers d une solution de gestion des Big Data

Les quatre piliers d une solution de gestion des Big Data White Paper Les quatre piliers d une solution de gestion des Big Data Table des Matières Introduction... 4 Big Data : un terme très vaste... 4 Le Big Data... 5 La technologie Big Data... 5 Le grand changement

Plus en détail

DATA ANALYST UTILISER PIG, HIVE ET IMPALA AVEC HADOOP DE CLOUDERA

DATA ANALYST UTILISER PIG, HIVE ET IMPALA AVEC HADOOP DE CLOUDERA SI 2.0 DATA ANALYST UTILISER PIG, HIVE ET IMPALA AVEC HADOOP DE CLOUDERA REF : SICL001 DUREE : 4 JOURS TARIF : 2 695 HT Public Analystes de données, business analysts, développeurs et administrateurs.

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France Sommaire Cloud Computing Retours sur quelques notions Quelques chiffres Offre e need e need Services e need Store

Plus en détail

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics Big data le Buzz Le Big Data? Tout le monde en parle sans trop savoir ce qu il signifie. Les médias high-tech en font la nouvelle panacée,

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

Embedded Domain-Specific Languages using Libraries and Dynamic Metaprogramming

Embedded Domain-Specific Languages using Libraries and Dynamic Metaprogramming Embedded Domain-Specific Languages using Libraries and Dynamic Metaprogramming THÈSE N O 5007 (2011) PRÉSENTÉE le 20 mai 2011 À LA FACULTÉ INFORMATIQUE ET COMMUNICATIONS LABORATOIRE DE MÉTHODES DE PROGRAMMATION

Plus en détail

Le futur des logiciels de gestion bibliographique

Le futur des logiciels de gestion bibliographique Le futur des logiciels de gestion bibliographique Frédéric Clavert LabEx Écrire une Histoire Nouvelle de l Europe / Paris 4 @inactinique / frederic@clavert.net http://histnum.hypotheses.org / http:// zotero.hypotheses.org/

Plus en détail

*4D, quand c est la solution qui compte. 4D démocratise les services Web

*4D, quand c est la solution qui compte. 4D démocratise les services Web *4D, quand c est la solution qui compte. 4D démocratise les services Web Table des matières I. INTRODUCTION page 3 II. VERS UNE DEFINITION DES SERVICES WEB 1. Qu est ce que c est? page 3 2. A quoi ça sert?

Plus en détail

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012. 1 Du même auteur chez le même éditeur Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012. AFNOR 2013 Couverture : création AFNOR Éditions Crédit photo 2011 Fotolia

Plus en détail

SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne

SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne Adrien GUILLE, C. Favre, Djamel Abdelkader Zighed To cite this version: Adrien GUILLE, C. Favre, Djamel Abdelkader

Plus en détail

Générateur de pages WEB et serveur pour supervision accessible à partir d un navigateur WEB

Générateur de pages WEB et serveur pour supervision accessible à partir d un navigateur WEB AUTOMGEN 8.009 Générateur de pages WEB et serveur pour supervision accessible à partir d un navigateur WEB version 2 : support de sources vidéo, support 3D, support de l ensemble des objets IRIS 2D WEB

Plus en détail