Big Data, Green & Dirty Data

Dimension: px
Commencer à balayer dès la page:

Download "Big Data, Green & Dirty Data"

Transcription

1 PSIR IR (2015) Projet Scientifique d Initiation à la Recherche (PSIR) Big Data, Green & Dirty Data E. Robin, M. Canat, B. Martin, A. Keller, N. Gutowski* Groupe Esaip 18 rue du 8 mai 1945, CS St Barthélémy d Anjou Cedex ARTICLE INFO Article : Créé le 11/02/2015 sur le thème du Big Data et de ses enjeux Mots-clés : Big Data Hadoop Green & Dirty Data Fourth ABSTRACT We live in a world where technology has evolved at a very high speed. Considering that evolution, they have succeeded in being a significant factor in each field and they now represent a major issue for the global economy. However, this has not only advantages. In fact, the growing storage capabilities can be associated with the generation of more and more data and data increasingly big. This gave birth to the new concept of "Big Data", which roughly means all the massive data generated and that can t be processed or analyzed without using special tools. Analysis of these data can predict a "future" and is generally used for decision support, especially in a world in which business is really important. In addition to the technological and economic aspect, Big Data also has an impact on the environment, since it stores the data sometimes over long periods and it requires electrically powered machines. How can we process and analyze all that data? What are the impacts on our society? Is there an effective way to reduce the environmental impact due to Big Data? 1. INTRODUCTION Depuis 1990, les réseaux sociaux se sont petit à petit ancrés dans la vie quotidienne des Hommes. Par leur biais, tous les utilisateurs de l Internet peuvent échanger librement des fichiers de toutes tailles et de tous types. Par exemple, il sera possible d échanger des images sur Instagram ou Facebook, tandis que l on partagera des vidéos sur YouTube. En parallèle, les capacités de stockage informatique ont constamment augmenté, permettant de répondre à la problématique posée par la taille massive des données générées via Internet. Toutes ces données créées, au vu de leur nombre massif, finissent par être stockées sur des serveurs, voire même oubliées/laissées à l abandon sur ces derniers. On peut alors se poser la question suivante : «Comment peut-on traiter et analyser un tel volume de données provenant de différentes sources?» Pour répondre à cette problématique, il est nécessaire d étudier dans un premier temps ce qu est le «Big Data», ses intérêts et les enjeux qui en découlent, dans un second temps, étudier les outils qui permettent de traiter ce phénomène et enfin d analyser l impact environnemental. 2. BIG DATA 2.1. Qu est-ce que c est? Le «Big Data» est le terme qui décrit toutes les données massivement produites et/ou stockées. Pour donner une idée, au début de l humanité jusqu en 2003, l'humanité entière a généré environ 5 exaoctets de donnés. En 2011, nous avons généré le même volume en deux jours, et en 2013 seulement 10 minutes. Comme nous le prouvent ces chiffres, le volume de données générées ne fait que croître de plus en plus chaque année. Elle est due à l'émergence des nouvelles technologies, et surtout des réseaux sociaux qui nous permettent de produire et de stocker de plus en plus de données, telle que des vidéos sur YouTube, ou des photos sur Instagram, etc. *Contact :

2 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) 2 Il est important de ne pas oublier une seule de ces caractéristiques lors du traitement de données. Sans valeur, la donnée n est pas réellement utile ni utilisable. Sans volume, la donnée perd en crédibilité et donc perd en valeur aussi. Sans variété, les analyses ne s appliqueraient qu à un seul type de données, voire une seule source de données, ce qui nous conduirait à des analyses et des résultats similaires, voire identiques. Enfin, sans vélocité, nous ne pourrions pas traiter rapidement l information, ce qui signifie que la donnée ainsi que le résultat obtenu pourraient devenir obsolètes après analyse. En prenant en compte ces 4 caractéristiques, le Big Data peut rapidement devenir une carte maîtresse en influant sur la prise de décision de ceux qui sauront s en servir. Fig. 1. Quelques chiffres à propos du Big Data 2.2. Description détaillée du Big Data Le Big Data est composé d une multitude d informations provenant toutes de sources diverses et variées. Cela peut être des données prélevées d une base de données ou bien tout simplement les informations que tous les utilisateurs divulguent sur les réseaux sociaux Ses enjeux D une manière générale, le «Big Data» est utilisé pour analyser un fait. Par exemple, nous pouvons analyser les sentiments des clients sur un produit en particulier afin de savoir ce qui doit être amélioré, ce qui était bien, etc. Il permet aux fournisseurs de savoir quoi faire pour attirer plus de clients et de changer sa stratégie de marketing. Le savoir est synonyme de pouvoir et ceux qui détiennent le savoir/la connaissance peuvent s adapter à ce qui est attendu d eux. Quels sont les véritables enjeux du Big Data? À l heure actuelle, notre monde devient de plus en plus informatisé ainsi chaque étape de notre vie quotidienne laisse une trace numérique. Ces informations, autrefois jugez inutiles sont désormais le nouvel «Or noir». Le Big Data est devenu un secteur important de l économie du monde informatique. Ce secteur devrait valoir dans les 24 milliards de dollars en 2016 selon une étude de la société d analyse IDC. Fig. 2. Détail concernant le Big Data Comme le décrit l IDC dans l un de ses rapports, big data technologies describe a new generation of technologies and architectures, designed to economically extract value from very large volumes of a wide variety of data, by enabling the high-velocity capture, discovery, and/or analysis. [1]. À partir de cette définition, on peut alors résumer le Big Data en 4 caractéristiques principales, que l on appelle aussi la règle des «4 V» : - La valeur : ce que l on peut récupérer de la donnée - Le volume : corresponds à la quantité de données - La variété : tous les types de données possibles - La vélocité : la vitesse de traitement des données Un des enjeux principaux du Big Data est l enjeu sociétal, c est-à-dire la récupération de données personnelles par des sociétés non connues et auxquelles les utilisateurs n ont pas donné explicitement leurs accords pour la récupération de ces données. Ces données peuvent semblées anodine tel que le nom, prénom et date de naissance lors d une inscription sur un site de commerce. Mais le cumul de ces informations permet de réaliser un profil très complet. Fig. 3. Les enjeux du Big Data [10]

3 3 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) Par ce procédé, de multiples droits tels que le droit à l oubli, le respect de la vie privée ainsi que d autres ne sont possiblement pas respectés lors de la collecte de ces masses de données. Ces datamasses ont pour but de réaliser un catalogue «humain» des utilisateurs d Internet qui deviennent alors des produits. Mais il existe aussi un autre enjeu qui impacte lui, le monde du travail et de la formation. En effet, le secteur du Big Data vaut de plus en plus, ce qui nécessite de plus en plus de mains d œuvres ainsi que de formateurs. Selon l institut Mc Kinsey Global, le recrutement des États-Unis en analystes Big Data, serait de à travailleurs d ici à Ces offres d emploi nécessitent des compétences technologiques dans le domaine du Big Data mais aussi dans la maîtrise de mathématiques et statistiques de haut niveau ainsi que des compétences en programmations. Pour manipuler ces datamasses, il est nécessaire d avoir de la puissance, et celle-ci est obtenue en combinant de puissants ordinateurs. Mais toutes les entreprises, collectivités ou états utilisant de manière ponctuelle, ces différentes analyses de ces données, ne peuvent posséder un tel équipement. Cela ne serait pas rentable pour eux d investir dans un tel matériel qui ne serait pas utilisé à 100 %. Il existe donc des sociétés, une poignée seulement, qui elles gèrent les données des activités de trading tel que celles de Wall Street, ou les données de gestion du réseau d EDF. Parmi ces sociétés, il y a en toute logique les monstres Google, Microsoft et Amazon, mais il y a aussi des structures plus modestes telles que le CEA (Commissariat à l énergie atomique et aux énergies alternatives) et quelques centres universitaires. Fig. 4. Des chiffres sur l enjeu économique Mais dans ce monde où de plus en plus de nos actions laisse une trace digitale, les quantités de données sont de plus en plus gigantesque! Dans ce cas-là, une entreprise comme Facebook, qui possède un très grand nombre d utilisateurs et qui collectent beaucoup d informations sur chacun d entre eux, ne peut ni stocker en interne ni traiter via les outils classiques d analyse de base de donnée, les données récupérées sur ses utilisateurs. Cette problématique exprime donc un des enjeux du Big Data : l enjeu technologique. Pour répondre à ce besoin, il faut s intéresser au cœur du Big Data, c est-à-dire le calcul distribué qui permet d analyser toute ces masses gigantesques de données Son Avenir Fig. 5. Des chiffres sur le Big Data actuel On peut désormais dire que l année 2014 fût l année du Big Data, mais quid du futur? Selon le cabinet McKinsey, l évolution du nombre d objets connectés serait de l ordre de 400 % pour atteindre 50 milliards! Le volume de données créées par l industrie (entreprises & machines) et par les particuliers croît chaque année de 40 %. Ceci impliquerait une forte augmentation du besoin en spécialiste aux États-Unis, de l ordre de à spécialistes, et pour la France.

4 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) 4 L année 2015, le marché du Big Data sera de 16.9 milliards de dollars, c est-à-dire 5 fois plus qu en Tous les secteurs, tels que le marketing, l assurance, la sécurité, la finance et d autres, auront de nouvelles perspectives grâce à l analyse des datamasses. Dans ces domaines, le Big Data permettra de cibler les clients actuels ou potentiels afin de leur proposer des produits adaptés à chacun. Tout ceci permettra aux industriels d économiser des sommes importantes. Mais le Big Data influencera aussi des domaines du quotidien, tel que la gestion des feux de signalisations afin d améliorer la fluidité du trafic d une ville ou alors de parfaire les prévisions météorologiques. Avec l évolution du Big Data suivra la découverte et création de nouvelles méthodes de traitements et d analyses de l information ce qui pourra révolutionner la science informatique millions d'utilisateurs mettent à jour leur profil au moins une fois par jour - Plus de 1 milliard de photos mises en ligne chaque mois - Plus de 10 millions de vidéos mises en ligne chaque mois - Plus de 1 milliard de contenus partagés chaque semaine (liens, notes, photos...) Le traitement en masse des données ne dépend pas que du secteur du numérique. En effet, cette manipulation est utilisée dans d'autres domaines notamment dans celui de la recherche. Dans le domaine scientifique, la recherche avance vers le stockage de l'adn humain. Le volume associé représenterait 100 Go de données soit l'équivalent de photos [23]. L'objectif étant pour les chercheurs de comprendre les mutations génétiques et le processus biologique. De plus, le fait de comparer deux génomes (un sain et un autre atteint d'une tumeur) représente le traitement de 1 To de données non compressées. Un million de génomes équivaudraient à analyser 1 Exaoctet. Dans un autre domaine scientifique, l'observatoire Solaire de la NASA capture environ 1.6 To de données chaque jour contre 140 To pour le «Large Synoptic Survey Telescope». Hadoop embarque MapReduce. Il s'agit de l'élément central du traitement des données. MapReduce effectue des travaux de pré manipulation en vue d'accélérer l'accès aux données lors des différentes requêtes. Chaque donnée est représentée sous la forme d'une <clé, valeur>. La première opération est le «Map». Il s'agit de retrouver toutes les occurrences d'une clé donnée. Les travaux parcourent l'ensemble des sources de données puis réalisent un mappage d'une ou plusieurs clés. La figure 1 représente un exemple de cette opération. Fig. 6. Des chiffres sur l avenir du Big Data 3. HADOOP 3.1. Hadoop ou comment traiter du Big Data? Hadoop est une technologie basée sur la technologie MapReduce de Google. Elle est utilisée en vue de traiter de grandes quantités de données non structurées. Les études montrent que la quantité de données générée chaque jour augmente de façon exponentielle (la quantité de données double chaque 18 mois) [21]. Ce phénomène est dû en partie aux réseaux sociaux. En effet, Facebook est un acteur majoritaire dans le secteur du numérique. L'entreprise permet l'échange et le traitement de données à grande échelle à travers le monde entier. Facebook génère des données en grande quantité [22] : Fig. 7. Opération «Map» Ici, le travail associé à cette opération de «Map» cherche l'ensemble des clés correspondantes à 1949, 1950,1951. On remarque que pour une clé donnée, plusieurs occurrences apparaissent. C'est le point d'entrée avant la seconde opération : le «Reduce». Lors d'une opération «Reduce», les travaux associés vont reprendre les résultats du «Map». L'objectif ici est de réduire l'ensemble des données en incluant les valeurs au sein d'une seule et même clé. C'està-dire que pour une clé K on retrouvera les valeurs X, Y, Z associées.

5 5 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) Des études ont été réalisées [24] mais nous ne tiendrons compte que des réalisations de tests sur de grandes données, pour rester en lien avec le Big Data. Tout d'abord, l'expérience commence avec une requête de type «Scan». Celle-ci vise à obtenir un ensemble de données à partir d'une requête simple. Fig. 8. Opération «Reduce» La figure 8 montre qu'avec l'ensemble des données repérées par l'opération «Map», il est possible de les regrouper et d'éviter la redondance de clé. Pour un ensemble de clés, valeurs suivantes : <1,a> ; <2,b> ; <3,c> ; <3,i> ; <1,k> ; <3,o> L'opération de «Reduce» retournera le nouvel ensemble de clés valeurs suivant : <1,[a k]> ; <2,[b]> ; <3,[c i o]> L'algorithme de recherche de valeur sera plus rapide car il n'aura pas à rechercher chacune des clés avant de pouvoir traiter la donnée. Une seule opération sera nécessaire au lieu de n fois le nombre de clés grâce au prétraitement de MapReduce Un environnement modulable L'écosystème Hadoop permet de traiter plus rapidement des données. Pour ce faire, des modules doivent être inclus en vue de ce traitement. Par défaut, Hadoop embarque les éléments suivants : Fig. 9. Résultats d une requête «Scan» Pour obtenir les résultats présentés dans la figure 9, une requête sur les données «SELECT pageurl, pagerank FROM rankings WHERE pagerank > X» a été effectuée. On peut dès cette requête s'apercevoir que le data warehouse HIVE inclus dans Hadoop n'est pas le plus rapide pour exécuter cette requête. Shark-mem arrive en tête avec un temps d'exécution de 3.6 secondes. Sharkmem utilise le cache afin de pouvoir stocker les tables en entrée et les tables en sorties. L'étude se poursuit avec une requête de type «Agrégation». - OOZIE : système de planification des tâches de traitements. - PIG : plate-forme d'analyse de données. - HIVE : data warehouse de Hadoop pour la gestion de grandes données. - HBASE : base de données de Hadoop. - MAPREDUCE : algorithme de mappage des données et de réduction des associations. - HDFS : système de fichiers distribué de Hadoop. L'écosystème Hadoop est facile et rapide à mettre en œuvre, d'où une implémentation classique utilisée dans les entreprises manipulant de grosses données. Cependant, dans cette utilisation classique, on peut constater certains axes d'amélioration possible. Prenons par exemple, le cas de «HIVE», représentant le data warehouse de Hadoop par défaut, il en existe d'autres pouvant être incorporés à la solution et se substituer à HIVE. Des tests ont été effectués en vue de comparer la vitesse d'exécution de ce data warehouse avec d'autres produits sur le marché. Ces tests représentent différentes requêtes pouvant être effectuées sur le data warehouse. Fig. 10. Résultats d une requête «Agrégation»

6 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) 6 La figure 10 montre les résultats de la requête «SELECT SUBSTR(sourceIP, 1, X), SUM(adRevenue) FROM uservisits GROUP BY SUBSTR(sourceIP, 1, X)». HIVE est encore le plus lent pour traiter cette requête. Redshift retourne la réponse le plus rapidement. Il s'agit d'un produit propriétaire d'amazon. Ici, il est utilisé avec l'ensemble de ses paramètres par défaut. Shark vient se positionner en deuxième position pour ce test. Le test suivant propose l'analyse d'une opération de requête de jointure. La requête utilisée est la suivante : «SELECT sourceip, totalrevenue, avgpagerank FROM (SELECT sourceip, AVG(pageRank) as avgpagerank, SUM(adRevenue) as totalrevenue FROM Rankings AS R, UserVisits AS UV WHERE R.pageURL = UV.destURL AND UV.visitDate BETWEEN Date(` ') AND Date(`X') GROUP BY UV.sourceIP) ORDER BY totalrevenue DESC LIMIT 1» La démonstration souhaite évaluer le temps d'exécution d'une requête multiple. des requêtes sur son data warehouse. Sachant que HIVE s'exécute avec MapReduce, on peut émettre certaines hypothèses selon lequelles soit le data warehouse joue un rôle important dans l'obtention des résultats soit il s'agit de l'algorithme lui-même qui est à prendre en compte. Il serait intéressant de pouvoir réaliser ces mêmes tests en incluant l'algorithme MapReduce à Shark. On pourrait alors voir s'il s'agit d'un dat warehouse performant ou d'un algorithme de traitement des données efficace. 4. LES DIRTY ET CLEAN DATAS 4.1. Que sont les «Dirty data» et leur inverse les «clean data»? Avec le Big Data et sa quantité impressionnante de données enregistrées tous les jours ; il est normal que des erreurs s y glissent. Ce sont les Dirty data. Elles peuvent être dues à des entrées utilisateur incorrectes, des fautes de frappe, un mauvais champ de formulaire renseigné ou bien une fusion de plusieurs bases de données. Mais elles peuvent aussi être générées par une mauvaise méthode de stockage ou un mauvais traitement logiciel. Ci-dessous une liste non exhaustive de dirty data : La donnée incorrecte Pour s'assurer de la validité de la donnée, il est nécessaire de vérifier que l'entrée utilisateur correspond au type de donnée requis. La donnée imprécise quelques fois la donnée sera correcte mais imprécise, ce qui la rend peu valable. La donnée qui contredit une règle métier Ex. : Une date d'expiration plus ancienne que la date de création. Fig. 11. Résultats d une requête «Jointure» On constate que Redshift est encore le data warehouse le plus rapide devant Shark mem. HIVE arrive en dernière position. Par la représentation de ces tests, on peut en conclure que les solutions Shark-mem et Redshift(HDD) sont les plus efficaces dans le traitement d'un volume important de données. Redshift semble être une solution de substitution à HIVE. Cependant, cette solution n'incorpore pas le traitement de scripts à distance contrairement à Shark-mem. Les deux solutions sont compatibles avec le système de fichier de HADOOP (HDFS). Le data warehouse Shark a été utilisé avec son algorithme de traitement Spark. Il utilise le langage SQL afin de réaliser Les données contradictoires : la non-vérification des données entraine la création de données qui se contredisent. Les données incomplètes : Les données enregistrées avec des champs manquants. Les doublons : Ce sont les données enregistrées plusieurs fois. Selon une étude menée par «Experian Data Quality [25]» (Experian Data Quality, 2014) 94% des entreprises admettent avoir des doublons et 92% que les données utilisateurs pourraient être erronés. 91% des entreprises interrogées pensent que les dirty data ont causée des pertes financières dans l année écoulée. C est en moyenne 12% du budget qui est perdu à cause de ces données de mauvaise qualité. Cette perte est due au temps humain perdu à rechercher l information ainsi qu à la perte financière brute causée par ces erreurs.

7 7 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) Pour améliorer la qualité de ces données on utilise le Data Scrubbing ou Data cleansing. Ce processus d amélioration peut consister à corriger des fautes de frappe ou bien à valider la donnée par rapport à une liste connue de données «saines». Certains algorithmes dédiés à cette tache analysent les données pour en comprendre la logique et remontent une alerte pour chaque donnée qui lui parait «anormale» dans son contexte. De plus en plus d entreprises fournissent des logiciels de «Data Cleansing». On peut citer Google avec son «Google refine», SQLPower avec DQguru, ou bien encore «Data Cleaner» qui est une solution open source. Les limites de ces logiciels sont qu ils demandent beaucoup de temps de fonctionnement et des ressources matérielles importantes ; de plus une vérification manuelle est préférable pour éviter de créer des mauvaises données supplémentaires. Il est nécessaire de limiter l utilisation de ces logiciels uniquement aux données nouvellement insérées dans la base, pour un souci évident de gain de temps/argent. On peut citer les bonnes pratiques suivantes pour garder ses données propres. Établir des standards pour la saisie de données. Prévenir l enregistrement de doublons Mettre les informations existantes à jour plutôt que de recréer une entrée. Si les données sont le pétrole de demain le data cleansing sera le raffinage. 5. CONCLUSION En résumé, le Big Data est un ensemble de données massivement générées qui ne peuvent être ni traitées, ni analysées telles qu elles sont. Etant donné qu elles proviennent de sources différentes, ces dernières peuvent décrire un même type de données mais sont définies par des normes différentes (par exemple, une date année/mois/jour et une autre date jour/mois/année) ce qui rend donc l analyse et la relation entre les données très complexes. C est ce que l on appelle les Dirty Data. Ces données sont traitées par des outils spécifiques tels que Hadoop par exemple, se servant d un algorithme de calcul appelé MapReduce, qui va permettre entre autre de regrouper des données similaires afin de les traiter plus rapidement. De ce traitement de données découle l analyse de ces mêmes données. Elle permet d étudier certains comportements et de prévoir certaines réactions, ce qui donne à celui qui est capable de les analyser le pouvoir d anticiper. Par l anticipation, on est capable de connaître par exemple la réaction d un consommateur face à un changement spécifique du produit. Cette capacité représente en soi un enjeu économique pour les grandes firmes vis-à-vis de leurs clients. De plus, l analyse de données traitées se fait beaucoup plus rapidement que celle de données non traitées/triées. Or, il est nécessaire de faire fonctionner des machines pour cela, ce qui signifie que plus les calculs seront brefs, moins cela aura d impact sur l environnement. REFERENCES [1] Gantz J, Reinsel D (2011) Extracting value from chaos. IDC iview, pp 1 12 [2] Datafloq Connecting Data and people Disponible : https://datafloq.com/ [3] Edd Dumbil. (1/14/2014) The Data Lake Dream. [En ligne] Disponible :http://www.forbes.com/sites/edddumbill/201 4/01/14/the-data-lake-dream/ [4] Matt Turck, The state of big data in 2014, Disponible: [5] IBM Insight 2014 by the numbers Disponible : numbers [6] Pratt Institute - City by Numbers: Big Data and the Urban Future. Disponible:https://www.pratt.edu/events/single/?id= [7] Pratt Institute - City by Numbers: Big Data and the Urban Future. Disponible:https://www.pratt.edu/events/single/?id= [8] Susan Hutton - Twitter, Big Data, and Jobs Numbers. Disponible:http://www.lsa.umich.edu/lsa/ci.twitterbigdat aandjobsnumbers_ci.detail [9] Jeff Bertolucci IMB s Predictions : 6 Big Data Trends in Disponible : [10] Future Mag - Big Data - Préparez-vous à la révolution!. Disponible : [11] Future Mag - Les enjeux du big data Disponible : [12] Arte Volet I : Big Data I : des données à vitesse grand V Volet 2 : Big Data II - Bienvenue dans le monde des Yottaoctets Volet 3 : Big Data III - Moi, l'octet Disponible : [13] Phillipe Rigaux CNAM - Big data, décodage et analyse des enjeux. Disponible :http://recherche.cnam.fr/equipes/sciencesindustrielles-et-technologies-de-l-information/big-datadecodage-et-analyse-des-enjeux kjsp [14] Blandine Laffargue Corp Events - Les nouveaux enjeux du Big Data. Disponible :http://www.bigdataparis.com/2014/enjeuxbig-data-blandine-laffargue.php [15] Didier Gaultier JDN - Les enjeux du Big Data dans la connaissance client en Disponible :

8 E. Robin, M. Canat, B. Martin, A. Keller / PSIR IR (2015) 8 s-enjeux-du-big-data-dans-la-connaissance-client-en shtml [16] Alexandre Dolique JDN - Le Big Data se démocratise : impacts et enjeux sur l organisation des entreprises. Disponible :http://www.journaldunet.com/solutions/expe rt/58779/le-big-data-se-democratise---impacts-et-enjeuxsur-l-organisation-des-entreprises.shtml [17] Data business - BIG DATA : Définition, Enjeux, Etudes de cas.disponible : [18] L Usine Nouvelle - Infographie : Big data, un marché à 100 milliards de dollars. Disponible : digitale.fr/article/infographie-big-data-un-marche-a-100- milliards-de-dollars.n [19] Transformation Digitale - Infographie : le Big Data, un défi incroyable. Disponible : analytics/infographie-le-big-data-un-defi-incroyable_a html [20] Michael Meyers - BIG DATA Take a Look at the Numbers. Disponible : %E2%80%93-take-look-numbers [21] «Big Data, big leap?»,2014, Jean-Baptiste HEITZMANN, Talend [22] 9_presentations/keynotes/DhrubaBorthakur- Hadoop_File_System_Architecture_Facebook.pdf [23] Big data, Hadoop and cloud computing in genomics by Aisling O Driscoll, Jurate Daugelaite, Roy D. Sleator [24] https://amplab.cs.berkeley.edu/benchmark/ [25]

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Les défis statistiques du Big Data

Les défis statistiques du Big Data Les défis statistiques du Big Data Anne-Sophie Charest Professeure adjointe au département de mathématiques et statistique, Université Laval 29 avril 2014 Colloque ITIS - Big Data et Open Data au cœur

Plus en détail

Le BigData, aussi par et pour les PMEs

Le BigData, aussi par et pour les PMEs Parole d expert Le BigData, aussi par et pour les PMEs Stéphane MOUTON, CETIC Département Software and Services Technologies Avec le soutien de : LIEGE CREATIVE Le Big Data, aussi par et pour les PMEs

Plus en détail

Introduction Big Data

Introduction Big Data Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

KARMA Le système de Revenue Management d'air France KLM avec Hadoop

KARMA Le système de Revenue Management d'air France KLM avec Hadoop KARMA Le système de Revenue Management d'air France KLM avec Hadoop Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 16 Décembre 2014 Martial AYAS maayas@airfrance.fr 2 Agenda 1. Présentation

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

La rencontre du Big Data et du Cloud

La rencontre du Big Data et du Cloud La rencontre du Big Data et du Cloud Libérez le potentiel de toutes vos données Visualisez et exploitez plus rapidement les données de tous types, quelle que soit leur taille et indépendamment de leur

Plus en détail

Jean-François Boulicaut & Mohand-Saïd Hacid

Jean-François Boulicaut & Mohand-Saïd Hacid e siècle! Jean-François Boulicaut & Mohand-Saïd Hacid http://liris.cnrs.fr/~jboulica http://liris.cnrs.fr/mohand-said.hacid Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail

Collecter les 54 milliards d'euros de bénéfices issus des nouveaux usages de la donnée

Collecter les 54 milliards d'euros de bénéfices issus des nouveaux usages de la donnée Livre Blanc Collecter les 54 milliards d'euros de bénéfices issus des nouveaux usages de la donnée Sponsorisé par : Microsoft Sebastien Lamour mai 2014 QUELS SONT LES NOUVEAUX BENEFICES POTENTIELS ISSUS

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

Bigdata et Web sémantique. les données + l intelligence= la solution

Bigdata et Web sémantique. les données + l intelligence= la solution Bigdata et Web sémantique les données + l intelligence= la solution 131214 1 big data et Web sémantique deux notions bien différentes et pourtant... (sable et silicium). «bigdata» ce n est pas que des

Plus en détail

Conserver les Big Data, source de valeur pour demain

Conserver les Big Data, source de valeur pour demain Le potentiel et les défis du Big Data UIMM Mardi 2 et mercredi 3 juillet 2013 56 avenue de Wagram 75017 PARIS Conserver les Big Data, source de valeur pour demain Définir les Big Data Les Big Data à travers

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

FAITES DE LA DONNÉE LE MOTEUR DE VOTRE BUSINESS. Alexandre Vasseur Responsable Avant-Vente Europe du Sud Pivotal, EMC

FAITES DE LA DONNÉE LE MOTEUR DE VOTRE BUSINESS. Alexandre Vasseur Responsable Avant-Vente Europe du Sud Pivotal, EMC FAITES DE LA DONNÉE LE MOTEUR DE VOTRE BUSINESS Alexandre Vasseur Responsable Avant-Vente Europe du Sud Pivotal, EMC 1 Big Data = Volume, Variété, Vélocité et Valorisation Internet des objets Informations

Plus en détail

Services à la recherche: Data Management et HPC *

Services à la recherche: Data Management et HPC * Services à la recherche: Data Management et HPC * Pierre-Yves Burgi et Jean-François Rossignol Division informatique (DINF) * HPC = High-Performance Computing Réunion CIF Sciences du 6.12.11 1/19 Contenu

Plus en détail

Présentation Société Actulligence Consulting

Présentation Société Actulligence Consulting Présentation Société Actulligence Consulting Conseil et Accompagnement Intelligence économique Veille stratégique e-réputation Actulligence Consulting : Présentation Frédéric Martinet, Consultant indépendant

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

Transformez vos données en opportunités. avec Microsoft Big Data

Transformez vos données en opportunités. avec Microsoft Big Data Transformez vos données en opportunités avec Microsoft Big Data 1 VOLUME Augmentation du volume de données tous les cinq ans Vélocité x10 4,3 Nombre d appareils connectés par adulte VARIÉTÉ 85% Part des

Plus en détail

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting NewPoint IT Consulting BIG DATA WHITE PAPER NewPoint Information Technology Consulting Contenu 1 Big Data: Défi et opportunité pour l'entreprise... 3 2 Les drivers techniques et d'entreprise de BIG DATA...

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015 Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS Salon du Big Data 11 mars 2015 Accélération de l innovation +500 +280 Amazon EC2 Container Service +159 AWS Storage Gateway Amazon Elastic Transcoder

Plus en détail

New Features. Developed by. BPM Conseil - SARL au capital de 70 000 euros - RCS LYON 479 400 129 9, rue Pierre Blanc - 69001 Lyon - France 1/20

New Features. Developed by. BPM Conseil - SARL au capital de 70 000 euros - RCS LYON 479 400 129 9, rue Pierre Blanc - 69001 Lyon - France 1/20 5 New Features Developed by 1/20 Sommaire 1 Introduction... 3 2 Evolutions des studios de développement et améliorations fonctionnelles... 5 3 Portail Vanilla... 6 3.1 Open Street Maps... 6 3.2 Gestion

Plus en détail

Instructions Mozilla Thunderbird Page 1

Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Ce manuel est écrit pour les utilisateurs qui font déjà configurer un compte de courrier électronique dans Mozilla Thunderbird et

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

Projet Datalift : retour d expérience sur les standards

Projet Datalift : retour d expérience sur les standards ign.fr Les outils du web Sémantique comme supports des données et métadonnées géographiques Projet Datalift : retour d expérience sur les standards Forum Décryptagéo Marne La Vallée 8 avril 2014 Bénédicte

Plus en détail

Mathématiques et énergie quelles opportunités dès demain? SMAI 10 Avril 2012

Mathématiques et énergie quelles opportunités dès demain? SMAI 10 Avril 2012 CONFIDENTIEL - Copyright 2012 Clean Horizon Consulting 1 Mathématiques et énergie quelles opportunités dès demain? SMAI 10 Avril 2012 Source: Clean Horizon CONFIDENTIEL - Copyright 2012 Clean Horizon Consulting

Plus en détail

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca Une brève introduction aux Données Massives - Challenges et perspectives Romain Picot-Clémente Cécile Bothorel Philippe Lenca Plan 1 Big Data 2 4Vs 3 Hadoop et son écosystème 4 Nouveaux challenges, nouvelles

Plus en détail

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend 2012 2

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend 2012 2 Big Data: au delà du Buzz Yves de Montcheuil @ydemontcheuil Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend 2012 2 Hype Cycle Gartner Talend 2012 3 Big Data

Plus en détail

Please find attached a revised amendment letter, extending the contract until 31 st December 2011.

Please find attached a revised amendment letter, extending the contract until 31 st December 2011. Sent: 11 May 2011 10:53 Subject: Please find attached a revised amendment letter, extending the contract until 31 st December 2011. I look forward to receiving two signed copies of this letter. Sent: 10

Plus en détail

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL AGENDA 14:15-14:30 Bienvenue & Introduction Jérôme Berthier et Manuel Fucinos 14:30-14:45 Le concept de la Data Viz et

Plus en détail

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France L Art d être Numérique Thierry Pierre Directeur Business Development SAP France La Transformation Numérique «Plus largement, l impact potentiel des technologies numériques disruptives (cloud, impression

Plus en détail

Les datas = le fuel du 21ième sicècle

Les datas = le fuel du 21ième sicècle Les datas = le fuel du 21ième sicècle D énormes gisements de création de valeurs http://www.your networkmarketin g.com/facebooktwitter-youtubestats-in-realtime-simulation/ Xavier Dalloz Le Plan Définition

Plus en détail

Intelligence Economique - Business Intelligence

Intelligence Economique - Business Intelligence Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit

Plus en détail

«Rénovation des curricula de l enseignement supérieur - Kazakhstan»

«Rénovation des curricula de l enseignement supérieur - Kazakhstan» ESHA «Création de 4 Ecoles Supérieures Hôtelières d'application» R323_esha_FT_FF_sup_kaza_fr R323 : Fiche technique «formation des enseignants du supérieur» «Rénovation des curricula de l enseignement

Plus en détail

Formation en conduite et gestion de projets. Renforcer les capacités des syndicats en Europe

Formation en conduite et gestion de projets. Renforcer les capacités des syndicats en Europe Formation en conduite et gestion de projets Renforcer les capacités des syndicats en Europe Pourquoi la gestion de projets? Le département Formation de l Institut syndical européen (ETUI, European Trade

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013 Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine

Plus en détail

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech Le dispositif L Institut suisse de brainworking (ISB) est une association

Plus en détail

Hadoop, les clés du succès

Hadoop, les clés du succès Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

MAT 2377 Solutions to the Mi-term

MAT 2377 Solutions to the Mi-term MAT 2377 Solutions to the Mi-term Tuesday June 16 15 Time: 70 minutes Student Number: Name: Professor M. Alvo This is an open book exam. Standard calculators are permitted. Answer all questions. Place

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

Les quatre piliers d une solution de gestion des Big Data

Les quatre piliers d une solution de gestion des Big Data White Paper Les quatre piliers d une solution de gestion des Big Data Table des Matières Introduction... 4 Big Data : un terme très vaste... 4 Le Big Data... 5 La technologie Big Data... 5 Le grand changement

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

L IT, l Immatérielle Transformation. Frédéric Simottel Directeur de la rédaction 01B&T Présentateur de l émission : IT For Business

L IT, l Immatérielle Transformation. Frédéric Simottel Directeur de la rédaction 01B&T Présentateur de l émission : IT For Business L IT, l Immatérielle Transformation Frédéric Simottel Directeur de la rédaction 01B&T Présentateur de l émission : IT For Business PLUS D INNOVATION, PLUS DE SIMPLICITE ET UN MARCHE IT SOUS TENSION Des

Plus en détail

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France setting the scene: perspectives on global data and computing e-infrastructure challenges 11dec 14 mark asch MENESR/DGRI/SSRI - France 1 questions The volume, variety and complexity of research data require

Plus en détail

Big Graph Data Forum Teratec 2013

Big Graph Data Forum Teratec 2013 Big Graph Data Forum Teratec 2013 MFG Labs 35 rue de Châteaudun 75009 Paris, France www.mfglabs.com twitter: @mfg_labs Julien Laugel MFG Labs julien.laugel@mfglabs.com @roolio SOMMAIRE MFG Labs Contexte

Plus en détail

EMC Forum 2014. EMC ViPR et ECS : présentation des services software-defined

EMC Forum 2014. EMC ViPR et ECS : présentation des services software-defined EMC Forum 2014 EMC ViPR et ECS : présentation des services software-defined 1 2 3 4 5 Software is Eating the World Marc Andreessen co-fondateur de Netscape Les entreprises qui utilisent efficacement le

Plus en détail

Philippe Lemerle Big Data Secteur public. Copyright 2015, Oracle and/or its affiliates. All rights reserved.

Philippe Lemerle Big Data Secteur public. Copyright 2015, Oracle and/or its affiliates. All rights reserved. Philippe Lemerle Big Data Secteur public 1 Le Monde se crée une copie numérique de lui même (*) (*) The world is making a digital copy of itself Paul Sonderegger, Oracle Approche réductioniste propriétés

Plus en détail

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE) Donner du sens à la science Rechercher Se connecter / S'inscrire Suivre VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE MES THÈMES Types DOSSIER Paru le 15.11.2012 Mis à jour le 29.01.2014 Big Data, la

Plus en détail

Improving the breakdown of the Central Credit Register data by category of enterprises

Improving the breakdown of the Central Credit Register data by category of enterprises Improving the breakdown of the Central Credit Register data by category of enterprises Workshop on Integrated management of micro-databases Deepening business intelligence within central banks statistical

Plus en détail

Vision prospective et obstacles à surmonter pour les assureurs

Vision prospective et obstacles à surmonter pour les assureurs smart solutions for smart leaders Le «Big Data» assurément Rédigé par Pascal STERN Architecte d Entreprise Vision prospective et obstacles à surmonter pour les assureurs Un avis rendu par la cour de justice

Plus en détail

PANORAMA DES MENACES ET RISQUES POUR LE SI

PANORAMA DES MENACES ET RISQUES POUR LE SI PANORAMA DES MENACES ET RISQUES POUR LE SI LEXSI > CNIS EVENT CNIS EVENT 05/11/2013 SOMMAIRE Big Data Cloud Computing Virtualisation 2 BIG DATA Définition Chaque jour, 2,5 trillions d octets de données

Plus en détail

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Soutenance de projet ASR 27/01/2011 Julien Gerlier Siman Chen Encadrés par Bruno

Plus en détail

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 2 Plan Data mining : définition, utilisations et concepts Wolfram Alpha : extraction de données d'un compte

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

A partir de ces différents matériels, l administrateur a déterminé huit configurations différentes. Il vous demande de les compléter.

A partir de ces différents matériels, l administrateur a déterminé huit configurations différentes. Il vous demande de les compléter. Exonet - Ressources mutualisées en réseau Description du thème Propriétés Intitulé long Formation concernée Présentation Modules Activités Compétences ; Savoir-faire Description Ressources mutualisées

Plus en détail

L ESPACE À TRAVERS LE REGARD DES FEMMES. European Economic and Social Committee Comité économique et social européen

L ESPACE À TRAVERS LE REGARD DES FEMMES. European Economic and Social Committee Comité économique et social européen L ESPACE À TRAVERS LE REGARD DES FEMMES 13 European Economic and Social Committee Comité économique et social européen 13 This publication is part of a series of catalogues published in the context of

Plus en détail

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT ABORIGINAL CUSTOM ADOPTION RECOGNITION REGULATIONS R-085-95 In force September 30, 1995 LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES

Plus en détail

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Big Data -Comment exploiter les données et les transformer en prise de décisions? IBM Global Industry Solution Center Nice-Paris Big Data -Comment exploiter les données et les transformer en prise de décisions? Apollonie Sbragia Architecte Senior & Responsable Centre D Excellence Assurance

Plus en détail

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012 Business Intelligence, Etat de l art et perspectives ICAM JP Gouigoux 10/2012 CONTEXTE DE LA BI Un peu d histoire Premières bases de données utilisées comme simple système de persistance du contenu des

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction du cours Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Les cinq grandes vérités sur l économie des applications

Les cinq grandes vérités sur l économie des applications Les cinq grandes vérités sur l économie des applications Bienvenue dans l économie des applications. Une révolution est en marche. Désormais, les clients interagissent avec les entreprises par l intermédiaire

Plus en détail

Anticiper et prédire les sinistres avec une approche Big Data

Anticiper et prédire les sinistres avec une approche Big Data Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél

Plus en détail

Le futur des logiciels de gestion bibliographique

Le futur des logiciels de gestion bibliographique Le futur des logiciels de gestion bibliographique Frédéric Clavert LabEx Écrire une Histoire Nouvelle de l Europe / Paris 4 @inactinique / frederic@clavert.net http://histnum.hypotheses.org / http:// zotero.hypotheses.org/

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Le nouveau visage de la Dataviz dans MicroStrategy 10

Le nouveau visage de la Dataviz dans MicroStrategy 10 Le nouveau visage de la Dataviz dans MicroStrategy 10 Pour la première fois, MicroStrategy 10 offre une plateforme analytique qui combine une expérience utilisateur facile et agréable, et des capacités

Plus en détail

S e r v i r l e s clients actuels de maniè r e e f f ic a ce grâce a u «Co n s u m er Insight»

S e r v i r l e s clients actuels de maniè r e e f f ic a ce grâce a u «Co n s u m er Insight» Siège mondial : 5 Speen Street Framingham, MA 01701 États-Unis P.508.935.4400 F.508.988.7881 www.idc-ri.com S e r v i r l e s clients actuels de maniè r e e f f ic a ce grâce a u «Co n s u m er Insight»

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Comment IBM Connections peut enrichir l'expérience des utilisateurs de technologies Microsoft

Comment IBM Connections peut enrichir l'expérience des utilisateurs de technologies Microsoft Comment IBM Connections peut enrichir l'expérience des utilisateurs de technologies Microsoft Transformer MS Sharepoint avec IBM Connections pour construire une véritable solution collaborative Le Social

Plus en détail

02.10.2015 Olivier Rafal, PAC CXP Group

02.10.2015 Olivier Rafal, PAC CXP Group 02.10.2015 Olivier Rafal, PAC CXP Group 1 Le groupe CXP L étude BARC Big Data Use Cases 2015 Etude internationale Plus de 550 participants 3e Edition Large couverture des types d industries & tailles d

Plus en détail

Construire son projet : Rédiger la partie impacts (2/4) Service Europe Direction des Programmes et de la Formation pour le Sud

Construire son projet : Rédiger la partie impacts (2/4) Service Europe Direction des Programmes et de la Formation pour le Sud Construire son projet : Rédiger la partie impacts (2/4) Service Europe Direction des Programmes et de la Formation pour le Sud Sommaire Construire son projet : Rédiger la partie impacts (2/4) Comment définir

Plus en détail

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par. École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par

Plus en détail

RAPID 3.34 - Prenez le contrôle sur vos données

RAPID 3.34 - Prenez le contrôle sur vos données RAPID 3.34 - Prenez le contrôle sur vos données Parmi les fonctions les plus demandées par nos utilisateurs, la navigation au clavier et la possibilité de disposer de champs supplémentaires arrivent aux

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

Performances Veille. Système d Information. Semaine 25 du 18 au 24 juin 2012. Numéro 228

Performances Veille. Système d Information. Semaine 25 du 18 au 24 juin 2012. Numéro 228 Performances Veille Système d Information Semaine 25 du 18 au 24 juin 2012 Numéro 228 TABLE DES MATIÈRES LA GÉNÉRATION Y DÉFIE LA DSI... 2 SOLUTIONS LINUX : BIG DATA ET BI OPEN SOURCE FONT BON MÉNAGE 01

Plus en détail

SÉRIE NOUVELLES ARCHITECTURES

SÉRIE NOUVELLES ARCHITECTURES SÉRIE NOUVELLES ARCHITECTURES Alerte au tsunami des données : les entreprises doivent prendre la vague maintenant! Quels sont les faits qui sous-tendent cette réalité? Quelles entreprises sont aujourd

Plus en détail

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement Ne laissez pas le stockage cloud pénaliser votre retour sur investissement Préparé par : George Crump, analyste senior Préparé le : 03/10/2012 L investissement qu une entreprise fait dans le domaine de

Plus en détail

TABLEAU DE BORD DES INDICATEURS DE VIABILITE FINANCIERE POUR LES SYSTEMES NATIONAUX DES AIRES PROTEGEES

TABLEAU DE BORD DES INDICATEURS DE VIABILITE FINANCIERE POUR LES SYSTEMES NATIONAUX DES AIRES PROTEGEES TABLEAU DE BORD DES INDICATEURS DE VIABILITE FINANCIERE POUR LES SYSTEMES NATIONAUX DES AIRES PROTEGEES Tableau de bord des indicateurs financiers Première Partie Situation financière globale du Système

Plus en détail

augmenter votre visibilité sur internet

augmenter votre visibilité sur internet moteurs de recherche: référencement & positionnement augmenter votre visibilité sur internet Un guide écrit par Fabrice Perrin & Nicolas Jan blue-infinity Genève blue-infinity est une société leader dans

Plus en détail

Guide d'achat sur l'intégration du Big Data

Guide d'achat sur l'intégration du Big Data SEPTEMBRE 2013 Guide d'achat sur l'intégration du Big Data Commandité par Sommaire Introduction 1 Les enjeux de l'intégration du Big Data : hier et aujourd'hui 1 Fonctionnalités nécessaires à l'intégration

Plus en détail

Gestion de la relation Client (CRM)

Gestion de la relation Client (CRM) Gestion de la relation Client (CRM) Les meilleures pratiques pour gérer vos équipes de vente et marketing Claude Rose, président de Gestisoft Ordre du jour de la présentation Objectif d une solution CRM?

Plus en détail

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Jean-Marc Spaggiari Cloudera jms@cloudera.com @jmspaggi Mai 2014 1 2 Avant qu on commence Agenda -Qu est-ce que Hadoop et pourquoi

Plus en détail

Comment valoriser votre patrimoine de données?

Comment valoriser votre patrimoine de données? BIG DATA POUR QUELS USAGES? Comment valoriser votre patrimoine de données? HIGH PERFORMANCE HIGH ANALYTICS PERFORMANCE ANALYTICS MOULOUD DEY SAS FRANCE 15/11/2012 L ENTREPRISE SAS EN QUELQUES CHIFFRES

Plus en détail

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au

Plus en détail

en SCÈNE RATIONAL Rational Démonstration SDP : automatisation de la chaîne de développement Samira BATAOUCHE sbataouche@fr.ibm.com

en SCÈNE RATIONAL Rational Démonstration SDP : automatisation de la chaîne de développement Samira BATAOUCHE sbataouche@fr.ibm.com Rational Démonstration SDP : automatisation de la chaîne de développement Samira BATAOUCHE sbataouche@fr.ibm.com Fabrice GRELIER fabrice.grelier@fr.ibm.com RATIONAL en SCÈNE 2007 IBM Corporation Objectif

Plus en détail

La solution idéale de personnalisation interactive sur internet

La solution idéale de personnalisation interactive sur internet FACTORY121 Product Configurator (summary) La solution idéale de personnalisation interactive sur internet FACTORY121 cité comme référence en «Mass Customization» au MIT et sur «mass-customization.de» Specifications

Plus en détail

Food for thought paper by the Coordinator on Reporting 1 PrepCom 3rd Review Conference 6 décembre 2013

Food for thought paper by the Coordinator on Reporting 1 PrepCom 3rd Review Conference 6 décembre 2013 Food for thought paper by the Coordinator on Reporting 1 PrepCom 3rd Review Conference 6 décembre 2013 (slide 1) Mr President, Reporting and exchange of information have always been a cornerstone of the

Plus en détail

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress transformer en temps réel vos données en avantage compétitif Your business technologists. Powering progress Transformer les données en savoir Les données sont au cœur de toute activité, mais seules elles

Plus en détail

Cycle Innovation & Connaissance 12 petit déjeuner Mardi 15 mai 2012. Cloud Computing & Green IT : nuages ou éclaircies?

Cycle Innovation & Connaissance 12 petit déjeuner Mardi 15 mai 2012. Cloud Computing & Green IT : nuages ou éclaircies? Cycle Innovation & Connaissance 12 petit déjeuner Mardi 15 mai 2012 Cloud Computing & Green IT : nuages ou éclaircies? Christophe CORNE, CEO de Systancia et dotgreen Marchés, technologies Une promesse

Plus en détail