20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Dimension: px
Commencer à balayer dès la page:

Download "20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT"

Transcription

1 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013

2

3 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT

4 Qui a déjà entendu parler du phénomène BigData? Qui a déjà mis en œuvre des technos Big Data ou connait des entreprises qui l ont déjà fait?

5 ou réalité?

6 Accroissement du volume d information 1.8 Zettaoctets(1 zetta=10 21 ) ont été produits en 2011, un chiffre qui continue à augmenter de 50% chaque année. Un homme en 2006 générait 5Go de données par ans % En 2011, il génère 85Go par ans Source IDC

7 Sources multiples et Variées Objets intelligents Open Data OPEN DATA Médias sociaux dont le format est Variable dans le temps

8 et traitées toujours plus vite

9 avec des modes de Visualisation toujours plus sophistiqués C est là que réside la vraie valeur

10 Alors Combien de Và BigData? Volume Variété Variabilité Vélocité Visualisation

11

12 Pour qui?

13 Pour qui? TELCO Flux Data Optimisation des réseaux SANTE Ingénierie médicale Maitrise de couts PUBLIC Sécurité Assurance maladie Transports collectifs BANQUE Maitrise des flux / transaction Fraude / Risque MARKETING Connaissance marques Impacts Produits Analyse navigation WEB Social Marketing VENTES Vente en temps réel Connaissance Client Analyse du tunnel de vente RH Mesure du climat social Recrutement ASSURANCE Assurance à l usage ENERGIE Optimisation des réseaux Conseil consommation (Economie, effacement) LOGISTIQUE Optimisation flux, stocks, Inventaire

14 Pour qui? VS CA 2011 : 185 Mds employés CA 2011 : 10,5M (source JDN) 160 employés Leader du Web Analytics en France

15

16 Exploiter le capital numérique à ma disposition Consommation Localisation Paiements Navigation Consommation Internes Externes Relations Contacts Foyer Domotique Influence 1 2 Déplacement NOUVEAUX SERVICES NOUVEAUX USAGES OPEN DATA

17 Quels bénéfices à capter les données en masse? Créer un système à recommandation Booster les ventes Répondre au besoin du client Améliorer l experience utilisateur Augmenter la diversité des achats Analyse prédictive des ventes Améliorer la gestion des stocks Mettre en avant des produits Estimer les ventes Diminuer les pertes de produits Connaitre le client Connaitre ses préférences Prédire ses achats Caractériser ses besoins Evaluer sa satisfaction L exploitation des données peut être très variée Vision à 360 Utiliser des données internes et externes Croiser les informations Avoir une vision global de l activité Améliorer le fonctionnement du site internet Repérer les pages non visitées Analyser les problèmes d ergonomie Réaliser des statistiques précises Recherche d information Rechercher efficacement Améliorer la réactivité Augmenter la pertinence des résultats

18

19 L incontournable Hadoop Les atouts Performance Stockage Scalabilité Données non structurées Haute disponibilité R&D mondiale Open source Standard Web Système distribué Connectivité croissante Les points d attention Ressources spécialisées Langage non SQL Très orienté Analyse Orienté batch

20 Le Framework Hadoop Écosystème et distributions Connecteurs (stockage simple ou utilisation de Hadoop pour réaliser des traitements) Distributions Workflowet Scheduling (Oozie) Base NoSQL orientée colonnes (Hbase) Flux de données (Pig) Pseudo SQL (Hive) Calculs distribués (MapReduce) Intégration données non-structurées (flume, chuhwa) Coordinattion (Zookeeper) Stockage distribué (HDFS) Intégration données structurées (Sqoop)

21 L adoption d Hadoop

22 Quelle fonction analytique supporte Hadoopdans votre organisation?

23 Quelles sont les données intégrées dans Hadoop?

24 Cas d utilisation d Hadoopen terme d architecture

25 Cas d utilisation Hadoop Pourquoi Facebook a migré vers Hadoop? En 2007, Facebook a préféré Hadoopaux solutions MPP pour de supporter ses données décisionnelles d un volume de 15 To Les critères de choix Aspect logiciel : Open Source vs licences Prise en main aisée par les développeurs de FaceBook Flexibilité Aspects matériel : Cluster de machines à bas prix vs serveurs spécialisés(~ US$ par instance MySQL ou MPP vs à US$ par instance Hadoop) Scalabilité horizontale jusqu à 4000 nœuds Performance accrue Chiffres clés (2012) 210 To de données Hadoop(via Hive) manipulées chaque heure 500 To de données intégrés par jour dont 300 millions de photos MAJ des requêtes de ciblages de publicité : chaque heure 100 Po de données sur une seule grappe Hadoop

26 Les cas d usage fonctionnels des technologies «BigData» Hadoop Archithecture MPP (appliance ou non) Cloud Stockage Visualisation Analyse Data Viz Data mining Big Data Etl Eco système Hadoop Traitement Requête In Memory Solutions MPP Bases NoSQL

27 Les solutions MPP Appliance EXADATA Sans Appliance Database

28 Les solutions In memory Appliance Cache pour cluster Visual Analytics Memcached

29 Les solutions NoSQL Clé / Valeurs Orienté Colonne NOSQL Orienté Documents Orienté Graphe

30 Les solutions de traitements Traitement - Map Reduce Traitement De nombreuses implémentation différentes Basé sur des travaux réalisés par Google Concept simple mais apprentissage difficile Pig: utilisation d un langage de requêtage ETL Hive: utilisation d un langage proche du sql Data warehouse Gain en productivité Plus accessible

31 Les solutions de Visualisation et d analyse Datamining Dataviz

32 Le nouvel éco système analytique Collecte Analyse Visualisation Sources Down BIG DATA Top Transformation de gros volume pour Sources Sources IN Le pilotage opérationnel, Indicateurs de pilotage, OUT Visualisation DATAVIZ Nouveaux services Business intelligence Top Down ACCELERATION DU CYCLE DECISIONNEL

33 Le nouvel éco système analytique

34 Le nouvel éco système analytique

35 Exemple POC BigData 1 Million de contrats par année Plus de 2 Millions de lignes de log par jour Des données de log en constante évolution et difficiles à analyser Impossibilité de visualiser le parcours client sur un temps de traitement très court Connaitre le trafic et la répartition des charges serveurs sur de longue période est compliqué et très couteux avec une telle volumétrie

36 Objectifs du POC A partir des logs tomcat: Quantification du traffic Vérification du loadbalancingpour les serveurs d application Identification des erreurs tomcat Analyse du parcours client Evolutiondu taux de transformation en fonction des actions marketing et des évolutions du site Web

37 Solutions mises en œuvre Hadoop distribution Cloudera CDH4 Stockage : HDFS Requêtage: Hive Traitements : Talend BigData Requêtage: Vectorwise Visualisation : Tableau software Hébergement serveur : Cloud Amazon EC2

38 Architecture technique Sources NoSQL REEL Tomcat 1 Talend BigData Base NoSQL HDFS Tomcat 2 MNA DataNode 1 Tomcat 1 Talend BigData NameNode DataNode 2 Tomcat 2 Étape 1 Étape 2 DataNode 3

39 Indicateurs du POC Temps de chargement moyen Phase init: 8H Phase quotidien : 30 min Temps d exécution moyen Requête complexe : <15 min Requête simple : < 1 min Volumétrie : 1,5 ans d historique 476 Millions de lignes 1500 Fichiers de log4j 400 Go

40

41

42

43 La donnée est le "nouveau pétrole". En conséquence, les métiers changent. Le cabinet Gardner chiffre à 4,4 millions le nombre d'emplois dans le monde créés d'ici à 2015 dans le secteur du BigData Nouveaux métiers CDO (chiefdata officer) : situé au même niveau hiérarchique que les directeurs marketing et informatique, il fait le lien entre les deux services. Data Scientist

44 Data scientistselon Yahoo! labs Data scientists have the skills to lead and execute projects involving: - Design algorithms to efficiently compute metrics on big data -Mine data to extract deep insights into user media consumption, consumer purchase behavior, user response to advertising -Perform analysis such as social network analysis, anomaly detection, trend analysis, etc - Develop high dimensional predictive models of user behavior - Develop visualizations Data scientists will develop a deep understanding of Yahoo's data. They will have the skillsto design and implement algorithms, manipulate data in one or more programming languages. They will have deep knowledge of big data processing architectures such as map reduce, stream processing, etc. Data scientists will have a PhD in computer science or related fields.

45 Autrement dit

46 Autrement dit

47 Autrement dit Les compétences recherchées couvrent trois domaines : la gestion des données (les capter), l'analyse (statisticiens, mathématiciens) les compétences métiers, liées au management et à la prise de décisions. Les deux premiers profils se trouvent en écoles d'ingénieurs et universités. Le troisième plutôt en école de commerce.

48 Autrement dit

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Mappy en Chiffre Filiale du groupe Solocal 10M de visiteurs uniques 300M visites annuelles 100 collaborateurs dont 60% technique 3,7 Md de dalles

Plus en détail

Hadoop, les clés du succès

Hadoop, les clés du succès Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

L analytique en temps réel en un clic. Jean-Michel Franco Directeur Marketing Produit @jmichel_franco

L analytique en temps réel en un clic. Jean-Michel Franco Directeur Marketing Produit @jmichel_franco L analytique en temps réel en un clic Jean-Michel Franco Directeur Marketing Produit @jmichel_franco 2015 Talend Inc. 1 1 Dynamiser l entreprise par ses données Les entreprises orientées données 23X plus

Plus en détail

Introduction Big Data

Introduction Big Data Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

BIG DATA et DONNéES SEO

BIG DATA et DONNéES SEO BIG DATA et DONNéES SEO Vincent Heuschling vhe@affini-tech.com @vhe74 2012 Affini-Tech - Diffusion restreinte 1 Agenda Affini-Tech SEO? Application Généralisation 2013 Affini-Tech - Diffusion restreinte

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

Titre : La BI vue par l intégrateur Orange

Titre : La BI vue par l intégrateur Orange Titre : La BI vue par l intégrateur Orange Résumé : L entité Orange IT&L@bs, partenaire privilégié des entreprises et des collectivités dans la conception et l implémentation de SI Décisionnels innovants,

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

Offre formation Big Data Analytics

Offre formation Big Data Analytics Offre formation Big Data Analytics OCTO 2014 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél : +33 (0)1 58 56 10 00 Fax : +33 (0)1 58 56 10 01 www.octo.com 1 Présentation d OCTO Technology 2 Une

Plus en détail

Photobox Amazon RedShift. Maxime Mézin Data Foundation Manager

Photobox Amazon RedShift. Maxime Mézin Data Foundation Manager Photobox Amazon RedShift Maxime Mézin Data Foundation Manager Présentation de Photobox Leader Européen du tirage et du livre photo 25 millions de clients 17 pays, dernière ouverture il y a 6 mois en Australie

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Introduction data science

Introduction data science Introduction data science Data science Master 2 ISIDIS Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/~verel Université du Littoral Côte d Opale Laboratoire LISIC Equipe

Plus en détail

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I. BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I. QUELLES PERSPECTIVES POUR LES 20 PROCHAINES ANNEES? 22 MARS 2013 CHARLES PARAT, DIR. INNOVATION adoption L ADOPTION DES EVOLUTIONS B.I. EST LENTE BIGDATA BUZZ MAINFRAME

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages 1 Mehdi LOUIZI Plan Pourquoi Hadoop? Présentation et Architecture Démo Usages 2 Pourquoi Hadoop? Limites du Big Data Les entreprises n analysent que 12% des données qu elles possèdent (Enquête Forrester

Plus en détail

Anticiper et prédire les sinistres avec une approche Big Data

Anticiper et prédire les sinistres avec une approche Big Data Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél

Plus en détail

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD BIGDATA PARIS LE 1/4/2014 VINCENT HEUSCHLING @VHE74! 1 NOUS 100% Bigdata Infrastructure IT + Data Trouver vos opportunités Implémenter les

Plus en détail

New Features. Developed by. BPM Conseil - SARL au capital de 70 000 euros - RCS LYON 479 400 129 9, rue Pierre Blanc - 69001 Lyon - France 1/20

New Features. Developed by. BPM Conseil - SARL au capital de 70 000 euros - RCS LYON 479 400 129 9, rue Pierre Blanc - 69001 Lyon - France 1/20 5 New Features Developed by 1/20 Sommaire 1 Introduction... 3 2 Evolutions des studios de développement et améliorations fonctionnelles... 5 3 Portail Vanilla... 6 3.1 Open Street Maps... 6 3.2 Gestion

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Jean-Marc Spaggiari Cloudera jms@cloudera.com @jmspaggi Mai 2014 1 2 Avant qu on commence Agenda -Qu est-ce que Hadoop et pourquoi

Plus en détail

Entreprise et Big Data

Entreprise et Big Data Entreprise et Big Data Christophe Favart Chef Architecte, SAP Advanced Development, Business Information Technology Public Juin 2013 Agenda SAP Données d Entreprise Big Data en entreprise Solutions SAP

Plus en détail

FORMATION HADOOP Développeur pour Hadoop (Apache)

FORMATION HADOOP Développeur pour Hadoop (Apache) FORMATION HADOOP Développeur pour Hadoop (Apache) Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l objet d une demande écrite auprès de Cyrès.

Plus en détail

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Tables Rondes Le «Big Data»

Tables Rondes Le «Big Data» Tables Rondes Le «Big Data» 2012-2013 1 Plan Introduc9on 1 - Présenta9on Ingensi 2 - Le Big Data c est quoi? 3 - L histoire 4 - Le monde du libre : Hadoop 5 - Le système HDFS 6 - Les algorithmes distribués

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Big Data. Concept et perspectives : la réalité derrière le buzz Big Data Concept et perspectives : la réalité derrière le "buzz" 2012 Agenda Concept & Perspectives Technologies & Acteurs 2 Pierre Audoin Consultants (PAC) Pierre Audoin Consultants (PAC) est une société

Plus en détail

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Le tout fichier Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique Introduction à l informatique : Information automatisée Le premier ordinateur Définition disque dure, mémoire, carte mémoire, carte mère etc Architecture d un ordinateur Les constructeurs leader du marché

Plus en détail

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca Une brève introduction aux Données Massives - Challenges et perspectives Romain Picot-Clémente Cécile Bothorel Philippe Lenca Plan 1 Big Data 2 4Vs 3 Hadoop et son écosystème 4 Nouveaux challenges, nouvelles

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr Avril 2014 Virtualscale 1 Sommaire Les enjeux du Big Data et d Hadoop Quels enjeux

Plus en détail

Big Data par l exemple

Big Data par l exemple #PARTAGE Big Data par l exemple Alexandre Chauvin Hameau Directeur de la production Malakoff Médéric @achauvin CT BIG DATA 10/12/2015 Soyons pragmatiques BIG DATA beaucoup de bruit pour des choses finalement

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

IBM Software Big Data. Plateforme IBM Big Data

IBM Software Big Data. Plateforme IBM Big Data IBM Software Big Data 2 Points clés Aide les utilisateurs à explorer de grands volumes de données complexes Permet de rationaliser le processus de développement d'applications impliquant de grands volumes

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

Préface Dunod Toute reproduction non autorisée est un délit. Les raisons de l émergence du Big Data sont bien connues. Elles sont d abord économiques et technologiques. La chute exponentielle des coûts

Plus en détail

aprevotleygonie.wordpress.com >

aprevotleygonie.wordpress.com > Comment marche le big data??? A part être un sujet marketing faisant couler des flots d encre digitale, le big data, ce sont des concepts, des techniques. Le jour est venu pour appréhender en profondeur

Plus en détail

Document réalisé par Khadidjatou BAMBA

Document réalisé par Khadidjatou BAMBA Comprendre le BIG DATA Document réalisé par Khadidjatou BAMBA 1 Sommaire Avant propos. 3 Historique du Big Data.4 Introduction.....5 Chapitre I : Présentation du Big Data... 6 I. Généralités sur le Big

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Vos experts Big Data. contact@hurence.com. Mener un projet Big Data

Vos experts Big Data. contact@hurence.com. Mener un projet Big Data Vos experts Big Data contact@hurence.com Mener un projet Big Data Expert Expert Infrastructure Data Science Spark MLLib Big Data depuis 2011 Expert Expert Hadoop / Spark NoSQL HBase Couchbase MongoDB Expert

Plus en détail

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group 1 Catherine Chochoy I/T Specialist, IBM Information Management on System z, Software Group Alain Maneville Executive I/T specialist, zchampion, IBM Systems and Technology Group 2 Le défi du Big Data (et

Plus en détail

Big Graph Data Forum Teratec 2013

Big Graph Data Forum Teratec 2013 Big Graph Data Forum Teratec 2013 MFG Labs 35 rue de Châteaudun 75009 Paris, France www.mfglabs.com twitter: @mfg_labs Julien Laugel MFG Labs julien.laugel@mfglabs.com @roolio SOMMAIRE MFG Labs Contexte

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Présentation Société Actulligence Consulting

Présentation Société Actulligence Consulting Présentation Société Actulligence Consulting Conseil et Accompagnement Intelligence économique Veille stratégique e-réputation Actulligence Consulting : Présentation Frédéric Martinet, Consultant indépendant

Plus en détail

BI SWISS FORUM (ecom / SITB)

BI SWISS FORUM (ecom / SITB) 2015 04 21 - GENEVA BI SWISS FORUM (ecom / SITB) LE BIG DATA A L ASSAUT DES ZONES DE CONFORT TECH ET BUSINESS WWW.CROSS-SYSTEMS.CH GROUPE MICROPOLE 1100 COLLABORATEURS DONT 130 EN SUISSE +800 CLIENTS 27

Plus en détail

Les quatre piliers d une solution de gestion des Big Data

Les quatre piliers d une solution de gestion des Big Data White Paper Les quatre piliers d une solution de gestion des Big Data Table des Matières Introduction... 4 Big Data : un terme très vaste... 4 Le Big Data... 5 La technologie Big Data... 5 Le grand changement

Plus en détail

Conserver les Big Data, source de valeur pour demain

Conserver les Big Data, source de valeur pour demain Le potentiel et les défis du Big Data UIMM Mardi 2 et mercredi 3 juillet 2013 56 avenue de Wagram 75017 PARIS Conserver les Big Data, source de valeur pour demain Définir les Big Data Les Big Data à travers

Plus en détail

NoSQL : en Quête de Performances Extrêmes

NoSQL : en Quête de Performances Extrêmes NoSQL : en Quête de Performances Extrêmes Alors que l audience du web croît sans cesse, les applications Internet à succès ont été confrontées aux mêmes problèmes de base de données : si les serveurs web

Plus en détail

Les entrepôts de données pour les nuls... ou pas!

Les entrepôts de données pour les nuls... ou pas! Atelier aideà la Décision à tous les Etages AIDE@EGC2013 Toulouse Mardi 29 janvier 2013 Cécile Favre Fadila Bentayeb Omar Boussaid Jérôme Darmont Gérald Gavin Nouria Harbi Nadia Kabachi Sabine Loudcher

Plus en détail

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015 Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015 Jean-David Benassouli Managing Director, Responsable France de la practice Digital Data management +33 6 79 45 11 51

Plus en détail

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1 2 Introduction Historique des bases de données : méthodes de stockage et d analyse

Plus en détail

Performances Veille. Système d Information. Semaine 25 du 18 au 24 juin 2012. Numéro 228

Performances Veille. Système d Information. Semaine 25 du 18 au 24 juin 2012. Numéro 228 Performances Veille Système d Information Semaine 25 du 18 au 24 juin 2012 Numéro 228 TABLE DES MATIÈRES LA GÉNÉRATION Y DÉFIE LA DSI... 2 SOLUTIONS LINUX : BIG DATA ET BI OPEN SOURCE FONT BON MÉNAGE 01

Plus en détail

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions? Introduction Quelles sont les défis actuels

Plus en détail

Vos experts Big Data. contact@hurence.com. Le Big Data dans la pratique

Vos experts Big Data. contact@hurence.com. Le Big Data dans la pratique Vos experts Big Data contact@hurence.com Le Big Data dans la pratique Expert Expert Infrastructure Data Science Spark MLLib Big Data depuis 2011 Expert Expert Hadoop / Spark NoSQL HBase Couchbase MongoDB

Plus en détail

AXIAD Conseil pour décider en toute intelligence

AXIAD Conseil pour décider en toute intelligence AXIAD Conseil pour décider en toute intelligence Gestion de la Performance, Business Intelligence, Big Data Domaine d expertise «Business Intelligence» Un accompagnement adapté à votre métier dans toutes

Plus en détail

FAITES DE LA DONNÉE LE MOTEUR DE VOTRE BUSINESS. Alexandre Vasseur Responsable Avant-Vente Europe du Sud Pivotal, EMC

FAITES DE LA DONNÉE LE MOTEUR DE VOTRE BUSINESS. Alexandre Vasseur Responsable Avant-Vente Europe du Sud Pivotal, EMC FAITES DE LA DONNÉE LE MOTEUR DE VOTRE BUSINESS Alexandre Vasseur Responsable Avant-Vente Europe du Sud Pivotal, EMC 1 Big Data = Volume, Variété, Vélocité et Valorisation Internet des objets Informations

Plus en détail

Le BigData, aussi par et pour les PMEs

Le BigData, aussi par et pour les PMEs Parole d expert Le BigData, aussi par et pour les PMEs Stéphane MOUTON, CETIC Département Software and Services Technologies Avec le soutien de : LIEGE CREATIVE Le Big Data, aussi par et pour les PMEs

Plus en détail

À PROPOS DE TALEND...

À PROPOS DE TALEND... WHITE PAPER Table des matières Résultats de l enquête... 4 Stratégie d entreprise Big Data... 5 Intégration des Big Data... 8 Les défis liés à la mise en œuvre des Big Data... 10 Les technologies pour

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

Surmonter les 5 défis opérationnels du Big Data

Surmonter les 5 défis opérationnels du Big Data Surmonter les 5 défis opérationnels du Big Data Jean-Michel Franco Talend Connect 9 octobre 2014 Talend 2014 1 Agenda Agenda Le Big Data depuis la découverte jusqu au temps réel en passant par les applications

Plus en détail

KARMA Le système de Revenue Management d'air France KLM avec Hadoop

KARMA Le système de Revenue Management d'air France KLM avec Hadoop KARMA Le système de Revenue Management d'air France KLM avec Hadoop Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 16 Décembre 2014 Martial AYAS maayas@airfrance.fr 2 Agenda 1. Présentation

Plus en détail

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation. Les infrastructure du Big Data Le «Big Data» vise à tirer un avantage concurrentiel au travers de méthodes de collecte, d analyse et d exploitation des données qu on ne pouvait utiliser jusqu à présent

Plus en détail

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic Mesures DNS à l ère du Big Data : outils et défis JCSA, 9 juillet 2015 Vincent Levigneron, Afnic Sommaire 1. Mesures DNS réalisées par l Afnic 2. Volumes et biais 3. Limitations 4. Pourquoi une approche

Plus en détail

Big Data et Statistique Publique

Big Data et Statistique Publique Big Data et Statistique Publique Miracle ou mirage? Matthieu Cornec Mission Innovation Sommaire 1. Constat : Explosion des données 1. Constat 2. Exemples 2. Big Data : nouvelle révolution économique? 1.

Plus en détail

DATA ANALYST UTILISER PIG, HIVE ET IMPALA AVEC HADOOP DE CLOUDERA

DATA ANALYST UTILISER PIG, HIVE ET IMPALA AVEC HADOOP DE CLOUDERA SI 2.0 DATA ANALYST UTILISER PIG, HIVE ET IMPALA AVEC HADOOP DE CLOUDERA REF : SICL001 DUREE : 4 JOURS TARIF : 2 695 HT Public Analystes de données, business analysts, développeurs et administrateurs.

Plus en détail

Plan. Vérinews, phase 2. Marc-Antoine Tardif Pierre-Emmanuel Viau

Plan. Vérinews, phase 2. Marc-Antoine Tardif Pierre-Emmanuel Viau Vérinews, phase 2 Marc-Antoine Tardif Pierre-Emmanuel Viau Plan Pierre-Emmanuel VériNews L équipe Gestion du projet Phases du projet, besoins et priorités Cas d utilisations priorisés Marc-Antoine Architecture

Plus en détail

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013 Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine

Plus en détail

NoSql. Principes. Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData

NoSql. Principes. Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData NoSql Principes Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData Les SGBD NoSql partagés ne peuvent satisfaire que 2 critères au plus NoSql Les transactions

Plus en détail

FICHE CONCEPT 01 ETL (EXTRACT TRANSFORM & LOAD)

FICHE CONCEPT 01 ETL (EXTRACT TRANSFORM & LOAD) FICHE CONCEPT 01 ETL (EXTRACT TRANSFORM & LOAD) BIEN GERER SES REFERENTIELS DE DONNEES : UN ENJEU POUR MIEUX PILOTER LA PERFORMANCE DE SON ETABLISSEMENT octobre 2008 GMSIH 44, Rue de Cambronne 75015 Paris.

Plus en détail

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Responsable du stage : Nabil Belcaid Le Guyader Chef de projet : Ali Belcaid Déroulement du stage

Plus en détail

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis Joseph Salmon Télécom ParisTech Jeudi 6 Février Joseph Salmon (Télécom ParisTech) Big Data Jeudi 6 Février 1 / 18 Agenda Contexte et opportunités

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Marc AMADOU Technical Sales Analytics on System z amadoum@fr.ibm.com. 18 Mars 2015. Big data et le z. 2015 IBM Corporation

Marc AMADOU Technical Sales Analytics on System z amadoum@fr.ibm.com. 18 Mars 2015. Big data et le z. 2015 IBM Corporation Marc AMADOU Technical Sales Analytics on System z amadoum@fr.ibm.com 18 Mars 2015 Big data et le z 2015 IBM Corporation Agenda Contexte Cas d utilisation DB2 z/os et Hadoop Connecteurs z pour Hadoop 2

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

Les activités de recherche sont associées à des voies technologiques et à des opportunités concrètes sur le court, moyen et long terme.

Les activités de recherche sont associées à des voies technologiques et à des opportunités concrètes sur le court, moyen et long terme. Mémoires 2010-2011 www.euranova.eu EURANOVA R&D Euranova est une société Belge constituée depuis le 1er Septembre 2008. Sa vision est simple : «Être un incubateur technologique focalisé sur l utilisation

Plus en détail

Big Data On Line Analytics

Big Data On Line Analytics Fdil Fadila Bentayeb Lb Laboratoire ERIC Lyon 2 Big Data On Line Analytics ASD 2014 Hammamet Tunisie 1 Sommaire Sommaire Informatique décisionnelle (BI Business Intelligence) Big Data Big Data analytics

Plus en détail

Comment valoriser votre patrimoine de données?

Comment valoriser votre patrimoine de données? BIG DATA POUR QUELS USAGES? Comment valoriser votre patrimoine de données? HIGH PERFORMANCE HIGH ANALYTICS PERFORMANCE ANALYTICS MOULOUD DEY SAS FRANCE 15/11/2012 L ENTREPRISE SAS EN QUELQUES CHIFFRES

Plus en détail

#BigData Dossier de presse Mai 2014

#BigData Dossier de presse Mai 2014 #BigData Dossier de presse Mai 2014 La valeur du Big Data pour l entreprise Comment permettre l avènement d une culture de la donnée pour tous? Dans un monde porté par la mobilité et le Cloud, non seulement

Plus en détail

Le cloud computing au service des applications cartographiques à haute disponibilité

Le cloud computing au service des applications cartographiques à haute disponibilité Le cloud computing au service des applications cartographiques à haute disponibilité Claude Philipona Les Rencontres de SIG-la-Lettre, Mai 2010 camptocamp SA / www.camptocamp.com / info@camptocamp.com

Plus en détail

Introduction aux bases de données NoSQL

Introduction aux bases de données NoSQL Introduction aux bases de données NoSQL Khaled Tannir ets@khaledtannir.net Montréal - 23 Juillet 2015 Qui suis-je? Khaled TANNIR Big Data Architect Lead 20 ans d expérience ets@khaledtannir.net @khaled_tannir

Plus en détail

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012 Business Intelligence, Etat de l art et perspectives ICAM JP Gouigoux 10/2012 CONTEXTE DE LA BI Un peu d histoire Premières bases de données utilisées comme simple système de persistance du contenu des

Plus en détail

For Fun and Profit Datasio 2012

For Fun and Profit Datasio 2012 For Fun and Profit Datasio 2012 130 Nouveaux acteurs Big Data depuis 2009 1 2 3 Agenda Hadoop, poids lourd du Big Data Stats Web avec Hive chez Scoop.it Profession: Data Scientist Agenda 1 Hadoop, poids

Plus en détail