BIG DATA en Sciences et Industries de l Environnement

Documents pareils

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

HADOOP ET SON ÉCOSYSTÈME

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Panorama des solutions analytiques existantes

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Cartographie des solutions BigData

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Les technologies du Big Data

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Big Data Concepts et mise en oeuvre de Hadoop

Offre formation Big Data Analytics

Les datas = le fuel du 21ième sicècle

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Anticiper et prédire les sinistres avec une approche Big Data

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Labs Hadoop Février 2013

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Introduction à MapReduce/Hadoop et Spark

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Les quatre piliers d une solution de gestion des Big Data

Introduction Big Data

Programmation parallèle et distribuée (Master 1 Info )

Les journées SQL Server 2013

Surmonter les 5 défis opérationnels du Big Data

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Programmation parallèle et distribuée

Programmation parallèle et distribuée

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Comment valoriser votre patrimoine de données?

Fouille de données massives avec Hadoop

Tables Rondes Le «Big Data»

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Document réalisé par Khadidjatou BAMBA

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

Le potentiel et les défis du Big Data. Mardi 2 et Mercredi 3 Juillet 2013

Le BigData, aussi par et pour les PMEs

Ricco Rakotomalala R.R. Université Lyon 2

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Vos experts Big Data. Le Big Data dans la pratique

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Hadoop, les clés du succès

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

BIG Data et R: opportunités et perspectives

Transformez vos données en opportunités. avec Microsoft Big Data

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Formation continue. Ensae-Ensai Formation Continue (Cepe)

LES ENJEUX DU BIG DATA

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Big Data On Line Analytics

IBM BigInsights for Apache Hadoop

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Big Data et la santé

4 Exemples de problèmes MapReduce incrémentaux

Jean-François Boulicaut & Mohand-Saïd Hacid

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

Machine Learning 9:HSMBKA=\WU\YX: Big Data et machine learning. Manuel du data scientist. InfoPro

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Location Analytics. Astrid GLADYS Thierry BABELAERE Pierre TEYSSENDIER. SIG 2013 Conférence Francophone 2 & 3 Octobre Versailles Atelier Technique

Big Data Jean-Michel Franco

Catalogue des stages Ercom 2013

M2 GL UE DOC «In memory analytics»

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

Exploration des Big Data pour optimiser la Business Intelligence

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Workshop Big Data Valère DUSSAUX (GCS-D-SISIF) Bruno PREVOST (SAFRAN) Point d avancement

Authentification, Sécurisation, & Tracking de vos équipements et produits

Big Data, un nouveau paradigme et de nouveaux challenges

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Entreprise et Big Data

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

ETAT DE L ART ET PERSPECTIVES POUR LES SERVICES NUMÉRIQUES APPLIQUÉS À LA VITICULTURE.

Programme ASI Développeur

Big Data et Prévisions. Philippe Picard, le 24 juin Page 1

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Big Data -Comment exploiter les données et les transformer en prise de décisions?

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

Certificat Big Data - Master MAthématiques

Transcription:

BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23

Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie - Argos Imagerie satellite FR Big Data Congress, Paris 2012 2/23

Points clés Vers une Science ultra-empirique? Big Data pour la Recherche et l Industrie : mode d emploi Hadoop et les données géographiques et temporelles FR Big Data Congress, Paris 2012 3/23

Points clés Vers une Science ultra-empirique? Big Data pour la Recherche et l Industrie : mode d emploi Hadoop et les données géographiques et temporelles FR Big Data Congress, Paris 2012 4/23

L ère du Data Scientist L accumulation exponentielle de données transforme la démarche d analyse 1960 E. Wigner, The Unreasonable Effectiveness of Mathematics in the Natural Sciences, Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1 14. 2009 A. Halevy, P. Norvig, F. Pereira, The Unreasonable Effectiveness of Data, IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12. FR Big Data Congress, Paris 2012 5/23

L ère du Data Scientist L accumulation exponentielle de données transforme la démarche d analyse 1960 E. Wigner, The Unreasonable Effectiveness of Mathematics in the Natural Sciences, Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1 14. 2009 A. Halevy, P. Norvig, F. Pereira, The Unreasonable Effectiveness of Data, IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12. FR Big Data Congress, Paris 2012 5/23

All models are wrong, but some are useful. George Box FR Big Data Congress, Paris 2012 6/23

Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23

Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23

Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23

Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23

Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23

Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23

Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23

Points clés Vers une Science ultra-empirique? Big Data pour la Recherche et l Industrie : mode d emploi Hadoop et les données géographiques et temporelles FR Big Data Congress, Paris 2012 8/23

Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23

Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23

Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23

Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23

Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23

Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23

Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23

Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23

Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23

Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23

Diagnostic Big Data Docteur, ais-je un problème Big Data? Oui, si : Vous avez un réseau d observation autonome (capteurs météo, RFID, GPS, balises Argos, smartphones, télémètres, instruments sur satellites...) Vos données dépendent d une communauté d utilisateurs ou d individus instrumentés (étude de la mobilité humaine, écologie terrestre et marine etc... ) Votre budget, programme de recherche ou business plan prévoit de mesurer d abord, traiter ensuite Ces systèmes de collecte produisent des flots de données plus vite que vous ne pouvez les traiter FR Big Data Congress, Paris 2012 10/23

Diagnostic Big Data Docteur, ais-je un problème Big Data? Oui, si : Vous avez un réseau d observation autonome (capteurs météo, RFID, GPS, balises Argos, smartphones, télémètres, instruments sur satellites...) Vos données dépendent d une communauté d utilisateurs ou d individus instrumentés (étude de la mobilité humaine, écologie terrestre et marine etc... ) Votre budget, programme de recherche ou business plan prévoit de mesurer d abord, traiter ensuite Ces systèmes de collecte produisent des flots de données plus vite que vous ne pouvez les traiter FR Big Data Congress, Paris 2012 10/23

Diagnostic Big Data Docteur, ais-je un problème Big Data? Oui, si : Vous avez un réseau d observation autonome (capteurs météo, RFID, GPS, balises Argos, smartphones, télémètres, instruments sur satellites...) Vos données dépendent d une communauté d utilisateurs ou d individus instrumentés (étude de la mobilité humaine, écologie terrestre et marine etc... ) Votre budget, programme de recherche ou business plan prévoit de mesurer d abord, traiter ensuite Ces systèmes de collecte produisent des flots de données plus vite que vous ne pouvez les traiter FR Big Data Congress, Paris 2012 10/23

Diagnostic Big Data Docteur, ais-je un problème Big Data? Oui, si : Vous avez un réseau d observation autonome (capteurs météo, RFID, GPS, balises Argos, smartphones, télémètres, instruments sur satellites...) Vos données dépendent d une communauté d utilisateurs ou d individus instrumentés (étude de la mobilité humaine, écologie terrestre et marine etc... ) Votre budget, programme de recherche ou business plan prévoit de mesurer d abord, traiter ensuite Ces systèmes de collecte produisent des flots de données plus vite que vous ne pouvez les traiter FR Big Data Congress, Paris 2012 10/23

Diagnostic Big Data Docteur, ais-je un problème Big Data? Oui, si : Vous avez un réseau d observation autonome (capteurs météo, RFID, GPS, balises Argos, smartphones, télémètres, instruments sur satellites...) Vos données dépendent d une communauté d utilisateurs ou d individus instrumentés (étude de la mobilité humaine, écologie terrestre et marine etc... ) Votre budget, programme de recherche ou business plan prévoit de mesurer d abord, traiter ensuite Ces systèmes de collecte produisent des flots de données plus vite que vous ne pouvez les traiter FR Big Data Congress, Paris 2012 10/23

Diagnostic Big Data C est grave, Docteur? Tout ira bien, je vais vous prescrire du DevOps et des calculs distribués. FR Big Data Congress, Paris 2012 11/23

Solutions Big Data FR Big Data Congress, Paris 2012 12/23

Solutions Big Data Dev FR Big Data Congress, Paris 2012 12/23

Solutions Big Data Opérations Dev FR Big Data Congress, Paris 2012 12/23

Solutions Big Data Opérations QA Dev FR Big Data Congress, Paris 2012 12/23

Solutions Big Data Opérations DevOps QA Dev FR Big Data Congress, Paris 2012 12/23

Solutions Big Data Hier Noeuds de stockage périphériques Stockage sur plusieurs niveaux chaud / froid Supercalculateur au centre Data -> Code FR Big Data Congress, Paris 2012 13/23

Solutions Big Data Hier Noeuds de stockage périphériques Stockage sur plusieurs niveaux chaud / froid Supercalculateur au centre Data -> Code FR Big Data Congress, Paris 2012 13/23

Solutions Big Data Hier Noeuds de stockage périphériques Stockage sur plusieurs niveaux chaud / froid Supercalculateur au centre Data -> Code FR Big Data Congress, Paris 2012 13/23

Solutions Big Data Hier Noeuds de stockage périphériques Stockage sur plusieurs niveaux chaud / froid Supercalculateur au centre Data -> Code FR Big Data Congress, Paris 2012 13/23

Solutions Big Data Aujourd hui Noeuds de stockage sur même réseau GB Matériel milieu de gamme (100-1000 CPUs) Système de fichiers distribués (DFS) Gestion des jobs et données par des Master Nodes Code -> Data FR Big Data Congress, Paris 2012 14/23

Solutions Big Data Aujourd hui Noeuds de stockage sur même réseau GB Matériel milieu de gamme (100-1000 CPUs) Système de fichiers distribués (DFS) Gestion des jobs et données par des Master Nodes Code -> Data FR Big Data Congress, Paris 2012 14/23

Solutions Big Data Aujourd hui Noeuds de stockage sur même réseau GB Matériel milieu de gamme (100-1000 CPUs) Système de fichiers distribués (DFS) Gestion des jobs et données par des Master Nodes Code -> Data FR Big Data Congress, Paris 2012 14/23

Solutions Big Data Aujourd hui Noeuds de stockage sur même réseau GB Matériel milieu de gamme (100-1000 CPUs) Système de fichiers distribués (DFS) Gestion des jobs et données par des Master Nodes Code -> Data FR Big Data Congress, Paris 2012 14/23

Solutions Big Data Aujourd hui Noeuds de stockage sur même réseau GB Matériel milieu de gamme (100-1000 CPUs) Système de fichiers distribués (DFS) Gestion des jobs et données par des Master Nodes Code -> Data FR Big Data Congress, Paris 2012 14/23

Solutions Big Data Aujourd hui Noeuds de stockage sur même réseau GB Matériel milieu de gamme (100-1000 CPUs) Système de fichiers distribués (DFS) Gestion des jobs et données par des Master Nodes Code -> Data FR Big Data Congress, Paris 2012 14/23

Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23

Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23

Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23

Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23

Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23

Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23

Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23

Solutions Big Data Pourquoi Hadoop? Difficile à tuner pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce Embauche et formation de développeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR Big Data Congress, Paris 2012 16/23

Solutions Big Data Pourquoi Hadoop? Difficile à tuner pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce Embauche et formation de développeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR Big Data Congress, Paris 2012 16/23

Solutions Big Data Pourquoi Hadoop? Difficile à tuner pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce Embauche et formation de développeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR Big Data Congress, Paris 2012 16/23

Solutions Big Data Pourquoi Hadoop? Difficile à tuner pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce Embauche et formation de développeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR Big Data Congress, Paris 2012 16/23

Solutions Big Data Pourquoi Hadoop? Difficile à tuner pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce Embauche et formation de développeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR Big Data Congress, Paris 2012 16/23

Solutions Big Data Pourquoi Hadoop? Difficile à tuner pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce Embauche et formation de développeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR Big Data Congress, Paris 2012 16/23

Solutions Big Data FR Big Data Congress, Paris 2012 17/23

Solutions Big Data HDFS FR Big Data Congress, Paris 2012 17/23

Solutions Big Data Map Reduce HDFS FR Big Data Congress, Paris 2012 17/23

Solutions Big Data Map Reduce HBase HDFS FR Big Data Congress, Paris 2012 17/23

Solutions Big Data Hive Map Reduce HBase HDFS FR Big Data Congress, Paris 2012 17/23

Solutions Big Data Hive Pig Map Reduce HBase HDFS FR Big Data Congress, Paris 2012 17/23

Solutions Big Data Hive Pig Mahout Map Reduce HBase HDFS FR Big Data Congress, Paris 2012 17/23

Solutions Big Data Hive Pig Mahout Map Reduce HDFS HBase Zookeeper FR Big Data Congress, Paris 2012 17/23

Points clés Vers une Science ultra-empirique? Big Data pour la Recherche et l Industrie : mode d emploi Hadoop et les données géographiques et temporelles FR Big Data Congress, Paris 2012 18/23

Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23

Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23

Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23

Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23

Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23

Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23

Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23

Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23

Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23

Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23

Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23

Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23

Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23

Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23

Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23

Hadoop-xyt Géolocalisation de véhicules FR Big Data Congress, Paris 2012 21/23

Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie - Argos Imagerie satellite FR Big Data Congress, Paris 2012 22/23

Datasio We are Data Scientists Data Mining Prototypage Algorithmie Détection d anomalies Prédiction Machine Learning Spatial data Time series François Royer froyer@datasio.com www.datasio.com FR Big Data Congress, Paris 2012 23/23