BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23
Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie - Argos Imagerie satellite FR Big Data Congress, Paris 2012 2/23
Points clés Vers une Science ultra-empirique? Big Data pour la Recherche et l Industrie : mode d emploi Hadoop et les données géographiques et temporelles FR Big Data Congress, Paris 2012 3/23
Points clés Vers une Science ultra-empirique? Big Data pour la Recherche et l Industrie : mode d emploi Hadoop et les données géographiques et temporelles FR Big Data Congress, Paris 2012 4/23
L ère du Data Scientist L accumulation exponentielle de données transforme la démarche d analyse 1960 E. Wigner, The Unreasonable Effectiveness of Mathematics in the Natural Sciences, Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1 14. 2009 A. Halevy, P. Norvig, F. Pereira, The Unreasonable Effectiveness of Data, IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12. FR Big Data Congress, Paris 2012 5/23
L ère du Data Scientist L accumulation exponentielle de données transforme la démarche d analyse 1960 E. Wigner, The Unreasonable Effectiveness of Mathematics in the Natural Sciences, Comm. Pure and Applied Mathematics, vol. 13, no. 1, pp. 1 14. 2009 A. Halevy, P. Norvig, F. Pereira, The Unreasonable Effectiveness of Data, IEEE Intelligent Systems, vol. 24, no. 2, pp. 8-12. FR Big Data Congress, Paris 2012 5/23
All models are wrong, but some are useful. George Box FR Big Data Congress, Paris 2012 6/23
Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23
Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23
Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23
Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23
Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23
Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23
Data Scientist = nouveau métier? Ce qui ne change pas Le besoin en compétences statistiques (Bayésiennes, fréquentistes etc...) La démarche de questionnement et de critique Les protocoles de collecte de données Ce qui change Le stockage et le traitement de données L interaction entre modélisateurs, ingénieurs systèmes et bases de données et... le client FR Big Data Congress, Paris 2012 7/23
Points clés Vers une Science ultra-empirique? Big Data pour la Recherche et l Industrie : mode d emploi Hadoop et les données géographiques et temporelles FR Big Data Congress, Paris 2012 8/23
Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23
Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23
Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23
Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23
Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23
Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23
Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23
Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23
Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23
Définition Big Data = gros volume (> 10 TB) Imagerie satellite 1-10 GB/jour Systèmes géolocalisés (véhicules, personnes) 100 MB/jour Modèles météo 100 GB/jour Simulateurs (traffic routier etc...) 100 GB/run Big Data + Big Process Données pré-traitées (GPS) Coût d analyse - Aggrégation, contextualisation Coût d analyse + Appels BD Coût d analyse +++ Calculs en cascade Coût d analyse +++ FR Big Data Congress, Paris 2012 9/23
Diagnostic Big Data Docteur, ais-je un problème Big Data? Oui, si : Vous avez un réseau d observation autonome (capteurs météo, RFID, GPS, balises Argos, smartphones, télémètres, instruments sur satellites...) Vos données dépendent d une communauté d utilisateurs ou d individus instrumentés (étude de la mobilité humaine, écologie terrestre et marine etc... ) Votre budget, programme de recherche ou business plan prévoit de mesurer d abord, traiter ensuite Ces systèmes de collecte produisent des flots de données plus vite que vous ne pouvez les traiter FR Big Data Congress, Paris 2012 10/23
Diagnostic Big Data Docteur, ais-je un problème Big Data? Oui, si : Vous avez un réseau d observation autonome (capteurs météo, RFID, GPS, balises Argos, smartphones, télémètres, instruments sur satellites...) Vos données dépendent d une communauté d utilisateurs ou d individus instrumentés (étude de la mobilité humaine, écologie terrestre et marine etc... ) Votre budget, programme de recherche ou business plan prévoit de mesurer d abord, traiter ensuite Ces systèmes de collecte produisent des flots de données plus vite que vous ne pouvez les traiter FR Big Data Congress, Paris 2012 10/23
Diagnostic Big Data Docteur, ais-je un problème Big Data? Oui, si : Vous avez un réseau d observation autonome (capteurs météo, RFID, GPS, balises Argos, smartphones, télémètres, instruments sur satellites...) Vos données dépendent d une communauté d utilisateurs ou d individus instrumentés (étude de la mobilité humaine, écologie terrestre et marine etc... ) Votre budget, programme de recherche ou business plan prévoit de mesurer d abord, traiter ensuite Ces systèmes de collecte produisent des flots de données plus vite que vous ne pouvez les traiter FR Big Data Congress, Paris 2012 10/23
Diagnostic Big Data Docteur, ais-je un problème Big Data? Oui, si : Vous avez un réseau d observation autonome (capteurs météo, RFID, GPS, balises Argos, smartphones, télémètres, instruments sur satellites...) Vos données dépendent d une communauté d utilisateurs ou d individus instrumentés (étude de la mobilité humaine, écologie terrestre et marine etc... ) Votre budget, programme de recherche ou business plan prévoit de mesurer d abord, traiter ensuite Ces systèmes de collecte produisent des flots de données plus vite que vous ne pouvez les traiter FR Big Data Congress, Paris 2012 10/23
Diagnostic Big Data Docteur, ais-je un problème Big Data? Oui, si : Vous avez un réseau d observation autonome (capteurs météo, RFID, GPS, balises Argos, smartphones, télémètres, instruments sur satellites...) Vos données dépendent d une communauté d utilisateurs ou d individus instrumentés (étude de la mobilité humaine, écologie terrestre et marine etc... ) Votre budget, programme de recherche ou business plan prévoit de mesurer d abord, traiter ensuite Ces systèmes de collecte produisent des flots de données plus vite que vous ne pouvez les traiter FR Big Data Congress, Paris 2012 10/23
Diagnostic Big Data C est grave, Docteur? Tout ira bien, je vais vous prescrire du DevOps et des calculs distribués. FR Big Data Congress, Paris 2012 11/23
Solutions Big Data FR Big Data Congress, Paris 2012 12/23
Solutions Big Data Dev FR Big Data Congress, Paris 2012 12/23
Solutions Big Data Opérations Dev FR Big Data Congress, Paris 2012 12/23
Solutions Big Data Opérations QA Dev FR Big Data Congress, Paris 2012 12/23
Solutions Big Data Opérations DevOps QA Dev FR Big Data Congress, Paris 2012 12/23
Solutions Big Data Hier Noeuds de stockage périphériques Stockage sur plusieurs niveaux chaud / froid Supercalculateur au centre Data -> Code FR Big Data Congress, Paris 2012 13/23
Solutions Big Data Hier Noeuds de stockage périphériques Stockage sur plusieurs niveaux chaud / froid Supercalculateur au centre Data -> Code FR Big Data Congress, Paris 2012 13/23
Solutions Big Data Hier Noeuds de stockage périphériques Stockage sur plusieurs niveaux chaud / froid Supercalculateur au centre Data -> Code FR Big Data Congress, Paris 2012 13/23
Solutions Big Data Hier Noeuds de stockage périphériques Stockage sur plusieurs niveaux chaud / froid Supercalculateur au centre Data -> Code FR Big Data Congress, Paris 2012 13/23
Solutions Big Data Aujourd hui Noeuds de stockage sur même réseau GB Matériel milieu de gamme (100-1000 CPUs) Système de fichiers distribués (DFS) Gestion des jobs et données par des Master Nodes Code -> Data FR Big Data Congress, Paris 2012 14/23
Solutions Big Data Aujourd hui Noeuds de stockage sur même réseau GB Matériel milieu de gamme (100-1000 CPUs) Système de fichiers distribués (DFS) Gestion des jobs et données par des Master Nodes Code -> Data FR Big Data Congress, Paris 2012 14/23
Solutions Big Data Aujourd hui Noeuds de stockage sur même réseau GB Matériel milieu de gamme (100-1000 CPUs) Système de fichiers distribués (DFS) Gestion des jobs et données par des Master Nodes Code -> Data FR Big Data Congress, Paris 2012 14/23
Solutions Big Data Aujourd hui Noeuds de stockage sur même réseau GB Matériel milieu de gamme (100-1000 CPUs) Système de fichiers distribués (DFS) Gestion des jobs et données par des Master Nodes Code -> Data FR Big Data Congress, Paris 2012 14/23
Solutions Big Data Aujourd hui Noeuds de stockage sur même réseau GB Matériel milieu de gamme (100-1000 CPUs) Système de fichiers distribués (DFS) Gestion des jobs et données par des Master Nodes Code -> Data FR Big Data Congress, Paris 2012 14/23
Solutions Big Data Aujourd hui Noeuds de stockage sur même réseau GB Matériel milieu de gamme (100-1000 CPUs) Système de fichiers distribués (DFS) Gestion des jobs et données par des Master Nodes Code -> Data FR Big Data Congress, Paris 2012 14/23
Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23
Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23
Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23
Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23
Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23
Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23
Solutions Big Data Pourquoi Hadoop? Open source (fondation Apache, ouvert par Yahoo) Projet en maturation, communauté active Parallélisation de tâches et données robuste Standard de facto en analyse de données massives Bonne interopérabilité avec les data warehouse et BDs existantes (ETL, Hive, Sqoop) Offres commerciales (support, packaging, intégration: IBM, Cloudera, AWS...) FR Big Data Congress, Paris 2012 15/23
Solutions Big Data Pourquoi Hadoop? Difficile à tuner pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce Embauche et formation de développeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR Big Data Congress, Paris 2012 16/23
Solutions Big Data Pourquoi Hadoop? Difficile à tuner pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce Embauche et formation de développeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR Big Data Congress, Paris 2012 16/23
Solutions Big Data Pourquoi Hadoop? Difficile à tuner pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce Embauche et formation de développeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR Big Data Congress, Paris 2012 16/23
Solutions Big Data Pourquoi Hadoop? Difficile à tuner pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce Embauche et formation de développeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR Big Data Congress, Paris 2012 16/23
Solutions Big Data Pourquoi Hadoop? Difficile à tuner pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce Embauche et formation de développeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR Big Data Congress, Paris 2012 16/23
Solutions Big Data Pourquoi Hadoop? Difficile à tuner pour des jobs complexes Encore confidentiel en France (cf. groupe Hadoop France sur LinkedIn) Difficile de formuler certains algorithmes sous forme map-reduce Embauche et formation de développeurs et analystes Autres alternatives disponibles (BSP, Storm, Disco...) FR Big Data Congress, Paris 2012 16/23
Solutions Big Data FR Big Data Congress, Paris 2012 17/23
Solutions Big Data HDFS FR Big Data Congress, Paris 2012 17/23
Solutions Big Data Map Reduce HDFS FR Big Data Congress, Paris 2012 17/23
Solutions Big Data Map Reduce HBase HDFS FR Big Data Congress, Paris 2012 17/23
Solutions Big Data Hive Map Reduce HBase HDFS FR Big Data Congress, Paris 2012 17/23
Solutions Big Data Hive Pig Map Reduce HBase HDFS FR Big Data Congress, Paris 2012 17/23
Solutions Big Data Hive Pig Mahout Map Reduce HBase HDFS FR Big Data Congress, Paris 2012 17/23
Solutions Big Data Hive Pig Mahout Map Reduce HDFS HBase Zookeeper FR Big Data Congress, Paris 2012 17/23
Points clés Vers une Science ultra-empirique? Big Data pour la Recherche et l Industrie : mode d emploi Hadoop et les données géographiques et temporelles FR Big Data Congress, Paris 2012 18/23
Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23
Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23
Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23
Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23
Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23
Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23
Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23
Hadoop-xyt ou Hadoop et les données géographiques et temporelles Besoin retraitement et fouille de données historiques (géographiques et séries temporelles) Accélérer la découverte d anomalies et l extraction de valeur ajoutée Problématique Données très structurées - solution compétitive? Données corrélées = pb du traitement indépendant? Données stockées en fichiers binaires - distribution? Algorithmes métier à réutiliser - interface Java? FR Big Data Congress, Paris 2012 19/23
Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23
Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23
Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23
Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23
Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23
Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23
Hadoop-xyt Traitement d images Extraction + tiling + rendering Calculs massivement parallèles = gain de temps +++ FR Big Data Congress, Paris 2012 20/23
Hadoop-xyt Géolocalisation de véhicules FR Big Data Congress, Paris 2012 21/23
Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie - Argos Imagerie satellite FR Big Data Congress, Paris 2012 22/23
Datasio We are Data Scientists Data Mining Prototypage Algorithmie Détection d anomalies Prédiction Machine Learning Spatial data Time series François Royer froyer@datasio.com www.datasio.com FR Big Data Congress, Paris 2012 23/23