Thomas Loubrieu (Ifremer) Small to Big Data. http://wwz.ifremer.fr/bigdata. 26 Novembre 2013, Ifremer, Brest

Documents pareils

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

janv-10 janv-11 oct-10 juil-11 juil-10 avr-11 avr-10

Infrastructures Parallèles de Calcul

Sextant V4.0. Le portail de diffusion de l information géographique de l Ifremer. Sextant Présentation générale

Sujet Solution de sauvegarde de serveurs et postes de travail avec BackupPC et Bacula. par ALIXEN

Vers une fédération de Cloud Académique dans France Grilles J. Pansanel pour le groupe FG-Cloud (M. Airaj, C. Cavet, V. Hamar, M. Jouvin, C.

Détection d'intrusions en environnement haute performance

Service Cloud Recherche

Présentation du module Base de données spatio-temporelles

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Mercredi 15 Janvier 2014

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Limitations of the Playstation 3 for High Performance Cluster Computing

Présentation aux entreprises du numérique

Transformation vers le Cloud. Premier partenaire Cloud Builder certifié IBM, HP et VMware

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

En savoir plus pour bâtir le Système d'information de votre Entreprise

Enterprise Intégration

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

«Les projets collaboratifs pour les nuls»

Résumé CONCEPTEUR, INTEGRATEUR, OPERATEUR DE SYSTEMES CRITIQUES

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

PostgreSQL, le cœur d un système critique

Présentation de la Grille EGEE

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

SparkInData. Place de Marché des applications Spatiales

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Base de l'informatique. Généralité et Architecture Le système d'exploitation Les logiciels Le réseau et l'extérieur (WEB)

Big Data et Graphes : Quelques pistes de recherche

Comité sectoriel de la sécurité sociale et de la santé Section «Sécurité sociale»

Département Informatique et Données Marines Service Ingénierie des Systèmes d'informations Référence IFREMER-DCB-IDM-ISI/DDC

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Formats de fichiers adaptés à l'archivage électronique à moyen et long terme

URBANISME DES SYSTÈMES D INFORMATION

Programmation C. Apprendre à développer des programmes simples dans le langage C

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

Conservation des documents numériques

Virtualisation & Sécurité

Bonjour. Yohan PARENT, Cyprien FORTINA, Maxime LEMAUX, Hyacinthe CARTIAUX

25 % EXPERTS PAR AN. + de de 35. près de 50 DE CROISSANCE DE L OPEN SOURCE ANNÉES D EXPERIENCE AU SERVICE DE L OPEN SOURCE

Qu est ce qu une offre de Cloud?

Christophe Dubos Architecte Infrastructure et Datacenter Microsoft France

MODULE 2 : VEILLE & ANALYSE DE DONNÉES

Les environnements de calcul distribué

STI. Systèmes et Technologies de l Information

Nœud Suisse du Projet International GBIF (Global Biodiversity Information Facility)

Nouvelles Plateformes Technologiques

Big Data On Line Analytics

Bull, un catalogue de service particulier pour répondre aux environnements complexes

Module BD et sites WEB

Programmation parallèle et distribuée (Master 1 Info )

Urbanisation des Systèmes d Information Architecture d Entreprise. 04 Architecture du SI : identifier et décrire les services, structurer le SI

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Windows Server 2012 R2 Administration avancée - 2 Tomes

Business & High Technology

Chapitre 9 : Informatique décisionnelle

Hervé Le Coustumer - Directeur Business Unit Support & Services Managés

SysFera. Benjamin Depardon

Document d accompagnement pour le référentiel national du C2i niveau 2 Métiers de l environnement et de l aménagement durables

Les modules SI5 et PPE2

Les mésocentres HPC àportée de clic des utilisateurs industriels

Xavier Masse PDG IDEP France

Introduction à NetCDF

Bases de Données. Plan

Table des matières. Chapitre 1 Les architectures TSE en entreprise

DESCRIPTIF DES PROJETS 3EME ANNEE QUI SERONT PRESENTES LORS DE LA JOURNEE DE PROJET DE FIN D ETUDE LE 26/01/2012

EXALOGIC ELASTIC CLOUD MANAGEMENT

PostgreSQL. Formations. Catalogue Calendrier... 8

Architectures d implémentation de Click&DECiDE NSI

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Archivage intermédiaire de données Scientifiques ISAAC Information Scientifique Archivée Au Cines

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing

Qu est ce qu une offre de Cloud?

PostgreSQL. Formations. SQL avancé Calendrier... 18

Mise en œuvre d une infrastructure de virtualisation au CNRGV

La place de la Géomatique Décisionnelle dans le processus de décision

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Entrepôt de données 1. Introduction

Structure et fonctionnement d'un ordinateur : hardware

Cloud et SOA La présence du Cloud révolutionne-t-elle l approche SOA?

Portage d applications sur le Cloud IaaS Portage d application

Du Datacenter au Cloud Quels challenges? Quelles solutions? Christophe Dubos Architecte Microsoft

VIRTUALISATION : MYTHES & RÉALITÉS

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

CLOUD PRIVÉ GENERALI - ACCOMPAGNEMENT AU CHANGEMENT - DU «POC» À LA RÉALITÉ. Alain ROY Generali Logo Société

Gestion des documents associés

Architecture N-Tier. Ces données peuvent être saisies interactivement via l interface ou lues depuis un disque. Application

TRAVAUX DE RECHERCHE DANS LE

Présentation de nos prestations

HÉBERGEMENT CLOUD & SERVICES MANAGÉS

Notre Catalogue des Formations IT / 2015

Architecture de la grille

Transcription:

Thomas Loubrieu (Ifremer) Small to Big Data 26 Novembre 2013, Ifremer, Brest http://wwz.ifremer.fr/bigdata

Small to Big data IFREMER/IDM/ISI T. Loubrieu

Résumé A partir d'expériences en gestion de données du département Informatique et Données Marines d'ifremer, on passera en revue différentes problématiques liées à la volumétrie des données. Sur ces problèmatiques, on passera en revue les solutions possibles d'une part avec les technologies traditionnelles (formats, indexation, interoperabilité et partage de données) et d'autre part avec les systèmes dématérialisés. Par cette revue, on tentera d'expliciter la complémentarité des solutions informatiques traditionnelles et big data. Plan: Solutions performance dans l'informatique traditionnelle Vers le big data

Besoin traité ici Traitement scientifique de données (vs gestion de centre de données): - plutôt lecture - plutôt exploratoire (ni opérationnel, ni répétitif) - pas de mission d'archivage long terme

Problèmes rencontrés - problème de capacité de stockage - problème de rapidité d'accès aux données stockées (e.g sur les disques) - problème de capacité de traitement - problème de rapidité de traitement En transversal: - problème de temps de développement des solutions.

Solutions traditionnelles (1/5) Volume de stockage: - encodage (xml/csv/binaire) - compression (attention à la rapidité d'accès) - éviter la redondance d'information - mutualiser les copies entre les utilisateurs (attention stockage des petites différences) dans un centre de données: Confiez vos produits à un centre de données. Faites confiance aux centres de données pour gérer vos entrées (inputs).

Solutions traditionnelles (2/5) Rapidité d'accès sur disque: - indexation: via encodage (ascii vs netcdf) - indexation via SGBD (mysql, oracle,...)

Solutions traditionnelles (3/5) Capacité de traitement (RAM): - ne lire que ce qui est strictement utile au traitement - ne pas conserver en mémoire les copies d'objets - traiter la donnée par morceaux (attention rapidité)

Solutions traditionnelles (4/5) Rapidité de traitement (lecture disque, CPU): - choix du language (matlab -> fortran) - pré-traiter la donnée (la modéliser et la stocker dans le modele approprié au traitement). - systèmes parallèles High Performance Computing (caparmor): possibilité de traitements parallèles inter-dépendants (MPI). Cluster de 300 machines sur réseau infiniband Stockage sur disques parallèles lustre.

Solutions traditionnelles (5/5) Limiter les temps de développement: - homogenéïser les formats de données - ré-utiliser des librairies de functions, pour lire les données (e.g. python/pynio) ou traitements (e.g. statistiques R)

Exemples de solutions (1/3) - Encodage (ASCII vs binaire): format ODV ascii ODV collection en binaire (700 000) 0401C 1 652/1 1 C 1 2001-03-07T15:50:00.000 1 358.00931 1 56.24580 43 1 114 1 38 1 1033356 1 652/1 1 PSAL,RFVL,TEMP 1 2011-04-05 15: 07T15:50:00.000 1 0 5.6170 1 34.51900 1 0 2001-03-07T16:10:00.000 1 0 5.6170 1 34.51900 1 2001-03-07T16:30:00.000 1 0 5.6170 1 34.51900 1 2001-03-07T16:50:00.000 1 0 5.6170 1 34.51900 1 (..?) 0401C 1 654/2 1 C 1 2001-03-08T15:50:00.000 1 358.74701 1 56.24850 43 1 114 1 38 1 1033358 1 654/2 1 PSAL,RFVL,TEMP 1 2011-04-05 15: 08T15:50:00.000 1 0 6.0030 1 34.88200 1 0 2001-03-08T16:10:00.000 1 0 5.9800 1 34.90600 1 2001-03-08T16:30:00.000 1 0 5.9800 1 34.90600 1 2001-03-08T16:50:00.000 1 0 5.9800 1 34.82400 1

Exemples de solutions (1/3) - Encodage (ASCII vs binaire): format ODV ascii 0401C 1 652/1 1 C 1 2001-03-07T15:50:00.000 1 358.00931 1 56.24580 43 1 114 1 38 1 1033356 1 652/1 1 PSAL,RFVL,TEMP 1 2011-04-05 15: 07T15:50:00.000 1 0 5.6170 1 34.51900 1 0 2001-03-07T16:10:00.000 1 0 5.6170 1 34.51900 1 2001-03-07T16:30:00.000 1 0 5.6170 1 34.51900 1 2001-03-07T16:50:00.000 1 0 5.6170 1 34.51900 1 (..?) 0401C 1 654/2 1 C 1 2001-03-08T15:50:00.000 1 358.74701 1 56.24850 43 1 114 1 38 1 1033358 1 654/2 1 PSAL,RFVL,TEMP 1 2011-04-05 15: 08T15:50:00.000 1 0 6.0030 1 34.88200 1 0 2001-03-08T16:10:00.000 1 0 5.9800 1 34.90600 1 2001-03-08T16:30:00.000 1 0 5.9800 1 34.90600 1 2001-03-08T16:50:00.000 1 0 5.9800 1 34.82400 1

Exemples de solutions (2/3) Position des navires de pêche, VMS : 16 M de positions par année depuis > 10 ans: - index paginé par année - index spatial On sait utiliser, afficher rapidement les positions d'une zone ou d'un navire sur une carte.

Exemples de solutions (3/3) Modèle de données (Harmonie, Q2), ms access oracle, traitement SACROIS: 4 sources de données hétérogènes (marées déclarées, marées reconstituées par les positions navires, ventes, calendrier d'activité) On produit mensuellement des synthèses : u 33 000 marées, u 1M de captures

Vers le big data? (1/2) Dans les cas suivants: - limite vraie de capacité matérielle - partage des données au delà du cadre local (thématique et géographique)

Cadre architecture INSPIRE http://inspire.jrc.ec.europa.eu/index.cfm/pageid/48 INSPIRE is based on a number of common principles: 1)Data should be collected only once and kept where it can be maintained most effectively. 2)... Cela signifie que: La copie maîtresse des données doit être proche de la "compétence" qui a créé l'information et là où les infrastructures permettent de la conserver et la diffuser sur le long terme.

Propositions techniques (dans ce cadre) Système de documentation/diffusion de données distribués dans les centres de données marines: - les resources 'données' sont documentées et référéncées via des catalogues Nationaux (Sextant), Européens (myocean, seadatanet) ou internationaux (geoss, ocean data portal). Les ressources de données sont normalisées (e.g. Open GIS Consortium). - la donnée est modélisée de façon homogène partout (e.g. oceanotron). - l'utilisateur peut accéder (visualisation/telechargement) à des sous-ensembles de données (filtre phenomenon + 4D), (e.g. THREDDS Data Server). - intégration directe de ces données dans les algorithmes de traitement: python, matlab, idl,... (e.g. OPenDAP)

THREDDS Data Server Accès aux grilles structurées de données 4D (analyses, modèles, ici 300Go par an):

Limites actuelles de ces solutions Accès aux données par web services: - accès internet (traitement éloigné de la donnée) - suivi de modifications de données (reproductibilité des résultats). - atteindre les utilisateurs ciblés (communication, formation) - maturité

Pourquoi le big data? - limite vraie de capacité matérielle - partage des données au delà du cadre local (thématique et géographique) - lorsque les ressources informatiques d'infrastructure (liés au matériels:disque/ram/cpu) se développent très vite grâce à la virtualisation - et relâchent les exigences sur la conception/optimisation logicielle (en amont des flux de données)

Perspectives big data Pour un centre de données: - cloudifier les applications de partage de données de l'ère INSPIRE pour dépasser leur limite de performance. - mettre à disposition vos données dans des environements big data dédiés au domaine marin (et alors gérer leur documentation, leur mise à jour): pour la science traditionnelle (e.g. à IFREMER: données météofrance, mercator-océan,...) pour la gestion des données brutes des capteurs - vous permettre de pousser vos données dans des environnements de big data partagés (pour la "data science")

Challenge Aujourd'hui on sait que 1. certains centres de données marines n'ont pas les compétences logicielles ou d'infrastructures suffisantes. 2. des nouvelles infrastructures sont disponibles (sans compétence données marine): Possibilité de redistribution des rôles, de l'architecture pour la gestion des données.