Intérêt des codes FEC pour le stockage distribué Le projet ANR FEC4Cloud et la solution RozoFS



Documents pareils
Le code à effacement Mojette : Applications dans les réseaux et dans le Cloud

Introduction au Massive Data

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

VMware vsphere 5 Préparation à la certification VMware Certified Professional 5 Data Center Virtualization (VCP5-DCV) - Examen VCP510

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Projet d'infrastructure de stockage mutualisée

IT SERVICES BUSINESS STORAGE DATA AUDIT PARTNERSHIP INTEGRATOR SECURITY PLANNING PRIVATE AGILITY DYNAMIC PUBLIC TECHNOLOGY SOLUTIONS MANAGEMENT

Bases de données documentaires et distribuées Cours NFE04

Consolidation Stockage.

Entrez dans l ère du Numérique Très Haut Débit

<Insert Picture Here> Exadata Storage Server et DB Machine V2

Outil d aide au choix Serveurs Lot 4 Marché Groupement de Recherche

Cartographie des solutions BigData

Migration d un Cluster Fiber Channel+SAN+Lames sous Xen vers Ethernet +iscsi+serveurs sous KVM

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Anticiper et prédire les sinistres avec une approche Big Data

Creation de Contenus Numériques pour

Architectures d implémentation de Click&DECiDE NSI

Protection des données avec les solutions de stockage NETGEAR

Technologie SDS (Software-Defined Storage) de DataCore

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

EMC Forum EMC ViPR et ECS : présentation des services software-defined

Cours 13. RAID et SAN. 2004, Marc-André Léger

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

Fiche produit FUJITSU ETERNUS DX200F Baie de stockage Flash

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

FUJITSU WORLD TOUR 2014 Paris

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

agile Datacenter vert Le monde naissant des datacenters de nouvelle génération ICAR-2013

Hyper-V et SC Virtual Machine Manager sous Windows Server 2008 R2

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

SQL Server 2008 solutions de sauvegarde et de continuité

Spécifications détaillées

IT SERVICES BUSINESS STORAGE DATA AUDIT PARTNERSHIP INTEGRATOR SECURITY PLANNING PRIVATE AGILITY DYNAMIC PUBLIC TECHNOLOGY SOLUTIONS MANAGEMENT

Concepts et systèmes de stockage

Le e s tocka k ge g DAS,NAS,SAN

Kick Off SCC 2015 Stockage Objet. Vers de nouveaux horizons

Agenda. Exemple : données et back à Eurecom SANs and NAS. Les bases: SANs. Back-up Partage de fichier. Disques et Raid SCSI et FCP

Guide pour l Installation des Disques Durs SATA et la Configuration RAID

Kick Off SCC Vers de nouveaux horizons

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Programmation parallèle et distribuée (Master 1 Info )

La Continuité d Activité

Par CADICI Grégory & FRITZ Rémy

VMotion ne peut fonctionner qu avec une architecture de stockage centralisé de type SAN FC, iscsi ou NAS.

Marché Public. Serveurs et Sauvegarde 2015

TD Architecture des ordinateurs. Jean-Luc Dekeyser

Le cloud computing au service des applications cartographiques à haute disponibilité

Mathieu Rivoalen. Etude d'approfondissement des réseaux RICM 5 Option Réseaux

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Présentation Infrastructure DATACENTRE

IBM Cloudant Data Layer Local Edition

Robin Favre Fabien Touvat. Polytech Grenoble RICM 3 ème Année Vendredi 21 Novembre 2008 Etude d Approfondissement Réseau

ACQUISITION DE MATERIEL INFORMATIQUE

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Virtualisation : explorez le champ des possibles avec VMware

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Informatique pour scientifiques hiver Plan général Systèmes d exploitation

BIG Data et R: opportunités et perspectives

Sommaire de la journée

Choix d'un serveur. Choix 1 : HP ProLiant DL380 G7 Base - Xeon E GHz

Une solution de stockage VDI unifiée, flexible et disponible pour vos utilisateurs

L offre Stockage et serveurs System x / BladeCenter F.Libier, Business Partner Technical Manager

RAPPORT D'AUDIT - SÉCURITÉ ET PERFORMANCES DES SERVEURS

Sébastien Geiger IPHC Strasbourg

CAHIER DES CHARGES D IMPLANTATION

Etude d architecture de consolidation et virtualisation

IBM CloudBurst. Créer rapidement et gérer un environnement de Cloud privé

Les journées SQL Server 2013

Stockage distribué : retour d'expérience avec CEPH

en version SAN ou NAS

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

JRES 2007 Solution de stockage répartie sur les centres de recherche INRIA, à base de serveurs de fichiers de type «NAS»

EMC VSPEX FOR VIRTUALIZED MICROSOFT SHAREPOINT 2013

Configurations maximales

Comme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:

HADOOP ET SON ÉCOSYSTÈME

Marché à procédure adaptée (en application de l article 28 du code des Marchés Publics)

L âge adulte? N 13. Grande enquête sur les freins et les accélérateurs du Cloud en entreprise. dans votre stratégie de sauvegarde

vbladecenter S! tout-en-un en version SAN ou NAS

Cassandra et Spark pour gérer la musique On-line

La nouvelle solution de stockage V3700

Gestion répartie de données - 1

Contrat VTX Serveur dédié

Système de Stockage Sécurisé et Distribué

SAN AoE (ATA over Ethernet)

Technologie de déduplication de Barracuda Backup. Livre blanc

Programmation parallèle et distribuée

Projet de Bachelor Virtual Desktop Infrastructure

Stockage des machines virtuelles d un système ESXi jose.tavares@hesge.ch & gerald.litzistorf@hesge.ch

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

PERFORMANCES EXCEPTIONNELLES ET EFFICACITÉ EMC POUR MICROSOFT SQL SERVER

Virtualisation du poste de travail. Denis CASANOVA UFR Sciences & Technologies CUME - 29 Mars 2012

Architecture de la grille

Switching PCIe Photonique/Silicium Intel Connectique Intel MXC

Vous êtes bien à la bonne présentation, c est juste que je trouvais que le titre de cette présentation étais un peu long,

Transcription:

Intérêt des codes FEC pour le stockage distribué Le projet ANR FEC4Cloud et la solution RozoFS RESSI-2015 Du 19 au 22 Mai, Université Technologique de Troyes Benoît Parrein (Polytech Nantes, IRCCyN) Jérôme Lacan (ISAE-SupAéro) Nicolas Normand (Polytech Nantes, IRCCyN) Dimitri Pertin (Polytech Nantes, IRCCyN et RozoSystems) Jonathan Detchard (ISAE-SupAéro) Alexandre van Kempen (Polytech Nantes, IRCCyN)

FEC4Cloud Project ANR 2012 (appel Emergence) Partenaires: IRCCyN (resp.), ISAE-SupAéro, SATT-Ouest Valorisation, Rozo Systems (prestataire) Budget: 256 K Durée: 24 mois (orienté produit) Objectif: promouvoir les codes FEC au sein des infrastructures de stockage Cloud 2

Stockage distribué tolérant aux pannes: l'exemple de Facebook 260 Milliards de photos, 20 PB, 60 TB/semaine (2010) [1] Facebook f4 cells (pour données chaudes): 14 racks de 15 serveurs, 6.3K de disques (de 4TB chacun) soit 25 PB par cell (1000PB par datacentre) Réduction du facteur de réplication de 3,6 à 2,1 par l'usage des codes FEC (soit une économie de stockage de 87 PB) [2] [1] Beaver, D., Kumar, S., Li, H. C., Sobel, J., & Vajgel, P. (2010, October). Finding a Needle in Haystack: Facebook's Photo Storage. In OSDI (Vol. 10, pp. 1-8). [2] Muralidhar, S., Lloyd, W., Roy, S., Hill, C., Lin, E., Liu, W.,... & Kumar, S. (2014, October). f4: Facebook s Warm BLOB Storage System. In Proceedings of the 11th USENIX conference on Operating Systems Design and Implementation (OSDI) (pp. 383-398). USENIX Association. 3

Objectifs Construire des codes efficaces (en matière de débit) pour tous types de données et d'accès Intégration de ces codes dans des solutions logicielles de stockage (Software Defined Storage) Faciliter la confidentialité des données (privacy) 4

Sommaire Le projet FEC4Cloud (en chiffres) Les codes FEC (MDS) Le code Mojette Performances (micro-benchmark) La solution RozoFS Expérimentations in vivo Grid5K Conclusions 5

Code FEC (MDS) k messages Encoding n code-words k received code-words Decoding k messages 6

Le code Reed-Solomon (RS) Usage d'une matrice génératrice G (code linéaire) matrice de Cauchy ou Vandermonde c=g. b (si G={I k P k,n k }, le code est systématique par définition) 7

Mises en œuvre des codes RS Reed-Solomon (matrice de Cauchy [Byers, 1995]) Reed-Solomon (matrice de Vandermonde [Rizzo, 1998], RFC5510)... Cauchy Good [Planck, 2008] in Jerasure 1.2 Intel ISA-L (inclus instructions SSE) 8

Le code Mojette based on Radon transform [Guédon, 1995] compute 1D projections from a 2D geometrical buffer 9

Décodage (1/2) Chemin de reconstruction déterministe [Normand, 2006] (une projection reconstruit une ligne, de la droite vers la gauche) Example on a 4 lines geometrical buffer with 4 projections +réduction du nombre d'écritures [Féron, 2014] 10

Optimisations (2/2) processeur support pixel[0]... pixel[128]... pixel[255] 2) read(pixel[0]) 6) read(pixel[128]) transform_forward: 1) write(bin[0],0) 2)data1 = read(pixel[0]) 3)data2 = read(bin[0]) 4) data3 = data2 xor data1 5) write(bin[0],data3) 6) data1= read(pixel[128] 7)data2 = read(bin[0]) 8) data3 = data2 xor data1 9) write(bin[0]),data3 1) write_bin(bin0,0) 3) read_bin(bin[0]) 5) write_bin(bin0,data3) 8) read_bin(bin[0]) 9) write_bin(bin0,data3) bin[0] ;... proj 1 bin[127] Transformation Mojette Directe classique Cadifra Evaluation www.cadifra.com 11

Optimisations (2/2) processeur support pixel[0]... pixel[128] 1) read(pixel[0] 2) read(pixel[128] transform_forward: 1)data1 = read(pixel[0]) 2) data2= read(pixel[128] 3) data3 = data2 xor data1 4) write(bin[0],data3) 4) write_bin(bin0,data3) bin[0] proj 1... pixel[255] ;... bin[127] Transformation Mojette Directe optimisée [Féron, 2014] Cadifra Evaluation www.cadifra.com 12

Propriété du code Mojette Code à effacement de type (1+є) MDS Forme non systématique (par défaut) et systématique Reconstruction asynchrone Pas de contrainte algébrique (cf corps de Galois) Pas de contrainte de primalité (cf FRT) Complexité linéaire [O(IN)] (naturelle) Codage et décodage logicielle 13

Performances (codage) en 8K et 4K Coding (k=4,m=6) E5-2403@1.8GHZ 5000 4723 4500 4000 3500 CPU Cycles 3000 2500 2000 2621 2560 ISA-L d 4+2 coding +memcpy Mojette RozoFS 4+2 coding 1500 1000 1152 500 0 8192 4096 blocksize (Bytes) correspond à 5.625 GB/s (resp. 6.40 GB/s en 4KB) pour le code Mojette et 3.122 GB/s (resp. 2.88 GB/s en 4KB) pour le code RS (ISA-L) i.e x1.8 (resp. x2.22) plus rapide avec x3 plus de mot-codes (cf non systematique) 14

Performances (décodage) Decoding (m=4,k=6) E5-2403@1.8GHZ 5000 4710 4500 4000 3500 3000 CPU cycles 2500 2000 2496 ISA-L d 4+2 decoding +memcpy Mojette RozoFS 4+2 decoding memcpy 1500 1536 1000 500 832 768 542 0 8192 4096 Blocksize (Bytes) correspond à 9.6 GB/s (resp. 9.60 GB/s avec blocs de 4KB) pour le décodage Mojette (en violet) et 3.130 GB/s (resp. 2.953 GB/s avec 4KB) pour le décodage RS (en bleue) en cas de pannes x3 (resp. x3.25) plus rapide (pour x2 plus de mot-codes ) 15

Intérêt des codes FEC pour le stockage distribué Le projet ANR FEC4Cloud et la solution RozoFS RESSI-2015 Du 19 au 22 Mai, Université Technologique de Troyes Benoît Parrein (Polytech Nantes, IRCCyN) Jérôme Lacan (ISAE-SupAéro) Nicolas Normand (Polytech Nantes, IRCCyN) Dimitri Pertin (Polytech Nantes, IRCCyN et RozoSystems) Jonathan Detchard (ISAE-SupAéro) Alexandre van Kempen (Polytech Nantes, IRCCyN)

Haute disponibilité signifie... 99,999999...% accessible de la réplication le plus souvent... une infrastructure capable de supporter la charge une haute consommation énergétique...et des problèmes de Privacy les codes à effacements réduisent fortement la taille de l'infrastructure pour le même taux de disponibilité 17

Distributed File Systems (DFS) HDFS (Hadoop) Facebook file system (f4) Scality (basé sur Chord) CephFS, GlusterFS,...... Mélange de réplicats (données chaudes) et de codes à effacement (données froides) aucun DFS n'utilise aujourd'hui des codes pour des données soumises à des I/O intensives 18

We've got the technology! 19

I/O Centric Distributed File System Software Defined Storage (SDS) Scale-Out NAS POSIX (based on FUSE) Commodity hardware Fault tolerance (up to 4 failures) Based on erasure coding (Mojette coding) Dedicated to cold, warm and hot data Open source project 20

Metadata Server exportd Control path Client Node Rozofsmount metadata Data Data path path Monitoring Storage Node Storage Node Storage Node Storaged Storaged... Storaged Pool of storage Nodes 21

Expérimentations in vivo sur GRID5K sur cluster de Nantes@EMN 18 nœuds, Intel Xeon 2.2Ghz, 64 GB RAM, 10GbE Layout 1 i.e Mojette(6,4) vs triplication pour Ceph 10 Go de données, découpage fichier en blocs de 8Ko Accès séquentiels et aléatoires en lecture et écriture (via IOZone) 22

Expérimentations in vivo sur GRID5K Lecture séquentielle (en Mo/s) 23

Expérimentations in vivo sur GRID5K Écriture séquentielle (en Mo/s) 24

Expérimentations in vivo sur GRID5K Lecture aléatoire (en IOPS) 25

Expérimentations in vivo sur GRID5K Écriture aléatoire (en IOPS) 26

Expérimentations in vivo sur GRID5K Capacité de stockage pour 10 Go utile 27

RozoFS + Exportd Rozofsmount Storage External Network Rozofsmount Storage Rozofsmount Storage Rozofsmount Storage Niveau clients/applications Standard GigE Infrastructure GigE infrastructure (data storage and metadata)

Conclusions Le code Mojette proche de l'instruction memcpy 2 à 3 fois plus rapide que la librairie ISA-L RozoFS: 1er DFS (I/O centric) utilisant un code FEC Capacité de stockage réduite de moitié Applications: au montage vidéo en ligne, exécution de machines virtuelles et bases de données transactionnelles, traitements distribués type MapReduce,... Rozo Systems emploie aujourd'hui 8 personnes (dont 5 en R&D) et s'ouvre à l'international (USA) 29

Merci de votre attention! 30