Big Data Les problématiques liées au stockage des données et aux capacités de calcul
Les problématiques liées au Big Data La capacité de stockage - Traitement : Ponctuel ou permanent? - Cycle de vie des données : Mortes ou vivantes? - Compatibilité : Temps de traitement / volume - Localisation : Internalisation ou externalisation?
Les problématiques liées au Big Data De l entrée de gamme HP 2000 iscsi technologie SAS Les baies de stockage
Les problématiques liées au Big Data De l entrée de gamme HP 2000 iscsi technologie SAS Les baies de stockage Agrégat de 24 disques physiques Capacité de stockage de 15To, Coût du GigaOctet : 1,31, Pas de technologie avancée,
Les problématiques liées au Big Data au «MiddleRange» HP 2000 iscsi technologie SSD Les baies de stockage Agrégat de 24 disques physiques Capacité de stockage de 5,76To, Coût du GigaOctet : 1,43, Pas de technologie avancée,
Les baies de stockage HP 2000 isci SAS HP 2000 isci SSD Capacité : 15 To Capacité : 5,7 To Coût au Go : 1,31 Coût au Go : 1,43 ~ 140 IOPS (*) ~ 25000 IOPS (*) (*) Input / Output per second
Les problématiques liées au Big Data Au haut de gamme HP 3PAR StoreServ 7000 Les baies de stockage
Les problématiques liées au Big Data Au haut de gamme HP 3PAR StoreServ 7000 Les baies de stockage 1200 To Brut Coût du Go brut : 0,75
Les problématiques liées au Big Data Les baies de stockage Quelque soit le média un problème majeur persiste : Sa capacité de stockage est bornée
Les problématiques liées au Big Data Les systèmes de fichiers distribués Ils permettent : 1 ) De faire abstraction de l infrastructure de stockage, 2 ) De sécuriser les données par la réplication, 3 ) De ne plus dimensionner à t0 le volume de données, 4 ) De s affranchir des limites Physiques du stockage, 5 ) D hybrider les technologies.
Les problématiques liées au Big Data Les plus connus : GFS, Google File System, Les systèmes de fichiers distribués Coda, GlusterFS, HDFS, Hadoop Distributed File System
Les systèmes de fichiers distribués : HDFS Les spécificités premières : Tolérants aux pannes Optimisés pour les fichiers de grande taille, de 1Go à plusieurs To, Un modèle «Write Once, Read Many» (une écriture, de multiples lectures) Une architecture Maitre / Esclave
Les systèmes de fichiers distribués : HDFS Namenode (Metadata, arborescence ) Réplication Datanodes Client Datanodes Lectures exclusivement Lectures exclusivement Ecritures exclusivement
Les systèmes de fichiers distribués : Les Appliances Marché émergent et trusté par un nouvel acteur : Nutanix, une solution basée sur Hadoop, intégrant stockage et capacité de calcul,
Les problématiques liées au Big Data Les capacités de calcul Le dimensionnement est lié : - au volume de données à traiter, - à la complexité du traitement, - au type de traitement, (permanent, unique, cyclique )
Les capacités de calcul Dans les cas simples : - Stabilité de la puissance de calcul nécessaire, - Contraintes techniques ou d interconnexions faibles Les technologies standards de calcul répondent aux besoins du ou des traitements. (Fermes de calcul pas ou peu virtualisées)
Les capacités de calcul Dans les cas plus complexes : - Forte fluctuation de la puissance de calcul nécessaire, - Temps de déploiement restreint Le Cloud «peut être» une solution pertinente.
Mais le Cloud c est quoi? Le Cloud c est : Tout d abord un terme créé par le marketing. Mais surtout : Une solution de virtualisation délocalisée qui permet de s affranchir des ressources matérielles pour l utilisateur final.
Mais le Cloud c est quoi? Mais ce n est pas : - l externalisation des données de l entreprise, - une solution de stockage, - un mode de facturation, - une solution abstraite non liée à des serveurs physiques. C est encore moins : - internet, - la définition de «Wikipédia», - une solution universelle à toutes les problématiques informatiques.
Les capacités de calcul Cette «abstraction» du média physique simplifie certains usages : - la mise en place de Plans de Reprise d Activités, - l allocation de ressources à la demande, - l externalisation des données de l entreprise, - la décentralisation des processus informatiques de façon transparente,
Les capacités de calcul Les avantages du Cloud dans un projet Big Data - scalabilité, - externalisation des problématiques d infrastructures, - forte tolérance aux pannes, - rationalisation des coûts.
Pour conclure. Un projet Big Data réussit c est : Se poser les bonnes questions en terme de stockage des données dans le temps, en terme de volumétrie et d usage. Déterminer préalablement ses besoins en terme de capacité de calcul et d évolutivité.
Siège social 01 40 64 01 31 70 rue Berthie Albrecht 94400 Vitry-sur-Seine Merci de votre attention! 04 26 46 39 84 440 rue Barthélemy Thimonnier 69530 Brignais