Cartographie des solutions BigData Panorama du marché et prospective 1 1
Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2
Quels Défis? des volumes impossibles à traiter : 30 To de logs par jour chez Facebook 15 Po de data par an au CERN des croissances vertigineuses du business en temps réel des données différentes : Non structurées, réparties, NoSQL... 3 3
Le quadrant magique (DW database management) 4 4
Positionnement des acteurs du marché Exadata Teradata DB2 Greenplum Netezza Isilon sonas HDFS NoSQL Oracle DB2 5 5
ROI Révolutionne les datawarehouses existants ROI de 27 mois à 6 mois 3 fois moins cher 4 fois plus rapide à implémenter 6 6
Architecture & composants Shared Disk vs Share Nothing Arch. Hadoop / HBase / HDFS Map Reduce 7 7
Map Reduce Map Function : output ( word : 1 ) Reduce Function : output ( word : sum(1) ) 8 8
Map Reduce S appuie sur une base key / value est scalable sur n serveurs permet d enchainer plusieurs Reduce beaucoup d implémentations 9 9
Acteurs du marché Teradata Oracle / Exadata IBM / Netezza EMC / Greenplum... 10 10
Teradata Depuis 1979 Appliances Share nothing arch. Parallélisme Pour les DW De 6 To à 92 Po 11 11
Oracle Exadata «Database machine» (n est pas une appliance) Serveurs de stockage (168 cores, 5 TB de flash cache, 45 TB utiles) Serveurs de traitements (128 cores / 2 TB de mémoire) 1500000 IOPS Data Load Rate: Up to 12 TB/hour 12 12
EMC Greenplum Serveurs std Share nothing arch Map Reduce SQL 13 13
IBM Netezza Blades IBM + Disques + FPGAs Share nothing arch. Map Reduce & SQL Data load rates de 2TB/h Produits : Skimmer (1TB à 10TB) & TwinFin (1TB à 1PB+) 14 14
Alternatives et Opensource Active circle Bases NOSQL Apache HADOOP Database.com Amazon Elastic Map Reduce 15 15
Active Circle FileSystem distribué Accès par NAS ou API Virtualisation sur disque et bande Noeuds locaux ou distants Réplication Hiérarchisation 16 16
NOSQL : Not Only SQL Cassandra Google s BigTable : HBase MongoDB (documents, JSON) CouchDB (documents, JSON) 17 17
Apache HADOOP HDFS (distributed high throughput FS) MapReduce HBase (scalable, distributed database) Hive (data warehouse infrastructure) Mahout (data mining library) Pig: (framework for parallel computation) ZooKeeper (distributed applications) 18 18
Amazon Elastic Map Reduce Logique de PaaS : Stockage avec Amazon S3 Processing avec un cluster Amazon EC2 Mise en oeuvre instantanée Simple Economique (0,3 $ / heure par node) 19 19
Database.com Database as a Service (DaaS) Multi-tenant Scalable à l infini économique : ($10 / mois / 100000 records ) 20 20
Conclusions Des solutions dans la continuité de l existant. Des innovations permettant des ROI attrayants : Attention aux ruptures Outils opensource en voie de maturation 21 21
MERCI vincent@heuschling.com twitter : @vhe74 22 22