For Fun and Profit Datasio 2012

Documents pareils

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Cartographie des solutions BigData

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Labs Hadoop Février 2013

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Anticiper et prédire les sinistres avec une approche Big Data

Big Data Concepts et mise en oeuvre de Hadoop

BIG DATA en Sciences et Industries de l Environnement

Introduction à MapReduce/Hadoop et Spark

HADOOP ET SON ÉCOSYSTÈME

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Les datas = le fuel du 21ième sicècle

Offre formation Big Data Analytics

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

M2 GL UE DOC «In memory analytics»

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Fouille de données massives avec Hadoop

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Programmation parallèle et distribuée

Hadoop, les clés du succès

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

Cassandra et Spark pour gérer la musique On-line

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Programmation parallèle et distribuée

Introduction Big Data

Tables Rondes Le «Big Data»

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Les technologies du Big Data

Ricco Rakotomalala R.R. Université Lyon 2

Panorama des solutions analytiques existantes

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Programmation parallèle et distribuée (Master 1 Info )

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Les journées SQL Server 2013

BIG DATA et DONNéES SEO

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Big Data, un nouveau paradigme et de nouveaux challenges

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

BIG Data et R: opportunités et perspectives

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Quels choix de base de données pour vos projets Big Data?

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Hadoop : une plate-forme d exécution de programmes Map-Reduce

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Surmonter les 5 défis opérationnels du Big Data

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

hurence Big Data get its magical power CEO & CTO

4 Exemples de problèmes MapReduce incrémentaux

Entreprise et Big Data

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

Avant-propos. Organisation du livre

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

Les quatre piliers d une solution de gestion des Big Data

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Objectif et contexte business : piliers du traitement efficace des données -l exemple de RANK- Khalid MEHL Jean-François WASSONG 10 mars 2015

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Certificat Big Data - Master MAthématiques

Ne cherchez plus, soyez informés! Robert van Kommer

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Change the game with smart innovation

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Cloud Computing MapReduce Année académique 2014/15

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Document réalisé par Khadidjatou BAMBA

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Big Data Jean-Michel Franco

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction au Data-Mining

IBM BigInsights for Apache Hadoop

LES ENJEUX DU BIG DATA

Introduction au Data-Mining

BIG DATA : comment étendre et gérer la connaissance client? François Nguyen SFR Directeur SI décisionnel & Mkt relationnel GP

Notes de cours Practical BigData

Le BigData, aussi par et pour les PMEs

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

Importation et exportation de données dans HDFS

Transcription:

For Fun and Profit Datasio 2012

130 Nouveaux acteurs Big Data depuis 2009

1 2 3 Agenda Hadoop, poids lourd du Big Data Stats Web avec Hive chez Scoop.it Profession: Data Scientist

Agenda 1 Hadoop, poids lourd du Big Data Qui l'utilise? Comment ça marche?

Aujourd'hui... App servers Sharding? Load balancing? Archivage? Calculs & statistiques? Reporting? Bases de données Stockage Monitoring de ressources fournies par les partenaires? Comment réconcilier les conversions (transactions) avec l'usage (logs)? Customer Lifetime Value? Nous perdons de l'argent: où??

Qui utilise Hadoop? Data mining sur click stream Analyse d'image Production d'index Moteur d'enchères Conversion de 11 millions d'articles en PDF Spam screening (> 20 milliards de msg / jour) Entrepôt de données > 30 PetaOctets (2011)

03 20 Google Filesystem

20 04 03 20 Publication de MapReduce Google Filesystem

20 06 20 04 03 20 Publication de MapReduce Google Filesystem Création du projet Apache

Google Filesystem 20 06 20 08 20 04 03 20 Publication de MapReduce 10000 machines @ Yahoo! Création du projet Apache

Google Filesystem 10000 machines @ Yahoo! Ouverture du code source 20 12 20 06 20 08 20 04 03 20 Publication de MapReduce Cluster 100 PB @ Facebook

HDFS (Hadoop Distributed Filesystem)

Zookeeper (Resource management) Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem)

Zookeeper (Resource management) Pig (Data DSL) Hive (SQL) Cascading (Data flow) Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem)

Hbase (Distributed Key Value) Zookeeper (Resource management) Cascalog (Data flow) Pig (Data DSL) Hive (SQL) Cascading (Data flow) Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem)

HDFS = système de fichier distribué CLUSTER CPU Traitement DISK Stockage

Rack-awareness + data locality CLUSTER Rack Noeud Rack Noeud Noeud Rack Noeud CPU Traitement DISK Stockage Noeud

Fichiers distribués en blocs, avec facteur de réplication N (ici, N=3) CLUSTER Rack Noeud bloc1 bloc2 bloc3 Rack Noeud bloc1 Noeud Rack Noeud bloc1 bloc2 bloc3 bloc4 bloc4 bloc4 Noeud bloc2 bloc3

Map/Reduce = diviser pour régner CLUSTER Rack Rack Rack Noeud Noeud Noeud Noeud Noeud Map Map Map Map Map Reduce Reduce Reduce

Map/Reduce = diviser pour régner

Map/Reduce = diviser pour régner

Map/Reduce Patterns Distributed grep! def map(doc_id, doc): for term in doc: if (term == target_term): emit(term, doc_id)

Map/Reduce Patterns Counting! def map(doc_id, doc): for term in doc: emit(term, 1) def reduce(term, counts_list): sum = 0 for count in counts_lists : sum += c

Map/Reduce Patterns Counting! def map(doc_id, doc): for term in doc: emit(term, 1) def combine(term, counts_list): sum = 0 def reduce(term, counts_list): sum = 0 for count in counts_lists : sum += c for count in counts_lists : sum += c

Agenda 2 Stats Web avec Hive chez Scoop.it

Agenda 3 Profession: data scientist

The sexiest job in the next 10 years will be statistician Hal Varian, Chief Economist at Google

Données métier

Données métier Autres sources de données intra-entreprise (logs web, CRM...)

Données métier Autres sources de données intra-entreprise (logs web, CRM...) Données externes

People to people Réseaux sociaux Blogs Communautés People to machine Machine to machine Documents Smart cards E-commerce Logs box/mobile Logs Capteurs GPS Code-barres Caméras

Applications Big Data

Applications Big Data {

Applications Big Data {

Applications Big Data { {

Applications Big Data { { Carte volée!

Applications Big Data Estimer la production d'iphones d'après les numéros de série...

Applications Big Data Optimisation A/B Corrélation usage du site web + transactions Suivi de l'engagement et monitoring du churn Logs web server In-game events

Sémantique et Linked Data Contraintes spatio-temporelles = indispensables à la résolution d'id Fuzzy matching 75007 75007 22rue ruede degrenelle Grenelle Avène Avène 22avenue avenuedu dulauragais Lauragais 31000 31000 Paris Paris Toulouse Toulouse haszipcode hasaddress hascity hasnom hascity Avène Avène Maurice Maurice hasnom hasprenom SAAS_clients_20120304_45lhsd SAAS_clients_20120304_45lhsd haszipcode hasaddress sameas hasprenom CRM_2012_72 CRM_2012_72 Maurice Maurice

Boîte à outils Postgres MySQL Logs Logs Logs Pig cascalog Hadoop / HDFS

Mode opératoire Nettoyage de données Scatterplots Kernel smoothing Robust EM Choix du modèle K-Means Clustering Régression logistique SVM Réseaux de neurones Naive Bayes Random Forest Survival modeling Tuning Descente de gradient Maximum de vraisemblance Meta-optimisation Méthodes d'ensemble

Mahout intelligence artificielle à grande échelle Règles d'association et Frequent Itemsets Recommendation d'articles Clustering et K-means Arbres de décision PageRank

Mahout intelligence artificielle à grande échelle Millions et + de transactions { Règles d'association et Frequent Itemsets Recommendation d'articles Clustering et K-means Arbres de décision PageRank

Merci! Questions? froyer@datasio.com