For Fun and Profit Datasio 2012
130 Nouveaux acteurs Big Data depuis 2009
1 2 3 Agenda Hadoop, poids lourd du Big Data Stats Web avec Hive chez Scoop.it Profession: Data Scientist
Agenda 1 Hadoop, poids lourd du Big Data Qui l'utilise? Comment ça marche?
Aujourd'hui... App servers Sharding? Load balancing? Archivage? Calculs & statistiques? Reporting? Bases de données Stockage Monitoring de ressources fournies par les partenaires? Comment réconcilier les conversions (transactions) avec l'usage (logs)? Customer Lifetime Value? Nous perdons de l'argent: où??
Qui utilise Hadoop? Data mining sur click stream Analyse d'image Production d'index Moteur d'enchères Conversion de 11 millions d'articles en PDF Spam screening (> 20 milliards de msg / jour) Entrepôt de données > 30 PetaOctets (2011)
03 20 Google Filesystem
20 04 03 20 Publication de MapReduce Google Filesystem
20 06 20 04 03 20 Publication de MapReduce Google Filesystem Création du projet Apache
Google Filesystem 20 06 20 08 20 04 03 20 Publication de MapReduce 10000 machines @ Yahoo! Création du projet Apache
Google Filesystem 10000 machines @ Yahoo! Ouverture du code source 20 12 20 06 20 08 20 04 03 20 Publication de MapReduce Cluster 100 PB @ Facebook
HDFS (Hadoop Distributed Filesystem)
Zookeeper (Resource management) Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem)
Zookeeper (Resource management) Pig (Data DSL) Hive (SQL) Cascading (Data flow) Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem)
Hbase (Distributed Key Value) Zookeeper (Resource management) Cascalog (Data flow) Pig (Data DSL) Hive (SQL) Cascading (Data flow) Map/Reduce (Distributed processing) HDFS (Hadoop Distributed Filesystem)
HDFS = système de fichier distribué CLUSTER CPU Traitement DISK Stockage
Rack-awareness + data locality CLUSTER Rack Noeud Rack Noeud Noeud Rack Noeud CPU Traitement DISK Stockage Noeud
Fichiers distribués en blocs, avec facteur de réplication N (ici, N=3) CLUSTER Rack Noeud bloc1 bloc2 bloc3 Rack Noeud bloc1 Noeud Rack Noeud bloc1 bloc2 bloc3 bloc4 bloc4 bloc4 Noeud bloc2 bloc3
Map/Reduce = diviser pour régner CLUSTER Rack Rack Rack Noeud Noeud Noeud Noeud Noeud Map Map Map Map Map Reduce Reduce Reduce
Map/Reduce = diviser pour régner
Map/Reduce = diviser pour régner
Map/Reduce Patterns Distributed grep! def map(doc_id, doc): for term in doc: if (term == target_term): emit(term, doc_id)
Map/Reduce Patterns Counting! def map(doc_id, doc): for term in doc: emit(term, 1) def reduce(term, counts_list): sum = 0 for count in counts_lists : sum += c
Map/Reduce Patterns Counting! def map(doc_id, doc): for term in doc: emit(term, 1) def combine(term, counts_list): sum = 0 def reduce(term, counts_list): sum = 0 for count in counts_lists : sum += c for count in counts_lists : sum += c
Agenda 2 Stats Web avec Hive chez Scoop.it
Agenda 3 Profession: data scientist
The sexiest job in the next 10 years will be statistician Hal Varian, Chief Economist at Google
Données métier
Données métier Autres sources de données intra-entreprise (logs web, CRM...)
Données métier Autres sources de données intra-entreprise (logs web, CRM...) Données externes
People to people Réseaux sociaux Blogs Communautés People to machine Machine to machine Documents Smart cards E-commerce Logs box/mobile Logs Capteurs GPS Code-barres Caméras
Applications Big Data
Applications Big Data {
Applications Big Data {
Applications Big Data { {
Applications Big Data { { Carte volée!
Applications Big Data Estimer la production d'iphones d'après les numéros de série...
Applications Big Data Optimisation A/B Corrélation usage du site web + transactions Suivi de l'engagement et monitoring du churn Logs web server In-game events
Sémantique et Linked Data Contraintes spatio-temporelles = indispensables à la résolution d'id Fuzzy matching 75007 75007 22rue ruede degrenelle Grenelle Avène Avène 22avenue avenuedu dulauragais Lauragais 31000 31000 Paris Paris Toulouse Toulouse haszipcode hasaddress hascity hasnom hascity Avène Avène Maurice Maurice hasnom hasprenom SAAS_clients_20120304_45lhsd SAAS_clients_20120304_45lhsd haszipcode hasaddress sameas hasprenom CRM_2012_72 CRM_2012_72 Maurice Maurice
Boîte à outils Postgres MySQL Logs Logs Logs Pig cascalog Hadoop / HDFS
Mode opératoire Nettoyage de données Scatterplots Kernel smoothing Robust EM Choix du modèle K-Means Clustering Régression logistique SVM Réseaux de neurones Naive Bayes Random Forest Survival modeling Tuning Descente de gradient Maximum de vraisemblance Meta-optimisation Méthodes d'ensemble
Mahout intelligence artificielle à grande échelle Règles d'association et Frequent Itemsets Recommendation d'articles Clustering et K-means Arbres de décision PageRank
Mahout intelligence artificielle à grande échelle Millions et + de transactions { Règles d'association et Frequent Itemsets Recommendation d'articles Clustering et K-means Arbres de décision PageRank
Merci! Questions? froyer@datasio.com