Fouillez facilement dans votre système Big Data. Olivier TAVARD

Documents pareils
Programmation parallèle et distribuée (Master 1 Info )

Big Data Concepts et mise en oeuvre de Hadoop

Programmation parallèle et distribuée

Programmation parallèle et distribuée

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Ricco Rakotomalala R.R. Université Lyon 2

HADOOP ET SON ÉCOSYSTÈME

Introduction à MapReduce/Hadoop et Spark

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Les technologies du Big Data

Cartographie des solutions BigData

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

BIG DATA en Sciences et Industries de l Environnement

Panorama des solutions analytiques existantes

Les quatre piliers d une solution de gestion des Big Data

Surmonter les 5 défis opérationnels du Big Data

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop


Offre formation Big Data Analytics

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Bases de données documentaires et distribuées Cours NFE04

Labs Hadoop Février 2013

Vos experts Big Data. Le Big Data dans la pratique

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Tables Rondes Le «Big Data»

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Bases de données documentaires et distribuées Cours NFE04

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Certificat Big Data - Master MAthématiques

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Document réalisé par Khadidjatou BAMBA


Les journées SQL Server 2013

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Fouille de données massives avec Hadoop

Big Data, un nouveau paradigme et de nouveaux challenges

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Change the game with smart innovation

Comment booster vos applications SAP Hana avec SQLSCRIPT

IBM Cloudant Data Layer Local Edition

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Notes de cours Practical BigData

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Big Graph Data Forum Teratec 2013

Point sur les solutions de développement d apps pour les périphériques mobiles

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Introduction à Hadoop & MapReduce

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Introduc)on à Map- Reduce. Vincent Leroy

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE

Dis moi, ça apporte quoi Géolys? Tu sais, Géolys, c est avant tout une réponse à ces questions-là

Titre : La BI vue par l intégrateur Orange

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus

BIG DATA et DONNéES SEO

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Les bases de données relationnelles

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Chapitre 10 Mettre en œuvre un cluster Hadoop

Anticiper et prédire les sinistres avec une approche Big Data

Le cloud computing au service des applications cartographiques à haute disponibilité

Cassandra et Spark pour gérer la musique On-line

M2 GL UE DOC «In memory analytics»

Mercredi 15 Janvier 2014

Choisir la solution d hébergement et de support faite pour vous

Programme ASI Développeur

Suite Jedox La Business-Driven Intelligence avec Jedox

Hadoop / Big Data MBDS. Benjamin Renaut <renaut.benjamin@tokidev.fr>

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Technologie SDS (Software-Defined Storage) de DataCore

Technologies Web. Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya. Université Pierre et Marie Curie

Défi Cloud Computing

Introduction Big Data

Système de Stockage Sécurisé et Distribué

Big Data et Graphes : Quelques pistes de recherche

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

Big Data Jean-Michel Franco

Transcription:

Fouillez facilement dans votre système Big Data Olivier TAVARD

A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche (Solr, Elasticsearch) A propos de France Labs : Startup créée en 2011 Experts en technos de search (consulting) Partenaire officiel de LucidWorks Editeur de la solution Datafari

Rappels sur Hadoop Présentation (rapide) de Solr Intégration d Hadoop et de Solr Démo

Hadoop Créé par Doug Cutting en 2004 A l origine pour Lucene : Projet Nutch Framework open source Inspiré par les papiers sur Google Map Reduce et Google File System

Hadoop Traiter des grands volumes de données en un minimum de temps Stocker des immenses volumes de données Fonctionne sur machines de configuration faible et peu coûteuses

Hadoop Architecture (très) simplifiée de Hadoop v1 Nœud 1 Couche Traitement (MapReduce) Nœud 2 Nœud 3 Nœud 4 Couche Stockage (HDFS)

Couche stockage (HDFS) Système de fichier distribué Utilise les disques «normaux» de chacun des nœuds pour donner l impression de n utiliser qu un seul énorme disque Fiable (données répliquées 3 fois) Hadoop

Couche traitement (MapReduce) Hadoop exécute des jobs Map Reduce Un algorithme doit donc implémenter: Un mapper Un reducer Pour être executé de manière distribuée par Hadoop en tant que job Hadoop

Hadoop Mapper Prend des données en entrée Et les transforme en paire de clé valeur Clé1 : Val1 Clé2 : Val2 Clé3 : Val3 Clé4 : Val4 Mapper

Hadoop Reducer Combine les valeurs ayant la même clé Clé 1 : Val2 Clé 2 : Val2 Clé 1 : Val3 Clé 2 : Val4 Clé1 : Val5 Clé2 : Val6 Reducer

Hadoop Un exemple simple? On a en entrée plusieurs textes On veut compter le nombre d occurrences des mots De manière distribuée En utilisant un job Map Reduce Solr Apache Solr est une couche web open source basée sur la librairie de recherche Apache Lucene. Elle ajoute des fonctionnalités de serveur web, du faceting. Datafari Datafari est notre solution open source de recherche d'entreprises, basée sur Lucene, Solr, et le framework de connecteurs Apache ManifoldCF. Lucene Apache Lucene est un moteur de recherche et d'indexation, en open source.

Hadoop Solr Apache Solr est une couche web open source basée sur la librairie de recherche Apache Lucene. Elle ajoute des fonctionnalités de serveur web, du faceting. Mapper Apache : 1 Apache : 1 Solr : 1 Lucene : 1 Datafari Datafari est notre solution open source de recherche d'entreprises, basée sur Lucene, Solr, et le framework de connecteurs Apache ManifoldCF. Mapper Apache : 1 Solr : 1 Lucene : 1 Reducer Apache : 4 Solr : 2 Lucene : 3 Lucene Apache Lucene est un moteur de recherche et d'indexation, en open source. Mapper Apache : 1 Lucene : 1

Hadoop 2 HDFS 2 : Haute disponibilité NameNode Support de NFS

Hadoop 2 YARN Gestion jobs et ressources

Ecosytème

Rappels sur Hadoop Présentation (rapide) de Solr Intégration d Hadoop et de Solr Démo

La recherche est un oignon matriciel!

Un outil qui permet: De créer un index à partir de documents INDEX

A quoi ça ressemble?

Facettes

Spellcheck

Autocomplete

Géolocalisation

Autres fonctionnalités Highlighting More Like This Obtenir des documents similaires à un document Similarité textuelle

Business Intelligence (BI)/Marketing

Analyse de logs (for devops)

Solr Cloud permet la mise à l échelle: Architecture flexible en cluster de serveurs Volumétrie élevée Montée en charge Tolérance aux pannes Solr Cloud

Démo! Tester Solr

Rappels sur Hadoop Présentation (rapide) de Solr Intégration d Hadoop et de Solr Démo

Projets liés 2002 2005 2004 1999 2010

Text mining Création et analyse de graphes Reconnaissance de patterns Moteurs de recommandations, ciblage publicité Analyse de menaces, surveillances de marchés Exemples de scénarios Big Data

Hadoop pour les recommandations

Hadoop pour les recommandations

Lucene pour la recherche d utilisateurs

Netflix Site de streaming légal de vidéos Avant Hadoop : - Logs étaient traités pendant la nuit - Importés dans une BDD - Analyse/BI - => Il fallait plus de 24h pour traiter une journée de logs Avec Hadoop : - En seulement une heure de jobs Hadoop les données sont traitées - Traite quotidiennement 1 To de données par jour approximativement Solr - Recherche de contenus par l utilisateur Exemples d utilisation d Hadoop

Exemples d utilisation Big Data Amazon CloudSearch Utilisation de Solr depuis Mars 2014 Scalable Performant

Scénario : analyse de tickets de caisse Que faire des données brutes? Comment les analyser, les traiter? Comment rechercher dedans? => Solution : Hadoop et Solr!

Hadoop et Solr indépendants Traitements et calculs sur Hadoop (ex : Pig) Import d un CSV avec Pig Opérations : analyse, calculs panier moyen, TVA etc Export des données d Hadoop Génération d un fichier XML avec Pig Indexation dans un Solr standalone (ex : DIH) Utilisation d une contribution de Solr : DIH 1 er niveau d intégration

Index Solr

Avantages : Si cluster Solr déjà présent, ajout d un index Solr dédié Mature Inconvénients: Réplication de HDFS vers système de fichiers du Solr 1 er niveau d intégration

Stockage de l index de Solr sur HDFS Lancement de Solr avec utilisation de HDFS 2 e niveau niveau d intégration

Avantages : Tolérance aux pannes Gain espace disque (cluster Hadoop déjà existant avec HDFS) 2 e niveau niveau d intégration

Différents niveau d intégration Création de l index Solr à l aide de jobs Map Reduce Travail en cours (https://issues.apache.org/jira/browse/solr-1045) Contrib expérimentale fournie avec Solr Avantages : Augmentation des performance d indexation sur de gros volumes de données Très utile si indexes déjà construits par HDFS

Fonctionnalité de Search basée sur Solr intégrée par plusieurs distributions MapR Cloudera Search Hortonworks Lucidworks Solr

Rappels sur Hadoop Présentation (rapide) de Solr Intégration d Hadoop et de Solr Démo

Work in progress Scénario des tickets de caisse Etape 1 : import dans Pig des tickets en CSV Etape 2 : opérations sur les données avec Pig Etape 3 : indexation des données en Solr Etape 4 : recherche sur ces données avec Solr

Work in progress

Solr directement couplé avec Hadoop Démo!

Site web : www.francelabs.com Email : contact@francelabs.com Twitter : Francelabs