Big Graph Data Forum Teratec 2013



Documents pareils
Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

HADOOP ET SON ÉCOSYSTÈME

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

Entreprise et Big Data

Programmation parallèle et distribuée

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Le BigData, aussi par et pour les PMEs

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Les technologies du Big Data

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Quels choix de base de données pour vos projets Big Data?

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

BIG DATA et DONNéES SEO

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Les bases de données relationnelles

Big Data et Graphes : Quelques pistes de recherche

Jean-François Boulicaut & Mohand-Saïd Hacid

BIG Data et R: opportunités et perspectives

M2 GL UE DOC «In memory analytics»

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

Introduction Big Data

Programmation parallèle et distribuée

Labs Hadoop Février 2013

Big Data On Line Analytics

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Programmation parallèle et distribuée (Master 1 Info )

Panorama des solutions analytiques existantes

Big Data et Graphes : Quelques pistes de recherche

Hadoop, les clés du succès

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

Titre : La BI vue par l intégrateur Orange

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

Bases de données documentaires et distribuées Cours NFE04

Les datas = le fuel du 21ième sicècle

Offre formation Big Data Analytics

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

#BigData Dossier de presse Mai 2014

Cassandra et Spark pour gérer la musique On-line

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Tables Rondes Le «Big Data»

Les défis statistiques du Big Data

BIG DATA en Sciences et Industries de l Environnement

Conception des systèmes répartis

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

LES ENJEUX DU BIG DATA

Fouille de données massives avec Hadoop

Pourquoi intégrer le Big Data à son organisa3on?

Enjeux mathématiques et Statistiques du Big Data

Certificat Big Data - Master MAthématiques

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

INEX. Informatique en Nuage : Expérimentations et Vérification. Livrable n M2.1 ÉTUDE ET PARALLÉLISATION. Jérôme Richard

Surmonter les 5 défis opérationnels du Big Data

SÉRIE NOUVELLES ARCHITECTURES

Les journées SQL Server 2013

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

Introduction à MapReduce/Hadoop et Spark

Document réalisé par Khadidjatou BAMBA

Systèmes d information et bases de données (niveau 1)

Bases de données documentaires et distribuées Cours NFE04

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

armez-vous La digitalisation est une guerre mondiale LIVRE BLANC Le Big Data, sans tabou ni fausse promesse Ingénieur, Docteur en STIC

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité

SQL Server 2012 et SQL Server 2014


La rencontre du Big Data et du Cloud

Introduction au Data-Mining

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

TRAVAUX DE RECHERCHE DANS LE

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Change the game with smart innovation

NoSQL. Etat de l art et benchmark


Bases de données Cours 1 : Généralités sur les bases de données

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase


Cartographie des solutions BigData

À PROPOS DE TALEND...

Benjamin Cornu Florian Joyeux. Les choses à connaître pour (essayer) de concurrencer Facebook.

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Ricco Rakotomalala R.R. Université Lyon 2

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011

Le NoSQL - Cassandra

4 Exemples de problèmes MapReduce incrémentaux

Transcription:

Big Graph Data Forum Teratec 2013 MFG Labs 35 rue de Châteaudun 75009 Paris, France www.mfglabs.com twitter: @mfg_labs Julien Laugel MFG Labs julien.laugel@mfglabs.com @roolio

SOMMAIRE MFG Labs Contexte : les 3 V aujourd hui Les bases de données graphe Les solutions actuelles Les challenges 2

MFG Labs 3

Un ADN mathématique Jean-Michel Lasry (CEO) Professor of university Paris Dauphine - Fondé en 2010 par 2 mathématiciens - MFG: Mean Field Games - Initialement société de conseil dédié aux applications des MFG en économie Pierre-Louis Lions Fields Medal 1994 4

Les activités de MFG Labs Recherche Mathématique Big Data Stratégie Digitale 5

Contexte : les 3 V aujourd hui 6

L ère post-map/reduce Reste-t-il des challenges pour la trinité BigData? Volume Velocity Variety 7

VOLUME bases de données MPP Map/Reduce (Hadoop) Spark 8

VÉLOCITÉ Complex Event Processing Bases de données orientée flux Base de données In-memory Storm, S4 9

VARIÉTÉ Données non-structurées Données semi-structurées Données textuelles 10

Problématiques «maitrisées» Stockage => Systèmes de Fichiers Distribués Tâches fortement parallélisables => Map/Reduce Bases de données distribuée à faible latence d écriture => BigTable, Dynamo 11

Les question ouvertes Nombre des sources de données Volume des liaisons entre les données x Volume des données Que faire avec les gros graphes? 12

Le constat Les technologies Big Data traditionnelles ne savent pas gérer les gros graphes de données Traversée de graphe trop couteuse (itérations) Partitionnement des données non trivial 13

BIG GRAPHS à l échelle sociale : Facebook 1milliard de noeuds 144 milliards de relations à l échelle du web : 50 milliards de noeuds 1000 milliards de liens à l échelle du cerveau : 100 milliards de noeuds 100 000 milliards de liens 14

Les bases de données graphe 15

Définition 16

Le modèle property graph nom: Hercule type: demi-dieu père nature: généalogique mère nature: généalogique nom: Jupiter nom: Alcmène type : dieu type : humain 17

L enjeu 18

L importance du modèle graphe Stockage avant usage : Flexilibilité du modèle de données Agilité : Nécessité d un modèle de données dynamique Machine Learning : De très nombreux algorithmes s expriment sous forme de graphe (PageRank, Filtrage collaboratif) Analogie entre matrices sparses et les graphes 19

Les constituants Un «moteur» basé sur la traversée de graphe Un modèle de calcul permettant de développer des algorithmes Des méthodes de partitionnement de données efficaces Un langage de requêtes permettant la recherche de motifs 20

Exemples 21

Interconnecter des sources School friends Jean Coworkers Social Graph (500 millions edges) Clément Open Graph (40 millions objects) Forrest Gump (on Allociné) watched Forrest Gump (on YouTube) wants to watch Cloud Atlas (on Flixster) Knowledge Graph (1 billion entities) Unique ID Forrest Gump Tom Hanks Unique ID Cloud Atlas 22

Recherche de similarités via les utilisateurs

Recherche de similarités entre concepts

Détections d influenceurs

Diffusion dans un graphe

«Penser» les données en graphe Logs de serveur de demande d itinéraires : id ville de départ ville de destination ==> ville de départ ville de destination occurrences ==> noeuds = villes liens = nombre de demandes de trajets entre ville de départ et ville de destination 27

Découvrir les structures endogènes 28

Les solutions actuelles 29

Un paysage de plus en plus fragmenté 30

La fin de l hégémonie des bases de données relationnelles 31

Map/Reduce 32

Bases de données orientées colonnes 33

Bases de données de flux 34

Stores Clé/Valeur 35

Bases de données orientées documents 36

Quid du processing des graphes? Frameworks Bases de données 37

Les frameworks 38

Les frameworks Parallélisme de Données : Map/Reduce : Systeme de fichier distribué GraphX : Primitives de parallélisme de graphe implémentées sur une abstraction data-parallèle Parallélisme de Graphe («Think like a vertex»): Bulk Synchronous Processing (BSP) Modification des noeuds synchrone Partitionnement des noeuds Graphlab v2 Modification des noeuds asynchrone Partitionnement des liens 39

Les bases de données 40

Les bases de données Jung igraph Rapidité de la traversée de graphe networkx Taille 41

Qui utilise quoi? Neo4J en passe de devenir le PostgreSQL du graphe Les gros acteurs de la Silicon Valley utilisent Giraph, ou des systèmes spécifiques à leur besoin Hadoop reste encore utilisé dans ce domaine GraphX est une alternative prometteuse Graphlab est à la pointe du développement au niveau algorithmique Titan + Faunus aussi très intéressant à suivre pour un couple stockage+processing 42

Les langages 43

Les langages SPARQL, OWL (bases de données sémantiques) Impératif : Gremlin «suivre» les relations Expliciter les algorithmes (breadth-first, depth-first...) Déclaratif : Cypher Description du pattern à rechercher 44

Le Langage Cypher Simple description du pattern recherché 45

Les outils de visualisation 46

Une spécialité française Gephi: http://gephi.org 47

Une spécialité française Tulip : http://tulip.labri.fr 48

Une spécialité française Graphstream : http://http://graphstream-project.org/ 49

Les challenges 50

Les Challenges 1. Rendre les bases de données graphes «mainstream» 2. Emergence d un standard pour les très gros graphes 3. Traitement des graphes en flux de données 4. Le «big graph processing» permettra l accélération du «big machine learning» 5. Le sujet est complexe, et ouvre de grandes opportunités à qui saura gérer les aspects infrastructure algorithmes langage de requête visualisation 51

MFG Labs 35 rue de Châteaudun 75009 Paris, France www.mfglabs.com twitter: @mfg_labs julien.laugel@mfglabs.com @roolio