Big Data et Graphes : Quelques pistes de recherche



Documents pareils
Big Data et Graphes : Quelques pistes de recherche

Jean-François Boulicaut & Mohand-Saïd Hacid

Big Data -Comment exploiter les données et les transformer en prise de décisions?

BIG Data et R: opportunités et perspectives

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Transmission d informations sur le réseau électrique

Programmation parallèle et distribuée

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Intégration de la dimension sémantique dans les réseaux sociaux

Hervé Couturier EVP, SAP Technology Development

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Chapitre 5 : Flot maximal dans un graphe

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Enjeux mathématiques et Statistiques du Big Data

MABioVis. Bio-informatique et la

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Anticiper et prédire les sinistres avec une approche Big Data

Data Governance et. Optim / FileNet. La synergie entre le structuré et le non structuré IBM Corporation

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Accès aux données Sentinelles

Les défis statistiques du Big Data

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Big Graph Data Forum Teratec 2013

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Introduction à MapReduce/Hadoop et Spark

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

La rencontre du Big Data et du Cloud

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Programmation parallèle et distribuée

TRAVAUX DE RECHERCHE DANS LE

Resolution limit in community detection

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

Valorisez vos actifs logiciels avec Rational Asset Manager. Jean-Michel Athané, Certified IT Specialist IBM Rational Software

Open Data. Enjeux et perspectives dans les télécommunications

Application de K-means à la définition du nombre de VM optimal dans un cloud

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

données en connaissance et en actions?

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Bigdata et Web sémantique. les données + l intelligence= la solution

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

Bases de données documentaires et distribuées Cours NFE04

Aspects théoriques et algorithmiques du calcul réparti L agglomération

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Travailler avec les télécommunications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Les données massives de Copernicus : vers un nouveau paradigme. Hervé Jeanjean Cnes

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

2 Serveurs OLAP et introduction au Data Mining

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

Fonctionnalités des différentes éditions de SQL Server 2012

Les technologies du Big Data

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Travaux pratiques avec RapidMiner

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Hadoop, les clés du succès

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Big Data On Line Analytics

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

«Les projets collaboratifs pour les nuls»

Introduction au Data-Mining

Open Data. François Bancilhon twitter.com/fbancilhon Printemps de la recherche EDF R&D 28/9/12

Entreprise et Big Data

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

Gestion collaborative de documents

Session Usager, Infrastructures, Réseaux sociaux et Transports intelligents

Administration de Bases de Données : Optimisation

Kick Off SCC 2015 Comment faire de votre infrastructure de stockage une source d économie? Vers de nouveaux horizons

MODULE 2 : L échange et le partage de fichiers numériques

Cours Bases de données

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

Cours de Master Recherche

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

DATA ANALYTICS Des données aux connaissances et à la création de valeur

Partie 1. La structure des réseaux sociaux

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Ingénierie et gestion des connaissances

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

Proposition d une architecture pour ebay, en mettant l accent sur les notions de scalabilité, de résilience, et de tolérance aux pannes.

11 Février 2014 Paris nidays.fr. france.ni.com

LES ENJEUX DU BIG DATA

Couplage d une base de données documentaire à une visualisation interactive 3D sur l Internet

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Transcription:

Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon http://liris.cnrs.fr

Big Data : Grandes Masses de Données Age du Big Data!

Nouveau modèle de données Le Modèle de Génération/Consommation de la donnée a changé Ancien modèle : Quelques compagnies génèrent des données, les autres sont des consommateurs de données Nouveau Modèle : nous sommes tous des générateurs de données, et nous sommes tous des consommateurs de données

Générateurs des Big Data Instruments scientifiques (collecter toute sorte de données) Mobiles (tracer tous les objets tout le temps) Réseaux de capteurs (mesurer tout type de données) Média et réseaux sociaux (tous des générateurs de données)

Générateurs des Big Data Instruments scientifiques (collecter toute sorte de données) Mobiles (tracer tous les objets tout le temps) Réseaux de capteurs (mesurer tout type de données) Média et réseaux sociaux (tous des générateurs de données)

Age du Big Data Data is a new class of economic asset, like currency and gold. Source: World Economic Forum 2012

Big Data Un enjeu scientifique important :

Big Data Définitions Big Data is a massive volume of both structured and unstructured data that is so large that it's difficult to process with traditional database and software techniques. Big Data is data whose scale, diversity, and complexity require new architectures, models, techniques, algorithms, and analytics to manage it and extract value and hidden knowledge from it Avec quels modèles?

Big Data & Graphs? Naturellement, les graphes et les données sont liés : - Linked open Data (graphe d interaction entre données) - Des objets du Web sont des graphes (XML, RDF, ) - Graphes des amis de Facebook - Graphe de connaissances de Google - Graphes extraits de grandes base de données Base de données Données D1 temps Emetteur Récepteur Type de mess. 1 S1 S2 A.. Attribut n. 3444 D2 2 S1 S3 C. 2112 D3 3 S2 S4 B. 5858 D4 D5 4 S4 S2 A 5 S3 S5 C.. 600 2333.......

Big Data & Big Graphs Big Data Big Graphs + Big Data Graphs

Verrous Big Data Solutions à base de graphes Indexation et stockage Partitionnement de graphes Flux de données (Vélocité) Analyse de flux de graphes Visualisation des données Visualisation de graphes

Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Visualisation des données Visualisation de graphes

Partitionnement de graphes de données possible? Big Graphs (Milliards de nœuds et arêtes) 1 machine? Combien de : - RAM? - Disque?

Partitionnement de graphes de données possible? Big Graphs (Milliards de nœuds et arêtes) 1 machine? k machines

Partitionnement de graphes de données possible? OUI Big Graphs (Milliards de nœuds et arêtes) 1 machine? k machines

Partitionnement de graphes de données possible? OUI Big Graphs (Milliards de nœuds et arêtes) 1 machine? k clusters Comment découper le grand graphe?

Partitionnement de graphes de données Comment découper le grand graphe en k partitions?

Partitionnement de graphes de données Etant donné un graphe G = (N, E, W N, W E ) N = sommets, W N = poids sur les sommets E = arêtes W E = poids des arêtes 2 (2) 1 3 (1) 4 1 (2) 2 4 (3) 2 3 1 2 5 (1) 8 (1) 5 1 6 6 (2) 7 (3) Ex: N = {données}, W N = {vecteurs d attributs de données}, arête (j,k) dans E : j envoie W E (j,k) mots au k Choisir une partition N = N 1 U N 2 U U N P telle que La somme des poids des nœuds dans chaque N j est presque le même La somme des poids des arêtes connectant toutes les différentes paires N j minimisée et N k est Ex: équilibrage des chargements de données, en minimisant la communication entre les machines Cas particulier, N = N 1 U N 2

Partitionnement de graphes de données Etant donné un graphe G = (N, E, W N, W E ) N = sommets, W N = poids sur les sommets E = arêtes W E = poids des arêtes 2 (2) 1 3 (1) 4 1 (2) 2 4 (3) 2 3 1 2 5 (1) 8 (1) 5 1 6 6 (2) 7 (3) Ex: N = {données}, W N = {vecteurs d attributs de données}, arête (j,k) dans E : j envoie W E (j,k) mots au k Choisir une partition N = N 1 U N 2 U U N P telle que La somme des poids des nœuds dans chaque N j est presque le même La somme des poids des arêtes connectant toutes les différentes paires N j minimisée et N k est Ex: équilibrage des chargements de données, en minimisant la communication entre les machines Cas particulier, N = N 1 U N 2

Partitionnement de graphes de données NP-complet Plusieurs algorithmes existent : partitionnement spectral partitionnement géométrique partitionnement en graphes Multi-niveaux

Partitionnement de graphes de données NP-complet Plusieurs algorithmes existent : partitionnement spectral partitionnement géométrique partitionnement en graphes Multi-niveaux 3 Phases compresser Partitionner Décompresser

Partitionnement de graphes de données Partitionnement en graphes Multi-niveaux Compresser (couplage maximum) partitionnement équilibré décompresser

Partitionnement de graphes de données Quelques paramètres de graphes liés au partitionnement Ensemble d arêtes Séparateur : E s (sous-ensemble de E) sépare G si en retirant E s de E donne 2 composantes connexes de tailles égales, N: N 1 and N 2 Ensemble de sommets Séparateur : N s (sous-ensemble de N) sépare G si en retirant N s et toutes leurs arêtes incidentes donne 2 composantes connexes de tailles égales, N: N 1 and N 2 G = (N, E), sommets N et arêtes E N s = sommets verts

Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Visualisation des données Visualisation de graphes

Analyse de graphes de données en flux Flux de données : Un flux de données est une séquence de données : a 1, a 2,, a n. Flux de prix Flux de paquets IP Les données ont différentes formes dans différentes applications. Valeur scalaire Tuple La sémantique des données est également différente dans différentes applications.

Analyse de graphes en flux Modèle de traitement de flux : Accès séquentiel au flux de données Ordre des données dans le flux n est pas contrôlé par l algorithme et peut être artificiel. Petit espace de travail comparé à la longueur du flux n : Polylog n n ε Petit nombre de passes sur le flux : Une passe Un nombre constant de passes Temps de traitement d une donnée est court 26

Analyse de graphes en flux Graphe en flux Buffer possible de taille Toute machine possède noeuds Graphe est ordonné : aléatoire Parcours en largeur d abord Parcours en profondeur d abord Partitionner 1 27

Analyse de graphes en flux Des travaux existent : Tester la connectivité, Tester la planarité, construction d arbre couvrant, Re-penser les problèmes de graphes classiques dans le modèle streaming, notamment pour l organisation des données : clustering, détection de propriétés structurelles, etc 28

Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Visualisation des données Visualisation de graphes

Visualisation des grands graphes

Visualisation de grands graphes Comment visualiser les grands graphes de données? Quels algorithmes et techniques pour explorer visuellement le grand graphe?

Visualisation de grands graphes Communautés/clustering/classification Recherche de motifs fréquents Visualisation d échantillons représentatifs, de sous-graphes, etc Visualisation 2D, 3D Combiner la fouille visuelle avec l exploration algorithmique des grands graphes.

Big Data et Graphes, Ce n est que le début de l histoire.!!