Big Data et Graphes : Quelques pistes de recherche



Documents pareils
Big Data et Graphes : Quelques pistes de recherche

Jean-François Boulicaut & Mohand-Saïd Hacid

Big Data -Comment exploiter les données et les transformer en prise de décisions?

BIG Data et R: opportunités et perspectives

Intégration de la dimension sémantique dans les réseaux sociaux

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Programmation parallèle et distribuée

Transmission d informations sur le réseau électrique

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

MABioVis. Bio-informatique et la

Hervé Couturier EVP, SAP Technology Development

Enjeux mathématiques et Statistiques du Big Data

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Anticiper et prédire les sinistres avec une approche Big Data

Chapitre 5 : Flot maximal dans un graphe

Fouillez facilement dans votre système Big Data. Olivier TAVARD

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Resolution limit in community detection

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

Big Graph Data Forum Teratec 2013

Cours de Master Recherche

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Aspects théoriques et algorithmiques du calcul réparti L agglomération

Data Governance et. Optim / FileNet. La synergie entre le structuré et le non structuré IBM Corporation

Open Data. Enjeux et perspectives dans les télécommunications

Accès aux données Sentinelles

Les défis statistiques du Big Data

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

TRAVAUX DE RECHERCHE DANS LE

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Application de K-means à la définition du nombre de VM optimal dans un cloud

Travaux pratiques avec RapidMiner

Introduction à MapReduce/Hadoop et Spark

Introduction au Data-Mining

Bigdata et Web sémantique. les données + l intelligence= la solution

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Les données massives de Copernicus : vers un nouveau paradigme. Hervé Jeanjean Cnes

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Programmation parallèle et distribuée

La rencontre du Big Data et du Cloud

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Fonctionnalités des différentes éditions de SQL Server 2012

Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Valorisez vos actifs logiciels avec Rational Asset Manager. Jean-Michel Athané, Certified IT Specialist IBM Rational Software

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

Partie 1. La structure des réseaux sociaux

Les technologies du Big Data

données en connaissance et en actions?

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Session Usager, Infrastructures, Réseaux sociaux et Transports intelligents

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

LES ENJEUX DU BIG DATA

L apprentissage automatique

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

Bases de données documentaires et distribuées Cours NFE04

Kick Off SCC 2015 Comment faire de votre infrastructure de stockage une source d économie? Vers de nouveaux horizons

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Bases de Données. Plan

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Travailler avec les télécommunications

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Annexe 6. Notions d ordonnancement.

2 Serveurs OLAP et introduction au Data Mining

Ingénierie et gestion des connaissances

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Encryptions, compression et partitionnement des données

Hadoop, les clés du succès

Introduction au Data-Mining

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Chaînes de Markov au lycée

Transcription:

Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université Lumière Lyon 2/Ecole Centrale de Lyon http://liris.cnrs.fr

Big Data : Grandes Masses de Données Age du Big Data!

Nouveau modèle de données Le Modèle de Génération/Consommation de la donnée a changé Ancien modèle : Quelques compagnies génèrent des données, les autres sont des consommateurs de données Nouveau Modèle : nous sommes tous des générateurs de données, et nous sommes tous des consommateurs de données

Générateurs des Big Data Instruments scientifiques (collecter toute sorte de données) Mobiles (tracer tous les objets tout le temps) Réseaux de capteurs (mesurer tout type de données) Média et réseaux sociaux (tous des générateurs de données)

Générateurs des Big Data Instruments scientifiques (collecter toute sorte de données) Mobiles (tracer tous les objets tout le temps) Réseaux de capteurs (mesurer tout type de données) Média et réseaux sociaux (tous des générateurs de données)

Age du Big Data Data is a new class of economic asset, like currency and gold. Source: World Economic Forum 2012

Big Data Un enjeu scientifique important :

Big Data Définitions Big Data is a massive volume of both structured and unstructured data that is so large that it's difficult to process with traditional database and software techniques. Big Data is data whose scale, diversity, and complexity require new architectures, models, techniques, algorithms, and analytics to manage it and extract value and hidden knowledge from it Avec quels modèles?

Big Data & Graphs? Naturellement, les graphes et les données sont liés : - Linked open Data (graphe d interaction entre données) - Des objets du Web sont des graphes (XML, RDF, ) - Graphes des amis de Facebook - Graphe de connaissances de Google - Graphes extraits de grandes base de données Base de données Données D1 temps Emetteur Récepteur Type de mess. 1 S1 S2 A.. Attribut n. 3444 D2 2 S1 S3 C. 2112 D3 3 S2 S4 B. 5858 D4 D5 4 S4 S2 A 5 S3 S5 C.. 600 2333.......

Big Data & Big Graphs Big Data Big Graphs + Big Data Graphs

Verrous Big Data Solutions à base de graphes Indexation et stockage Partitionnement de graphes Flux de données (Vélocité) Analyse de flux de graphes Visualisation des données Visualisation de graphes

Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Visualisation des données Visualisation de graphes

Partitionnement de graphes de données possible? Big Graphs (Milliards de nœuds et arêtes) 1 machine? Combien de : - RAM? - Disque?

Partitionnement de graphes de données possible? Big Graphs (Milliards de nœuds et arêtes) 1 machine? k machines

Partitionnement de graphes de données possible? OUI Big Graphs (Milliards de nœuds et arêtes) 1 machine? k machines

Partitionnement de graphes de données possible? OUI Big Graphs (Milliards de nœuds et arêtes) 1 machine? k clusters Comment découper le grand graphe?

Partitionnement de graphes de données Comment découper le grand graphe en k partitions?

Partitionnement de graphes de données Etant donné un graphe G = (N, E, W N, W E ) N = sommets, W N = poids sur les sommets E = arêtes W E = poids des arêtes 2 (2) 1 3 (1) 4 1 (2) 2 4 (3) 2 3 1 2 5 (1) 8 (1) 5 1 6 6 (2) 7 (3) Ex: N = {données}, W N = {vecteurs d attributs de données}, arête (j,k) dans E : j envoie W E (j,k) mots au k Choisir une partition N = N 1 U N 2 U U N P telle que La somme des poids des nœuds dans chaque N j est presque le même La somme des poids des arêtes connectant toutes les différentes paires N j minimisée et N k est Ex: équilibrage des chargements de données, en minimisant la communication entre les machines Cas particulier, N = N 1 U N 2

Partitionnement de graphes de données Etant donné un graphe G = (N, E, W N, W E ) N = sommets, W N = poids sur les sommets E = arêtes W E = poids des arêtes 2 (2) 1 3 (1) 4 1 (2) 2 4 (3) 2 3 1 2 5 (1) 8 (1) 5 1 6 6 (2) 7 (3) Ex: N = {données}, W N = {vecteurs d attributs de données}, arête (j,k) dans E : j envoie W E (j,k) mots au k Choisir une partition N = N 1 U N 2 U U N P telle que La somme des poids des nœuds dans chaque N j est presque le même La somme des poids des arêtes connectant toutes les différentes paires N j minimisée et N k est Ex: équilibrage des chargements de données, en minimisant la communication entre les machines Cas particulier, N = N 1 U N 2

Partitionnement de graphes de données NP-complet Plusieurs algorithmes existent : partitionnement spectral partitionnement géométrique partitionnement en graphes Multi-niveaux

Partitionnement de graphes de données NP-complet Plusieurs algorithmes existent : partitionnement spectral partitionnement géométrique partitionnement en graphes Multi-niveaux 3 Phases compresser Partitionner Décompresser

Partitionnement de graphes de données Partitionnement en graphes Multi-niveaux Compresser (couplage maximum) partitionnement équilibré décompresser

Partitionnement de graphes de données Partitionnement à base du Lemme de régularité ( Gastineau et Kheddouci 2014)

Partitionnement de graphes de données Partitionnement à base du Lemme de régularité ( Gastineau et Kheddouci 2014)

Partitionnement de graphes de données Partitionnement à base du Lemme de régularité ( Gastineau et Kheddouci 2014) Graphes résumé 2 1 3 Densité Autres propriétés? Graphes de données

Partitionnement de graphes de données Partitionnement à base du Lemme de régularité ( Gastineau et Kheddouci 2014) Graphes résumé Densité Autres propriétés 2 1 3? Approximer : - La recherche de motifs - Construction de communautés -. Graphes de données

Partitionnement de graphes de données Quelques paramètres de graphes liés au partitionnement Ensemble d arêtes Séparateur : E s (sous-ensemble de E) sépare G si en retirant E s de E donne 2 composantes connexes de tailles égales, N: N 1 and N 2 Ensemble de sommets Séparateur : N s (sous-ensemble de N) sépare G si en retirant N s et toutes leurs arêtes incidentes donne 2 composantes connexes de tailles égales, N: N 1 and N 2 G = (N, E), sommets N et arêtes E N s = sommets verts

Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Visualisation des données Visualisation de graphes

Analyse de graphes de données en flux Flux de données : Un flux de données est une séquence de données : a 1, a 2,, a n. Flux de prix Flux de paquets IP Les données ont différentes formes dans différentes applications. Valeur scalaire Tuple La sémantique des données est également différente dans différentes applications.

Analyse de graphes en flux Modèle de traitement de flux : Accès séquentiel au flux de données Ordre des données dans le flux n est pas contrôlé par l algorithme et peut être artificiel. Petit espace de travail comparé à la longueur du flux n : Polylog n n ε Petit nombre de passes sur le flux : Une passe Un nombre constant de passes Temps de traitement d une donnée est court 30

Analyse de graphes en flux Graphe en flux Buffer possible de taille Toute machine possède noeuds Graphe est ordonné : aléatoire Parcours en largeur d abord Parcours en profondeur d abord Partitionner 1 31

Analyse de graphes en flux Des travaux existent : Tester la connectivité, Tester la planarité, construction d arbre couvrant, Re-penser les problèmes de graphes classiques dans le modèle streaming, notamment pour l organisation des données : clustering, détection de propriétés structurelles, etc 32

Analyse de graphes en flux Heuristiques pour le partitionnement de graphes en flux : Linear Deterministic Greedy LDG (Stanton and Kliot 2012) FENNEL (Tsourakakis et al. 2013) Restreaming graph partitioning (Nishimura et al. 2013) 33

Nouvelle Méthode : Partial Restreaming Model Modèle du Restreaming partiel (Echbarthi et Kheddouci 2014) Ce modèle consiste en 2 phases : 1 ère phase: Restreaming d une portion du graphe, d une fenêtre de taille choisie. 2 ème phase: Le reste du graphe est traité en une seule passe du stream.

Méthode proposée: Restreaming partiel Dans le modèle du restreaming partiel, on sélectionne des portions du graphe de taille n/k* qui vérifient des propriétés pertinentes dans le graphe : Densité de la portion >= psi* densité du graphe Degré moyen de la portion >= eta * degré moyen du graphe.

Verrous Big Data Solution à base de graphes Indexation et stockage Partitionnement de graphes Analyse de flux de données Analyse de flux de graphes Visualisation des données Visualisation de graphes

Visualisation des grands graphes

Visualisation de grands graphes Comment visualiser les grands graphes de données? Quels algorithmes et techniques pour explorer visuellement le grand graphe?

Visualisation de grands graphes Communautés/clustering/classification Recherche de motifs fréquents Visualisation d échantillons représentatifs, de sous-graphes, etc Visualisation 2D, 3D Combiner la fouille visuelle avec l exploration algorithmique des grands graphes.

Big Data et Graphes, Ce n est que le début de l histoire.!!