Scalable Distributed Reasoning using MapReduce



Documents pareils
Programmation parallèle et distribuée

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Bases de données documentaires et distribuées Cours NFE04

Programmation parallèle et distribuée

Évaluation d une architecture de stockage RDF distribuée

Big Graph Data Forum Teratec 2013

Fouillez facilement dans votre système Big Data. Olivier TAVARD

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

Ricco Rakotomalala R.R. Université Lyon 2

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Vues d ensembles de documents RDF

Cartographie des solutions BigData

Labs Hadoop Février 2013

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Big Data et Graphes : Quelques pistes de recherche


Knowledge Enabled Real-Time Recommendation System

JDev Atelier Datalift

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Fouille de données massives avec Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Panorama des solutions analytiques existantes

Création intuitive des éléments d un paysage

Programmation parallèle et distribuée (Master 1 Info )

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Big Data et Graphes : Quelques pistes de recherche

Protection de la vie privée basée sur des ontologies dans un système Android

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Web Sémantique. Examen

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

BIG Data et R: opportunités et perspectives

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Cloud Computing. Introduction. ! Explosion du nombre et du volume de données

Données Réparties. Thibault BERNARD.

HADOOP ET SON ÉCOSYSTÈME

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Change the game with smart innovation

Hadoop, les clés du succès

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur

Les technologies du Big Data

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Introduction à MapReduce/Hadoop et Spark

Utilisation des tableaux sémantiques dans les logiques de description

4 Exemples de problèmes MapReduce incrémentaux

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Les tendances de la dématérialisation et les besoins des Entreprises

Certificat Big Data - Master MAthématiques

Francis BISSON ( ) Kenny CÔTÉ ( ) Pierre-Luc ROGER ( ) IFT702 Planification en intelligence artificielle

Big Data, un nouveau paradigme et de nouveaux challenges

Les bases de données relationnelles

ITIL FOUNDATION. 2 jours. Programme

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Chapitre VI- La validation de la composition.

Document réalisé par Khadidjatou BAMBA

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Lʼavenir des grilles Des grilles aux Clouds avec quelques «petits problèmes» de recherche. F. Desprez INRIA

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Intégration des connaissances en neurosciences dans un environnement multi-centrique

GRIDKIT: Pluggable Overlay Networks for Grid Computing

Notes de cours Practical BigData

Systèmes et algorithmes répartis

Importation et exportation de données dans HDFS

1ère partie Nadine Cullot. Bases de données déductives. Bases de données déductives Introduction et Motivation

Ecole Nationale Supérieure de Mécanique et d Aérotechnique Laboratoire d Informatique et d Automatique pour les Systèmes THESE

Catalogue des formations Edition 2015

RDF Schema pour les ontologies légères

Raisonnement distribué dans un environnement de type Pair-à-Pair

Cours de Master Recherche

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

WHITE PAPER. Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis

Jean-Daniel Cryans École de technologie supérieure, Montréal septembre 2009

Big Data Concepts et mise en oeuvre de Hadoop

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

MÉMOIRE DE STAGE DE MASTER 2. Une application Smartphone pour un système de recommandations alimentaires personnalisées

Patrons de Conception (Design Patterns)

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité

Equilibrage de charge (Load

Découverte et analyse de dépendances dans des réseaux d entreprise

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Une architecture pour la découverte et l orchestration de services Web sémantiques

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Scrum + Drupal = Julien Dubois

MEMOIRE DE STAGE. Amélioration de l'outillage support à une méthodologie de "Cartographie Sémantique"

Transcription:

Scalable Distributed Reasoning using MapReduce Jacopo Urbani, Spyros Kotoulas, Eyal Oren, et Frank van Harmelen Department of Computer Science, Vrije Universiteit Amsterdam, the Netherlands International Semantic Web Conference, 2009 Présenté par Fabrizio Gotti Pour le cours Ift6281 Université de Montréal 22 mars 2011

Contexte l Les triplets RDF de grands dépôts se comptent par centaines de millions 110 M 175 M 446 M l Après inférences complètes par un raisonneur, ils se comptent par plusieurs dizaines de milliards 2

Un raisonneur RDF l Un raisonneur RDF applique les règles d inférence awin de calculer la fermeture d un graphe RDF Triplets antécédents Triplets inférés l Application répétée : algorithme de point Wixe 3

Proposition des auteurs l Les approches traditionnelles de raisonnement sont centralisées l Extensibilité limitée à l amélioration du matériel l But de l étude : implémenter un raisonneur RDF l Distribué sur une grappe de calcul l Extensible par ajout d ordinateurs l À l aide du framework MapReduce l Testé sur 865 M de RDF en entrée, 10 G en sortie 4

Le framework de calcul distribué MapReduce l Une opération Map associe à une entrée des paires <clé, valeur> l Les données sont partitionnées par clé et distribuées sur les nœuds de calcul l Une opération Reduce combine les valeurs partageant la même clé, et produit un résultat 5

Exemple : compter les ressources d un graphe RDF 6

Un raisonneur RDF avec MapReduce l Les règles avec un antécédent : trivial 4a : s p o s rdf:type rdfs:resource l Les règles avec deux antécédents : la clé de regroupement est la resource commune 9 : s rdf:type x & x rdfs:subclassof y s rdf:type y 7

Une première approche naïve de MapReduce l Application naïve des règles une après l autre l Mais une règle produit en sortie des triplets utilisés en entrée par d autres règles l Une seule passe ne sufwit pas : algo du point Wixe l Très inefmicace : duplicatas dans les triplets dérivés et itérations multiples coûteuses l Test sur les triplets de l ensemble de RDF «Falcon» l 35 M triplets 50 G triplets après 40 minutes (50 fois le nombre attendu) 8

Trois astuces pour un raisonnement efmicace avec MapReduce 1. Chargement en mémoire des triplets du schéma l Triplets rdfs: représentent < 0,5 % des données l Utilisés dans les règles à plus d un antécédent l Chargés en mémoire sur tous les nœuds plutôt que distribués par MapReduce 2. Conception des fonctions MapReduce pour l l Éviter les triplets dupliqués Favoriser une bonne répartition de la charge 9

Trois astuces pour un raisonnement efmicace avec MapReduce 3. Ordonner l application des règles d inférence Règle 12 Type ContainerMember Règle 13 Type Datatype Règle 9 Héritage de sous-classe Règle 11 Transitivité de sous-classe Règle 2 Domaine de propriété Règle 3 Portée de propriété Règle 7 Héritage des sous-prop. Règle 5 Transitivité des sous-prop. 10

Schéma d ensemble 11

Expériences de calcul de fermeture l Données issues du Billion Triple Challenge 2008 l Hadoop sur 64 ordinateurs avec 4 Go de RAM l Omission des règles avec un seul antécédent Données Nb RDF en entrée (M) Nb RDF en sortie (M) Ratio Sortie/ entrée t moyen (min) Wordnet 2 5 3 3 Falcon 33 864 26 4 Swoogle 79 1500 19 7 DBpedia 150 172 1 5 Données du Challenge* 865 30 000 35 57 *4,27 M triplets/s (record) 12

Répartition du temps de raisonnement l Répartition du temps de raisonnement (32 nœuds) Règle 9 s rdf:type x & x rdfs:subclassof y s rdf:type y 13

Extensibilité en fonction du nombre de nœuds l Exemple pour les données Falcon 1 nœud : 3120 s 16 nœuds : 320 s 32 nœuds : 229 s 64 nœuds : 216 s 14

Conclusions l Les auteurs ont atteint leur but : un raisonneur distribué, extensible aux performances inégalées l Cela requiert plusieurs astuces l Voies futures : un raisonneur OWL l l l Premières expériences décevantes dans cet article Réussite plus tard, par les mêmes auteurs OWL Reasoning with WebPIE: Calculating the Closure of 100 Billion Triples (European Semantic Web Symposium / Conference - ESWS, 2010) 15

Merci