Gestion de gros volumes de données RDF

Documents pareils

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Hadoop, les clés du succès

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

BIG DATA en Sciences et Industries de l Environnement

Programmation parallèle et distribuée

Big Graph Data Forum Teratec 2013

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Anticiper et prédire les sinistres avec une approche Big Data

Labs Hadoop Février 2013

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Le BigData, aussi par et pour les PMEs

Big Data Concepts et mise en oeuvre de Hadoop

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Programmation parallèle et distribuée

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Panorama des solutions analytiques existantes

Bases de données documentaires et distribuées Cours NFE04

Offre formation Big Data Analytics

Introduction à MapReduce/Hadoop et Spark

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

BIG Data et R: opportunités et perspectives

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

HADOOP ET SON ÉCOSYSTÈME

Big Data et Graphes : Quelques pistes de recherche

Cartographie des solutions BigData

Évaluation d une architecture de stockage RDF distribuée

Application de K-means à la définition du nombre de VM optimal dans un cloud

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

LES ENJEUX DU BIG DATA

Les journées SQL Server 2013

Change the game with smart innovation

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Datalift. + + Architecture Modularité Déploiements. d j = 09/04/2015 Laurent BIHANIC

Les technologies du Big Data

Ricco Rakotomalala R.R. Université Lyon 2

Le Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Ne cherchez plus, soyez informés! Robert van Kommer

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big Data et Graphes : Quelques pistes de recherche

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Les quatre piliers d une solution de gestion des Big Data

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

Les datas = le fuel du 21ième sicècle

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Programmation parallèle et distribuée (Master 1 Info )

Introduction au Massive Data

Entreprise et Big Data

JDev Atelier Datalift

ACCOMPAGNER L EXPLOSION DES VOLUMES DE DONNEES : LES NOUVEAUX ENJEUX DU STOCKAGE

Fouille de données massives avec Hadoop

De à 4 millions. Khanh Tuong

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

SparkInData. Place de Marché des applications Spatiales

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Big Data On Line Analytics

Les bases de données relationnelles

Safe Harbor Statement

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Introduction Big Data

Notes de cours Practical BigData

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

Certificat Big Data - Master MAthématiques

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Gestion de données incertaines et de leur provenance

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

Bases de Données NoSQL

QLIKVIEW ET LE BIG DATA

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Comment valoriser votre patrimoine de données?

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Augmenter la disponibilité des applications JEE grâce au clustering : Le projet open source JShaft

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Tables Rondes Le «Big Data»

Présentation de la majeure ISN. ESILV - 18 avril 2013

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Cassandra et Spark pour gérer la musique On-line

La rencontre du Big Data et du Cloud

Transcription:

LIPADE Université Paris Descartes June 23, 2014

Sommaire 1 2 3 4

Contexte 1 Augmentation considérable des données du Web, RDF 2 Données provenant de multiple sources autonomes, donc 3 Hétérogènes : sémantique différentes des termes, métadonnées et descriptions 4 Inconsistantes : violation de règles d intégrité 5 Incertaines : faits et règles parfois incertains

Objectif 1 Collecte des informations pertinentes, cohérentes et complètes. 2 Développer des techniques et approches efficaces et adaptées au Big Data : Récupérer une information cohérente par agrégation et réconciliation de données provenant de sources différentes. en présence de données hétérogènes, inconsistance et incertaines.

Considérons les deux sources RDF suivantes : Figure : Source 1 Figure : Source 2 Règles d integrité : Résultat : bornon(john, 1998), bornon(john, 2001)?!

L évaluation de requêtes doit opérer sur : 1 Données implicites : Inclure les faits implicites en résultat. : John vit-il en France? Inférence à base règles comme : lives(p, F ) lives(p, V ) isin(v, F ) 2 Inconsistance dans les données : ne pas inclure des faits inconsistants dans un même résultat. : quelle est la date de naissance de Jonh? bornon(john, 1998), bornon(john, 2001). en présence de la règle de cohérence : bornon(p, d1) bornon(p, d2) d1 = d2

Stockage centralisé En RDBMs(Big triple tables, Property tables, Partition verticale) RDF Store native(rdf-3x, Hexastore) Figure : Property tables Figure : Partition verticale

Stockage distribué RDF textefiles in Hadoop HDFS RDF in Hbase

Interrogation de gros volumes de RDF Hadoop Hadoop est un framework open source basé sur Java qui permet le stockage et le traitement de gros volume de données Map-reduce Map-reduce est un modèle de programmation massivement parallèle adapté au traitement de très grandes quantités de données.

Interrogation de gros volumes de RDF MapReduce framework Une interrogation SPARQL est exécutée dans une série de MapReduce Jobs itératives pour effectuer les jointures entre les patterns. Algorithme pour déterminer le nombre de Jobs nécessaires pour répondre à une requête SPARQL. Articles pour ce problème 1 Storage and Retrieval of large RDF graphe using hadoop and MapReduce. Husain and all, in LNCS, CloudCom 2009. 2 Scalable RDF Store Based on Hbase and MapReduce. Sun and all, in ICACTE 2010. 3 Scalable Sparql querying of large RDF graphes. Huang and all, in VLDB 2011. 4 Heuristic-based query processing for large RDF graphs using cloud computing. Husain and all, in TKDE 2011.

Interrogation de gros volumes de RDF d exécution

Interrogation de gros volumes de RDF Optimisation Partition de données Plan d exécution

Deux modes d inférence 1 Inférence en chaîne avant [WebPIE 2011] Consiste à appliquer toutes les règles sur l ensemble des triplets RDF jusqu à ce que aucun nouveau triplet ne peut être dérivé. 2 Inférence en chaîne arrière [QueryPIE 2011] Les règles applicables sont déterminées à l évaluation des requêtes par le mécanisme de réécriture de requêtes.

Inférence en chaînage avant Application en MapReduce de la règle suivante :

Inférence arrière de and-or reasoning tree

Contexte 1 Techniques automatiques d extraction de bases de connaissances en RDF. 2 Incertitude liées à la complexité du monde réel. Figure : d un graphe RDF incertain

: quelques travaux existants 1 Evaluation de requête Query evaluation on probabilistic RDF Databases. Hai HUANG and all, in WISE 2009. 2 Inférence basée sur des règles Query-time Reasoning in Uncertain RDF Knowledge Bases with Soft and Hard Rules. Nakashole and all, in VLDS 2012.

1 Les techniques existantes sont limitées face aux importants volumes de données hétérogènes, inconsistantes et incertaines. 2 Ma thèse consiste à proposer des techniques efficaces pour la gestion de gros volumes de données RDF.

Merci de votre attention!