Scalable Distributed Reasoning using MapReduce

Dimension: px
Commencer à balayer dès la page:

Download "Scalable Distributed Reasoning using MapReduce"

Transcription

1 Scalable Distributed Reasoning using MapReduce Jacopo Urbani, Spyros Kotoulas, Eyal Oren, et Frank van Harmelen Department of Computer Science, Vrije Universiteit Amsterdam, the Netherlands International Semantic Web Conference, 2009 Présenté par Fabrizio Gotti Pour le cours Ift6281 Université de Montréal 22 mars 2011

2 Contexte l Les triplets RDF de grands dépôts se comptent par centaines de millions 110 M 175 M 446 M l Après inférences complètes par un raisonneur, ils se comptent par plusieurs dizaines de milliards 2

3 Un raisonneur RDF l Un raisonneur RDF applique les règles d inférence awin de calculer la fermeture d un graphe RDF Triplets antécédents Triplets inférés l Application répétée : algorithme de point Wixe 3

4 Proposition des auteurs l Les approches traditionnelles de raisonnement sont centralisées l Extensibilité limitée à l amélioration du matériel l But de l étude : implémenter un raisonneur RDF l Distribué sur une grappe de calcul l Extensible par ajout d ordinateurs l À l aide du framework MapReduce l Testé sur 865 M de RDF en entrée, 10 G en sortie 4

5 Le framework de calcul distribué MapReduce l Une opération Map associe à une entrée des paires <clé, valeur> l Les données sont partitionnées par clé et distribuées sur les nœuds de calcul l Une opération Reduce combine les valeurs partageant la même clé, et produit un résultat 5

6 Exemple : compter les ressources d un graphe RDF 6

7 Un raisonneur RDF avec MapReduce l Les règles avec un antécédent : trivial 4a : s p o s rdf:type rdfs:resource l Les règles avec deux antécédents : la clé de regroupement est la resource commune 9 : s rdf:type x & x rdfs:subclassof y s rdf:type y 7

8 Une première approche naïve de MapReduce l Application naïve des règles une après l autre l Mais une règle produit en sortie des triplets utilisés en entrée par d autres règles l Une seule passe ne sufwit pas : algo du point Wixe l Très inefmicace : duplicatas dans les triplets dérivés et itérations multiples coûteuses l Test sur les triplets de l ensemble de RDF «Falcon» l 35 M triplets 50 G triplets après 40 minutes (50 fois le nombre attendu) 8

9 Trois astuces pour un raisonnement efmicace avec MapReduce 1. Chargement en mémoire des triplets du schéma l Triplets rdfs: représentent < 0,5 % des données l Utilisés dans les règles à plus d un antécédent l Chargés en mémoire sur tous les nœuds plutôt que distribués par MapReduce 2. Conception des fonctions MapReduce pour l l Éviter les triplets dupliqués Favoriser une bonne répartition de la charge 9

10 Trois astuces pour un raisonnement efmicace avec MapReduce 3. Ordonner l application des règles d inférence Règle 12 Type ContainerMember Règle 13 Type Datatype Règle 9 Héritage de sous-classe Règle 11 Transitivité de sous-classe Règle 2 Domaine de propriété Règle 3 Portée de propriété Règle 7 Héritage des sous-prop. Règle 5 Transitivité des sous-prop. 10

11 Schéma d ensemble 11

12 Expériences de calcul de fermeture l Données issues du Billion Triple Challenge 2008 l Hadoop sur 64 ordinateurs avec 4 Go de RAM l Omission des règles avec un seul antécédent Données Nb RDF en entrée (M) Nb RDF en sortie (M) Ratio Sortie/ entrée t moyen (min) Wordnet Falcon Swoogle DBpedia Données du Challenge* *4,27 M triplets/s (record) 12

13 Répartition du temps de raisonnement l Répartition du temps de raisonnement (32 nœuds) Règle 9 s rdf:type x & x rdfs:subclassof y s rdf:type y 13

14 Extensibilité en fonction du nombre de nœuds l Exemple pour les données Falcon 1 nœud : 3120 s 16 nœuds : 320 s 32 nœuds : 229 s 64 nœuds : 216 s 14

15 Conclusions l Les auteurs ont atteint leur but : un raisonneur distribué, extensible aux performances inégalées l Cela requiert plusieurs astuces l Voies futures : un raisonneur OWL l l l Premières expériences décevantes dans cet article Réussite plus tard, par les mêmes auteurs OWL Reasoning with WebPIE: Calculating the Closure of 100 Billion Triples (European Semantic Web Symposium / Conference - ESWS, 2010) 15

16 Merci

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein Analyses croisées de sites Web pour détecter les sites de contrefaçon Prof. Dr. Olivier Biberstein Division of Computer Science 14 Novembre 2013 Plan 1. Présentation générale 2. Projet 3. Travaux futurs

Plus en détail

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014 Introduction aux algorithmes MapReduce Mathieu Dumoulin (GRAAL), 14 Février 2014 Plan Introduction de la problématique Tutoriel MapReduce Design d algorithmes MapReduce Tri, somme et calcul de moyenne

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

Évaluation d une architecture de stockage RDF distribuée

Évaluation d une architecture de stockage RDF distribuée Évaluation d une architecture de stockage RDF distribuée Maeva Antoine 1, Françoise Baude 1, Fabrice Huet 1 1 INRIA MÉDITERRANÉE (ÉQUIPE OASIS), UNIVERSITÉ NICE SOPHIA-ANTIPOLIS, I3S CNRS prénom.nom@inria.fr

Plus en détail

Big Graph Data Forum Teratec 2013

Big Graph Data Forum Teratec 2013 Big Graph Data Forum Teratec 2013 MFG Labs 35 rue de Châteaudun 75009 Paris, France www.mfglabs.com twitter: @mfg_labs Julien Laugel MFG Labs julien.laugel@mfglabs.com @roolio SOMMAIRE MFG Labs Contexte

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES 1e partie : encoder et structurer les données Gautier Poupeau Antidot http://www.lespetitescases.net Twitter @lespetitescases Emmanuelle Bermès

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce

Plus en détail

Vues d ensembles de documents RDF

Vues d ensembles de documents RDF Vues d ensembles de documents RDF Thomas Raimbault * Pierre Maillot *,** * ESILV, Pôle Universitaire Léonard De Vinci 92 916 Paris La Défense Cedex {thomas.raimbault,pierre.maillot@devinci.fr ** LERIA,

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton Linked Open Data Le Web de données Réseau, usages, perspectives Sommaire Histoire du Linked Open Data Structure et évolution du réseau Utilisations du Linked Open Data Présence sur le réseau LOD Futurs

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

http://blog.khaledtannir.net

http://blog.khaledtannir.net Algorithme de parallélisations des traitements Khaled TANNIR Doctorant CIFRE LARIS/ESTI http://blog.khaledtannir.net these@khaledtannir.net 2e SéRI 2010-2011 Jeudi 17 mars 2011 Présentation Doctorant CIFRE

Plus en détail

Knowledge Enabled Real-Time Recommendation System

Knowledge Enabled Real-Time Recommendation System Knowledge Enabled Real-Time Recommendation System Syed Gillani, Jules Chevalier syed.gillani@univ-st-etienne.fr jules.chevalier@univ-st-etienne.fr Institut Henri Fayol, École des Mines de Saint-Étienne

Plus en détail

JDev Atelier Datalift

JDev Atelier Datalift JDev Atelier Datalift RDF, Linked (Open) Data & Datalift Your business JDev technologists. - 6 septembre Powering 2013 progress Le Linked Data Publier des données structurées sur le Web en les reliant

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot Our experience in using Apache Giraph for computing the diameter of large graphs Paul Bertot - Flavian Jacquot Plan 1. 2. 3. 4. 5. 6. Contexte Hadoop Giraph L étude Partitionnement ifub 2 1. Contexte -

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

Fouille de données massives avec Hadoop

Fouille de données massives avec Hadoop Fouille de données massives avec Hadoop Sebastiao Correia scorreia@talend.com Talend 2013 AAFD'14 29-30 avril 2014 1 Agenda Présentation de Talend Définition du Big Data Le framework Hadoop 3 thématiques

Plus en détail

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Soutenance de projet ASR 27/01/2011 Julien Gerlier Siman Chen Encadrés par Bruno

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Création intuitive des éléments d un paysage

Création intuitive des éléments d un paysage Création intuitive des éléments d un paysage Marie-Paule Cani Univ. Grenoble-Alpes, CNRS & Inria Organisation du cours «Façonner l imaginaire» Partie 1 : Création numérique 3D Modélisation géométrique

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Protection de la vie privée basée sur des ontologies dans un système Android

Protection de la vie privée basée sur des ontologies dans un système Android Protection de la vie privée basée sur des ontologies dans un système Android Johann Vincent, Tom Dubin, Christine Porquet To cite this version: Johann Vincent, Tom Dubin, Christine Porquet. Protection

Plus en détail

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon

Plus en détail

Web Sémantique. Examen

Web Sémantique. Examen Formations en Informatique de Lille 2012/2013 Web Sémantique mars 2013 Examen Durée 2h. Documents et dictionnaire électronique autorisés, appareils mobiles de communication interdits. Exercice 1 : Dans

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au

Plus en détail

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht. Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.fr 1 MVC et le web 27/05/14 2 L'évolution des systèmes informatiques

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

Cloud Computing. Introduction. ! Explosion du nombre et du volume de données

Cloud Computing. Introduction. ! Explosion du nombre et du volume de données Cloud Computing Frédéric Desprez LIP ENS Lyon/INRIA Grenoble Rhône-Alpes EPI GRAAL 25/03/2010! Introduction La transparence d utilisation des grandes plates-formes distribuées est primordiale Il est moins

Plus en détail

Données Réparties. Thibault BERNARD. thibault.bernard@univ-reims.fr

Données Réparties. Thibault BERNARD. thibault.bernard@univ-reims.fr Données Réparties Thibault BERNARD thibault.bernard@univ-reims.fr Sommaire Introduction Gestion de la concurrence Reprise après panne Gestion des données dupliquées Sommaire Introduction Gestion de la

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions? Introduction Quelles sont les défis actuels

Plus en détail

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet 1 SOMMAIRE Le calcul scientifique au CNES Le BigData au CNES, le cas Gaïa HPC et BigData

Plus en détail

Change the game with smart innovation

Change the game with smart innovation Change the game with smart innovation Master Thesis 2013 2014 Faculty of Science engineering 12/08/2012 Master Thesis proposal for the academic year 2013. TABLE OF CONTENTS Section Un Introduction... 3

Plus en détail

Hadoop, les clés du succès

Hadoop, les clés du succès Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur www.matthieuamiguet.

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur www.matthieuamiguet. : Espoirs et menaces Matthieu Amiguet 2005 2006 Objectifs 2 Obtenir une compréhension de base des principes régissant le calcul quantique et la cryptographie quantique Comprendre les implications sur la

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives Hadoop, Spark & Big Data 2.0 Exploiter une grappe de calcul pour des problème des données massives Qui suis-je? Félix-Antoine Fortin Génie info. (B. Ing, M. Sc, ~PhD) Passionné de Python, Data Analytics,

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Utilisation des tableaux sémantiques dans les logiques de description

Utilisation des tableaux sémantiques dans les logiques de description Utilisation des tableaux sémantiques dans les logiques de description IFT6281 Web Sémantique Jacques Bergeron Département d informatique et de recherche opérationnelle Université de Montréal bergerja@iro.umontreal.ca

Plus en détail

4 Exemples de problèmes MapReduce incrémentaux

4 Exemples de problèmes MapReduce incrémentaux 4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

Les tendances de la dématérialisation et les besoins des Entreprises

Les tendances de la dématérialisation et les besoins des Entreprises Les tendances de la dématérialisation et les besoins des Entreprises N. Naffah, Directeur Général Prologue De plus en plus, nous constatons l étendue de l usage du numérique dans la vie quotidienne du

Plus en détail

Certificat Big Data - Master MAthématiques

Certificat Big Data - Master MAthématiques 1 / 1 Certificat Big Data - Master MAthématiques Master 2 Auteur : Sylvain Lamprier UPMC Fouille de données et Medias Sociaux 2 / 1 Rich and big data: Millions d utilisateurs Millions de contenus Multimedia

Plus en détail

Francis BISSON (06 794 819) Kenny CÔTÉ (06 836 427) Pierre-Luc ROGER (06 801 883) IFT702 Planification en intelligence artificielle

Francis BISSON (06 794 819) Kenny CÔTÉ (06 836 427) Pierre-Luc ROGER (06 801 883) IFT702 Planification en intelligence artificielle Francis BISSON (06 794 819) Kenny CÔTÉ (06 836 427) Pierre-Luc ROGER (06 801 883) PLANIFICATION DE TÂCHES DANS MS PROJECT IFT702 Planification en intelligence artificielle Présenté à M. Froduald KABANZA

Plus en détail

Big Data, un nouveau paradigme et de nouveaux challenges

Big Data, un nouveau paradigme et de nouveaux challenges Big Data, un nouveau paradigme et de nouveaux challenges Sebastiao Correia 21 Novembre 2014 Séminaire Thématique : Traitement et analyse statistique des données massives, Poitiers. 1 Présentation Sebastiao

Plus en détail

Les bases de données relationnelles

Les bases de données relationnelles Bases de données NO SQL et SIG : d un existant restreint à un avenir prometteur CHRISTIAN CAROLIN, AXES CONSEIL CAROLIN@AXES.FR - HTTP://WWW.AXES.FR Les bases de données relationnelles constituent désormais

Plus en détail

ITIL FOUNDATION. 2 jours. Programme

ITIL FOUNDATION. 2 jours. Programme ITIL FOUNDATION Programme Objectif : Ce cours est une introduction aux notions d ITIL pour les stagiaires impliqués dans la gestion d une Infrastructure technique, qui veulent se familiariser avec les

Plus en détail

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Chapitre VI- La validation de la composition.

Chapitre VI- La validation de la composition. Chapitre VI- La validation de la composition. Objectifs du chapitre : Expliquer les conséquences de l utilisation de règles de typage souples dans SEP. Présenter le mécanisme de validation des connexions

Plus en détail

Document réalisé par Khadidjatou BAMBA

Document réalisé par Khadidjatou BAMBA Comprendre le BIG DATA Document réalisé par Khadidjatou BAMBA 1 Sommaire Avant propos. 3 Historique du Big Data.4 Introduction.....5 Chapitre I : Présentation du Big Data... 6 I. Généralités sur le Big

Plus en détail

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Julien Gerlier Siman Chen Rapport de projet de fin d étude ASR 2010/2011 Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Encadrants

Plus en détail

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012 Business Intelligence, Etat de l art et perspectives ICAM JP Gouigoux 10/2012 CONTEXTE DE LA BI Un peu d histoire Premières bases de données utilisées comme simple système de persistance du contenu des

Plus en détail

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications Plan Le Big Data Mining enjeux et approches techniques Bernard Dousset Professeur des universités Institut de Recherche en Informatique de Toulouse UMR 5505 Université de Toulouse 118, Route de Narbonne,

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

Lʼavenir des grilles Des grilles aux Clouds avec quelques «petits problèmes» de recherche. F. Desprez INRIA

Lʼavenir des grilles Des grilles aux Clouds avec quelques «petits problèmes» de recherche. F. Desprez INRIA Lʼavenir des grilles Des grilles aux Clouds avec quelques «petits problèmes» de recherche F. Desprez INRIA Introduction Les grilles font-elles déjà parties du passé? Des plates-formes de recherche et de

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

Intégration des connaissances en neurosciences dans un environnement multi-centrique

Intégration des connaissances en neurosciences dans un environnement multi-centrique Intégration des connaissances en neurosciences dans un environnement multi-centrique Alban Gaignard, Johan Montagnat I3S, UMR 6070 CNRS, Université de Nice Sophia Antipolis alban.gaignard@i3s.unice.fr

Plus en détail

GRIDKIT: Pluggable Overlay Networks for Grid Computing

GRIDKIT: Pluggable Overlay Networks for Grid Computing GRIDKIT: Pluggable Overlay Networks for Grid Computing Paul Grace, Geoff Coulson, Gordon Blair, Laurent Mathy, Wai Kit Yeung, Wei Cai, David Duce, Chris Cooper Computing Department, Lascaster University

Plus en détail

Notes de cours Practical BigData

Notes de cours Practical BigData Notes de cours Practical BigData Nguyen-Nhut DOAN 15 janvier 2015 Introduction Ces notes personnelles traduisent la deuxième partie du cours INF553 de l Ecole Polytechnique sur les bases de données et

Plus en détail

Systèmes et algorithmes répartis

Systèmes et algorithmes répartis Systèmes et algorithmes répartis Données réparties Philippe Quéinnec, Gérard Padiou Département Informatique et Mathématiques Appliquées ENSEEIHT 12 novembre 2014 Systèmes et algorithmes répartis VI 1

Plus en détail

Importation et exportation de données dans HDFS

Importation et exportation de données dans HDFS 1 Importation et exportation de données dans HDFS Introduction Dans une installation type, Hadoop se trouve au cœur d un flux de données complexe. Ces données proviennent souvent de systèmes disparates

Plus en détail

1ère partie Nadine Cullot. Bases de données déductives. Bases de données déductives Introduction et Motivation

1ère partie Nadine Cullot. Bases de données déductives. Bases de données déductives Introduction et Motivation Master STIC «Image Informatique et Ingénierie» Module Informatique Modèles de représentation - 10h CM Nadine Cullot Kokou Yétongnon nadine.cullot@u-bourgogne.fr kokou.yetongnon@u-bourgogne.fr 1ère partie

Plus en détail

Ecole Nationale Supérieure de Mécanique et d Aérotechnique Laboratoire d Informatique et d Automatique pour les Systèmes THESE

Ecole Nationale Supérieure de Mécanique et d Aérotechnique Laboratoire d Informatique et d Automatique pour les Systèmes THESE Ecole Nationale Supérieure de Mécanique et d Aérotechnique Laboratoire d Informatique et d Automatique pour les Systèmes THESE pour l obtention du Grade de DOCTEUR DE L'ÉCOLE NATIONALE SUPÉRIEURE DE MÉCANIQUE

Plus en détail

Catalogue des formations Edition 2015

Catalogue des formations Edition 2015 Antidot - Formations Catalogue des formations Edition 2015 : catalogue_formation_2015 Révision du 06.01.2015 Sommaire!!"##$%&'( )! $*$+,(-'(."##'+.'&( /!,'.0+"1"2%'( /!!."3'( /! $(3&"3"!(-4(5(.$,$1"24'(-'!(6"&#$,%"+!(7('-%,%"+()89:(;(

Plus en détail

RDF Schema pour les ontologies légères

RDF Schema pour les ontologies légères RDF Schema pour les ontologies légères S 1 1 Bruit Précision Agences I RAM La Galère 148, rue Victor Hugo 76600 Le Havre L Agence de la Presse et des Livres 38, rue Saint Dizier BP 445 54001 Nancy Cédex

Plus en détail

Raisonnement distribué dans un environnement de type Pair-à-Pair

Raisonnement distribué dans un environnement de type Pair-à-Pair Actes JNPC 04 Raisonnement distribué dans un environnement de type Pair-à-Pair P. Adjiman P. Chatalic F. Goasdoué M.-C. Rousset L. Simon adjiman,chatalic,fg,mcr,simon @lri.fr Résumé Dans un système d inférence

Plus en détail

Cours de Master Recherche

Cours de Master Recherche Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction

Plus en détail

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Chapitre VIII. Les bases de données. Orientées Objet. Motivation Chapitre VIII Motivation Le modèle relationnel connaît un très grand succès et s avère très adéquat pour les applications traditionnelles des bases de données (gestion) Les bases de données Orientées Objet

Plus en détail

WHITE PAPER. Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis

WHITE PAPER. Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis Copyright Acronis, Inc. 2000 2009 Table des matières Résumé... 3 Qu est-ce que la déduplication?... 4 Déduplication au

Plus en détail

Jean-Daniel Cryans jdcryans@apache.org Twitter: @jdcryans. École de technologie supérieure, Montréal septembre 2009

Jean-Daniel Cryans jdcryans@apache.org Twitter: @jdcryans. École de technologie supérieure, Montréal septembre 2009 Jean-Daniel Cryans jdcryans@apache.org Twitter: @jdcryans École de technologie supérieure, Montréal septembre 2009 1. Introduction 2. Le Cloud Computing selon la littérature 3. Les produits 4. Études de

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

MÉMOIRE DE STAGE DE MASTER 2. Une application Smartphone pour un système de recommandations alimentaires personnalisées

MÉMOIRE DE STAGE DE MASTER 2. Une application Smartphone pour un système de recommandations alimentaires personnalisées Académie de Montpellier Université Montpellier II Sciences et Techniques du Languedoc MÉMOIRE DE STAGE DE MASTER 2 effectué au laboratoire Agrotechnology & Food Science Group, Wageningen University & Research

Plus en détail

Patrons de Conception (Design Patterns)

Patrons de Conception (Design Patterns) Patrons de Conception (Design Patterns) Introduction 1 Motivation Il est difficile de développer des logiciels efficaces, robustes, extensibles et réutilisables Il est essentiel de comprendre les techniques

Plus en détail

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité Les capitalistes sociaux sur Twitter : détection via des mesures de similarité Nicolas Dugué, Anthony Perez LIFO - Université d Orléans rue Léonard de Vinci B.P. 6759 F-45067 ORLEANS Cedex 2 FRANCE RÉSUMÉ.

Plus en détail

Equilibrage de charge (Load

Equilibrage de charge (Load Equilibrage de charge (Load balancing) dans les MPSoCs Présenté Le : 02 Décembre 2013 Par : A. AROUI Encadreur : A.E. BENYAMINA 01/12/2013 1 Problématique Comportement dynamique des applications et la

Plus en détail

Découverte et analyse de dépendances dans des réseaux d entreprise

Découverte et analyse de dépendances dans des réseaux d entreprise Découverte et analyse de dépendances dans des réseaux d entreprise Samer MERHI Sous la direction de: Olivier FESTOR LORIA - Equipe MADYNES - Université Henri Poincaré June 24, 2008 1 / 24 Plan 1 Introduction

Plus en détail

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr 6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr Interface d un SGF Implémentation d un SGF Gestion de la correspondance entre la structure logique et la structure

Plus en détail

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ Laboratoire LaTICE Univ. de Tunis INRIA LYON Avalon Team Laboratoire d Informatique de Paris Nord (LIPN) BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ Heithem Abbes Heithem Abbes Rencontres

Plus en détail

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie 1 Présenté par: Yacine KESSACI Encadrement : N. MELAB E-G. TALBI 31/05/2011 Plan 2 Motivation

Plus en détail

Une architecture pour la découverte et l orchestration de services Web sémantiques

Une architecture pour la découverte et l orchestration de services Web sémantiques Une architecture pour la découverte et l orchestration de services Web sémantiques Une utilisation des ontologies en milieu industriel Pierre Châtel Thales Communications France, Laboratoire d Informatique

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

Scrum + Drupal = Julien Dubois

Scrum + Drupal = Julien Dubois Pourquoi j aime Scrum Pourquoi Scrum et Drupal sont faits pour s entendre Scrum + Drupal = Julien Dubois Happyculture.coop De quoi allons-nous parler? 1. Que sont les méthodes agiles? 2. Présentation de

Plus en détail

MEMOIRE DE STAGE. Amélioration de l'outillage support à une méthodologie de "Cartographie Sémantique"

MEMOIRE DE STAGE. Amélioration de l'outillage support à une méthodologie de Cartographie Sémantique PCO Innovation Parc technologique - Bat B3 12 allée Joliot Curie 69800 Saint Priest MEMOIRE DE STAGE Amélioration de l'outillage support à une méthodologie de "Cartographie Sémantique" Mission effectuée

Plus en détail