4 Exemples de problèmes MapReduce incrémentaux
|
|
- Alexis Marin
- il y a 8 ans
- Total affichages :
Transcription
1 4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank Regression Logistique
2 Calcul des plus courtes distances à un noeud d un graphe 2 / 32 Quelles Entrées? Quelles Transformations Map? Quelles Clés de Regroupement? Quelles opérations de réduction?
3 Calcul des plus courtes distances à un noeud d un graphe 3 / 32 Données : Structure de Noeud n: n.id: identifiant du noeud n n.adjacencylist: Liste d adjacence S(n) du noeud n n.dist: Distance du noeud n au noeud de départ start (initialisée à pour tous les noeuds sauf start) Formulation (BFS): start.dist = 0 Pour tout noeud n atteignable par un ensemble de noeuds M, n.dist = 1 + min m M m.dist
4 Calcul des plus courtes distances à un noeud d un graphe 4 / 32 Breadth First Search: Job MapReduce Map( n ) { Emettre ( n. id, n ) ; Si ( n.dist < ) : Pour t o u t id n.adjacencylist : dist n.dist +1 Emettre ( id,node ( id,m.dist, ) ) ; Reduce ( nid, nodes ) { min ; nmin ; adj ; Pour t o u t n nodes : Si ( n.adjacencylist ) : adj n.adjacencylist Si ( ( nmin == ) ou ( n.dist < min ) ) : min n.dist ; nmin n nmin.adjacencylist adj ; Emettre ( nmin ) ;
5 Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe 5 / 32 Quelles Entrées? Quelles Transformations Map? Quelles Clés de Regroupement? Quelles opérations de réduction?
6 Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe 6 / 32 Données : Chemins C entre paire de noeuds: C.start: noeud de depart C.end: noeud de fin C.dist: distance (nbre de liens à suivre pour atteindre C.end à partir de C.start C.shortests: Ensemble de chemins de C.start à C.end de distance C.dist Formulation : Pour tout couple de noeuds u,v tel qu il existe un lien entre u et v, la distance minimale D(u,v) est : D(u,v) = 1 Pour tout couple de noeuds u,v non directement lié : D(u,v) = min(d(u,m) +D(m,v)) m
7 Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe 7 / 32 Calcul des plus courts chemins: Job MapReduce Map( p ) { Emettre ( p. s t a r t, p ) ; Si ( p. new ) : Emettre ( p. end, p ) ; Reduce ( node, ListPaths ) { P ;Ends ;Starts Pour t o u t p ListPaths : p.new False ; Si ( p. s t a r t ==node ) : Ends = Ends p ; Sinon : Starts = Starts p ; Pour t o u t ep Ends : P[ep.start,ep.end] = ep ; Pour t o u t sp Starts : Si ( sp. s t a r t ==ep. s t a r t ) : continue ; d sp.dist +ep.dist ; p P[sp.start,ep.end] ; Si ( ( p== n u l l ) ou ( p. d i s t >=d ) ) : newp Fusion(sp,ep) ; Si ( p. d i s t ==d ) : p.shortests p.shortests newp.shortests ; Sinon : P[sp.start,ep.end] newp ; Pour t o u t p P : Emettre ( p ) ;
8 Algorithme PageRank 8 / 32 PageRank simule le comportement d un surfeur aléatoire: 1 au temps t, le sufeur est sur la page p t, 2 avec une probabilité d, il clique aléatoirement sur un lien de p t. p t+1 est alors la page pointée par ce lien. 3 avec une probabilité 1 d, p t+1 est une page Web choisie aléatoirement. 4 retour à l étape 1. Avec P i : l ensemble des pages pointant vers la page i l j : le nombre de liens sortant de la page j Probabilité µ t i que le surfeur soit sur la page i au temps t = µ t+1 = 1 d { 1 N 1+dAµt l avec A ij = j si j P i 0 sinon et N : #pages Web.
9 Algorithme PageRank 9 / 32 µ t+1 = 1 d { 1 N 1+dAµt l avec A ij = j si j P i 0 sinon et N : #pages Web. Quelles Entrées? Quelles Transformations Map? Quelles Clés de Regroupement? Quelles opérations de réduction?
10 Algorithme PageRank 10 / 32 Avec d=1 :
11 Algorithme PageRank 11 / 32 Avec d=1 :
12 Algorithme PageRank 12 / 32 Avec d=1 :
13 Algorithme PageRank 13 / 32 Données : Structure de Noeud n: n.id: identifiant du noeud n n.adjacencylist: Liste d adjacence S(n) du noeud n n.p: score PageRank à l iteration courante Formulation : Pour tout noeud n: n.p t 0 = 1 N Pour tout noeud n atteignable par un ensemble de noeuds M, n.p t+1 = 1 d N +d m.p t m.adjacencylist m M
14 Algorithme PageRank 14 / 32 PageRank: Job MapReduce Map( n ) { n.p np m.adjacencylist n.p 0 Emettre ( n. id, n ) ; Pour t o u t id n.adjacencylist : Emettre ( id,node ( id,,np ) ) ; Reduce ( nid, nodes ) { sum 0 ; adj ; Pour t o u t n nodes : Si ( n.adjacencylist ) : adj n.adjacencylist ; sum sum +n.p ; Emettre ( Node ( nid,adj, 1 d +d sum ) ) ; N
15 Regression Logistique 15 / 32 Hypothèse : Rapport de probas conditionnelles peut être modélisé par une application linéaire ln p(1 x) 1 p(1 x) = θ.x p(1 X) = eθ.x 1+e θ.x = 1 1+e θ.x Maximum de vraissemblance θ = argmax ni 1 y i ln( ) +(1 y 1+e θ θ.x i )ln(1 Gradient : n 1 i x i (y i 1+e θ.x ) 1 ) 1+e θ.x
16 Regression Logistique 16 / 32 Estimation du maximum de vraissemblance par montée de gradient : n θ t+1 = θ t 1 + α x i (y i 1 +e θ.x ) Quelles Entrées? Quelles Transformations Map? Quelles Clés de Regroupement? Quelles opérations de réduction? i
17 Regression Logistique 17 / 32 Données : Item = item.x : Vecteur de features de nbdims dimensions item.y : Score à prédire Entrées fixes, seul θ varie Formulation: θ t+1 = θ t + α n i x i (y i 1 ) 1+e θ.x
18 Regression Logistique 18 / 32 Montée de gradient: Job MapReduce Map( item ) { Pour i de 1 à nbdims : Emettre ( i,item.x i (item.y 1 1+e <θ,item.x> ) ) ; Reduce ( i, gradients ) { sumg 0 ; Pour t o u t g gradients : sumg sumg +g Emettre ( i,theta i + α sumg ) ;
19 Hadoop Map Reduce: Echaînement de Jobs 19 / 32 Resultats en tant que nouvelles entrées du MapReduce Ecriture/Lecture des resultats dans des SequenceFile Ecriture/Lecture des resultats dans des fichiers De préférence SequenceFile : job.setouputformat(sequencefileoutputformat.class) A l iteration suivante, lecture à partir d un SequenceFile : job.setinputformat(sequencefileinputformat.class) Resultats en tant que données en RAM Entrées fixes Entrées fixes Paramètres lus à partir de fichiers resultats
20 Hadoop Map Reduce vs Spark 20 / 32 Hadoop Map Reduce: Inconvénients Beaucoup de lectures/ecritures sur disque Pas de mise en mémoire vive Spark Mise en oeuvre d une mémoire partagée Simplification des process Jusqu à 10x fois plus rapide sur disque Jusqu à 100x fois plus rapide sur disque Code plus compact Mieux adapté pour l apprentissage statistique
21 Spark 21 / 32 Contexte Spark Définit les opérations Spark à effectuer sur les collections de données Spark: Initialisation import org. apache. spark. SparkConf ; import org. apache. spark. api. java. JavaSparkContext ; SparkConf sparkconf = new SparkConf ( ). setappname (name ) ; JavaSparkContext sc = new JavaSparkContext ( sparkconf ) ;
22 Spark Resilient Distributed Datasets (RDD) Collections d éléments manipulables en parallèle Deux manières de créer des RDDs: Parallelisation d une collection en mémoire Spark: Collection parallelisée 22 / 32 import org. apache. spark. api. java. JavaRDD ; List <Integer > data = Arrays. aslist (1, 2, 3, 4, 5 ) ; JavaRDD< Integer > d i s t D ata = sc. p a r a l l e l i z e ( data ) ; Référencement d un dataset sur un système de fichier distribué comme HDFS Spark: Initialisation import org. apache. spark. api. java. JavaRDD ; / / F i c h i e r ( s ) t e x t e à l i r e l i g n e par l i g n e JavaRDD< String > d i s t F i l e = sc. t e x t F i l e ( " data " ) ; / / F i c h i e r s t e x t e e n t i e r s JavaRDD< String > d i s t F i l e = sc. wholetextfiles ( " data " ) ; / / Fichier ( s ) SequenceFile avec K et V des types de données étendant Writable JavaRDD< String > d i s t F i l e = sc. sequencefile [ K, V ] ( " data " ) ; / / Autres types de f i c h i e r s avec Reader Hadoop JavaRDD< String > d i s t F i l e = sc. newhadooprdd ( " data " ) ;
23 Spark 23 / 32 Deux types d operations sur les RDD Transformations Création de nouveaux RDD par application d une transformation map, flatmap, filter, reducebykey, join, etc... "Lazy" operations => effectué uniquement lorsqu une action est requise sur le resultat de la transformation Moins de résultats à retourner Plannification des tâches facilitée Actions Opération produisant un résultat reduce, takesample, count(), etc... saveastextfile, saveassequencefile, etc...
24 Spark 24 / 32 Persistence des RDD Si besoin de réutiliser le résultat d une transformation plusieurs fois rdd.persist(storagelevel.level): stocke le RDD pour utilisation ultérieure Différents types de stockage: MEMORY_ONLY : Stocke les RDD en tant qu objets Java déserialisés en mémoire vive. Si une partie ne tient pas en mémoire, elle sera re-calculée lorsque l on en aura besoin MEMORY_AND_DISK : Stocke les RDD en tant qu objets Java déserialisés en mémoire vive, mais si une partie ne tient pas en mémoire, on l écrit sur disque DISK_ONLY : Stocke les RDD sur disque MEMORY_ONLY_SER et MEMORY_AND_DISK_SER : Identique à MEMORY_ONLY et MEMORY_AND_DISK mais stocke les objets après sérialisation. Plus léger en mémoire mais plus lent à reconstruire.
25 Spark 25 / 32
26 Spark 26 / 32 Fonctions Définition de fonction à passer aux opérations Function : 1 argument en entrée, chaque valeur du dataset (map) Function2 : 2 arguments en entrée, le resultat courant + la nouvelle valeur (reduction) FlatMapFunction : 1 argument en entrée, une liste de valeur en sortie (flatmap) Spark: Exemple JavaRDD< String > l i n e s = sc. t e x t F i l e ( " data. t x t " ) ; JavaRDD<Integer > linelengths = lines.map(new Function <String, Integer > ( ) { p u b l i c I n t e g e r c a l l ( S t r i n g s ) { r e t u r n s. length ( ) ; ) ; i n t totallength = linelengths. reduce (new Function2 <Integer, Integer, Integer > ( ) { p u b l i c I n t e g e r c a l l ( I n t e g e r a, I n t e g e r b ) { r e t u r n a + b ; ) ;
27 Spark 27 / 32 Certaines opérations travaillent avec des paires Clé-Valeur JavaPairRDD, PairFunction, Tuple2 Spark: Exemple JavaRDD< String > l i n e s = j s c. t e x t F i l e ( " JavaHdfsLR. java " ) ; JavaRDD< String > words = l i n e s. flatmap ( new FlatMapFunction <String, String > ( ) { p u b l i c I t e r a b l e < String > c a l l ( S t r i n g s ) { r e t u r n Arrays. a s L i s t ( s. s p l i t ( " " ) ) ; ) ; JavaPairRDD<String, Integer > ones = words. maptopair ( new PairFunction <String, String, Integer > ( ) { public Tuple2<String, Integer > c a l l ( String s ) { return new Tuple2<String, Integer >(s, 1 ) ; ) ; JavaPairRDD<String, Integer > counts = ones. reducebykey ( new Function2 <Integer, Integer, Integer > ( ) { public Integer c a l l ( Integer i1, Integer i2 ) { return i1 + i2 ; ) ;
28 Spark 28 / 32 Variables partagées Mise en place de variables auxquelles les différents process en parallèle peuvent avoir accès Très utile pour des tâches d apprentissage statistique avec optimisation itérative de paramètres Deux types de variables partagées Variables Broadcast: variable en lecture seule, partagée par tous les process Accumulateurs: variable en écriture seule, à laquelle on ne peut qu ajouter des éléments (seul le Driver peut lire le contenu de la variable)
29 Spark 29 / 32 Deux types de variables partagées Variables Broadcast Spark: Variables Broadcast Broadcast < i n t [ ] > broadcastvar = sc. broadcast (new i n t [ ] { 1, 2, 3 ) ; broadcastvar. value ( ) ; Accumulateurs Spark: Accumulateurs class VectorAccumulatorParam implements AccumulatorParam<Vector > { p u b l i c Vector zero ( Vector i n i t i a l V a l u e ) { r e t u r n i n i t i a l V a l u e ; public Vector addinplace ( Vector v1, Vector v2 ) { v1. addinplace ( v2 ) ; return v1 ; Vector i n i t i a l V a l u e =new Vector (... ) ; Accumulator <Vector > vecaccum = sc. accumulator ( i n i t i a l V a l u e, new VectorAccumulatorParam ( ) ) ; / / De n importe quel process : vacaccum. add ( new Vector (... ) ) ; / / Du d r i v e r : vacaccum. value ( ) ;
30 Spark 30 / 32 Exemple Spark: Regression Logistique class ComputeGradient extends Function <DataPoint, Vector > { p r i v a t e Vector w; ComputeGradient ( Vector w) { t h i s.w = w; p u b l i c Vector c a l l ( DataPoint p ) { r e t u r n p. x. times ( p. y (1 / (1 + Math. exp( w. dot ( p. x ) ) ) ) ) ; JavaRDD<DataPoint > p o i n t s = spark. t e x t F i l e (... ). map(new ParsePoint ( ) ). cache ( ) ; Vector w = Vector. random (D ) ; / / c u r r e n t separating plane f o r ( i n t i = 0; i < ITERATIONS ; i ++) { Vector gradient = points.map(new ComputeGradient (w ) ). reduce (new AddVectors ( ) ) ; w = w. s u b t r a c t ( g r a d i e n t ) ; System. out. p r i n t l n ( " F i n a l separating plane : " + w ) ;
31 Spark 31 / 32
32 Spark Streaming 32 / 32
Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives
Hadoop, Spark & Big Data 2.0 Exploiter une grappe de calcul pour des problème des données massives Qui suis-je? Félix-Antoine Fortin Génie info. (B. Ing, M. Sc, ~PhD) Passionné de Python, Data Analytics,
Plus en détailCertificat Big Data - Master MAthématiques
1 / 1 Certificat Big Data - Master MAthématiques Master 2 Auteur : Sylvain Lamprier UPMC Fouille de données et Medias Sociaux 2 / 1 Rich and big data: Millions d utilisateurs Millions de contenus Multimedia
Plus en détailM2 GL UE DOC «In memory analytics»
M2 GL UE DOC «In memory analytics» Alexandre Termier 2014/2015 Sources Travaux Amplab, U.C. Berkeley Slides Ion Stoica Présentations Databricks Slides Pat McDonough Articles de M. Zaharia et al. sur les
Plus en détailProgrammation parallèle et distribuée
Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution
Plus en détailMapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis
MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce
Plus en détailIntroduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014
Introduction aux algorithmes MapReduce Mathieu Dumoulin (GRAAL), 14 Février 2014 Plan Introduction de la problématique Tutoriel MapReduce Design d algorithmes MapReduce Tri, somme et calcul de moyenne
Plus en détailIntroduction à MapReduce/Hadoop et Spark
1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -
Plus en détailProgrammation parallèle et distribuée
Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution
Plus en détailAPI04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture
API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant
Plus en détailBig Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1
Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués
Plus en détailCartographie des solutions BigData
Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?
Plus en détailMap-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE
Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données Stéphane Genaud ENSIIE Traitement de données distribuées Google a introduit Map-Reduce [Dean and Ghemawat 2004] Ils s
Plus en détailLes technologies du Big Data
Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR
Plus en détailMapReduce et Hadoop. Alexandre Denis Alexandre.Denis@inria.fr. Inria Bordeaux Sud-Ouest France ENSEIRB PG306
MapReduce et Hadoop Alexandre Denis Alexandre.Denis@inria.fr Inria Bordeaux Sud-Ouest France ENSEIRB PG306 Fouille de données Recherche & indexation de gros volumes Appliquer une opération simple à beaucoup
Plus en détailMapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15
MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué
Plus en détailTable des matières INITIATION À SPARK AVEC JAVA 8 ET SCALA
Table des matières 1. Introduction 2. Partie 0 : Mise en place de l'environement 3. Partie 1 : Familiarisation avec les concepts de Spark 4. Partie 2 : Mise en oeuvre des RDDs 5. Partie 3 : Aspects avancés
Plus en détailBIG DATA en Sciences et Industries de l Environnement
BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie
Plus en détailOur experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot
Our experience in using Apache Giraph for computing the diameter of large graphs Paul Bertot - Flavian Jacquot Plan 1. 2. 3. 4. 5. 6. Contexte Hadoop Giraph L étude Partitionnement ifub 2 1. Contexte -
Plus en détailL écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13
L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,
Plus en détailFouillez facilement dans votre système Big Data. Olivier TAVARD
Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche
Plus en détailhttp://blog.khaledtannir.net
Algorithme de parallélisations des traitements Khaled TANNIR Doctorant CIFRE LARIS/ESTI http://blog.khaledtannir.net these@khaledtannir.net 2e SéRI 2010-2011 Jeudi 17 mars 2011 Présentation Doctorant CIFRE
Plus en détailRicco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2
Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions
Plus en détailPanorama des solutions analytiques existantes
Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement
Plus en détailHADOOP ET SON ÉCOSYSTÈME
HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos
Plus en détailPrototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop
Julien Gerlier Siman Chen Rapport de projet de fin d étude ASR 2010/2011 Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Encadrants
Plus en détailAnticiper et prédire les sinistres avec une approche Big Data
Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél
Plus en détailFouille de données massives avec Hadoop
Fouille de données massives avec Hadoop Sebastiao Correia scorreia@talend.com Talend 2013 AAFD'14 29-30 avril 2014 1 Agenda Présentation de Talend Définition du Big Data Le framework Hadoop 3 thématiques
Plus en détailNoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)
1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche
Plus en détailPrototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop
Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Soutenance de projet ASR 27/01/2011 Julien Gerlier Siman Chen Encadrés par Bruno
Plus en détailEntity API. Alexandre Todorov, Felip Manyer i Ballester. Montpellier, le 17 septembre 2014
Entity API Alexandre Todorov, Felip Manyer i Ballester Montpellier, le 17 septembre 2014 Alexandre Todorov, Felip Manyer i Ballester Entity API 1/43 À propos d Alexandre (Improvisation) Alexandre Todorov,
Plus en détailBases de Données NoSQL
Bases de Données NoSQL LI328 Technologies Web Mohamed-Amine Baazizi Transparents de Bernd Amann UPMC - LIP6 LI328 Technologies Web (B. Amann) 1 SGBD Universalité Systèmes «SQL» : Facilité d'utilisation
Plus en détailBig Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase
Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet
Plus en détailCours 8 Not Only SQL
Cours 8 Not Only SQL Cours 8 - NoSQL Qu'est-ce que le NoSQL? Cours 8 - NoSQL Qu'est-ce que le NoSQL? Catégorie de SGBD s'affranchissant du modèle relationnel des SGBDR. Mouvance apparue par le biais des
Plus en détailDéveloppement Logiciel
Développement Logiciel Éxamen session 1-2012-2013 (Vendedi 25 mai, 9h-11h) Seuls les documents liés directement au cours sont autorisés (comme dit sur le site) : sujets de TD, notes de cours, notes personnelles
Plus en détailDéploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr
Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les
Plus en détailProgrammation parallèle et distribuée (Master 1 Info 2015-2016)
Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction
Plus en détailHadoop : une plate-forme d exécution de programmes Map-Reduce
Hadoop : une plate-forme d exécution de programmes Map-Reduce Jonathan Lejeune UPMC 8 octobre 2013 PSIA 2013 Inspiré du cours des années précédentes de Luciana Arantes J. Lejeune (UPMC) Hadoop Map-Reduce
Plus en détailImplémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce
Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce Algorithmes : K-means et Apriori Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Cloud Computing et MapReduce
Plus en détailOrganiser vos données - Big Data. Patrick Millart Senior Sales Consultant
Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be
Plus en détailDéveloppement mobile MIDP 2.0 Mobile 3D Graphics API (M3G) JSR 184. Frédéric BERTIN fbertin@neotilus.com
Développement mobile MIDP 2.0 Mobile 3D Graphics API (M3G) JSR 184 Frédéric BERTIN fbertin@neotilus.com Présentaion : Mobile 3D Graphics API JSR 184 M3G :présentation Package optionnel de l api J2ME. Prend
Plus en détailNotes de cours Practical BigData
Notes de cours Practical BigData Nguyen-Nhut DOAN 15 janvier 2015 Introduction Ces notes personnelles traduisent la deuxième partie du cours INF553 de l Ecole Polytechnique sur les bases de données et
Plus en détailas Architecture des Systèmes d Information
Plan Plan Programmation - Introduction - Nicolas Malandain March 14, 2005 Introduction à Java 1 Introduction Présentation Caractéristiques Le langage Java 2 Types et Variables Types simples Types complexes
Plus en détailEPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE
EPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE QCM Remarque : - A une question correspond au moins 1 réponse juste - Cocher la ou les bonnes réponses Barème : - Une bonne réponse = +1 - Pas de réponse = 0
Plus en détailWeb Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.
Web Science Master 1 IFI Andrea G. B. Tettamanzi Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.fr 1 Annonce : recherche apprenti Projet Géo-Incertitude Objectifs
Plus en détailHadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015
Hadoop / Big Data Benjamin Renaut MBDS 2014-2015 6 map/reduce et Hadoop: exemples plus avancés Exemple: parcours de graphe 6-1 On cherche à déterminer la profondeur maximale
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailBIG Data et R: opportunités et perspectives
BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,
Plus en détailNoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)
1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche
Plus en détailBig Data, un nouveau paradigme et de nouveaux challenges
Big Data, un nouveau paradigme et de nouveaux challenges Sebastiao Correia 21 Novembre 2014 Séminaire Thématique : Traitement et analyse statistique des données massives, Poitiers. 1 Présentation Sebastiao
Plus en détailBig Graph Data Forum Teratec 2013
Big Graph Data Forum Teratec 2013 MFG Labs 35 rue de Châteaudun 75009 Paris, France www.mfglabs.com twitter: @mfg_labs Julien Laugel MFG Labs julien.laugel@mfglabs.com @roolio SOMMAIRE MFG Labs Contexte
Plus en détailBig Data Concepts et mise en oeuvre de Hadoop
Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12
Plus en détailEfficient Object Versioning for Object- Oriented Languages From Model to Language Integration
Efficient Object Versioning for Object- Oriented Languages From Model to Language Integration Pluquet Frédéric July, 3rd 2012 Etude de techniques efficaces de versionnement d objets pour les langages orientés
Plus en détailModèles à Événements Discrets. Réseaux de Petri Stochastiques
Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés
Plus en détailLes participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.
Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision
Plus en détailRapport de Projet Béatrice Frey et Cyril Crassin Printemps 2004. Projet Fourmis. Université de Technologie de Belfort-Montbéliard
Rapport de Projet LO43 Béatrice Frey et Cyril Crassin Printemps 2004 Projet Fourmis Université de Technologie de Belfort-Montbéliard GI02 Sommaire Béatrice Frey et Cyril Crassin Rapport Projet LO43 Introduction...
Plus en détailCorrigé des TD 1 à 5
Corrigé des TD 1 à 5 1 Premier Contact 1.1 Somme des n premiers entiers 1 (* Somme des n premiers entiers *) 2 program somme_entiers; n, i, somme: integer; 8 (* saisie du nombre n *) write( Saisissez un
Plus en détailAcquisition des données - Big Data. Dario VEGA Senior Sales Consultant
Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détail1 Modélisation d être mauvais payeur
1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage
Plus en détailOpenPaaS Le réseau social d'entreprise
OpenPaaS Le réseau social d'entreprise Spécification des API datastore SP L2.3.1 Diffusion : Institut MinesTélécom, Télécom SudParis 1 / 12 1OpenPaaS DataBase API : ODBAPI...3 1.1Comparaison des concepts...3
Plus en détailMCMC et approximations en champ moyen pour les modèles de Markov
MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:
Plus en détailUne Architecture de Bureaux Graphiques Distants Sécurisée et Distribuée
Une Architecture de Bureaux Graphiques Distants Sécurisée et Distribuée J. Rouzaud-Cornabas Laboratoire d Informatique Fondamentale d Orléans Université d Orléans Batiment IIIA, Rue Léonard de Vinci 45067
Plus en détailMANIPULATION ET VISUALISATION DE GROSSES BASES DE DONNÉES AVEC R
MANIPULATION ET VISUALISATION DE GROSSES BASES DE DONNÉES AVEC R Jeudi 10 octobre 2013 CHAIGNEAU Alicia GAZAN Rozenn DAUFOUY Camille JOURDAN Sandra Introduction 2 Evolution des outils de collecte Big data
Plus en détailPrénom : Matricule : Sigle et titre du cours Groupe Trimestre INF1101 Algorithmes et structures de données Tous H2004. Loc Jeudi 29/4/2004
Questionnaire d'examen final INF1101 Sigle du cours Nom : Signature : Prénom : Matricule : Sigle et titre du cours Groupe Trimestre INF1101 Algorithmes et structures de données Tous H2004 Professeur(s)
Plus en détailLMI 2. Programmation Orientée Objet POO - Cours 9. Said Jabbour. jabbour@cril.univ-artois.fr www.cril.univ-artois.fr/~jabbour
LMI 2 Programmation Orientée Objet POO - Cours 9 Said Jabbour jabbour@cril.univ-artois.fr www.cril.univ-artois.fr/~jabbour CRIL UMR CNRS 8188 Faculté des Sciences - Univ. Artois Février 2011 Les collections
Plus en détailApproche Contract First
Exemple HelpDesk Approche Contract First Développement d un premier web service en utilisant l approche contract first (ou WSDL First) Écriture du wsdl avant d écrire le code java Autre possibilité implementation
Plus en détailTP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile
TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile Dans ce TP, vous apprendrez à définir le type abstrait Pile, à le programmer en Java à l aide d une interface
Plus en détailQuelques patterns pour la persistance des objets avec DAO DAO. Principe de base. Utilité des DTOs. Le modèle de conception DTO (Data Transfer Object)
Quelques patterns pour la persistance des objets avec DAO Ce cours présente des modèles de conception utilisés pour effectuer la persistance des objets Université de Nice Sophia-Antipolis Version 1.4 30/8/07
Plus en détailHadoop : une plate-forme d exécution de programmes Map-Reduce
Hadoop : une plate-forme d exécution de programmes Map-Reduce Jonathan Lejeune École des Mines de Nantes Janvier 2015 CODEL 2014/2015 J. Lejeune (École des Mines de Nantes) Hadoop Map-Reduce Janvier 2015
Plus en détailChapitre 5 : Flot maximal dans un graphe
Graphes et RO TELECOM Nancy A Chapitre 5 : Flot maximal dans un graphe J.-F. Scheid 1 Plan du chapitre I. Définitions 1 Graphe Graphe valué 3 Représentation d un graphe (matrice d incidence, matrice d
Plus en détailR+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!
R+Hadoop = Rhadoop* * Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata! 27 Janvier 2014 / Université Paul Sabatier / DTSI / David Tsang-Hin-Sun Big
Plus en détailLe projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet
Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet 1 SOMMAIRE Le calcul scientifique au CNES Le BigData au CNES, le cas Gaïa HPC et BigData
Plus en détailFormation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop
Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont
Plus en détailGénie Logiciel avec Ada. 4 février 2013
Génie Logiciel 4 février 2013 Plan I. Généralités II. Structures linéaires III. Exceptions IV. Structures arborescentes V. Dictionnaires I. Principes II. Notions propres à la POO I. Principes Chapitre
Plus en détailChapitre VI- La validation de la composition.
Chapitre VI- La validation de la composition. Objectifs du chapitre : Expliquer les conséquences de l utilisation de règles de typage souples dans SEP. Présenter le mécanisme de validation des connexions
Plus en détailIntroduc)on à Map- Reduce. Vincent Leroy
Introduc)on à Map- Reduce Vincent Leroy Sources Apache Hadoop Yahoo! Developer Network Hortonworks Cloudera Prac)cal Problem Solving with Hadoop and Pig Les cours seront mis en ligne sur hhp://membres.liglab.fr/leroy/
Plus en détailL exclusion mutuelle distribuée
L exclusion mutuelle distribuée L algorithme de L Amport L algorithme est basé sur 2 concepts : L estampillage des messages La distribution d une file d attente sur l ensemble des sites du système distribué
Plus en détailProjet gestion d'objets dupliqués
Projet gestion d'objets dupliqués Daniel Hagimont Daniel.Hagimont@enseeiht.fr 1 Projet Service de gestion d'objets dupliqués Mise en cohérence lors de la prise d'un verrou sur un objet Pas de verrous imbriqués
Plus en détailTechnologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC
Technologies du Web Ludovic DENOYER - ludovic.denoyer@lip6.fr UPMC Février 2014 Ludovic DENOYER - ludovic.denoyer@lip6.fr Technologies du Web Plan Retour sur les BDs Le service Search Un peu plus sur les
Plus en détailPlan du cours 2014-2015. Cours théoriques. 29 septembre 2014
numériques et Institut d Astrophysique et de Géophysique (Bât. B5c) Bureau 0/13 email:.@ulg.ac.be Tél.: 04-3669771 29 septembre 2014 Plan du cours 2014-2015 Cours théoriques 16-09-2014 numériques pour
Plus en détailLes quatre piliers d une solution de gestion des Big Data
White Paper Les quatre piliers d une solution de gestion des Big Data Table des Matières Introduction... 4 Big Data : un terme très vaste... 4 Le Big Data... 5 La technologie Big Data... 5 Le grand changement
Plus en détailPréface Dunod Toute reproduction non autorisée est un délit. Les raisons de l émergence du Big Data sont bien connues. Elles sont d abord économiques et technologiques. La chute exponentielle des coûts
Plus en détailTP3 : Manipulation et implantation de systèmes de fichiers 1
École Normale Supérieure Systèmes et réseaux Année 2012-2013 TP3 : Manipulation et implantation de systèmes de fichiers 1 1 Répertoire de travail courant Le but de l exercice est d écrire une commande
Plus en détailAlgorithmique répartie
Université Joseph Fourier 23/04/2014 Outline 1 2 Types de communication message envoyé à un groupe de processus Broadcast (diffusion) message envoyé à tous les processus du systèmes Unicast message envoyé
Plus en détailSommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan
1 Sommaire 1. Google en chiffres 2. Les raisons d être de GFS 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan 4. Les Evolutions et Alternatives
Plus en détailCassandra et Spark pour gérer la musique On-line
Cassandra et Spark pour gérer la musique On-line 16 Juin 2015 @ Paris Hammed RAMDANI Architecte SI 3.0 et BigData mramdani@palo-it.com +33 6 80 22 20 70 Appelez-moi Hammed ;-) (Sidi Mo)Hammed Ramdani @smramdani
Plus en détailIngénierie Dirigée par les Modèles. Editeurs de modèles. (Eclipse Modeling Tools) Jean-Philippe Babau
labsticc.univ-brest.fr/pages_perso/babau/ Ingénierie Dirigée par les Modèles Editeurs de modèles (Eclipse Modeling Tools) Jean-Philippe Babau Département Informatique, UFR Sciences, Laboratoire Lab-STICC
Plus en détailLa persistance des données dans les applications : DAO, JPA, Hibernate... COMPIL 2010 francois.jannin@inp-toulouse.fr 1
La persistance des données dans les applications : DAO, JPA, Hibernate... COMPIL 2010 francois.jannin@inp-toulouse.fr 1 Plan 1. Généralités sur la persistance des données dans les applications 2. La connection
Plus en détailOffre formation Big Data Analytics
Offre formation Big Data Analytics OCTO 2014 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél : +33 (0)1 58 56 10 00 Fax : +33 (0)1 58 56 10 01 www.octo.com 1 Présentation d OCTO Technology 2 Une
Plus en détailArbres binaires de recherche
1 arbre des comparaisons 2 recherche dichotomique l'arbre est recalculé à chaque recherche 2 5 3 4 7 9 1 6 1 2 3 4 5 6 7 9 10 conserver la structure d'arbre au lieu de la reconstruire arbre binaire de
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailTutoriel: Création d'un Web service en C++ avec WebContentC++Framework
Tutoriel: Création d'un Web service en C++ avec WebContentC++Framework Gaël de Chalendar CEA LIST / LIC2M Journée de Présentation des Technologies WebContent INSTN 14/12/2009 Présentation de gsoap Plan
Plus en détailIntroduction à MATLAB R
Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d
Plus en détailResolution limit in community detection
Introduction Plan 2006 Introduction Plan Introduction Introduction Plan Introduction Point de départ : un graphe et des sous-graphes. But : quantifier le fait que les sous-graphes choisis sont des modules.
Plus en détailWindows Internet Name Service (WINS)
Windows Internet Name Service (WINS) WINDOWS INTERNET NAME SERVICE (WINS)...2 1.) Introduction au Service de nom Internet Windows (WINS)...2 1.1) Les Noms NetBIOS...2 1.2) Le processus de résolution WINS...2
Plus en détail