BlobSeerFS : un système de fichiers pour le calcul hautes performances sous Hadoop MapReduce

Dimension: px
Commencer à balayer dès la page:

Download "BlobSeerFS : un système de fichiers pour le calcul hautes performances sous Hadoop MapReduce"

Transcription

1 BlobSeerFS : un système de fichiers pour le calcul hautes performances sous Hadoop MapReduce Rapport de Stage Matthieu DORIER Sous la direction de : Luc Bougé, Bogdan Nicolae ENS de Cachan antenne de Bretagne, IFSIC, IRISA, Equipe KerData Juillet 2009 Résumé Alors que les grilles de calcul sont en plein essor, la gestion des données et en particulier les systèmes de fichiers distribués optimisés pour les calculs haute performance constituent un point clé pour profiter de la puissance de ces architectures. Des outils tels que MapReduce (Google) ou son implémentation libre Hadoop (Apache) demandent, en plus d algorithmes performants, un accès rapide et concurrent à de grandes quantités de données. Nous proposons dans ce document un système de fichiers distribué pour Hadoop, utilisant BlobSeer, un service de gestion de données à grande échelle, comme base de stockage. Nous comparons notre solution à HDFS, le système de fichier de Hadoop, et nous testons notre implémentation sur le Grid Mots-clés : Grille, Gestion de données, Système de fichiers distribué, MapReduce, Hadoop, BlobSeer.

2 Remerciements Je tiens à remercier tout particulièrement les personnes suivantes, pour leur accueil et pour l expérience enrichissante qu elles m ont fait vivre au sein de l équipe KerData : Luc Bougé et Gabriel Antoniu, pour leur encadrement et leurs précieux conseils. Bogdan Nicolae, pour son aide et pour m avoir permis de participer à un réel projet de recherches. Diana Moise, Alexandra Carpen-Amarie, Jing Cai, Viet Trung Tran et Benjamin Girault pour les échanges instructifs, pour leur aide et leurs conseils. 1

3 Table des matières 1 Introduction 3 2 Gestion de données à grande échelle : BlobSeer et Hadoop Cadre de travail : gestion de données sur grilles Systèmes de fichiers distribué Grilles de calcul BlobSeer Objectifs de BlobSeer Architecture générale Interface avec le client Hadoop MapReduce Le paradigme MapReduce Hadoop : une implémentation libre de MapReduce Gestion des données sur HDFS BlobSeerFS (BSFS) : un système de fichiers pour Hadoop Architecture de BlobSeerFS Objectifs Composants de BSFS Connexion entre Hadoop et BlobSeer Objet FileSystem de Hadoop Accès aux fichiers via BSFSInputStream et BSFSOutputStream Gestion des métadonnées Stockage des chemins et des informations Protocole client-serveur BSFS Visualisation HTTP Evaluation, améliorations et perspectives de BlobSeerFS Problèmes de cache Implémentation de caches de lecture et d écriture Cohérence avec la sémantique de Hadoop Tests sur Grid Upload/Download de fichiers Application MapReduce réelle : inverted index Interprétation des résultats Perspectives pour BSFS Gestion, vérification et sécurisation des métadonnées Localisation pour l optimisation du calcul Conclusion 14 A Annexe 16 A.1 Architecture de BlobSeer : schéma A.2 Procédé MapReduce

4 1 Introduction Les grilles de calcul sont perçues de plus en plus comme un moyen simple, économique et efficace pour la réalisation de super-calculateurs à grande échelle. Ces architectures, réunissant les ressources hétérogènes d ordinateurs personnels, de serveurs et de clusters, sont étudiées et largement employées tant au sein des instituts de recherche que par des sociétés comme Google qui doivent chaque jour effectuer de lourds calculs sur une masse importante de données. Dans ce contexte, la gestion des données est un point crucial. Tout comme les calculs, les données doivent être distribuées et accessibles de manière hautement concurrente. Les systèmes de fichiers distribués, développés dans le but de satisfaire aux exigences de la programmation sur grilles de calcul, doivent fournir autant que possible une vision cohérente d un système pourtant décentralisé. L accès aux fichiers doit être efficace, de manière à éviter la nécessité d une copie locale des données, et tolérant vis à vis des pannes, pour ne pas pénaliser l avancement du calcul lors de l indisponibilité de certaines ressources. Des paradigmes particuliers de programmation à grande échelle font l objet de nombreuses recherches. Hadoop [2], implémentation libre de MapReduce, a pour vocation de travailler sur de grandes quantités de données suivant un paradigme inspiré des langages de programmation fonctionnels. Les algorithmes se réduisent à l implémentation de deux fonctions map et reduce, executées en parallèle au sein de grilles de calcul. Les fichiers traités ont une taille de l ordre de quelques Go à quelques To, et le système de fichiers a donc autant d importance au sein de ce framework que l optimisation des calculs. Nous nous proposons d utiliser BlobSeer [8, 9], un service de gestion de blobs (Binary Large OBjects) sur grilles, développé par l équipe KerData, comme base d un système de fichiers distribué pour Hadoop. Nous espérons principalement adjoindre à Hadoop les capacités de versionning de BlobSeer pour permettre une reprise des calculs en cas de panne majeure, tout en conservant l efficacité actuelle en terme d accès concurrents. Dans un premier temps nous décrivons le fonctionnement de BlobSeer et de Hadoop MapReduce, en donnant les principales caractéristiques de chacun, les interfaces utilisateurs et en listant les avantages et inconvénients du système de fichiers actuellement utilisé : HDFS. Nous décrivons ensuite l architecture et l implémentation d un système de fichiers distribué, BlobSeerFS, au travers de ses principaux agents. Enfin nous testons le système de fichiers réalisé sur l upload et le download de gros fichiers, ainsi qu une application MapReduce réelle : l Inverted Index. Nous indiquerons les problèmes majeurs rencontrés et les solutions apportées, puis les évolutions futurs de notre système. 3

5 2 Gestion de données à grande échelle : BlobSeer et Hadoop 2.1 Cadre de travail : gestion de données sur grilles Systèmes de fichiers distribué Dans le domaine du calcul distribué sur de grandes quantités de données, des systèmes comme NFS 1, système de fichiers utilisé sur presque tous les réseaux de machines Linux [10], ne sont plus suffisants. Si NFS permet de mettre à disposition des fichiers sans se préoccuper de leur localisation au sein du parc informatique, des problèmes évidents dus à la mise en cache et au stockage apparaissent lors d accès concurrents et d écritures massives. En effet, une expérience simple peut être réalisée sur un parc informatique utilisant NFS, consistant en une écriture et une lecture consécutives du même fichier sur deux machines différentes : si les deux opérations se suivent de trop près le cache d écriture n est pas envoyé sur le fichier et le lecteur obtient une ancienne version du fichier, bien que celui-ci ait été modifié. Les recherches se tournent donc plutôt vers des systèmes de fichiers de type objet (object based filesystems), comme GFarm [13, 11], qui représentent les fichiers sous forme d objet plutôt que sous forme d une suite de blocs de taille fixe. Une sémantique rigoureuse doit alors être définie pour autoriser des lectures, écritures et ajouts concurrents. Certaines caractéristiques sont importantes pour l implémentation d un système de fichiers distribué. Cohérence : la sémantique doit définir les protocoles d accès de manière à ce que les différentes copies d un même fichier soient identiques. L atomicité des opérations est un élément clé de cette sémantique. Utilisation à large échelle : le système doit pouvoir être déployé sur plusieurs centaines voire plusieurs milliers de machines. Tolérance aux fautes : dans un tel contexte si une machine tombe en panne, le système doit pouvoir, dans un certaine mesure, continuer à fonctionner. Absence de goulot d étranglement et l équilibrage : les différentes machines doivent être accédées de manière équilibrée par les utilisateurs des fichiers, au besoin en déplaçant dynamiquement les données pour rééquilibrer cette charge. Une machine ne doit pas devenir un goulot d étranglement pour le service, en étant indispensable ou en étant contactée à chaque requête, par exemple Grilles de calcul Notre travail se place dans le contexte du grid computing. Une grille informatique est un réseau de ressources (ordinateurs personnels, serveurs, clusters, etc.) hétérogènes délocalisées fournissant une infrastructure virtuelle et des services optimisés en terme de partage des ressources (mémoire, puissance de calcul). Grid 5000 [1] est une infrastructure distribuée sur neuf sites 2 en France, et mise à la disposition de la recherche. Les noeuds sont des machines standard, possédant des processeurs multicœurs cadencés à plus de 2 GHz, et une mémoire vive allant de 1Go à 8Go pour chaque noeud. La recherche dans le domaine des grilles de calcul tend à se développer. Les grilles sont en effet des architectures peu coûteuses, qui peuvent être mises en place au sein même d un parc informatique 1 Network FileSystem. 2 Bordeaux, Grenoble, Lille, Lyon, Nancy, Orsay, Rennes, Sophia et Toulouse. 4

6 pré-existant, comme c est le cas chez Google. Lorsque la grille est constituée d ordinateurs de bureau, on parle de desktop grid. 2.2 BlobSeer Objectifs de BlobSeer Un blob (Binary Large OBject) peut être vu comme une chaîne binaire de taille potentiellement grande (quelques Mo à quelques To). BlobSeer [8, 9], outil créé au sein de l équipe KerData, est un service de stockage et de gestion de données distribuées sous la forme de blobs. Il permet un accès rapide aux données et une forte concurrence dans les opérations de lecture, écriture et ajout (read, write, append). De plus, BlobSeer gère le versioning et utilise des politiques de réplication de données pour la tolérence aux fautes. Au sein de BlobSeer, chaque blob est identifié par un id unique. Les blobs sont divisés en pages de taille donnée (quelques Mo). La taille des pages peut être choisie en fonction de l application considérée [6]. Les requêtes de lecture et d écriture sont basées sur des quadruplets de la forme (id,version,offset,size) désignant, une certaine version d un segment commençant à offset et allant jusqu à offset+size-1. Lorsqu une requête correspond à une série de pages complètes consécutives, on dira que cette requête est alignée. Un tel service peut avoir de nombreuses applications : stockage et gestion d images, stockage et accès efficace à des données scientifiques [7] (vues du ciel, images satellites), etc., mais on peut également imaginer une utilisation en tant que système de fichiers adapté aux calculs distribués sur grilles comme nous allons le voir Architecture générale BlobSeer est constitué de quatre types d agents indépendants, généralement lancés sur des machines distinctes. Le schéma donné en annexe résume l architecture de BlobSeer ainsi que les connexions entre les différents agents. Le provider-manager se charge de gérer les connexions et déconnexions de providers et de noeuds dht. Il se charge également d indiquer, lors de la création d une page, quel provider est le plus apte à la stocker (équilibrage de charge). Le version-manager gère la publication des versions. Toute la cohérence du protocole est assurée par cet agent, ainsi que l atomicité des opérations read, write et append. Les providers fournissent l espace de stockage, ils stockent les pages en mémoire vive ou dans des fichiers (si la persistence est activée) sur le système de fichier local. Les sdht forment les noeuds d une DHT 3 qui stocke les paires page providers et ainsi localisent les pages au sein du service. Cette table de hachage distribuée utilise le principe du segment tree pour associer efficacement un couple (offset,size) à un ensemble de providers stockant les pages concernées par ce segment Interface avec le client Afin d interagir avec le service, le client utilise la classe C++ object_handler, initialisée avec le même fichier de configuration qui a servi au lancement des agents BlobSeer. Cette classe contient 3 Distributed Hash Table, ou table de hachage distribuée. Les données y sont gérées par un ensemble d ordinateurs interconnectés, chacun se chargeant du stockage des données correspondant à un sous-ensemble des clés possibles. 5

7 une variable désignant l id courant, et offre un ensemble de fonctions pour accéder au blobs. Les principales fonctions sont listées ci-dessous. bool create(page_size, replica_count = 1) crée un blob de taille de page et de nombre de copies 4 donnés, et change l id du blob courant pour désigner ce nouveau blob. bool get_latest(id = 0) change l id courant en l id spécifié, et récupère les informations sur la dernière version du blob désigné par le nouvel id. Si l id est à 0, cette fonction recharge juste les dernières informations sur le blob courant. bool read(offset, size, *buffer, version) lit dans le blob courant à l offset spécifié. bool append(size, *buffer) écrit à la fin du blob courant le contenu du buffer. bool write(offset, size, *buffer) écrit à l endroit spécifié le contenu du buffer. D autres fonctions sont disponibles pour récupérer la version courante, la taille d un blob ou son id. La gestion des versions telle que définie dans la sémantique de BlobSeer [8] assure une atomicité de toutes les opérations citées ci-dessus. 2.3 Hadoop MapReduce Le paradigme MapReduce MapReduce est un modèle de programmation proposé par Google [4] (qui en a réalisé une implémentation en C++). L objectif est de traiter de manière parallèle de grandes quantités de données suivant un paradigme inspiré des langages de programmation fonctionnels. Le traitement de ces données s effectue en deux étapes. Map : les données, lues dans un fichier en entrée, sont tout d abord converties en une liste de paires clé, valeur, et une fonction map associe à chaque paire une nouvelle liste de paires clé, valeur intermédiaires. Reduce : les paires intermédiaires sont regroupées par clé, une fonction reduce prend alors une liste de paires intermédiaires partageant la même clé, et procède à un calcul sur cet ensemble pour retourner un résultat. L ensemble des résultats (il y en a autant que de clées intermédiaires différentes) est alors écrit dans un fichier de sortie. Le schéma du processus MapReduce tel que présenté par Google est donné en annexe. L exemple le plus populaire est celui du comptage des mots dans un document [4, 2] : Le document est d abord converti en une liste de mots. La fonction map prend cette liste et la transforme en une nouvelle liste de paires mot, 1. La fonction reduce, prend en argument une liste dont les clés sont identiques (même mot), et renvoie la somme des valeurs. Nous verrons plus loin un autre algorithme célèbre par son implémentation MapReduce : l inverted index. Quel que soit le problème, la fonction map peut être facilement parallélisée : chaque machine disponible l applique à un sous-ensemble des données d entrée, indépendamment des traitements appliqués au reste des données. Il n en est pas de même pour la fonction reduce. En effet, selon l algorithme à implémenter, reduce peut ou non commencer son travail sur la base d une liste incomplète de paires intermédiaires. La section donne la solution apportée par Apache à ce problème Hadoop : une implémentation libre de MapReduce Si MapReduce a beaucoup de succès parmi les développeurs de la société Google, son implémentation n est malheureusement pas libre. Hadoop, initié en 2008 par Apache [2], est le framework de type Map/Reduce libre le plus utilisé. Il est implémenté en Java. 4 Les copies de pages sont effectuées sur des providers différents, de manière à éviter la perte de données en cas de panne de certains providers 6

8 FIG. 1 Architecture de HDFS Hadoop utilise un paradigme que l on devrait plutôt nommer Map-Combine-Reduce. En effet, le travail est divisé en trois étapes. Une fonction map prend une partie de l entrée et crée une liste de paires intermédiaires. Une fonction combine est appelée localement à la fin d un processus map pour effectuer un prétraitement des paires intermédiaires, il s agit en fait d un faux reduce, capable de travailler sur la base d une liste incomplète. Une fonction reduce est appelée sur une seule machine, une fois que toutes les machines ont terminé les processus map et combine Gestion des données sur HDFS Hadoop est fourni avec le système de fichier HDFS 5 [12], proche de Google FileSystem [5]. Deux agents principaux composent ce système de fichiers : le NameNode qui gère l arborescence et les métadonnées et les DataNodes qui fournissent l espace de stockage pour des blocs de fichiers. Au sein des DataNodes, les données sont stockées par le système de fichiers de la machine (en général ext2 ou ext3 sur les machines Unix) par blocs de 64 Mo. La figure 1 présente l architecture de HDFS. 3 BlobSeerFS (BSFS) : un système de fichiers pour Hadoop 3.1 Architecture de BlobSeerFS Objectifs Comme nous l avons vu plus haut, les calculs effectués par Hadoop sont basés sur un accès concurrent à de grandes quantités de données. Le système de fichiers tient donc une part très importante dans la rapidité du traitement. Si HDFS possède de bonnes propriétés en ce qui concerne la cohérence 5 Hadoop Distributed FileSystem. 7

9 FIG. 2 Architecture de BSFS et la tolerance aux fautes [2, 12], aucun système de version ou de snapshot n est pour le moment disponible. Si le système de fichiers est corrompu au cours du processus, il n y a aucun moyen de restaurer l état du système à un point antérieur. En utilisant un système de fichiers basé sur BlobSeer, notre objectif est avant tout d ajouter un système de versioning tout en conservant les aspects d accès hautement concurrents. Parallèlemment à cela, nous esperons avoir une efficacité équivalente voire supérieure en terme de calculs, en élaborant un système de fichiers utilisant majoritairement la mémoire vive des machines plutôt que le système de fichier local, et proposant un paramétrage fin du grain (taille des pages) Composants de BSFS De la même manière que dans le cas de HDFS, la gestion des métadonnées se fait par l intérmédiaire d un unique agent, le NameNode. Ce server utilise le protocole TCP pour écouter et répondre aux requêtes provenant de deux ports (l un pour les accès aux informations de fichiers, l autre pour la visualisation en HTML du système). Les fichiers sont stockés par BlobSeer. Un fichier correspond à un blob. La figure 2 présente l architecture générale de BSFS. Deux threads gèrent séparément les requêtes d accès aux informations et les requêtes d affichage HTML. Ces deux threads partagent à l aide d un mutex l accès au système de fichier proprement dit. Le traitement des reqêtes est atomique : lorsque deux clients demandent la création d un fichier portant le même nom, par exemple, l un d eux se voit différer la requête. 8

10 3.2 Connexion entre Hadoop et BlobSeer Hadoop étant programmé en Java, nous avons commencé par réaliser un binding de BlobSeer pour Java. Ce binding donne accès à une classe ObjectHandler suivant le même modèle que la classe object_handler de la librairie C Objet FileSystem de Hadoop Hadoop met à notre disposition une classe abstraite FileSystem. Pour élaborer un nouveau système de fichier, nous avons créé une classe BlobSeerFileSystem héritant de FileSystem et surchargeant les principales fonctions de cette dernière : création de fichiers et de répertoires (create, mkdirs, etc.), vérification d existence (exists, etc.), récupération des métadonnées (getfilestatus, etc.), et récupération des flux d entrée-sortie sur les fichiers (append, etc.). Cet objet BlobSeerFileSystem possède, entre autre, une instance d un objet BSClient chargé de communiquer avec le NameNode. Cette classe est construite très simplement sur le modèle des clients TCP classiques : envoi de la requête, attente d une réponse, fermeture de la liaison. Le protocole utilisé sera décrit dans la section Accès aux fichiers via BSFSInputStream et BSFSOutputStream La concurrence engendrée par Hadoop au niveau du système de fichiers est de type write-onceread-many : le créateur d un fichier est le seul écrivain, il ne fait qu ajouter des données et ne reviendra pas en arrière dans cette tâche (seule une fonction append est donc nécessaire pour contrôler le flux d écriture). Puis le fichier est lu de manière concurrente par un grand nombre de clients. Cette politique est minimaliste, comparée aux capacité de BlobSeer (lecture, écriture et ajouts concurrents). La classe abstraite FileSystem ne nous demande donc qu un nombre restreint de fonctions : une fonction create capable de créer un fichier et de retourner un flux d écriture pour y accéder, une fonction read retournant un flux de lecture sur un fichier et une fonction append retournant un flux d écriture pointant à la fin du fichier (bien que cette dernière semble ne pas être utilisée par Hadoop). 3.3 Gestion des métadonnées La gestion des métadonnées se fait sur un NameNode codé en Ruby. De même que pour la partie connectant Hadoop et BlobSeer nous avions réalisé un binding Java, nous avons réalisé un binding Ruby pour le NameNode. Le langage Ruby a été ici choisi pour sa simplicité, notamment pour tout ce qui concerne les threads, la communication par sockets 6, et la gestion des tableaux, chaînes de caractères et tables de hachage. Ce server pourrait cependant être réécrit en Java pour uniformiser l ensemble du système, en terme de langages utilisés Stockage des chemins et des informations Le serveur ne travaille que sur la base de chemins absolus. Même si une vérification de validité des chemins est faite avant le traitement des requêtes, nous partons du principe que le client a déjà converti les chemins en chemins absolus, ne sachant pas quel est le répertoire courant du client. Le serveur met à disposition une table de hachage qui à tout chemin (exprimé sous la forme d une chaîne de caractères) associe un objet BSFile ou BSDir. Ces deux objets contiennent les informations relatives aux fichiers et aux répertoires : date de modification, id du blob (dans le cas d un fichier), etc. et contiennent également des fonctions membres permettant leur sérialisation dans un format simple 6 Ruby est un langage interprété orienté objet qui est surtout connu pour le framework Ruby on Rails, très utilisé dans l industrie du Web. 9

11 utilisable dans les réponses du serveur au client. Cette table pouvant être accessible par plusieurs threads en même temps, elle est protégée par un mutex Protocole client-serveur BSFS HDFS utilise des RPC pour communiquer avec son NameNode. Nous avons choisi d utiliser un protocole plus simple, basé sur l envoi de chaînes de caractères compréhensibles. De cette manière, le système a pu être testé lors de sa création en utilisant telnet. Une requête correspond donc à une chaîne de caractères terminée par un retour à la ligne (\n). Les neuf requêtes suivantes ont ainsi été définies. EXISTS:path vérifie l existence d un chemin. CREATE:path:replica:psize crée un fichier (un blob) en prenant en compte le nombre de copies et la taille des pages. BLOBID:path demande l id du blob correspondant au fichier donné. ISFILE:path vérifie si un chemin correspond ou non à un fichier. RENAME:old_path:new_path renomme un fichier ou un répertoire. DELETE:path supprime un fichier ou un répertoire. STATUS:path renvoie les informations sur le chemin. MKDIRS:path crée le répertoire demandé, en créant les répertoires parents si nécessaire. LISTDIR:path liste des informations sur les objets contenus dans un répertoire. SETSIZE:path:size indique au serveur la taille réelle du fichier. La plupart des trames de réponses sont de la forme COMMAND:TRUE ou COMMAND:FALSE. Exemple : CREATE:TRUE indique que l opération de création de fichier s est bien passée. CREATE:FALSE indique que le fichier n a pas pu être créé. Aucune précision n est donnée dans ce cas, Hadoop n ayant pas utilité de savoir si un fichier n a pas pu être créé parce qu il existait déjà ou pour une autre raison. Certaines commandes renvoient des informations plus complètes, comme STATUS, qui renvoie une réponse de la forme STATUS:FILE:time:replica:psize ou STATUS:DIR:time. À toute requête ne correspondant pas à un modèle cité ci-dessus, le serveur répond ERROR. À ce stade, il est important de noter le choix que nous avons fait concernant la création d un fichier. En effet, deux possibilités s offrent à nous : la création d un blob peut être laissée à la charge du client ou être réalisée par le serveur. Nous avons choisi de réaliser l opération en même temps que la création des métadonnées du côté du serveur. De cette manière, nous empêchons certains phénomènes d incohérence, comme l absence de métadonnées sur un blob, ou la mauvaise liaison entre un blob et ses informations sur le serveur. Ces incohérences peuvent survenir facilement lors du crash d un des agents au cours du protocole de création. En laissant au serveur le soin de créer le blob, on rend le protocole cohérent. Si BlobSeer ne répond pas, le serveur ne pourra pas créer de blob même s il parvient à créer les métadonnées. Il effacera ces métadonnées et renverra false. Si le serveur de métadonnées ne répond plus, aucun client ne pourra créer de blob qui ne serait alors pas répertorié. La primitive SETSIZE a été ajoutée pour que l écrivain puisse indiquer au server lorsqu il modifie la taille d un fichier. La taille du fichier est très importantes, puisque BlobSeer stocke un nombre entier de pages ; la taille d un fichier n est pas forcément un multiple de la taille des pages, et il faut donc savoir arrêter la lecture au bon moment. 10

12 3.3.3 Visualisation HTTP HDFS propose un service de visualisation du système via un navigateur Web. Nous avons ajouté cette même fonctionnalité au serveur de BlobSeerFS qui peut répondre aux requêtes HTTP pour renvoyer une page HTML contenant une visualisation de l arborescence. Cette fonctionnalité est très pratique pour visualiser en temps réel la structure du système sans passer par les outils FsShell de Hadoop. De plus, nous pourrions envisager la possibilité de créer et d uploader des fichiers, voire de contrôler Hadoop depuis ce service. 4 Evaluation, améliorations et perspectives de BlobSeerFS 4.1 Problèmes de cache Implémentation de caches de lecture et d écriture Dans la plupart des systèmes de fichiers, bien que les fichiers soient stockés dans des blocs d une taille définie, la lecture et l écriture se font toujours par l intermédiaire d un tampon, en général de quelques ko [10]. L implémentation des trois classes précédemment décrites étant réalisée, les premiers tests ont montré de gros problèmes de rapidité dus à de nombreux appels inutiles à BlobSeer. En effet, si on imagine un fichier stocké dans des pages de 64 Mo, une lecture du fichier effectuera une copie successive de morceaux de pages de quelques ko seulement. Le client recontactera donc Blob- Seer et rechargera 64 Mo inutilement pour chaque morceau. (Même si du point de vue de l utilisateur il est possible d envoyer une requête pour charger un segment plus petit qu une page, dans BlobSeer un nombre entier de pages est chargé). Nous avons donc repensé la gestion des flux d entrée-sorties en rendant abstraites les classes BSFSInputStream et BSFSOutputStream, et en créant deux classes filles BSFSCachedInputStream et BSFSCachedOutputStream implémentant un système de cache, de manière à contacter BlobSeer le moins possible. De plus, nous avons rendu paramétrable la taille des pages dans BlobSeer, et nous avons effectué les tests avec une taille de 8 Mo plutôt que 64 Mo. Dans les tests qui suivent, la taille du cache est égale à la taille d une page, bien que cette donnée soit également paramétrable. Un cache de lecture est donc caractérisé par un offset et une version, et reflète l état des pages correspondantes dans le blob Cohérence avec la sémantique de Hadoop Lors d une requête de lecture, un segment à lire est passé en paramètre. Si ce segment intersecte le cache, et que la version du cache est positive (i.e. le contenu du cache correspond bien à ce qui se trouve dans le blob), alors aucune requête n est envoyée à BlobSeer, le contenu du cache est simplement lu. Si la requête de lecture concerne un segment en dehors du cache, ou partiellement en dehors, il suffit de charger dans le cache la page appropriée. C est uniquement dans ce cas que Blob- Seer est contacté. Hadoop ne modifie pas les informations une fois écrite (modèle write-once-readmany, c est à dire un seul écrivain ne faisant qu ajouter des données sans réécrire sur les précédentes, puis plusieurs lecteurs en même temps) Nous n avons donc pas besoin que le cache corresponde à la dernière version connue : une version non nulle suffit. Si la fin du blob est atteinte pour une certaine version, on recharge alors la dernière version pour vérifier si d autre pages n ont pas été ajoutées. Le cache de lecture est donc en permanence cohérent avec le contenu du blob. Lors d une requête d écriture, toutes les données sont également ajoutées dans un cache d écriture. Dès que ce cache est plein, il est envoyé à BlobSeer. Un seul écrivain étant autorisé dans le modèle de Hadoop, il n y a pas de conflit d écriture. L ajout d une fonction flush appelée lors de la fermeture du flux permet de gérer le cas d une taille de fichier non-multiple de la taille des pages, en envoy- 11

13 ant au server la taille réelle du fichier et en complétant éventuellement (au choix de l utilisateur de configurer cela ou non) le cache avec un caractère particulier (nul, en général). 4.2 Tests sur Grid Upload/Download de fichiers Pour tester BSFS, nous avons déployé BlobSeer sur le Grid 5000 [1]. Le système ne permettant pour le moment que la gestion de fichiers dont la taille est un multiple de la taille des pages utilisées, les tests se résument à l upload et au download de gros fichiers depuis et vers un système de fichiers local. Le premier test consiste en l envoi et la récupération d un fichier de 1 Go par un seul client. Pour tester BSFS, BlobSeer est déployé sur sept noeuds : un version-manager, un provider-manager, trois providers et deux sdhts. Un huitième noeud contient le NameNode, et un neuvième joue le rôle du client. En comparaison, la même expérience est réalisée avec HDFS déployé sur cinq noeuds : un NameNode, un SecondaryNameNode, et trois DataNodes. Il y a donc dans les deux cas trois noeuds de stockage. Le tableau ci-dessous montre les résultats (débit de lecture et d écriture) de cette expériences. BSFS HDFS Émission 76.6 MB/s 70.0 MB/s Réception 44.1 MB/s 42.5 MB/s Dans un deuxième temps, nous cherchons à comparer l aspect concurrent des deux systèmes. Dans les deux cas, nous utilisons dix unités de stockage pour cela. Dans le cas de l écriture, trois clients écrivent en même temps un fichier de 1 Go différent. Nous comparons ensuite la lecture concurrente du même fichier. Trois clients téléchargent le même fichier de manière concurrente. Dans les deux cas le débit moyen est mesuré. Le tableau ci-dessous présente les résultats obtenus : BSFS HDFS Émission 72.1 MB/s 76.3 MB/s Réception 49.5 MB/s 50.9 MB/s Application MapReduce réelle : inverted index Nous avons ensuite comparé BSFS à HDFS dans l application inverted index. Cet algorithme est la base des systèmes d indexation sur internet. Considerant un ensemble de documents (les contenus de pages web, par exemple), l application scanne ces documents et renvoie un index, c est à dire une liste associant à chaque mot un ensemble de paires nom du document, position dans le document. C est sur la base de ce genre d index que l on peut réaliser des algorithmes optimisés dans la recherche sur le web, fonctionnant principalement par intersection d ensembles. Les fonctions map et reduce fonctionnent de la manière suivant. Map : cette fonction prend le nom d un document en entrée, en lit le contenu et crée la liste des paires intermédiaires mot, (nom du document, position). Reduce : elle prend en argument la liste des paires mot, (nom du document, position) et ne fait que l écrire dans l index, avec éventuellement un pré-traîtement de tri par nom ou par position. Le déploiement de Hadoop est effectué sur 18 nœuds d un même cluster 7. Sur ces 18 nœuds, nous lançons 18 TaskTrackers de Hadoop, et nous utilisons ces mêmes 18 nœuds pour déployer le système 7 Un cluster est un ensemble de machines de mêmes caractéristiques. 12

14 de fichiers. Dans le cas de HDFS, 17 nœuds sont utilisés pour le stockage, 1 nœud est utilisé comme NameNode. Dans le cas de BSFS, nous utilisons 12 providers, 3 nœuds sdht, un provider manager et un version manager. De plus le NameNode est déployé sur un 18 eme nœud. Contraîrement à la précédente expérience, où nous cherchions à utiliser le même nombre de nœuds gérant les données, nous cherchons ici à déployer l intégralité du système sur un même nombre de nœuds. L algorithme est lancé sur un ensemble de 20 livres numériques au format txt, provenant de la base de données du projet Gutemberg. Ces entrées remprésentent un volume d environ 16 Mo. Les résultats obtenus sont très encourageants, puisque l inverted index s est terminé en 52,2sec avec BSFS, contre 57,5sec avec HDFS Interprétation des résultats Au vu des résultats, notre objectif est atteint. En effet nous arrivons à des débits équivalents en utilisant BSFS et en utilisant HDFS pour le transfert de fichiers. BlobSeer nous apporte le système de versionning manquant à HDFS, ce genre de résultat est prometteur quant à l avenir du travail. Nous noterons que le cache de BSFS étant fixé à la taille des pages, nous ne profitons pas de tous les aspects de parallélisation des requêtes de BlobSeer. Lorsque plusieurs pages sont requises, elles sont envoyées en parallèle par tous les providers concernés. Ici nous ne demandons qu une seule page à la fois. La dernière version de BSFS permet de paramétrer le cache pour avoir une taille différente de celle des pages. De plus, un système de cache intelligent, anticipant les opérations pour charger de nouvelles pages dans un thread avant qu elles ne soient effectivement requises, serait une bonne perspective d amélioration de ce système. De nouveaux tests devront être menés afin de déterminer la taille de cache optimale. Le lecteur prendra garde à ne pas faire de rapprochement entre les deux tableaux : les résultats ayant été obtenus dans des conditions différentes (nombre de DataNodes différent, et ressources différentes sur Grid 5000). Les résultats obtenus sur l algorithme inverted index sont les premiers d une série d expérience qui devrat être réalisée pour situer BlobSeer par rapport aux systèmes existents comme HDFS. Nous envisageons à l avenir d étudier notre système sur tous les plans possibles : taille des pages, taille du cache, nombre de nœuds, etc. 4.3 Perspectives pour BSFS Gestion, vérification et sécurisation des métadonnées Actuellement, la gestion des métadonnées se fait sur le même modèle que pour HDFS, à savoir un serveur gérant les informations sur le système de fichiers. Une sauvegarde au format YAML des métadonnées est faite à chaque modification. (Dans le cas de HDFS il s agit d un serveur à part entière, le SecondaryNameNode, qui télécharge périodiquement toutes les informations et les sauvegarde). Une possible amélioration de la gestion des métadonnées consisterait en une interaction plus forte entre BlobSeer et le NameNode, permettant de vérifier la cohérence des informations (principalement l existence du blob). Un système de somme de contrôle (checksum) permettrait également d améliorer la fiabilité de notre système, d autant plus qu Hadoop prévoit les classes abstraites pour cela. Nous avons pris exemple sur HDFS et GFS dans notre modèle de gestion des informations. Ce modèle possède pourtant l inconvénient de centraliser les informations au sein d un seul nœud qui peut alors devenir un goulet d étranglement. Une solution pour empêcher cela serait de remplacer 13

15 le NameNode par une table de hachage distribuée. BlobSeer utilisant déjà une table de hachage distribuée, il serait possible d utiliser cette même table pour stocker les métadonnées concernant les fichiers. Ce principe est d ailleurs utilisé dans le système de fichiers BlobSeer-Fuse développé par Diana Moise au sein de l équipe KerData Localisation pour l optimisation du calcul Une autre optimisation possible consiste à donner à Hadoop la possibilité de localiser les pages au sein des différentes machines. Dans le modèle HDFS, chaque machine est à la fois un TaskTracker (là où se font les calculs) et un DataNode (là où sont stockées les données). HDFS communique à Hadoop la localisation des blocs de fichiers de manière à ce que les calculs soient lancés le plus proche possible des données utilisées. Ainsi, on minimise le déplacement des données. De la même manière les futures évolutions de BSFS intégreront un système de localisation des pages. Hadoop propose la classe BlockLocation dans ce but et la prochaine version de BlobSeer incluera une primitive de localisation des pages. 5 Conclusion En utilisant BlobSeer comme système de stockage sous-jacent à un système de fichiers distribué pour Hadoop, et en prenant pour modèle l architecture de HDFS en ce qui concerne la gestion des métadonnées, nous avons pu atteindre des performances équivalentes en terme de débits de lecture et d écriture des fichiers, et une amélioration des accès concurrents dans le cadre d une application réelle : l inverted index. Notre système a l avantage de disposer de capacités de versionning, qui devraient s avérer plus efficaces que le simple système de snapshot envisagé dans les futures versions de HDFS. En effet, dans notre perspective, la moindre modification de fichier est sauvegardée de manière efficace. Ces résultats encourageants, obtenus sur la plateforme Grid 5000, ont été réalisés sans pour autant que le système de cache que nous avons constaté si indispensable à l accélération des opérations ne soit optimisé. Les travaux futurs concerneront donc l optimisation des caches de lecture et d écriture. Les tests réalisés posent les premières pierres d une phase de tests systématique qui permettront de situer BlobSeer et BlobSeerFileSystem dans l univers des systèmes de fichiers distribués orientés calculs hautes performances. La mise en place d un système de localisation des données pour le lancement optimisé des calculs est également une amélioration à envisager si nous souhaitons encore gagner du terrain sur HDFS. Terminons en notant à ce titre qu Hadoop détient à l heure actuelle le Terabyte Sort Benchmark[3], qui consiste en un tri massif de données, avec un débit de TB/min. Nous avons vu l importance tenue par les systèmes de fichiers distribuées dans les opérations de traitement de gros fichiers. La question est donc : pourra-t-on à terme avoir un meilleur débit en utilisant BSFS? 14

16 References [1] Aladdin G5k. https://www.grid5000.fr/. [2] Hadoop MapReduce. [3] [4] Jeffrey Dean and Sanjay Ghemawat. MapReduce: Simplified data processing on large clusters. UC Berkley and Intel Research, [5] Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. The Google Filesystem. 19th ACM Symposium on Operating Systems Principles, Lake George, NY, [6] Bogdan Nicolae, Gabriel Antoniu, and Luc Bougé. Distributed management of massive data: an efficient fine-grain data access scheme. International Workshop on High-Performance Data Management in Grid Environments (HPDGrid), Toulouse : France, [7] Bogdan Nicolae, Gabriel Antoniu, and Luc Bougé. Enabling lock-free concurrent fine-grain access to massive distributed data: application to supernovae detection. IEEE Cluster Poster Session, Tsukuba : Japan, [8] Bogdan Nicolae, Gabriel Antoniu, and Luc Bougé. Blobseer: how to enable efficient versionning for large object storage under heavy access concurrency. 2nd International Workshop on Data Management in Peer-to-peer systems (DaMaP 2009, Saint Petersburg, Russia, March 2009), [9] Bogdan Nicolae, Gabriel Antoniu, and Luc Bougé. Enabling hight data throughput in desktop grids through decentralized data and metadata management: the BlobSeer approach [10] Andrew S. Tanenbaum. Modern Operating Systems. Prentice Hall Press, Upper Saddle River, NJ, USA, [11] Yusuke Tanimura, Yoshio Tanaka, Satoshi Sekiguchi, and Osamu Tatebe. Performance Evaluation of Gfarm Version 1.4 as a Cluster Filesystem. Proceedings of the 3rd International Workshop on Grid Computing and Applications, [12] Wittawat Tantisiriroj, Swapnil Patil, and Garth Gibson. Data-intensive file systems for Internet services: A rose by any other name... Carnegie Mellon University Parallel Data Lab Technical Report CMU-PDL , [13] Osamu Tatebe, Noriyuki Soda, Youhei Morita, Satoshi Matsuoka, and Satoshi Sekiguchi. Gfarm v2: A Grid file system that supports high-performance distributed and parallel data computing. Proceedings of the 2004 Computing in High Energy and Nuclear Physics (CHEP04), Interlaken, Switzerland,

17 A Annexe A.1 Architecture de BlobSeer : schéma FIG. 3 Architecture de BlobSeer 16

18 A.2 Procédé MapReduce Le schéma suivant a été repris de [citer les references ici] FIG. 4 Processus MapReduce de Google 17

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012 Livre blanc Solution Hadoop d entreprise d EMC Stockage NAS scale-out Isilon et Greenplum HD Par Julie Lockner et Terri McClure, Analystes seniors Février 2012 Ce livre blanc d ESG, qui a été commandé

Plus en détail

Introduction aux Systèmes Distribués. Introduction générale

Introduction aux Systèmes Distribués. Introduction générale Introduction aux Systèmes Distribués Licence Informatique 3 ème année Introduction générale Eric Cariou Université de Pau et des Pays de l'adour Département Informatique Eric.Cariou@univ-pau.fr 1 Plan

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

Gestion répartie de données - 1

Gestion répartie de données - 1 Gestion répartie de données - 1 Sacha Krakowiak Université Joseph Fourier Projet Sardes (INRIA et IMAG-LSR) http://sardes.inrialpes.fr/~krakowia Gestion répartie de données Plan de la présentation Introduction

Plus en détail

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan 1 Sommaire 1. Google en chiffres 2. Les raisons d être de GFS 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan 4. Les Evolutions et Alternatives

Plus en détail

http://blog.khaledtannir.net

http://blog.khaledtannir.net Algorithme de parallélisations des traitements Khaled TANNIR Doctorant CIFRE LARIS/ESTI http://blog.khaledtannir.net these@khaledtannir.net 2e SéRI 2010-2011 Jeudi 17 mars 2011 Présentation Doctorant CIFRE

Plus en détail

IFT630 Processus concurrents et parallélisme. Projet final Rapport. Présenté à Gabriel Girard

IFT630 Processus concurrents et parallélisme. Projet final Rapport. Présenté à Gabriel Girard IFT630 Processus concurrents et parallélisme Projet final Rapport Présenté à Gabriel Girard par Alexandre Tremblay (06 805 200) Pierre-François Laquerre (05 729 544) 15 avril 2008 Introduction Après plusieurs

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Certificat Big Data - Master MAthématiques

Certificat Big Data - Master MAthématiques 1 / 1 Certificat Big Data - Master MAthématiques Master 2 Auteur : Sylvain Lamprier UPMC Fouille de données et Medias Sociaux 2 / 1 Rich and big data: Millions d utilisateurs Millions de contenus Multimedia

Plus en détail

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE I N T E RS Y S T E M S INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE David Kaaret InterSystems Corporation INTERSySTEMS CAChé CoMME ALTERNATIvE AUx BASES de données RéSIdENTES

Plus en détail

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul Big Data Les problématiques liées au stockage des données et aux capacités de calcul Les problématiques liées au Big Data La capacité de stockage - Traitement : Ponctuel ou permanent? - Cycle de vie des

Plus en détail

Optimisation des performances du programme mpiblast pour la parallélisation sur grille de calcul

Optimisation des performances du programme mpiblast pour la parallélisation sur grille de calcul Optimisation des performances du programme mpiblast pour la parallélisation sur grille de calcul Mohieddine MISSAOUI * Rapport de Recherche LIMOS/RR-06-10 20 novembre 2006 * Contact : missaoui@isima.fr

Plus en détail

Application web pour la coordination de trajets piétons jusqu aux transports en commun

Application web pour la coordination de trajets piétons jusqu aux transports en commun Application web pour la coordination de trajets piétons jusqu aux transports en commun PROJET DE FIN D ETUDES ASR Etudiants : Encadrants : Oumar Sharif DAMBABA Clément BERTHOU Olivier BERGER Christian

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

«clustering» et «load balancing» avec Zope et ZEO

«clustering» et «load balancing» avec Zope et ZEO IN53 Printemps 2003 «clustering» et «load balancing» avec Zope et ZEO Professeur : M. Mignot Etudiants : Boureliou Sylvain et Meyer Pierre Sommaire Introduction...3 1. Présentation générale de ZEO...4

Plus en détail

Le service FTP. M.BOUABID, 04-2015 Page 1 sur 5

Le service FTP. M.BOUABID, 04-2015 Page 1 sur 5 Le service FTP 1) Présentation du protocole FTP Le File Transfer Protocol (protocole de transfert de fichiers), ou FTP, est un protocole de communication destiné à l échange informatique de fichiers sur

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Sommaire Introduction... 3 Le but du projet... 3 Les moyens utilisés... 3 Informations sur le client FTP... 4 Pourquoi une version Linux et

Sommaire Introduction... 3 Le but du projet... 3 Les moyens utilisés... 3 Informations sur le client FTP... 4 Pourquoi une version Linux et Licence 3 CDA 2010/2011 Client FTP Java Maxence Jaouan Sommaire Introduction... 3 Le but du projet... 3 Les moyens utilisés... 3 Informations sur le client FTP... 4 Pourquoi une version Linux et Windows?...

Plus en détail

KARMA Le système de Revenue Management d'air France KLM avec Hadoop

KARMA Le système de Revenue Management d'air France KLM avec Hadoop KARMA Le système de Revenue Management d'air France KLM avec Hadoop Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 16 Décembre 2014 Martial AYAS maayas@airfrance.fr 2 Agenda 1. Présentation

Plus en détail

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS Sauvegarde collaborative entre pairs 1 Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS Sauvegarde collaborative entre pairs 2 Introduction Pourquoi pair à pair? Utilisation de ressources

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions? Introduction Quelles sont les défis actuels

Plus en détail

Protection des données avec les solutions de stockage NETGEAR

Protection des données avec les solutions de stockage NETGEAR Protection des données avec les solutions de stockage NETGEAR Solutions intelligentes pour les sauvegardes de NAS à NAS, la reprise après sinistre pour les PME-PMI et les environnements multi-sites La

Plus en détail

Gestion d une école. FABRE Maxime FOUCHE Alexis LEPOT Florian

Gestion d une école. FABRE Maxime FOUCHE Alexis LEPOT Florian Gestion d une école FABRE Maxime 2015 Sommaire Introduction... 2 I. Présentation du projet... 3 1- Lancement de l application... 3 Fonctionnalités réalisées... 4 A. Le serveur... 4 1 - Le réseau... 4 2

Plus en détail

EMC DATA DOMAIN OPERATING SYSTEM

EMC DATA DOMAIN OPERATING SYSTEM EMC DATA DOMAIN OPERATING SYSTEM Au service du stockage de protection EMC AVANTAGES CLÉS Déduplication évolutive ultrarapide Jusqu à 31 To/h de débit Réduction des besoins en stockage de sauvegarde de

Plus en détail

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau Nicolas Niclausse - INRIA Sophia Antipolis Méditerranée - projet Aladdin Grid 5000 2 juillet

Plus en détail

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration Julien MATHEVET Alexandre BOISSY GSID 4 Rapport Load Balancing et migration Printemps 2001 SOMMAIRE INTRODUCTION... 3 SYNTHESE CONCERNANT LE LOAD BALANCING ET LA MIGRATION... 4 POURQUOI FAIRE DU LOAD BALANCING?...

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

WebFTP Un client Web sécurisé pour FTP

WebFTP Un client Web sécurisé pour FTP WebFTP Un client Web sécurisé pour FTP Jirung Albert SHIH, Shih@math.Jussieu.fr Université Paris 7 JRES 2001 Introduction Nous allons dans ce document présenter une solution mise en œuvre sur le réseau

Plus en détail

FICHE PRODUIT COREYE CACHE Architecture technique En bref Plateforme Clients Web Coreye Cache applicative Références Principe de fonctionnement

FICHE PRODUIT COREYE CACHE Architecture technique En bref Plateforme Clients Web Coreye Cache applicative Références Principe de fonctionnement COREYE CACHE Solution d absorption de charge pour une disponibilité et une performance optimales des applications Web En bref Architecture technique La plateforme Coreye Cache délivre la majeure partie

Plus en détail

Créer et partager des fichiers

Créer et partager des fichiers Créer et partager des fichiers Le rôle Services de fichiers... 246 Les autorisations de fichiers NTFS... 255 Recherche de comptes d utilisateurs et d ordinateurs dans Active Directory... 262 Délégation

Plus en détail

Gestion collaborative de documents

Gestion collaborative de documents Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,

Plus en détail

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing Les Clusters Les Mainframes Les Terminal Services Server La virtualisation De point de vue naturelle, c est le fait de regrouper

Plus en détail

Présentation. Logistique. Introduction

Présentation. Logistique. Introduction Présentation Diapo01 Je m appelle Michel Canneddu. Je développe avec 4D depuis 1987 et j exerce en tant qu indépendant depuis 1990. Avant de commencer, je tiens à remercier mes parrains Jean-Pierre MILLIET,

Plus en détail

SDN / Open Flow dans le projet de recherche de GEANT (GN3+)

SDN / Open Flow dans le projet de recherche de GEANT (GN3+) SDN / Open Flow dans le projet de recherche de GEANT (GN3+) Xavier Jeannin GIP RENATER 23-25, rue Daviel 75013 PARIS Résumé Dans le cadre du projet GN3+ (avril 2013 Mars 2015), parmi la tâche orientée

Plus en détail

SQL Server Installation Center et SQL Server Management Studio

SQL Server Installation Center et SQL Server Management Studio SQL Server Installation Center et SQL Server Management Studio Version 1.0 Grégory CASANOVA 2 SQL Server Installation Center et SQL Server Management Studio [03/07/09] Sommaire 1 Installation de SQL Server

Plus en détail

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES FAMILLE EMC VPLEX Disponibilité continue et mobilité des données dans et entre les datacenters DISPONIBLITÉ CONTINUE ET MOBILITÉ DES DONNÉES DES APPLICATIONS CRITIQUES L infrastructure de stockage évolue

Plus en détail

WHITE PAPER. Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis

WHITE PAPER. Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis Copyright Acronis, Inc. 2000 2009 Table des matières Résumé... 3 Qu est-ce que la déduplication?... 4 Déduplication au

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

NVU, Notepad++ (ou le bloc-note), MySQL, PhpMyAdmin. HTML, PHP, cas d utilisation, maquettage, programmation connaissances en HTML, PHP et SQL

NVU, Notepad++ (ou le bloc-note), MySQL, PhpMyAdmin. HTML, PHP, cas d utilisation, maquettage, programmation connaissances en HTML, PHP et SQL Prise en main de NVU et Notepad++ (conception d application web avec PHP et MySql) Propriétés Intitulé long Formation concernée Matière Présentation Description Conception de pages web dynamiques à l aide

Plus en détail

Architecture d un service de partage de données modifiables sur une infrastructure pair-à-pair

Architecture d un service de partage de données modifiables sur une infrastructure pair-à-pair Architecture d un service de partage de données modifiables sur une infrastructure pair-à-pair Mathieu Jan Mathieu.Jan@irisa.fr Superviseurs : Gabriel Antoniu, Luc Bougé, Thierry Priol {Gabriel.Antoniu,Luc.Bouge,Thierry.Priol}@irisa.fr

Plus en détail

FAMILLE EMC RECOVERPOINT

FAMILLE EMC RECOVERPOINT FAMILLE EMC RECOVERPOINT Solution économique de protection des données et de reprise après sinistre en local et à distance Avantages clés Optimiser la protection des données et la reprise après sinistre

Plus en détail

NFP111 Systèmes et Applications Réparties

NFP111 Systèmes et Applications Réparties NFP111 Systèmes et Applications Réparties 1 de 46 NFP111 Systèmes et Applications Réparties Cours 2 - Les appels de procédure distants (Partie 1) Claude Duvallet Université du Havre UFR Sciences et Techniques

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Julien Gerlier Siman Chen Rapport de projet de fin d étude ASR 2010/2011 Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Encadrants

Plus en détail

OVERLAND STORAGE STOCKAGE SIMPLE ET SECURISE Pour baisser les coûts et réduire la complexité des systèmes.

OVERLAND STORAGE STOCKAGE SIMPLE ET SECURISE Pour baisser les coûts et réduire la complexité des systèmes. DX-Series Avant Propos OVERLAND STORAGE STOCKAGE SIMPLE ET SECURISE Pour baisser les coûts et réduire la complexité des systèmes. Depuis maintenant 30 ans, Overland Storage occupe une place de fournisseur

Plus en détail

Système de stockage IBM XIV Storage System Description technique

Système de stockage IBM XIV Storage System Description technique Système de stockage IBM XIV Storage System Description technique Système de stockage IBM XIV Storage System Le stockage réinventé Performance Le système IBM XIV Storage System constitue une solution de

Plus en détail

Unitt www.unitt.com. Zero Data Loss Service (ZDLS) La meilleure arme contre la perte de données

Unitt www.unitt.com. Zero Data Loss Service (ZDLS) La meilleure arme contre la perte de données Zero Data Loss Service (ZDLS) La meilleure arme contre la perte de données La meilleure protection pour les données vitales de votre entreprise Autrefois, protéger ses données de manière optimale coûtait

Plus en détail

HAUTE DISPONIBILITE & CONTINUITÉ DE SERVICE MULTI PLATES FORMES. Simple & Performant. www.quick software line.com

HAUTE DISPONIBILITE & CONTINUITÉ DE SERVICE MULTI PLATES FORMES. Simple & Performant. www.quick software line.com HAUTE DISPONIBILITE & CONTINUITÉ DE SERVICE MULTI PLATES FORMES Haute disponibilité pour Serveurs Ouverts (Windows, UNIX, AIX, Linux, VMware (Windows, UNIX, AIX, Linux, VMware ) Généralités Quelques définitions

Plus en détail

Consolidation de stockage

Consolidation de stockage (Information sur la technologie Sto-2003-2) Wolfgang K. Bauer Spécialiste stockage Centre de compétence transtec AG Waldhörnlestraße 18 D-72072 Tübingen Allemagne TABLE DES MATIÈRES 1 RÉSUMÉ...3 2 INTRODUCTION...4

Plus en détail

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information. PACBASE «Interrogez le passé, il répondra présent.». Le Module e-business Les entreprises doivent aujourd hui relever un triple défi. D une part, elles ne peuvent faire table rase de la richesse contenue

Plus en détail

CORBA haute performance

CORBA haute performance CORBA haute performance «CORBA à 730Mb/s!» Alexandre DENIS PARIS/IRISA, Rennes Alexandre.Denis@irisa.fr Plan Motivations : concept de grille de calcul CORBA : concepts fondamentaux Vers un ORB haute performance

Plus en détail

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE Mémoires 2010-2011 www.euranova.eu MÉMOIRES ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE Contexte : Aujourd hui la plupart des serveurs d application JEE utilise des niveaux de cache L1

Plus en détail

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet Beat Wolf 1, Pierre Kuonen 1, Thomas Dandekar 2 1 icosys, Haute École Spécialisée de Suisse occidentale,

Plus en détail

Les systèmes RAID Architecture des ordinateurs

Les systèmes RAID Architecture des ordinateurs METAIS Cédric 2 ème année Informatique et réseaux Les systèmes RAID Architecture des ordinateurs Cédric METAIS ISMRa - 1 - LES DIFFERENTS SYSTEMES RAID SOMMAIRE INTRODUCTION I LES DIFFERENTS RAID I.1 Le

Plus en détail

EMC DATA DOMAIN HYPERMAX

EMC DATA DOMAIN HYPERMAX EMC DATA DOMAIN HYPERMAX Optimisation du stockage de protection EMC AVANTAGES CLÉS Déduplication évolutive et ultrarapide Jusqu à 58,7 To/h de débit Réduit de 10 à 30 fois le stockage de sauvegarde, et

Plus en détail

Technologie de déduplication de Barracuda Backup. Livre blanc

Technologie de déduplication de Barracuda Backup. Livre blanc Technologie de déduplication de Barracuda Backup Livre blanc Résumé Les technologies de protection des données jouent un rôle essentiel au sein des entreprises et ce, quelle que soit leur taille. Toutefois,

Plus en détail

La surveillance réseau des Clouds privés

La surveillance réseau des Clouds privés La surveillance réseau des Clouds privés Livre blanc Auteurs : Dirk Paessler, CEO de Paessler AG Gerald Schoch, Rédactrice technique de Paessler AG Publication : Mai 2011 Mise à jour : Février 2015 PAGE

Plus en détail

Administration réseau Introduction

Administration réseau Introduction Administration réseau Introduction A. Guermouche A. Guermouche Cours 1 : Introduction 1 Plan 1. Introduction Organisation Contenu 2. Quelques Rappels : Internet et le modèle TCP/ Visage de l Internet Le

Plus en détail

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE ORACLE 10g Découvrez les nouveautés Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE Le Grid Computing d Entreprise Pourquoi aujourd hui? Principes et définitions appliqués au système d information Guy Ernoul,

Plus en détail

10 tâches d administration simplifiées grâce à Windows Server 2008 R2. 1. Migration des systèmes virtuels sans interruption de service

10 tâches d administration simplifiées grâce à Windows Server 2008 R2. 1. Migration des systèmes virtuels sans interruption de service 10 tâches d administration simplifiées grâce à Windows Server 2008 R2 Faire plus avec moins. C est l obsession depuis plusieurs années de tous les administrateurs de serveurs mais cette quête prend encore

Plus en détail

À qui s adresse ce livre? Suppléments web. Remerciements

À qui s adresse ce livre? Suppléments web. Remerciements Avant propos Le marché de la géolocalisation est en pleine effervescence, comme le prouve l annonce de lancement par Facebook, en août 2010, de son service Places, qui permet de partager sa position géographique

Plus en détail

Fiche Technique. Cisco Security Agent

Fiche Technique. Cisco Security Agent Fiche Technique Cisco Security Agent Avec le logiciel de sécurité de point d extrémité Cisco Security Agent (CSA), Cisco offre à ses clients la gamme de solutions de protection la plus complète qui soit

Plus en détail

Network musical jammin

Network musical jammin Network musical jammin Projet PC2R - 2015 Pour ce projet, nous allons réaliser une application permettant d effectuer des jams sessions en temps-réel entre des musiciens répartis à travers le monde. Le

Plus en détail

Le Ro le Hyper V Troisie me Partie Haute disponibilite des machines virtuelles

Le Ro le Hyper V Troisie me Partie Haute disponibilite des machines virtuelles Le Ro le Hyper V Troisie me Partie Haute disponibilite des machines virtuelles Microsoft France Division DPE Table des matières Présentation... 2 Objectifs... 2 Pré requis... 2 Quelles sont les principales

Plus en détail

Serveurs de noms Protocoles HTTP et FTP

Serveurs de noms Protocoles HTTP et FTP Nils Schaefer Théorie des réseaux (EC3a) Serveurs de noms Protocoles HTTP et FTP Théorie des réseaux (EC3a) Séance 7 Pourquoi DNS? Internet est une structure hiérarchique et arborescente de réseaux et

Plus en détail

Nos offres de stages pour 2013

Nos offres de stages pour 2013 Nos offres de stages pour 2013 Les sujets de stage que nous vous proposons sont des projets à très forte valeur ajoutée, mêlant recherche amont, algorithmique et implémentation. Ils touchent à des domaines

Plus en détail

Cours Bases de données

Cours Bases de données Informations sur le cours Cours Bases de données 9 (10) séances de 3h Polycopié (Cours + TD/TP) 3 année (MISI) Antoine Cornuéjols www.lri.fr/~antoine antoine.cornuejols@agroparistech.fr Transparents Disponibles

Plus en détail

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr 6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr Interface d un SGF Implémentation d un SGF Gestion de la correspondance entre la structure logique et la structure

Plus en détail

Technologies du Web. Créer et héberger un site Web. Pierre Senellart. Page 1 / 26 Licence de droits d usage

Technologies du Web. Créer et héberger un site Web. Pierre Senellart. Page 1 / 26 Licence de droits d usage Technologies du Web Créer et héberger un site Web Page 1 / 26 Plan Planification Choisir une solution d hébergement Administration Développement du site Page 2 / 26 Cahier des charges Objectifs du site

Plus en détail

Fonctions. Solution professionnelle pour le stockage de données, la synchronisation multi- plateformes et la collaboration

Fonctions. Solution professionnelle pour le stockage de données, la synchronisation multi- plateformes et la collaboration Fonctions Synchronisation dynamique des fichiers : mise à jour automatique des documents sur tous les équipements Partage et collaboration : partage simple des fichiers entre employés, clients et partenaires

Plus en détail

Robin Favre Fabien Touvat. Polytech Grenoble RICM 3 ème Année Vendredi 21 Novembre 2008 Etude d Approfondissement Réseau

Robin Favre Fabien Touvat. Polytech Grenoble RICM 3 ème Année Vendredi 21 Novembre 2008 Etude d Approfondissement Réseau Robin Favre Fabien Touvat Polytech Grenoble RICM 3 ème Année Vendredi 21 Novembre 2008 Etude d Approfondissement Réseau Plan I. Système distribué A. Définition B. Exemples II. III. Stockage distribué A.

Plus en détail

Contribution à la mise en service d'une ferme de serveurs connectée à une grille de calcul pour la physique des hautes énergies

Contribution à la mise en service d'une ferme de serveurs connectée à une grille de calcul pour la physique des hautes énergies Contribution à la mise en service d'une ferme de serveurs connectée à une grille de calcul pour la physique des hautes énergies Charlier Fabrice 2è licence en informatique Année Académique 2005-2006 Plan

Plus en détail

Programmation Web. Madalina Croitoru IUT Montpellier

Programmation Web. Madalina Croitoru IUT Montpellier Programmation Web Madalina Croitoru IUT Montpellier Organisation du cours 4 semaines 4 ½ h / semaine: 2heures cours 3 ½ heures TP Notation: continue interrogation cours + rendu à la fin de chaque séance

Plus en détail

Surveiller et contrôler vos applications à travers le Web

Surveiller et contrôler vos applications à travers le Web Surveiller et contrôler vos applications à travers le Web Valérie HELLEQUIN Ingénieur d application Internet permet aujourd hui la diffusion d informations et de ressources que chaque utilisateur peut

Plus en détail

Version de novembre 2012, valable jusqu en avril 2013

Version de novembre 2012, valable jusqu en avril 2013 Pré requis techniques pour l installation du logiciel complet de gestion commerciale WIN GSM en version hyper File en configuration Windows Terminal Serveur Version de novembre 2012, valable jusqu en avril

Plus en détail

Guide Utilisateur Transnet

Guide Utilisateur Transnet Guide Utilisateur Transnet > Sommaire 1 I Introduction 3 2 I Les premiers pas sous Transnet 4 2.1 Configuration informatique nécessaire pour accéder à Transnet 4 2.2 Initialisation de Transnet 4 3 I Téléchargement

Plus en détail

Sun Java System Service Registry Notes de version pour HP-UX

Sun Java System Service Registry Notes de version pour HP-UX Sun Java System Service Registry Notes de version pour HP-UX Version 3 2005Q4 Numéro de référence 819-5997-10 Ce document fournit les informations suivantes pour Service Registry 3 2005Q4. Vous trouverez

Plus en détail

SAP HANA: note de synthèse

SAP HANA: note de synthèse Préface: Au cœur des nombreux défis que doivent relever les entreprises, l informatique se doit de soutenir les évolutions, d aider au développement de nouveaux avantages concurrentiels tout en traitant

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

Présentation SERVEUR EN CLUSTER. Clinkast 4 Avenue du Général de Gaulle F 92360 Meudon (+33) 6 20 44 86 95 (+33) 1 46 30 24 13

Présentation SERVEUR EN CLUSTER. Clinkast 4 Avenue du Général de Gaulle F 92360 Meudon (+33) 6 20 44 86 95 (+33) 1 46 30 24 13 Présentation SERVEUR D APPLICATIONS EN CLUSTER Description Un cluster est un ensemble d instances de serveurs d applications combinant haute disponibilité et forte évolutivité. Contrairement à un système

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Évaluation d une architecture de stockage RDF distribuée

Évaluation d une architecture de stockage RDF distribuée Évaluation d une architecture de stockage RDF distribuée Maeva Antoine 1, Françoise Baude 1, Fabrice Huet 1 1 INRIA MÉDITERRANÉE (ÉQUIPE OASIS), UNIVERSITÉ NICE SOPHIA-ANTIPOLIS, I3S CNRS prénom.nom@inria.fr

Plus en détail

Introduc)on à Map- Reduce. Vincent Leroy

Introduc)on à Map- Reduce. Vincent Leroy Introduc)on à Map- Reduce Vincent Leroy Sources Apache Hadoop Yahoo! Developer Network Hortonworks Cloudera Prac)cal Problem Solving with Hadoop and Pig Les cours seront mis en ligne sur hhp://membres.liglab.fr/leroy/

Plus en détail

Accéder à ZeCoffre via FTP

Accéder à ZeCoffre via FTP Accéder à ZeCoffre via FTP Table des matières Introduction... 2 Qu est-ce que FTP... 3 Comment se connecter à ZeCoffre via FTP... 4 Connexion FTP depuis Windows / Linux / Mac OS X... 5 Connexion FTP depuis

Plus en détail

Cisco Certified Network Associate

Cisco Certified Network Associate Cisco Certified Network Associate Version 4 Notions de base sur les réseaux Chapitre 3 01 Quel protocole de la couche application sert couramment à prendre en charge les transferts de fichiers entre un

Plus en détail

Le cloud computing au service des applications cartographiques à haute disponibilité

Le cloud computing au service des applications cartographiques à haute disponibilité Le cloud computing au service des applications cartographiques à haute disponibilité Claude Philipona Les Rencontres de SIG-la-Lettre, Mai 2010 camptocamp SA / www.camptocamp.com / info@camptocamp.com

Plus en détail

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping Chapitre V : La gestion de la mémoire Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping Introduction Plusieurs dizaines de processus doivent se partager

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main PSIA :Plates-formes pour les systèmes informatiques avancés TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main Jonathan Lejeune, Julien Sopena Contexte Le modèle MapReduce

Plus en détail

Architecture Constellio

Architecture Constellio Architecture Constellio Date : 12 novembre 2013 Version 3.0 Contact : Nicolas Bélisle nicolas.belisle@doculibre.com 5146555185 1 Table des matières Table des matières... 2 Présentation générale... 4 Couche

Plus en détail