Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Dimension: px
Commencer à balayer dès la page:

Download "Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce"

Transcription

1 Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce Algorithmes : K-means et Apriori Maria Malek LARIS-EISTI

2 1 Cloud Computing et MapReduce Introduction à MapReduce 2 L algorithme k-means : version séquentielle Implémentation de K-means avec une architecture MIMD Implémentation de K-means sur MapReduce 3 Description de l algorithme Apriori Implémentation de Apriori sur MapReduce Implémentation de Apriori sur MATE! 4

3 Cloud Computing Introduction à MapReduce Le cloud computing : déporter sur des serveurs distants des stockages et des traitements informatiques traditionnellement localisés sur des serveurs locaux ou sur le poste de l utilisateur. le cloud computing est l accès via le réseau, à la demande et en libre-service à des ressources informatiques virtualisées et mutualisées. Le cloud a émergé principalement pour répondre aux exigences de continuité et de qualité du service : l application, qui est en contact avec le client ; la plate-forme, qui exécute l application ; l infrastructure, qui est le support de la plate-forme ; les données, qui sont fournies sur demande.

4 MapReduce Cloud Computing et MapReduce Introduction à MapReduce MapReduce est un framework de développement informatique, introduit par Google, dans lequel sont effectués des calculs parallèles, et souvent distribués, de données potentiellement très volumineuses ( Terabyte et plus). Les terminologies de Map et Reduce, sont empruntées aux langages de programmation fonctionnelle utilisés pour leur construction. MapReduce s articule en deux étapes (fonctions) : Map : prend en argument un enregistrement, calcule une liste de couples clef/valeur intermédiaires. Reduce : prend en argument une clef et la liste des valeurs intermédiaire générées par les différentes instances de la fonction Map, effectue un traitement.

5 MapReduce : Schéma Introduction à MapReduce

6 MapReduce : Caractéristiques Introduction à MapReduce MapReduce permet de répartir la charge sur un grand nombre de serveurs. Distribution haut niveau avec une abstraction quasi-totale du la couche matérielle (scalable-friendly). MapReduce gère entièrement le cluster et la répartition de la charge. Cela permet de faire du calcul distribué dans un environnement Cloud. Plusieurs implémentations de ce framework dans différents langages (C++, Java, Python, etc.) et par de nombreux organismes (Google, Yahoo, etc.).

7 MapReduce : Exemple-1 Introduction à MapReduce Fréquences des mots dans un ensemble de documents. map(string key, String value) : // key : document name // value : document contents for each word w in value : EmitIntermediate(w, 1 ) ; reduce(string key, Iterator values) : // key : a word // values : a list of counts int result = 0 ; for each v in values : result += ParseInt(v) ; Emit(AsString(result)) ;

8 MapReduce : Exemple-1 Introduction à MapReduce

9 MapReduce : Exemple-2 Introduction à MapReduce La commande < grep Motif > La fonction Map renvoie un enregistrement s il match le motif. La fonction Reduce est la fonction identité, son rôle est juste d écrire les valeurs intermédiaires sur la sortie. Caractéristiques 1To de données serveurs. Les données sont découpés en morceaux d environ 64Mo. Un seul serveur execute la reduction (afin d avoir les résultats dans un seul fichier).

10 MapReduce : Exemple-2 Introduction à MapReduce La commande< grep Motif > La fonction Map renvoie un enregistrement s il match le motif. La fonction Reduce est la fonction identité, son rôle est juste d écrire les valeurs intermédiaires sur la sortie. Performances Démarrage relativement lent dû au temps de propagation du programme (1mn). Les Maps sont tous finis au bout d environ 80s. L opération se termine en 150s. On atteint un pic de lecture de 30Go/s.

11 Hadoop et Mahout Introduction à MapReduce Hadoop Une implémentation open source de MapReduce en Java, Projet Apache. Yahoo, Amazon (cloud provider) proposent MapReduce en utilisant Hadoop. Mahout Une libraire Java : implémentation de certains algorithmes basée sur Hadoop. Algorithmes de recommandation, de Data mining : k-means, classeur bayésien, réseaux de neurones, FPGrowth, etc.

12 Les centres mobiles : Illustration L algorithme k-means : version séquentielle Implémentation de K-means avec une architecture MIMD Implémentation de K-means sur MapReduce

13 K-means : Algorithme séquentiel L algorithme k-means : version séquentielle Implémentation de K-means avec une architecture MIMD Implémentation de K-means sur MapReduce 1 Affecter aléatoirement chaque exemple à une des k catégories s(k). 2 Calculer le centre de chaque catégorie c(k). 3 Tantque les catégories ne sont pas stables faire 1 Pour chaque exemples exemple(i) faire calculer la distance entre exemple(i) et tous les autres centres c(j). trouver j* telque c(j*) soit le plus proche de exemple(i) affecter exemple(i)à la catégorie j*. Recalculer les centres des catégories changées.

14 H-means : Algorithme séquentiel L algorithme k-means : version séquentielle Implémentation de K-means avec une architecture MIMD Implémentation de K-means sur MapReduce 1 Affecter aléatoirement chaque exemple à une des k catégories s(k). 2 Calculer le centre de chaque catégorie c(k). 3 Tantque les catégories ne sont pas stables faire 1 Pour chaque exemples exemple(i) faire calculer la distance entre exemple(i) et tous les autres centres c(j). trouver j* telque c(j*) soit le plus proche de exemple(i) affecter exemple(i) à la catégorie j*. 2 Recalculer les centres des catégories changées.

15 Architecture MIMD L algorithme k-means : version séquentielle Implémentation de K-means avec une architecture MIMD Implémentation de K-means sur MapReduce Architectures : MIMD (mémoire distribué). Un ensemble de processeurs qui travaillent simultanément. Chaque processeur a une mémoire. Diviser le problème en plusieurs sous-problèmes. Distribuer certaines données et dupliquer d autres. Impliquer la communication dans le calcul.

16 H-means : Algorithme parallèle L algorithme k-means : version séquentielle Implémentation de K-means avec une architecture MIMD Implémentation de K-means sur MapReduce 1 Distribuer les données de S sur p processeurs 2 Pour chaque processeur k p {0, 1,.., p 1} (en parallèle) Affecter aléatoirement chaque exemple dans le processeur k p à une catégorie 3 Calculer les centres (algorithme parallèle). les centres sont dupliqués sur les k processeurs 4 les centres ne sont pas stables 1 Pour chaque exemple exemle(i) dans le processeur k p Calculer les distance entre exemple(i) et tous les centres. Choisir k telque le centre k est le plus proche de l exemple exemple(i) Affecter exemple(i) à la catégorie k

17 L algorithme k-means : version séquentielle Implémentation de K-means avec une architecture MIMD Implémentation de K-means sur MapReduce Algorithme parallèle pour le calcul des centres 1 Pour chaque processeur k p {0, 1,.., p 1} (en parallèle) 1 Calculer la somme partielle des exemples appartenant à la même catégorie. 2 Envoyer la somme partielle aux autres processeurs. 3 Recevoir la somme partielle des autres processeurs. 4 pour chaque catégorie Effectuer la somme des sommes partielles. Diviser la somme totale par le nombre d exemple dans la catégorie.

18 L algorithme k-means : version séquentielle Implémentation de K-means avec une architecture MIMD Implémentation de K-means sur MapReduce Implémentation de K-means sur MapReduce-1 Source : horkicky.blogspot.com

19 L algorithme k-means : version séquentielle Implémentation de K-means avec une architecture MIMD Implémentation de K-means sur MapReduce Implémentation de K-means sur MapReduce-2 kmeans(data) initial centroids = pick(k, data) upload(data) writetos3(initial centroids) old centroids = initial centroids while (true) map reduce() new centroids = readfroms3() if change(new centroids, old centroids) < delta break else old centroids = new centroids result = readfroms3() return result Source : horkicky.blogspot.com

20 Les règles d association - Définition Description de l algorithme Apriori Implémentation de Apriori sur MapReduce Implémentation de Apriori sur MATE! Ensemble d items fréquents : motif fréquent dans la base de transactions (calcul de support). minsupp est un paramètre Trouver tous les ensembles d items fréquents de longueurs différentes. Trouver les règles d associations à partir de l ensemble d items fréquents (calcul de la confiance). minconf est un paramètre. Exemple 1 Si ABCD est un ensemble d items fréquents 2 Construire la règle AB CD ssi support(abcd)/support(ab) minconf

21 Les règles d association - Exemple Description de l algorithme Apriori Implémentation de Apriori sur MapReduce Implémentation de Apriori sur MATE! Base de transactions Résultats avec minsupp=2 : Items fréquents : L 1 = {1, 2, 3, 5}, L 2 = {13, 23, 25, 35},L 3 = {235}. Règles d association : R 1 : 2 35 avec conf = 2 3, R 2 : 3 5 avec conf = 2 3, etc.

22 Les règles d association - Algorithmes Description de l algorithme Apriori Implémentation de Apriori sur MapReduce Implémentation de Apriori sur MATE! Terminologie L k C k est l ensemble constitué des sous-ensembles d items fréquents de longueur k. est un ensemble constitué des sous-ensembles d items candidats de longueur k, notons bien que L k C k Propriété Soit X k un sous-ensemble d items fréquent, tous les sous-ensembles d items contenus dans X k et qui soient de longueurs inférieurs à k sont fréquents. 1 Si ABCD est un ensemble d items fréquent 2 ABC,ABD, BCD, AB,AC,BC,BD,CD,A,B,C,D les sont aussi.

23 Les règles d association - Apriori Description de l algorithme Apriori Implémentation de Apriori sur MapReduce Implémentation de Apriori sur MATE! Calculer L 1 k 2 TantQue L k 1 <> φ 1 C k apriori gen(l k 1 ) 2 TantQue t D 1 C t sousens(c k, t) 2 TantQue c C t 1 c.count++ 3 L k {c C k c.count minsup} 4 k k + 1 RETOURNER k L k

24 Les règles d association - Apriori - Suite Description de l algorithme Apriori Implémentation de Apriori sur MapReduce Implémentation de Apriori sur MATE! L algorithme apriori-gen, la phase joindre : 1 insert into C k 2 select p[1], p[2],..p[k 1], q[k 1] 3 from p,q 4 Where p[1] = q[1]..p[k 2] = q[k 2],p[k 1] < q[k 1] la phase effacer 1 Si L 3 = {{123}, {124}, {134}, {135}, {234}}, 2 la phase joindre donne comme résultat C 4 = {{1234}, {1345}} 3 la phase effacer donne le résultat : C 4 = {{1234} L algorithme sousens calcule le sous ensemble C t C k,

25 Description de l algorithme Apriori Implémentation de Apriori sur MapReduce Implémentation de Apriori sur MATE! Implémentation de Apriori sur MapReduce -1 Map void map(void* map data) for each transaction in map data for (i = 0 ; i < candidates size ; i++) match = false itemset = candidates[i] match = itemset exists(transaction, itemset) if (match == true ) emit intermediate(itemset, one) Reduce void reduce(void* key, void** vals, int vals length) count = 0 for (i = 0 ; i < vals length ; i++) count+ = *vals[i] if ( count support level * num transactions)/100.0 emit(key, count)

26 Description de l algorithme Apriori Implémentation de Apriori sur MapReduce Implémentation de Apriori sur MATE! Implémentation de Apriori sur MapReduce -2 Mise à jour de la liste des candidats void update frequent candidates(void * reduce data out) j = 0 length = reduce data out length for (j = 0 ; i < length ; j++) temp candidates[j++] = reduce data out key candidates = temp candidates

27 MapReduce et MATE -1 Description de l algorithme Apriori Implémentation de Apriori sur MapReduce Implémentation de Apriori sur MATE! MapReduce (Google 2004) & Mate (W. Jiang,V.T. Ravi, G.Agrawal, Ohio State University, ) MapReduce /* Outer Sequential Loop */ While() /* Reduction Loop */ Foreach (element e) (i, val) = Process(e) ; Sort (i,val) pairs using i Reduce to compute each RObj(i)

28 MapReduce et MATE -2 Description de l algorithme Apriori Implémentation de Apriori sur MapReduce Implémentation de Apriori sur MATE! MapReduce (Google 2004) & Mate (W. Jiang,V.T. Ravi, G.Agrawal, Ohio State University, ) Mate /* Outer Sequential Loop / While() /* Reduction Loop */ Foreach (element e) (i, val) = Process(e) RObj(i)=Reduce(RObj(i),val) ; Local combination of RObj

29 MATE : Schéma Cloud Computing et MapReduce Description de l algorithme Apriori Implémentation de Apriori sur MapReduce Implémentation de Apriori sur MATE!

30 Implémentation de Apriori sur MATE Description de l algorithme Apriori Implémentation de Apriori sur MapReduce Implémentation de Apriori sur MATE! reduction(void * reduction data) for each transaction reduction data for(i=0 ; i < candidatessize ;i++) match = false itemset = candidates[i] match = itemset exists(transaction, itemset) ; if (match == true ) object id= itemset.object id accumulate(object id, 0, 1) ;

31 Nouvel algorithme pour la recherche des sous ensembles fréquents - 1 Appliquer l algorithme k-means ou h-means dans le but de chercher plus efficacement les sous-ensembles fréquents Améliorer le point de départ de la recherche des sous ensembles fréquents (au lieu de partir des candidats de longueurs 1) Paramètres de l algorithme : K : est le nombre initial de catégories (clusters) minsupp : est le support minimal pour qu un sous-ensemble soit considéré comme fréquent. Entrées : Un ensemble de transactions : D. Sortie : La liste des sous-ensembles fréquents.

32 Nouvel algorithme pour la recherche des sous ensembles fréquents - 2 Structures intermédiaires Une liste appelée admis qui contiendra les sous-ensembles fréquents retenus. Une liste appelée exclus qui contiendra les sous-ensembles exclus (trouvés non fréquents). Une liste appelée candidats qui contiendra une liste (triée par ordre décroissante) de sous ensemble à tester, cette liste doit être triée Définitions Sous-ensemble localement fréquent : L i un sous-ensemble de longueur i on dit que L i est localement fréquent ssi il est fréquent dans la catégorie (ou le cluster) à laquelle il appartient.

33 Nouvel algorithme pour la recherche des sous ensembles fréquents - 3 Appliquer l algorithme k-means et récupérer le k barycentres et le k catégories (ou clusters). Soit C 1, C 2,.., C k les centres triés par leurs longueurs et à longueurs égales par leurs nombres d occurrences dans D (par leurs supports). Initialiser la liste candidats avec C 1, C 2,.., C k. Tant que candidats n est pas vide faire : Soit C i le premier élément de candidats : Si C i admis et C i exclu alors 1 Si C i est localement fréquent alors mettre-à-jour-admis(c i ), exit. 2 Si C i est globalement fréquent alors mettre-à-jour-admis (C i ), exit. 3 Sinon, mettre-à-jour-exclus(c i ), et ajouter tous les sous-ensembles fréquents inclus dans C i à la liste candidats

34 Proposition d un algorithme pour la recherche des sous ensembles fréquents - 4 mettre-à-jour-admis(c i ) : ajouter à la liste admis le sous ensemble C i et tous les sous-ensembles inclus dans C i. mettre-à-jour-exclus(c i ) : ajouter à la liste exclus le sous ensemble C i et tous les sous-ensembles qui incluent C i.

35 Travaux actuels & Perspectives Travaux actuels Implémentation d une version C++ (stage-laris) et une version en Java (PFE-IAD) et expérimentations. Solution au problème complétude (PFE-IAD). Implémentation de kmedoid en C# et expérimentations sur la distribution des clusters sur un ensemble de machines virtuelles (Khaled Tannir-Doctorant). Perspectives Implémentation sur MapReduce et comparaison avec : Apriori sur MapReduce. FPGrowth proposé dans Mahout.

36 Bibliographie I Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules in large databases. In VLDB, pages , Cheng-Tao Chu, Sang Kyun Kim, Yi-An Lin, YuanYuan Yu, Gary R. Bradski, Andrew Y. Ng, and Kunle Olukotun. Map-reduce for machine learning on multicore. In NIPS, pages , Jeffrey Dean and Sanjay Ghemawat. Mapreduce : Simplified data processing on large clusters. In OSDI, pages , Wei Jiang, Vignesh T. Ravi, and Gagan Agrawal. A map-reduce system with an alternate api for multi-core environments. In CCGRID, pages 84 93, Sean Owen, Robin Anil, Ted Dunning, and Ellen Friedman. Mahout in Action. Manning Publications, 1 edition, January Weizhong Zhao, Huifang Ma, and Qing He. Parallel k-means clustering based on mapreduce. In CloudCom, pages , 2009.

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

http://blog.khaledtannir.net

http://blog.khaledtannir.net Algorithme de parallélisations des traitements Khaled TANNIR Doctorant CIFRE LARIS/ESTI http://blog.khaledtannir.net these@khaledtannir.net 2e SéRI 2010-2011 Jeudi 17 mars 2011 Présentation Doctorant CIFRE

Plus en détail

Certificat Big Data - Master MAthématiques

Certificat Big Data - Master MAthématiques 1 / 1 Certificat Big Data - Master MAthématiques Master 2 Auteur : Sylvain Lamprier UPMC Fouille de données et Medias Sociaux 2 / 1 Rich and big data: Millions d utilisateurs Millions de contenus Multimedia

Plus en détail

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014 Introduction aux algorithmes MapReduce Mathieu Dumoulin (GRAAL), 14 Février 2014 Plan Introduction de la problématique Tutoriel MapReduce Design d algorithmes MapReduce Tri, somme et calcul de moyenne

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données Stéphane Genaud ENSIIE Traitement de données distribuées Google a introduit Map-Reduce [Dean and Ghemawat 2004] Ils s

Plus en détail

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce

Plus en détail

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy. Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

BI = Business Intelligence Master Data-Science Cours 6 - Data Mining

BI = Business Intelligence Master Data-Science Cours 6 - Data Mining BI = Business Intelligence Master Data-Science Cours 6 - Data Mining Ludovic DENOYER - D après Elisa Fromont UPMC 23 mars 2015 Ludovic DENOYER - D après Elisa Fromont Le Data Mining De plus en plus de

Plus en détail

4 Exemples de problèmes MapReduce incrémentaux

4 Exemples de problèmes MapReduce incrémentaux 4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages 1 Mehdi LOUIZI Plan Pourquoi Hadoop? Présentation et Architecture Démo Usages 2 Pourquoi Hadoop? Limites du Big Data Les entreprises n analysent que 12% des données qu elles possèdent (Enquête Forrester

Plus en détail

Comparaison de tables à distance

Comparaison de tables à distance Rapport de recherche A/375/CRI Fabien Coelho fabien@coelho.net composé avec LAT E X, révision 463 du document 1 Fabien Coelho job enseignant-chercheur à MINES ParisTech ingénieur civil 1993, docteur en

Plus en détail

Fouille de données massives avec Hadoop

Fouille de données massives avec Hadoop Fouille de données massives avec Hadoop Sebastiao Correia scorreia@talend.com Talend 2013 AAFD'14 29-30 avril 2014 1 Agenda Présentation de Talend Définition du Big Data Le framework Hadoop 3 thématiques

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

CONTRÔLE HORS-CLASSEMENT ÉCOLE POLYTECHNIQUE INFORMATIQUE COURS INF 431

CONTRÔLE HORS-CLASSEMENT ÉCOLE POLYTECHNIQUE INFORMATIQUE COURS INF 431 CONTRÔLE HORS-CLASSEMENT ÉCOLE POLYTECHNIQUE INFORMATIQUE COURS INF 431 GUILLAUME HANROT ET JEAN-JACQUES LÉVY On se propose de résoudre le problème de l affectation de k tâches à n employés (k > 0, n >

Plus en détail

Fouille de données, analyse d évènements. Christophe Cérin. cerin@laria.u-picardie.fr

Fouille de données, analyse d évènements. Christophe Cérin. cerin@laria.u-picardie.fr ACI-GRID (7 novembre 2002) 1/21 Fouille de données, analyse d évènements Christophe Cérin cerin@laria.u-picardie.fr Plan 2/21 placement, ordonnancement ; Plan 3/21 Placement, ordonnancement ; Représentation

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Anticiper et prédire les sinistres avec une approche Big Data

Anticiper et prédire les sinistres avec une approche Big Data Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél

Plus en détail

MongoDB. Objectif Découvrir l'aggrégation des requêtes, l'indexation, la réplication et l'autosharding sur MongoDB

MongoDB. Objectif Découvrir l'aggrégation des requêtes, l'indexation, la réplication et l'autosharding sur MongoDB ESIPE IR3 - IG3 Cloud Computing #3 MongoDB Objectif Découvrir l'aggrégation des requêtes, l'indexation, la réplication et l'autosharding sur MongoDB Révisions Téléchargez depuis le site le fichier ex.tgz.

Plus en détail

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions? Introduction Quelles sont les défis actuels

Plus en détail

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 CNAM 2010-2011 Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 Déploiement d une application dans le cloud. 1. Cloud Computing en 2010 2. Offre EC2

Plus en détail

IFT630 Processus concurrents et parallélisme. Projet final Rapport. Présenté à Gabriel Girard

IFT630 Processus concurrents et parallélisme. Projet final Rapport. Présenté à Gabriel Girard IFT630 Processus concurrents et parallélisme Projet final Rapport Présenté à Gabriel Girard par Alexandre Tremblay (06 805 200) Pierre-François Laquerre (05 729 544) 15 avril 2008 Introduction Après plusieurs

Plus en détail

For Fun and Profit Datasio 2012

For Fun and Profit Datasio 2012 For Fun and Profit Datasio 2012 130 Nouveaux acteurs Big Data depuis 2009 1 2 3 Agenda Hadoop, poids lourd du Big Data Stats Web avec Hive chez Scoop.it Profession: Data Scientist Agenda 1 Hadoop, poids

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Map Reduce Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Correction langage Java

Correction langage Java MINISTÈRE DE L ÉCOLOGIE, DU DÉVELOPPEMENT DURABLE, DES TRANSPORTS ET DU LOGEMENT EXAMEN PROFESSIONNEL DE VÉRIFICATION D APTIDUDE AUX FONCTIONS DE PROGRAMMEUR Session 2010 Correction langage Java Langage:

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

Programmation orientée objet en langage JAVA

Programmation orientée objet en langage JAVA Programmation orientée objet en langage JAVA Connexion à une base de données avec JDBC Claude Duvallet Université du Havre UFR Sciences et Techniques 25 rue Philippe Lebon - BP 540 76058 LE HAVRE CEDEX

Plus en détail

Tables Rondes Le «Big Data»

Tables Rondes Le «Big Data» Tables Rondes Le «Big Data» 2012-2013 1 Plan Introduc9on 1 - Présenta9on Ingensi 2 - Le Big Data c est quoi? 3 - L histoire 4 - Le monde du libre : Hadoop 5 - Le système HDFS 6 - Les algorithmes distribués

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

Licence Bio Informatique Année 2004-2005. Premiers pas. Exercice 1 Hello World parce qu il faut bien commencer par quelque chose...

Licence Bio Informatique Année 2004-2005. Premiers pas. Exercice 1 Hello World parce qu il faut bien commencer par quelque chose... Université Paris 7 Programmation Objet Licence Bio Informatique Année 2004-2005 TD n 1 - Correction Premiers pas Exercice 1 Hello World parce qu il faut bien commencer par quelque chose... 1. Enregistrez

Plus en détail

Université Paris 1 Panthéon Sorbonne UFR 06. Fiche de TD VBA

Université Paris 1 Panthéon Sorbonne UFR 06. Fiche de TD VBA 1 / 13 Fiche de TD VBA L objectif de cette fiche est de faire un rappel (voire une présentation rapide) du langage de programmation VBA et de son usage sur des documents Excel et Access. Pour rappel, VBA

Plus en détail

MapReduce et Hadoop. Alexandre Denis Alexandre.Denis@inria.fr. Inria Bordeaux Sud-Ouest France ENSEIRB PG306

MapReduce et Hadoop. Alexandre Denis Alexandre.Denis@inria.fr. Inria Bordeaux Sud-Ouest France ENSEIRB PG306 MapReduce et Hadoop Alexandre Denis Alexandre.Denis@inria.fr Inria Bordeaux Sud-Ouest France ENSEIRB PG306 Fouille de données Recherche & indexation de gros volumes Appliquer une opération simple à beaucoup

Plus en détail

Cours PL/SQL. Cours PL/SQL. E.Coquery. emmanuel.coquery@liris.cnrs.fr

Cours PL/SQL. Cours PL/SQL. E.Coquery. emmanuel.coquery@liris.cnrs.fr Cours PL/SQL E.Coquery emmanuel.coquery@liris.cnrs.fr Programmation au sein du SGBD Pourquoi? Les contraintes prédéfinies ne sont pas toujours suffisantes. Exemple : tout nouveau prix pour un CD doit avoir

Plus en détail

Notes de cours Practical BigData

Notes de cours Practical BigData Notes de cours Practical BigData Nguyen-Nhut DOAN 15 janvier 2015 Introduction Ces notes personnelles traduisent la deuxième partie du cours INF553 de l Ecole Polytechnique sur les bases de données et

Plus en détail

FORMATION HADOOP Développeur pour Hadoop (Apache)

FORMATION HADOOP Développeur pour Hadoop (Apache) FORMATION HADOOP Développeur pour Hadoop (Apache) Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l objet d une demande écrite auprès de Cyrès.

Plus en détail

réduit l effort de programmation améliore la qualité et les performances du programme permet l interopérabilité d API

réduit l effort de programmation améliore la qualité et les performances du programme permet l interopérabilité d API Collection 1 Collection (conteneur) est un objet qui regroupe plusieurs éléments en une seule unité une collection peut être utilisée pour stocker et manipuler des données et pour transmettre des données

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

KARMA Le système de Revenue Management d'air France KLM avec Hadoop

KARMA Le système de Revenue Management d'air France KLM avec Hadoop KARMA Le système de Revenue Management d'air France KLM avec Hadoop Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 16 Décembre 2014 Martial AYAS maayas@airfrance.fr 2 Agenda 1. Présentation

Plus en détail

Fouille de données: des bases binaires aux bases évidentielles

Fouille de données: des bases binaires aux bases évidentielles Fouille de données: des bases binaires aux bases évidentielles Ahmed Samet Faculté des sciences de Tunis Présenté le : 16 janvier 2013 Ahmed Samet Fouille de données: des bases binaires aux bases évidentielles

Plus en détail

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC Technologies du Web Ludovic DENOYER - ludovic.denoyer@lip6.fr UPMC Février 2014 Ludovic DENOYER - ludovic.denoyer@lip6.fr Technologies du Web Plan Retour sur les BDs Le service Search Un peu plus sur les

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 13 L exploration des données 13.1. Présentation de la semaine L exploration de données (ou data mining) est souvent associée à l intelligence

Plus en détail

Programmation orientée objet en langage JAVA

Programmation orientée objet en langage JAVA Connexion à une base de données avec JDBC Programmation orientée objet en langage JAVA Connexion à une base de données avec JDBC Claude Duvallet Université du Havre UFR Sciences et Techniques 25 rue Philippe

Plus en détail

Hébergement MMI SEMESTRE 4

Hébergement MMI SEMESTRE 4 Hébergement MMI SEMESTRE 4 24/03/2015 Hébergement pour le Web Serveurs Mutualités Serveurs Dédiés Serveurs VPS Auto-Hébergement Cloud Serveurs Mutualités Chaque Serveur héberge plusieurs sites Les ressources

Plus en détail

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be)

Datamining. Glossaire. Xavier Dubuc (xavier.dubuc@umons.ac.be) Datamining Glossaire Xavier Dubuc (xavier.dubuc@umons.ac.be) 3 juin 2011 1 Table des matières 1 Classification 3 2 Règles d association 3 2.1 Introduction............................................ 3

Plus en détail

PG208, Projet n 1 : Gestion d une bibliothèque

PG208, Projet n 1 : Gestion d une bibliothèque PG208, Projet n 1 : Gestion d une bibliothèque Bertrand LE GAL, Serge BOUTER et Clément VUCHENER Filière électronique 2 eme année - Année universitaire 2011-2012 1 Introduction 1.1 Objectif du projet L

Plus en détail

Définitions de classes permettant de gérer Étudiant en Enseignant CORRECTION

Définitions de classes permettant de gérer Étudiant en Enseignant CORRECTION EILCO ING 1 - POO Java Contrôle 2014/2015 Définitions de classes permettant de gérer Étudiant en Enseignant CORRECTION Dans ces exercices, nous allons définir une classe Personne qui permettra de gérer

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Listes et arbres binaires

Listes et arbres binaires Des structures de données dynamiques Listes, Listes ordonnées Arbres binaires, arbre binaires de recherche Listes chaînées Utile si le nombre d éléments n est pas connu à l avance et évolue beaucoup. Permet

Plus en détail

Historique. Évolution des systèmes d exploitation (à travers les âges)

Historique. Évolution des systèmes d exploitation (à travers les âges) Historique Évolution des systèmes d exploitation (à travers les âges) Historique L histoire des systèmes d exploitation permet de dégager des concepts de base que l on retrouve dans les systèmes actuels

Plus en détail

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list =

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun> 94 Programmation en OCaml 5.4.8. Concaténation de deux listes Définissons maintenant la fonction concat qui met bout à bout deux listes. Ainsi, si l1 et l2 sont deux listes quelconques, concat l1 l2 constitue

Plus en détail

Langage C/C++ TD 3-4 : Création dynamique d objets. Hubert Godfroy. 27 novembre 2014

Langage C/C++ TD 3-4 : Création dynamique d objets. Hubert Godfroy. 27 novembre 2014 Langage C/C++ TD 3-4 : Création dynamique d objets Hubert Godfroy 7 novembre 014 1 Tableaux Question 1 : Écrire une fonction prenant un paramètre n et créant un tableau de taille n (contenant des entiers).

Plus en détail

Web Data Mining Web Usage Mining

Web Data Mining Web Usage Mining Web Data Mining p. 1/1 Web Data Mining Web Usage Mining Maria Malek Options GL, ISICO & IdSI EISTI Web Data Mining p. 2/1 Fouille des Données de la Toile?!! Web Structure Mining Découverte de la connaissance

Plus en détail

Développement d une application de gestion de contacts avec ASP.NET MVC (C#)

Développement d une application de gestion de contacts avec ASP.NET MVC (C#) Développement d une application de gestion de contacts avec ASP.NET MVC (C#) Etape 4 Rendre l application faiblement couplée Dans cette 4ème étape, nous allons mettre en œuvre plusieurs modèles de développement

Plus en détail

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives Hadoop, Spark & Big Data 2.0 Exploiter une grappe de calcul pour des problème des données massives Qui suis-je? Félix-Antoine Fortin Génie info. (B. Ing, M. Sc, ~PhD) Passionné de Python, Data Analytics,

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

Etude d Algorithmes Parallèles de Data Mining

Etude d Algorithmes Parallèles de Data Mining REPUBLIQUE TUNISIENNE MINISTERE DE L ENSEIGNEMENT SUPERIEUR, DE LA TECHNOLOGIE ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE DE TUNIS ELMANAR FACULTE DES SCIENCES DE TUNIS DEPARTEMENT DES SCIENCES DE L INFORMATIQUE

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Programmation avancée en C

Programmation avancée en C Département Informatique Nom : Prénom : Année scolaire : 2007 2008 Date : 23 juin 2008 Module INF446 Session de juin Programmation avancée en C Contrôle de connaissance 1 de 45 minutes ÅERCI de répondre

Plus en détail

Introduction à la Programmation 1

Introduction à la Programmation 1 Introduction à la Programmation 1 Séance de cours/td Université Paris-Diderot Objectifs: Découverte du type String. Comprendre qu il y a des types différents. Maîtriser les expressions booléennes dans

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Frameworks MapReduce: MongoDB Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique

Plus en détail

Présentation SSDM : Semantically Similar Data Miner

Présentation SSDM : Semantically Similar Data Miner Présentation SSDM : Semantically Similar Data Miner Guillaume Calas Henri-François Chadeisson EPITA SCIA 2009 16 Juillet 2008 calas g - chadei h SSDM : Semantically

Plus en détail

Cours numéro 9 : arbres binaires et de recherche

Cours numéro 9 : arbres binaires et de recherche Cours numéro 9 : arbres binaires et de recherche LI213 Types et Structures de données Licence d Informatique Université Paris 6 Arbre Arbre Un arbre est un ensemble fini A d éléments, liés entre eux par

Plus en détail

Python et la Programmation fonctionnelle. Programmation fonctionnelle 3. Programmation fonctionnelle pure 4. Matthieu Amiguet

Python et la Programmation fonctionnelle. Programmation fonctionnelle 3. Programmation fonctionnelle pure 4. Matthieu Amiguet Python et la Programmation fonctionnelle Matthieu Amiguet 2009 2010 1 Programmation fonctionnelle? 2 3 Lambda expressions 4 5 Programmation fonctionnelle? Programmation fonctionnelle 3 L expression programmation

Plus en détail

Langage Élémentaire Algorithmique Spécifications du langage

Langage Élémentaire Algorithmique Spécifications du langage Langage Élémentaire Algorithmique Spécifications du langage Lionel Clément Version provisoire Novembre 2012 Le but de ce projet est de livrer un compilateur pour un langage élémentaire algorithmique (Léa).

Plus en détail

Plan. Langages Centrés Données. Master 2 Fiil. Données massives MapReduce SQL. Garanties

Plan. Langages Centrés Données. Master 2 Fiil. Données massives MapReduce SQL. Garanties Plan Langages Centrés Données Master 2 Fiil Données massives MapReduce Veronique.Benzaken@lri.fr Kim.Nguyen@lri.fr 1 Indexation/Implantation des Opérateurs/Calcul de coût 2 Rappels JDBC/Impedance Mismatch/JPA

Plus en détail

Hadoop / Big Data. Benjamin Renaut MBDS 2014-2015

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015 Hadoop / Big Data Benjamin Renaut MBDS 2014-2015 TP 1 - Correction Méthodologie Map/Reduce - programmation Hadoop. Rappel 1 La première partie du TP consistait à mettre en

Plus en détail

ISN : Initiation à la programmation TP 1. Syntaxe à retenir. Lancer la Proglet «abcdalgos»

ISN : Initiation à la programmation TP 1. Syntaxe à retenir. Lancer la Proglet «abcdalgos» ISN : Initiation à la programmation TP 1 I) Premier programme avec Javascool A) avec Javascool Sur votre lecteur réseau P :, créer un dossier que l on nommera ISN Créer un sous dossier P :\JAVASCOOL et

Plus en détail

Faculté I&C, Claude Petitpierre, André Maurer. Bases de données. SQL (Structured Query Language)

Faculté I&C, Claude Petitpierre, André Maurer. Bases de données. SQL (Structured Query Language) Bases de données SQL (Structured Query Language) Une base de données contient des tables idv region cepage annee Lavaux chasselas 2005 Chianti sangiovese 2002 2 Bourgogne pinot noir 2000 Le nom et le type

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Mise à niveau en Java

Mise à niveau en Java Mise à niveau en Java Cours 1 Stéphane Airiau Université Paris-Dauphine Stéphane Airiau (Université Paris-Dauphine) - Java Cours 1 1 Aujourd hui Eléments de base Variables, opérateurs, type d une expression

Plus en détail

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca Une brève introduction aux Données Massives - Challenges et perspectives Romain Picot-Clémente Cécile Bothorel Philippe Lenca Plan 1 Big Data 2 4Vs 3 Hadoop et son écosystème 4 Nouveaux challenges, nouvelles

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Programmation générique des arbres binaires de recherche AVL et applications

Programmation générique des arbres binaires de recherche AVL et applications Introduction Programmation générique des arbres binaires de recherche AVL et applications Ce TP porte sur l étude d une structure de données appelée arbres binaires de recherche qui sert généralement à

Plus en détail

Sauvegarder ses données sous Android :! SharedPreferences, SQLite, Files

Sauvegarder ses données sous Android :! SharedPreferences, SQLite, Files Sauvegarder ses données sous Android : SharedPreferences, SQLite, Files Jean-Ferdinand Susini Maître de conférences au CNAM Sources : Wikipedia, developper.android.com Paris, 05/06/2014 Les SharedPreferences

Plus en détail

Hadoop / Big Data. Benjamin Renaut MBDS 2015-2016

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2015-2016 Hadoop / Big Data Benjamin Renaut MBDS 2015-2016 11 MongoDB et map/reduce MongoDB: fonction mapreduce 11-1 Au delà des points d'intégration Hadoop qui vont être abordés par

Plus en détail

Bases de données avancées Triggers

Bases de données avancées Triggers Bases de données avancées Triggers Wies law Zielonka 12 décembre 2009 Résumé Ces notes ne sont pas corrigées, mais peut-être vous les trouverez quand même utiles pour préparer l examen ou projet. Ne pas

Plus en détail

PROJET INFORMATIQUE RECHERCHE DE SOUS-CHAÎNE DE CARACTERES

PROJET INFORMATIQUE RECHERCHE DE SOUS-CHAÎNE DE CARACTERES PROJET INFORMATIQUE RECHERCHE DE SOUS-CHAÎNE DE CARACTERES I-Présentation Un algorithme de recherche de sous-chaine est un type d'algorithme de recherche qui a pour objectif de trouver une chaîne de caractères

Plus en détail

5. Collections dans Java. Olivier Curé - UMLV [page 143 ]

5. Collections dans Java. Olivier Curé - UMLV [page 143 ] 5. Collections dans Java Olivier Curé - UMLV [page 143 ] Présentation générale Une collection est un objet qui contient d'autres objets. Ces objets proposent une solution au stockage de données et permettent

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat...

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat... But du cours Vocabulaire, principes et techniques du Data Mining Méthodes et Algorithmes Interprétation des résultats. Data Mining : Concepts and Techniques J. Han, M. Kamber Morgan Kaufmann Le Data Mining

Plus en détail

TP SPRING. https ://lipn.univ-paris13.fr/ fortier/enseignement/spring/tp/

TP SPRING. https ://lipn.univ-paris13.fr/ fortier/enseignement/spring/tp/ Institut Galilée Année 2015-2016 TP SPRING Programmation et Logiciels sûrs Master 2 PLS Résumé L objectif de ce TP est d être capable de réaliser une application Java de gestion de location de véhicules,voiture

Plus en détail

Plan du cours. Historique du langage http://www.oracle.com/technetwork/java/index.html. Nouveautés de Java 7

Plan du cours. Historique du langage http://www.oracle.com/technetwork/java/index.html. Nouveautés de Java 7 Université Lumière Lyon 2 Faculté de Sciences Economiques et Gestion KHARKIV National University of Economic Introduction au Langage Java Master Informatique 1 ère année Julien Velcin http://mediamining.univ-lyon2.fr/velcin

Plus en détail

JDBC et objet-relationnel

JDBC et objet-relationnel Types de données de SQL3 JDBC et objet-relationnel Université de Nice - Sophia Antipolis Version 1.6.4 5/11/11 Richard Grin JDBC supporte les types suivants de SQL3 qui sont des ouvertures vers le relationnelobjet

Plus en détail

Application de K-Means à la définition du nombre de VM optimal dans un Cloud

Application de K-Means à la définition du nombre de VM optimal dans un Cloud Application de K-Means à la définition du nombre de VM optimal dans un Cloud Khaled Tannir; Hubert. Kadima ; Maria Malek Laboratoire LARIS/EISTI Ave du Parc 95490 Cergy-Pontoise France contact@khaledtannir.net,

Plus en détail

ENSTA : cours IN204 Introduction à JAVA et UML

ENSTA : cours IN204 Introduction à JAVA et UML ENSTA : cours IN204 Introduction à JAVA et UML Thierry Bommart DASSAULT AVIATION DGT/DPR/EOS thierry.bommart@dassault-aviation.fr 01.47.11.54.93 Page : 1 Plan Ecole Nationale Supérieure de Techniques Avancées

Plus en détail

Orchestrer son cloud OpenStack avec Heat

Orchestrer son cloud OpenStack avec Heat Orchestrer son cloud OpenStack avec Heat Adrien Cunin adrien.cunin@osones.com Osones 7 juillet 2014 Adrien Cunin (Osones) Orchestrer son cloud OpenStack avec Heat 7 juillet 2014 1 / 43 Adrien Cunin (Osones)

Plus en détail

Logiciel Statistique : SPSS

Logiciel Statistique : SPSS Faculté des Sciences Économiques et de Gestion de Tunis Logiciel Statistique : SPSS Notes du cours pour les étudiants du Master Recherche en Marketing, Management & Finance Dr. Jalila ATTAFI 2011-2012

Plus en détail

Algorithmique - Programmation 1. Cours 10

Algorithmique - Programmation 1. Cours 10 Algorithmique - Programmation 1 Cours 10 Université Henri Poincaré CESS Epinal Automne 2008 1/ 25 Plan Caml fonctionnel vs impératif Caml fonctionnel vs impératif Le type unit Données mutables Les structures

Plus en détail

Bases de données Programmation PL/SQL. LP TOSPI, IUT Montluçon, Université Blaise Pascal 2010-2011 Laurent d Orazio

Bases de données Programmation PL/SQL. LP TOSPI, IUT Montluçon, Université Blaise Pascal 2010-2011 Laurent d Orazio Bases de données Programmation PL/SQL LP TOSPI, IUT Montluçon, Université Blaise Pascal 2010-2011 Laurent d Orazio Plan I. Vue d ensemble et principes de fonctionnement II. Eléments de programmation III.

Plus en détail

RAPPORT DU PREMIER MINI PROJET «FORUM DE CHAT» Novembre 2005

RAPPORT DU PREMIER MINI PROJET «FORUM DE CHAT» Novembre 2005 Oussama ELKACHOINDI Wajdi MEHENNI RAPPORT DU PREMIER MINI PROJET «FORUM DE CHAT» Novembre 2005 Sommaire I. Préliminaire : Notice d exécution et mode opératoire...4 II. Architecture globale de l application...5

Plus en détail

Bases Java - Eclipse / Netbeans

Bases Java - Eclipse / Netbeans Institut Galilée PDJ Année 2014-2015 Master 1 Environnements Java T.P. 1 Bases Java - Eclipse / Netbeans Il existe plusieurs environnements Java. Il est ESSENTIEL d utiliser la bonne version, et un environnement

Plus en détail

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Responsable du stage : Nabil Belcaid Le Guyader Chef de projet : Ali Belcaid Déroulement du stage

Plus en détail

Android Gestion des données. Rémi Forax

Android Gestion des données. Rémi Forax Android Gestion des données Rémi Forax Types de stockage Android fourni plusieurs types de stockage Données actives d'une activité (Bundle) Fichier ressources read-only (répertoire res) Préférence partageable

Plus en détail