Implémentation et Benchmark. d une régression linéaire en RMR2

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Implémentation et Benchmark. d une régression linéaire en RMR2"

Transcription

1 Add intelligence to data Anne Gayet Directrice Datamining Implémentation et Benchmark d une régression linéaire en RMR2 16 janvier 2014 Rendez-vous SFdS: : Méthodes et logiciels Données massives (big data)

2 A.I.D. en quelques mots Data Mining Régie Hébergement Ad-Hoc Gestion Relation Client Qualité de données Marketing Customer Interaction Management Associations Professionnelles & Partenariats Enseignement Recherche Publications Page 2

3 Le calcul parallèle est une nécessité pour traiter de gros volumes de données en optimisant les coûts La croissance exponentielle du nombre de données produites chaque jour nécessite une puissance de calcul en adéquation avec ce volume Du traitement en mémoire Des architectures distribuées R par exemple, travaille in-memory Hadoop, un framework opensource inspiré par y répond Page 3

4 Mais R fonctionne sur une instance unique et la mémoire va rapidement saturer Page 4

5 Et le calcul distribué induit une complexité de mise en œuvre certaine xiaochongzhang.me Certains éditeurs souhaitent donc masquer cette complexité nouvelle pour permettre aux analystes de se concentrer sur leur cœur de métier Page 5

6 Prenons l exemple de la régression linéaire, implémentée dans un environnement de test CDH4 + RHadoop RevoScaleR Page 6

7 Le package Rhadoop permet de piloter l exécution de certaines tâches R dans un cluster hadoop et ouvre donc à R le calcul distribué! revolutionanalytics.com Page 7

8 Mais il est nécessaire de savoir comment distribuer les calculs Y = X + b = (X X) -1 X Y Page 8

9 Puis l implémenter depuis notre client R { # Calcul de la matrice X X mapx=function(k,dataset) { Xi=dataset[,-1] XpX=t(Xi) %*% Xi keyval(1,list(xpx)) } # Calcul de la matrice X Y mapy=function(k,dataset) { Xi=dataset[,-1] Xpy=t(Xi) %*% dataset[,1] keyval(1,list(xpy)) } # Fonction de reduce reducex = function(.,val) { keyval(1,list(reduce('+', val)))} XPrimeX = mapreduce(input=dataset, map=mapx,reduce=reducex) XprimeXClient=values(from.dfs(XPrimeX))[[1]] XPrimeY = mapreduce (input=dataset, map=mapy,reduce=reducex) XprimeYClient=values(from.dfs(XPrimeY))[[1]] # Résultats de la reg. linéaire resregmapreduce<- t(solve(xprimexclient)%*%xprimeyclient) de plus on n a que les coefficients, pas de R2, de Fisher + Instanciation des calculs réalisés par les nœuds du cluster Exécution des calculs L instruction est envoyée au job tracker via RMR sur Chaque noeud Les résultats sont récupérés sous R sur Le client Le résultat final est calculé sous R client Page 9

10 Là ou une solution packagée comme RevoScaleR permet de rendre transparente cette complexité inputfile <- file.path(getwd() airlinesample.csv ) airds <- file.path(getwd(), ADS.xdf ) rximport(indata = inputfile,numrows=-1, rowsperread= , overwrite = TRUE, outfile = airds) On charge les données dans la mémoire partagée, via le format propriétaire XDF revolinearmodel<-rxlinmod(arrdelay~distance, data="airds.xdf") On appelle la fonction de régression Et c est tout! Les résultats de la régression sont bien sûr identiques Temps d exécution RMR: 4min RevolScaleR: 0,5sec Page 10

11 R est-il capable de supporter une régression linéaire sur un gros volume de données? airlinessample<-read.table("airlinessample.csv",sep=",", header=true,colclasses="numeric")) Importation des données sous R (~1min) reglin<-lm(arrdelay~distance,airlinessample)) Application de la régression linéaire classique lorsque la mémoire le permet library(biglm) system.time(reg<-bigglm(arrdelay~distance,airlinessample) ) summary(reg) On utilise un package permettant d effectuer des régressions sur de gros volumes de données Une régression sur un «gros» volume de données est possible sous R! Ca reste limité Temps d exécution R: 6 min (18 mn sur machine normale) Page 11

12 Et SAS dans tout çà? proc import datafile= "C:\airlinesSample.csv" out=airlinessample dbms=dlm replace; delimiter=','; getnames=yes; run; Importation des données proc reg data=airlinesample; model ArrDelay=Distance; run; Application de la régression linéaire Nous obtenons des résultats identiques lors de la régression Temps d exécution SAS: 1min Page 12

13 Synthèse des résultats 30M lignes 90M lignes lm / bigglm Lent (entre 4 et 6 minutes) Travaille en mémoire Impossible Pas assez de mémoire (RAM) pour l utiliser + rmr Lent (4 minutes) Difficile à implémenter Très lent (> 15min) RevoScaleR Très rapide (1/2 seconde) Parallélisation des calculs Très rapide (1 seconde) Passage à l échelle efficace Proc Reg * Rapide (1 Minute) Lent (7 minutes) Consommateur de mémoire et d espace * Sur machine normale attention au test d égalité des coefficients, utiliser allequal et pas == Page 13

14 Mais l écosystème existant en opensource permet d apporter des alternatives intéressantes Scripts PIG pour la préparation et le traitement des jeux de données Python, que l on peut utiliser pour faire du calcul distribué et dont les librairies s enrichissent de fonctions statistiques avancées Mahout est un ensemble librairies spécialement conçues pour le machine learning sous Hadoop. Il demande cependant de fortes compétences de programmation Page 14

15 En synthèse, et pour conclure sur RMR2 La régression linéaire fonctionne bien (ouf! Ça n a pas toujours été le cas) et les résultats sont bien identiques Mais dans la pratique, RMR2 n est pas adapté à une utilisation opérationnelle. En revanche, l utilisation du package a de bonnes vertus pédagogiques Peyo Plus philosophiquement Autant on a besoin de classer vite et bien de gros volumes, Autant on peut encore souvent modéliser sur échantillon C est l application du modèle qui doit marcher vite et bien sur de gros volumes: quid du PMML sur big data? Sans parler des problématiques de mise à jour de modèles. Page 15

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages 1 Mehdi LOUIZI Plan Pourquoi Hadoop? Présentation et Architecture Démo Usages 2 Pourquoi Hadoop? Limites du Big Data Les entreprises n analysent que 12% des données qu elles possèdent (Enquête Forrester

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

Introduction data science

Introduction data science Introduction data science Data science Master 2 ISIDIS Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/~verel Université du Littoral Côte d Opale Laboratoire LISIC Equipe

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Formation Actuaire Data-Scientist PROGRAMME

Formation Actuaire Data-Scientist PROGRAMME Formation Actuaire Data-Scientist PROGRAMME 15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 Programme Séance inaugurale : révolu-on numérique besoins des entreprises cadre

Plus en détail

Anticiper et prédire les sinistres avec une approche Big Data

Anticiper et prédire les sinistres avec une approche Big Data Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

FORMATION HADOOP Développeur pour Hadoop (Apache)

FORMATION HADOOP Développeur pour Hadoop (Apache) FORMATION HADOOP Développeur pour Hadoop (Apache) Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l objet d une demande écrite auprès de Cyrès.

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Comment valoriser votre patrimoine de données?

Comment valoriser votre patrimoine de données? BIG DATA POUR QUELS USAGES? Comment valoriser votre patrimoine de données? HIGH PERFORMANCE HIGH ANALYTICS PERFORMANCE ANALYTICS MOULOUD DEY SAS FRANCE 15/11/2012 L ENTREPRISE SAS EN QUELQUES CHIFFRES

Plus en détail

Catalogue des stages Ercom 2013

Catalogue des stages Ercom 2013 Catalogue des stages Ercom 2013 Optimisations sur Modem LTE Poste basé à : Caen (14) Analyse et optimisation des performances des traitements réalisés dans un modem LTE. - Profiling et détermination des

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD BIGDATA PARIS LE 1/4/2014 VINCENT HEUSCHLING @VHE74! 1 NOUS 100% Bigdata Infrastructure IT + Data Trouver vos opportunités Implémenter les

Plus en détail

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca Une brève introduction aux Données Massives - Challenges et perspectives Romain Picot-Clémente Cécile Bothorel Philippe Lenca Plan 1 Big Data 2 4Vs 3 Hadoop et son écosystème 4 Nouveaux challenges, nouvelles

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

Chapitre 10 Mettre en œuvre un cluster Hadoop

Chapitre 10 Mettre en œuvre un cluster Hadoop Chapitre 10 Mettre en œuvre un cluster Hadoop 1. Objectif du chapitre Mettre en œuvre un cluster Hadoop L'objectif de ce chapitre est de comparer différentes options possibles pour mettre en œuvre un cluster

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

Ingénierie de la fouille et de la visualisation de données massives (RCP216)

Ingénierie de la fouille et de la visualisation de données massives (RCP216) . Ingénierie de la fouille et de la visualisation de données massives (RCP216). Introduction du cours Michel Crucianu, Raphaël Fournier-S niehotta, Pierre Cubaud (prenom.nom@cnam.fr, fournier@cnam.fr)

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

Titre : La BI vue par l intégrateur Orange

Titre : La BI vue par l intégrateur Orange Titre : La BI vue par l intégrateur Orange Résumé : L entité Orange IT&L@bs, partenaire privilégié des entreprises et des collectivités dans la conception et l implémentation de SI Décisionnels innovants,

Plus en détail

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia Projet Xdata Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia Mutualisation des données XData = Cross Data En croisant des données d origine diverses,

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

Notre approche E-Learning

Notre approche E-Learning Notre approche E-Learning Propager le SAVOIR Introduction Leader en ingénierie pédagogique multimodale en Tunisie, Elearning Tunisie propose une offre de formation variée et multi-supports associant aux

Plus en détail

Pierre-Adrien Forestier Partner Technical Advisor pafore@microsoft.com

Pierre-Adrien Forestier Partner Technical Advisor pafore@microsoft.com Pierre-Adrien Forestier Partner Technical Advisor pafore@microsoft.com Agenda Vision de la BI par Microsoft SQL Server 2008 R2 Démo PowerPivot Démo Reporting Services Questions / Réponses Une plateforme

Plus en détail

Apprentissage Statistique et Données Massives

Apprentissage Statistique et Données Massives Apprentissage Statistique et Données Massives Philippe Besse Université de Toulouse INSA Dpt GMM Institut de Mathématiques ESP UMR CNRS 5219 Introduction Technologies des donne es massives Motivations,

Plus en détail

L analytique en temps réel en un clic. Jean-Michel Franco Directeur Marketing Produit @jmichel_franco

L analytique en temps réel en un clic. Jean-Michel Franco Directeur Marketing Produit @jmichel_franco L analytique en temps réel en un clic Jean-Michel Franco Directeur Marketing Produit @jmichel_franco 2015 Talend Inc. 1 1 Dynamiser l entreprise par ses données Les entreprises orientées données 23X plus

Plus en détail

Vos experts Big Data. contact@hurence.com. Mener un projet Big Data

Vos experts Big Data. contact@hurence.com. Mener un projet Big Data Vos experts Big Data contact@hurence.com Mener un projet Big Data Expert Expert Infrastructure Data Science Spark MLLib Big Data depuis 2011 Expert Expert Hadoop / Spark NoSQL HBase Couchbase MongoDB Expert

Plus en détail

Monitoring du système de stockage de données du CERN

Monitoring du système de stockage de données du CERN Monitoring du système de stockage de données du CERN Stage réalisé de Mars à Août 2013 Université Lille 1 Spécialisation IAGL Ingénierie et Architecture des Grands Logiciels Manuel SERVAIS Superviseurs

Plus en détail

Semarchy Convergence for MDM La Plate-Forme MDM Évolutionnaire

Semarchy Convergence for MDM La Plate-Forme MDM Évolutionnaire FICHE PRODUIT Semarchy Convergence for MDM La Plate-Forme MDM Évolutionnaire BENEFICES POUR LES DSI Réussir les projets de gouvernance dans les délais et les budgets Démarrer de manière tactique tout en

Plus en détail

Mise en œuvre de solutions d IT Service Management. Samia Benali Responsable des offres de services d IT Service Management

Mise en œuvre de solutions d IT Service Management. Samia Benali Responsable des offres de services d IT Service Management Mise en œuvre de solutions d IT Service Management Samia Benali Responsable des offres de services d IT Service Management Global Technology Services Sommaire 1 Des meilleures pratiques à la mise en oeuvre

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Valoriser le Système d Information Capital immatériel de l entreprise

Valoriser le Système d Information Capital immatériel de l entreprise Valoriser le Système d Information Capital immatériel de l entreprise IDC s DSI Symposium 2009 Daniel Delorge SAS Institute Information: moteur de transformation Valeur Coût? «La seule chose qui coûte

Plus en détail

Formation Actuaire Data-Scientist 4 JUILLET 2014

Formation Actuaire Data-Scientist 4 JUILLET 2014 Formation Actuaire Data-Scientist 4 JUILLET 2014 Objectifs de la formation Initier les participants aux méthodologies statistiques et informatiques en lien avec la manipulation de données massives. Sensibiliser

Plus en détail

Stratégie Tier 2 : Quels avantages pour votre entreprise?

Stratégie Tier 2 : Quels avantages pour votre entreprise? Stratégie Tier 2 : Quels avantages pour votre entreprise? Les décideurs ont beaucoup à gagner de l intégration des données de gestion externes et internes, afin d assurer la disponibilité des informations

Plus en détail

tech days AMBIENT INTELLIGENCE

tech days AMBIENT INTELLIGENCE tech days 2015 AMBIENT INTELLIGENCE techdays.microsoft.fr techdays.microsoft.fr Time To Market Demande croissante des métiers de réduire le délai de mise sur le marché Immédiateté Ergonomie, rapidité et

Plus en détail

Architecture et moyens de traitements : travaux et perspectives

Architecture et moyens de traitements : travaux et perspectives Masses de Données en Astronomie 10-11 avril 2006 Architecture et moyens de traitements : travaux et perspectives Journée Calculs Réunion et finale Données MDAdistribués Strasbourg André Schaaff 10 et 611

Plus en détail

Les données massives à Calcul Québec

Les données massives à Calcul Québec Les données massives à Calcul Québec Marc Parizeau, professeur et directeur scientifique de Calcul Québec Plan Calcul Québec / Calcul Canada Les outils et les services disponibles Un outil en particulier

Plus en détail

Les choix stratégiques de KAPIA SOLUTIONS

Les choix stratégiques de KAPIA SOLUTIONS Les choix stratégiques de KAPIA SOLUTIONS Interview «KAPIA SOLUTIONS» du 11 Octobre 2011, postée sur : http://www.itplace.tv Christophe QUESNE, Président Emmanuel Varin, Directeur Technique André Vignaud,

Plus en détail

Comparatif d outils d automatisation. ETL Talend vs Sikuli vs OpenRefine

Comparatif d outils d automatisation. ETL Talend vs Sikuli vs OpenRefine Comparatif d outils d automatisation ETL Talend vs Sikuli vs OpenRefine ETL TALEND - Portabilité de l espace de travail optimisé grâce au référentiel sous forme de fichier - Interface intuitive basée sur

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

Linux Administration niveau 3 Dépannage et optimisation

Linux Administration niveau 3 Dépannage et optimisation Linux Administration niveau 3 Dépannage et optimisation Formation Objectif Identifier les différentes possibilités de stockage et leur mise en œuvre Maîtriser la configuration logicielle du système Acquérir

Plus en détail

Ne cherchez plus, soyez informés! Robert van Kommer

Ne cherchez plus, soyez informés! Robert van Kommer Ne cherchez plus, soyez informés! Robert van Kommer Le sommaire La présentation du contexte applicatif Le mariage: Big Data et apprentissage automatique Dialogues - interactions - apprentissages 2 Le contexte

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Design patterns par la pratique

Design patterns par la pratique Alan SHALLOWAY James TROTT Design patterns par la pratique Groupe Eyrolles, 2002 ISBN : 2-212-11139 Table des matières Préface.................................................... XV SECTION I Introduction

Plus en détail

Big Data EC2 S3. Stockage. Amazon Web Services. Réf. Intitulé des formations Page

Big Data EC2 S3. Stockage. Amazon Web Services. Réf. Intitulé des formations Page IAM Big Data EBS Big Data Cloud EC2 S3 Cloud Stockage Stockage Amazon Web Services Réf. Intitulé des formations Page GK4501 Notions de base Amazon Web Services 3 GK4502 Architecture sur Amazon Web Services

Plus en détail

1. Vue rapide des logiciels disponibles

1. Vue rapide des logiciels disponibles Voici une revue rapide des progiciels gratuits accessibles [FREE AND SHAREWARE] dans la section SUITES du site KDNUGGETS (http://www.kdnuggets.com/software/suites.html). L étude sera approfondie pour les

Plus en détail

PLANIFICATION ET OPERATIONS INTEGREES DU TRANSPORT MULTIMODAL

PLANIFICATION ET OPERATIONS INTEGREES DU TRANSPORT MULTIMODAL PLANIFICATION ET OPERATIONS INTEGREES DU TRANSPORT MULTIMODAL KEYWORDS : SYSTEMX, Transport, Multimodal, Simulation, Optimisation, Supervision CONTEXTE de l IRT SYSTEMX L IRT SystemX est un institut de

Plus en détail

Big Data par l exemple

Big Data par l exemple #PARTAGE Big Data par l exemple Alexandre Chauvin Hameau Directeur de la production Malakoff Médéric @achauvin CT BIG DATA 10/12/2015 Soyons pragmatiques BIG DATA beaucoup de bruit pour des choses finalement

Plus en détail

Domaine de Formation : Sciences et Technologies Mention : Informatique Spécialité : Informatique de Gestion

Domaine de Formation : Sciences et Technologies Mention : Informatique Spécialité : Informatique de Gestion LICENCE FONDAMENTALE INFORMATIQUE DE GESTION Domaine de Formation : Sciences et Technologies Mention : Informatique Spécialité : Informatique de Gestion I. Présentation de la licence Le but de la Licence

Plus en détail

Vos experts Big Data. contact@hurence.com. Le Big Data dans la pratique

Vos experts Big Data. contact@hurence.com. Le Big Data dans la pratique Vos experts Big Data contact@hurence.com Le Big Data dans la pratique Expert Expert Infrastructure Data Science Spark MLLib Big Data depuis 2011 Expert Expert Hadoop / Spark NoSQL HBase Couchbase MongoDB

Plus en détail

Présentation CaSciModOT Performances et Architectures

Présentation CaSciModOT Performances et Architectures Présentation CaSciModOT Performances et Architectures Code parallèle : Un peu de théorie Architectures variables : C(n,p)? Quel code? Quelle architecture? Structure d un code : partie parallèle / séquentielle

Plus en détail

Comment ne pas construire un score-titanic

Comment ne pas construire un score-titanic Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations 1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un

Plus en détail

La gestion opérationnelle de la météosensibilité. La prévision météorologique et hydrologique au cœur de l Économie et de la Société

La gestion opérationnelle de la météosensibilité. La prévision météorologique et hydrologique au cœur de l Économie et de la Société La gestion opérationnelle de la météosensibilité La prévision météorologique et hydrologique au cœur de l Économie et de la Société La société METNEXT METNEXT en bref Notre métier : L assistance aux entreprises

Plus en détail

Formation Symantec Veritas Cluster Server 6.x pour Unix

Formation Symantec Veritas Cluster Server 6.x pour Unix La Pédagogie au service de la Technologie TECHNOLOGIE Formation Symantec Veritas Cluster Server 6.x pour Unix Objectif >> A la fin de ce cours, les stagiaires seront à même d effectuer les tâches suivantes

Plus en détail

elearning LA FORMATION CONTINUE SECIB

elearning LA FORMATION CONTINUE SECIB Optimisez vos outils SECIB! LA FORMATION CONTINUE SECIB gagnez en compétences Depuis plus de 25 ans, SECIB améliore la performance et l organisation des cabinets d avocats au travers de solutions logicielles

Plus en détail

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Formation continue. Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat

Plus en détail

Architecture des calculateurs

Architecture des calculateurs Chapitre 1 Architecture des calculateurs 1.1 Introduction Ce paragraphe n a pas la prétention de présenter un cours d informatique. D une manière générale, seuls les caractéristiques architecturales qui

Plus en détail

Du marketing dans ma PME!

Du marketing dans ma PME! Du marketing dans ma PME! Manque d expérience marketing des managers de sociétés technologiques, difficulté de recruter des profils marketing formés ou expérimentés : pourquoi la mission marketing est-elle

Plus en détail

Stages 2015-2016 ISOFT : 25 ANS DE RECHERCHE EN INFORMATIQUE DECISIONNELLE ET. Contact : Mme Lapedra, stage@isoft.fr ANALYSE DE DONNEES

Stages 2015-2016 ISOFT : 25 ANS DE RECHERCHE EN INFORMATIQUE DECISIONNELLE ET. Contact : Mme Lapedra, stage@isoft.fr ANALYSE DE DONNEES Stages 2015-2016 Contact : Mme Lapedra, stage@isoft.fr ISOFT : 25 ANS DE RECHERCHE EN INFORMATIQUE DECISIONNELLE ET ANALYSE DE DONNEES ISoft est un concepteur-éditeur de logiciels spécialisé dans la recherche

Plus en détail

Introduction Big Data

Introduction Big Data Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue

Plus en détail

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives Hadoop, Spark & Big Data 2.0 Exploiter une grappe de calcul pour des problème des données massives Qui suis-je? Félix-Antoine Fortin Génie info. (B. Ing, M. Sc, ~PhD) Passionné de Python, Data Analytics,

Plus en détail

Introduction & concepts Big Data Khamprasit LANPHOUTHACOUL, Responsable de Centre de Compétences OAB UFR IM²AG, St Martin d'hères le 22 octobre 2015

Introduction & concepts Big Data Khamprasit LANPHOUTHACOUL, Responsable de Centre de Compétences OAB UFR IM²AG, St Martin d'hères le 22 octobre 2015 Introduction & concepts Big Data Khamprasit LANPHOUTHACOUL, Responsable de Centre de Compétences OAB UFR IM²AG, St Martin d'hères le 22 octobre 2015 Et à propos des objectifs de cette présentation? 2 Big

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Préface Dunod Toute reproduction non autorisée est un délit. Les raisons de l émergence du Big Data sont bien connues. Elles sont d abord économiques et technologiques. La chute exponentielle des coûts

Plus en détail

Fabien Pinckaers Geoff Gardiner. OpenERP. Tiny. Pour une. gestion d entreprise efficace et intégrée. Groupe Eyrolles, 2008, ISBN : 978-2-212-12261-9

Fabien Pinckaers Geoff Gardiner. OpenERP. Tiny. Pour une. gestion d entreprise efficace et intégrée. Groupe Eyrolles, 2008, ISBN : 978-2-212-12261-9 Fabien Pinckaers Geoff Gardiner OpenERP Tiny Pour une gestion d entreprise efficace et intégrée, ISBN : 978-2-212-12261-9 Conclusion Parmi les géants comme SAP, Microsoft, et les petits éditeurs pullulant

Plus en détail

Documentation Matrox Imaging

Documentation Matrox Imaging Sommaire Dans le domaine de la vision industrielle et des systèmes d inspection optique automatisés, les caméras intelligentes obtiennent beaucoup d attention. En fait, elles sont souvent présentées à

Plus en détail

Big Graph Data Forum Teratec 2013

Big Graph Data Forum Teratec 2013 Big Graph Data Forum Teratec 2013 MFG Labs 35 rue de Châteaudun 75009 Paris, France www.mfglabs.com twitter: @mfg_labs Julien Laugel MFG Labs julien.laugel@mfglabs.com @roolio SOMMAIRE MFG Labs Contexte

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

do more with what you have White paper EAI process management

do more with what you have White paper EAI process management do more with what you have White paper EAI process management Rédacteur : Stéphane Dumont Date de création : 4 décembre 2002 Mise à jour : - Avertissement Ce document est la propriété exclusive de Paseosoft.

Plus en détail

Détection d'intrusions en environnement haute performance

Détection d'intrusions en environnement haute performance Symposium sur la Sécurité des Technologies de l'information et des Communications '05 Détection d'intrusions en environnement haute performance Clusters HPC Fabrice Gadaud (fabrice.gadaud@cea.fr) 1 Sommaire

Plus en détail

DATA ANALYST UTILISER PIG, HIVE ET IMPALA AVEC HADOOP DE CLOUDERA

DATA ANALYST UTILISER PIG, HIVE ET IMPALA AVEC HADOOP DE CLOUDERA SI 2.0 DATA ANALYST UTILISER PIG, HIVE ET IMPALA AVEC HADOOP DE CLOUDERA REF : SICL001 DUREE : 4 JOURS TARIF : 2 695 HT Public Analystes de données, business analysts, développeurs et administrateurs.

Plus en détail

E-Mail Management L expérience DANONE avec EPTICA

E-Mail Management L expérience DANONE avec EPTICA E-Mail Management L expérience DANONE avec EPTICA 1 er février 2006 SITEL is a leading global provider of outsourced customer support services Le Projet pour Danone SITEL répond depuis 5 ans aux clients

Plus en détail

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Mappy en Chiffre Filiale du groupe Solocal 10M de visiteurs uniques 300M visites annuelles 100 collaborateurs dont 60% technique 3,7 Md de dalles

Plus en détail

Heidi WECHTLER. Octobre 2005

Heidi WECHTLER. Octobre 2005 Heidi WECHTLER Le support aux analyses de données Séminaire GREGOR Octobre 2005 Support aux analyse de données du GREGOR Le poste Chargée d étude statistiques au GREGOR, bureau B126 (wechtler.iae@univ-paris1.fr)

Plus en détail

Dossier de Presse. www.2le.net. Ergonomie. E-commerce. Portails internet. Applications Facebook. Logiciels «prêts à adapter» Logiciels sur mesure

Dossier de Presse. www.2le.net. Ergonomie. E-commerce. Portails internet. Applications Facebook. Logiciels «prêts à adapter» Logiciels sur mesure E-commerce Dossier de Presse Portails internet Applications Facebook 2011 1 Logiciels «prêts à adapter» Logiciels sur mesure www.2le.net Ergonomie Webdesign Contact presse : Céline Richard celine@2le.net

Plus en détail

De la captation de données à la Datavisualisation

De la captation de données à la Datavisualisation De la captation de données à la Datavisualisation [Synopsis de l événement] Objets connectés : générateurs de données à visualiser! «En fait de calculs et de proportion, le plus sûr moyen de frapper l

Plus en détail

Table des matières. Partie I Concevoir le commerce électronique 7. Liste des études de cas Introduction 1 Les auteurs 5

Table des matières. Partie I Concevoir le commerce électronique 7. Liste des études de cas Introduction 1 Les auteurs 5 Table des matières Liste des études de cas Introduction 1 Les auteurs 5 Partie I Concevoir le commerce électronique 7 Chapitre 1 Émergence et tendances du commerce électronique 9 1. Chiffres-clés et tendances

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

MASTER MARKETING VENTE, SPECIALITE DATA MINING ET RELATION CLIENT

MASTER MARKETING VENTE, SPECIALITE DATA MINING ET RELATION CLIENT MASTER MARKETING VENTE, SPECIALITE DATA MINING ET RELATION CLIENT RÉSUMÉ DE LA FORMATION Type de diplôme : Master (LMD) Domaine ministériel : Droit, Economie, Gestion Mention : Marketing et vente Spécialité

Plus en détail

Table des Matières. Table des Figures 7. Introduction Générale 9. Chapitre 1 - Langages de description d architectures matérielles hybrides 23

Table des Matières. Table des Figures 7. Introduction Générale 9. Chapitre 1 - Langages de description d architectures matérielles hybrides 23 Table des Figures 7 Introduction Générale 9 1. Outils et plate-formes de construction d application 9 2. Intégration de paradigmes de conception dans le cycle de vie 10 2.1. Equilibrage de charge et équilibrage

Plus en détail

FAITES DE LA DONNÉE LE MOTEUR DE VOTRE BUSINESS. Alexandre Vasseur Responsable Avant-Vente Europe du Sud Pivotal, EMC

FAITES DE LA DONNÉE LE MOTEUR DE VOTRE BUSINESS. Alexandre Vasseur Responsable Avant-Vente Europe du Sud Pivotal, EMC FAITES DE LA DONNÉE LE MOTEUR DE VOTRE BUSINESS Alexandre Vasseur Responsable Avant-Vente Europe du Sud Pivotal, EMC 1 Big Data = Volume, Variété, Vélocité et Valorisation Internet des objets Informations

Plus en détail

Solocal Group Solocal Group pilote ses audiences via un ensemble de tableaux de bord complètement automatisés grâce à l API AT Internet.

Solocal Group Solocal Group pilote ses audiences via un ensemble de tableaux de bord complètement automatisés grâce à l API AT Internet. Online Intelligence Solutions Solocal Group Solocal Group pilote ses audiences via un ensemble de tableaux de bord complètement automatisés grâce à l API AT Internet. Case study Case study INTRODUCTION

Plus en détail

Institut du développement et des ressources en informatique scientifique. Journée Calcul INRA Disseq / MpiDisseq

Institut du développement et des ressources en informatique scientifique. Journée Calcul INRA Disseq / MpiDisseq www.idris.fr Journée Calcul INRA Disseq / MpiDisseq Démarche scientifique et calcul Idée : construire une image géométrique de la diversité moléculaire d une communauté (écologie moléculaire) comme forme

Plus en détail

Présentation Solutions Lexmark Alpha Days janvier 2012 Dominique Zimmer Expert Solutions Impression

Présentation Solutions Lexmark Alpha Days janvier 2012 Dominique Zimmer Expert Solutions Impression Place full color photo here Présentation Solutions Lexmark Alpha Days janvier 2012 Dominique Zimmer Expert Solutions Impression Solutions Embarquées Présentation Cluster d Impression Présentation Variantes

Plus en détail

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE Les résultats donnés par R et SAS donnent les valeurs des tests, la valeur-p ainsi que les intervalles de confiance. TEST DE COMPARAISON

Plus en détail

Banque Accord redonne de l agilité à son système d information avec l aide de MEGA

Banque Accord redonne de l agilité à son système d information avec l aide de MEGA redonne de l agilité à son système d information avec l aide de MEGA À propos de Banque Accord : Filiale financière du groupe Auchan Seule banque française détenue à 100% par un distributeur 3 activités

Plus en détail

Solution logicielle pour le pilotage et l ERM. Journées d études IARD 26 mars 2010 2 mars 2010

Solution logicielle pour le pilotage et l ERM. Journées d études IARD 26 mars 2010 2 mars 2010 Présentation d ERMS Solution logicielle pour le pilotage et l ERM Journées d études IARD 26 mars 2010 2 mars 2010 Sommaire 1 Présentation d ACTUARIS 2 Les problématiques rencontrées 3 Présentation d ERMS

Plus en détail

Le Tag Management à l ère du Smart Data

Le Tag Management à l ère du Smart Data Le Tag Management à l ère du Smart Data LE CAS CLIENT PAGES JAUNES Pages Jaunes est un chef de file des solutions de marketing et de medias numériques au Canada. En lui permettant de normaliser son acquisition

Plus en détail

M1 MIAGE Option IFD Data Mining et Parallélisme

M1 MIAGE Option IFD Data Mining et Parallélisme M1 MIAGE Option IFD Data Mining et Parallélisme Alexandre Termier 2011-2012 S2 1 / 24 Besoin ˆ Data Mining doit... traiter de gros volumes de données pouvoir eectuer des analyses complexes (gros calculs)

Plus en détail

<Insert Picture Here> Exadata Storage Server et DB Machine V2

<Insert Picture Here> Exadata Storage Server et DB Machine V2 Exadata Storage Server et DB Machine V2 Croissance de la Volumétrie des Données Volumes multipliés par 3 tous les 2 ans Evolution des volumes de données 1000 Terabytes (Données) 800

Plus en détail

CRM et GRC, la gestion de la relation client R A LLER PL US L OI

CRM et GRC, la gestion de la relation client R A LLER PL US L OI 3 R A LLER PL US L OI CRM et GRC, la gestion de la relation client Comment exploiter et déployer une solution de relation client dans votre entreprise? Les usages d une CRM Les fonctionnalités d une CRM

Plus en détail

IBM est reconnu par les plus grands analystes comme un leader dans la gestion de l'information

IBM est reconnu par les plus grands analystes comme un leader dans la gestion de l'information Facilité d'exécution IBM est reconnu par les plus grands analystes comme un leader dans la gestion de l'information Data Quality Data Integration MDM Product Data MDM Customer Data Data Masking Data monitoring

Plus en détail