11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications
|
|
- Rémi Laporte
- il y a 8 ans
- Total affichages :
Transcription
1 Plan Le Big Data Mining enjeux et approches techniques Bernard Dousset Professeur des universités Institut de Recherche en Informatique de Toulouse UMR 5505 Université de Toulouse 118, Route de Narbonne, F Toulouse cedex 9 (France) Introduction Quelques exemples d applications Les avantages et les inconvénients Les solutions techniques Conclusions bernard.dousset@irit.fr 2 Introduction Le BIG Data Définition par les 5 V du Big Data Volume Vitesse Variabilité Véracité Visualisation Le Big Data Mining L économiste en chef de Google Hal VARIAN a dit «Data Scientist, le job le plus sexy du 21 e siècle» Le Big Data va fortement faire évoluer les statistiques, l analyse de données, le data mining, le text mining (répartition optimale des données et traitements parallèles) L or noir du XXI siècle? Introduction Pourquoi cet engouement L information produite par toute l humanité a doublé en 2 ans à cause du web, de la téléphonie, des réseaux, des capteurs, des vidéos, 3 verrous : le coût des connexions, les I/O, la puissance d un seul processeur Les systèmes SQL coûtent cher (SI, SGBD, Main frame, systèmes distribués, BI, ) Pour de gros volumes (>10 8 ), ils ne sont plus assez efficaces Les clusters coutent beaucoup moins cher et passent à l échelle Les cartes vidéos, détournées de leur usage, coutent encore moins cher * Deux solutions en fonction des besoins Mutualiser des ressources (Cloud, Data Center) UC, DD, I/O, logiciels, sauvegardes, maintenance, sécurité, Paralléliser (Big Data) et changer de monde NoSQL, NewSQL, Map reduce, Adoop, Cassandra, MongoDB, BigTable, *
2 Le gouvernement a défini 5 leviers pour le Big Data Ouvrir les données publiques, Favoriser la création de start-up Renforcer la chaîne de financement + fonds «ambition numérique» Lancer des défis de valorisation de stocks de données Utiliser le potentiel de ces données (OpenData) Pôle emploi, sécurité sociale, éducation nationale, enseignement supérieur, patrimoine touristique, Création d un centre de ressources technologiques Outils logiciels, méthodes statistiques ou mathématiques, Jeux de données massives Infrastructures de calcul, kit de briques technologiques. Renforcer la capacité à l export des PME du Big Data Création d un droit à l expérimentation Quelques chiffres Le génome (3 Md), il y a 10 ans (10 ans,1md $) aujourd hui (2 jours, 2K $) La photo il y a 20 ans (10 5 Pixels), aujourd hui ( Pixels, prix/100) , Yota zeta exa péta téra giga méga kilo, milli micro nano pico femto atto zepto yocto Données de 2013 * Depuis 1980 Facebook /jour Télescope Masse de /jour L univers x le soleil Dette en $ *I/O *Puissance Des UC *Coût Mémoire Gravure Processeur Masse du Proton en gr Les trois principaux verrous Coût des connexions Un clic sur le web équivaut à ~20 watts/heure Un Data center consomme l équivalent d une ville de ~ habitants Consommation de l informatique ~10% (2013) => dans 20 ans?? => Éviter le plus possible les transferts de données Débit des entrés sorties 0,4 Mo/s en1980, 40 Mo/s actuellement ~ x100 DD : 300$ le Mo en 1980 => 60$ Le To actuellement ~ / Temps de lecture d un même volume DD ~ x !!! (1s => 14h) => Paralléliser les I/O donc distribuer le stockage ou le changer Puissance des processeurs Fin de la loi de Moore? (l intégration double tous les 18 mois) Puissance x à depuis 1980 (plafonnée à 3ghz, 30nm) => Calcul parallèle (multi core) et/ou distribué (grille) 2
3 Quelques exemples d applications La domotique et les compteurs électriques intelligents Les essais en vol (enregistrement des paramètres de vol) La téléphonie (facturation, historique, statistiques, ) L imagerie médicale (scanners, IRM, échos, ) La génomique et l épidémiologie Les données bancaires et financières L analyse d opinions (politique, marketing, e-réputation, ) Les données astronomiques (Hubble, radiotélescopes, ) Les données géo-référencées, la géolocalisation, Les modélisations (climatique, sismique, fluides, matériaux, molécules) La physique des particules (CERN), la chimie quantique, Les données ouvertes Le web des données, le web invisible Les data centers, les réseaux sociaux Les acteurs IBM Dell HP Google Microsoft Intel Oracle Saas Sap OVH Amazon 9 Les avantages et les inconvénients Les + du Big Data Le passage à l échelle La solution peut rester en interne Solutions open source Le coût pour les très gros volumes Le temps de réponse Etude des queues de distribution (pas d échatillonnage) Etude des données à faible densité informationnelle 64% des organisations veulent s y mettre Les du Big Data Il faut maîtriser une nouvelle technologie Moins de possibilités que les SGBD classiques, qu OLAP, Nouvelle approche de l analyse de données (Data, Text, Web mining) Améliorer les analyses et les données existantes avant de passer au BigData 8% seulement des organisations se sont lancées 10 Les solutions techniques Au niveau hadware Clusters Coût / disponibilité, homogénéité Montée en charge, répartition de la charge, Gestion des ressources (processeur, mémoire, disque, bande passante) Grilles Hétérogène (clusters, serveurs, PC, téléphones mobiles, tablettes, ) Partage, distribution, coordination (middleware), autonomie, délocalisation Cartes graphiques Machine Learning, Data Mining, recherche, tri, BD, MapReduce, Cloud Virtualisation Partage des ressources matérielles et logicielles et des services 11 Les solutions techniques Au niveau de la plateforme Solutions Hadoop** (HDFS, HBase, MapReduce) Cloudera (la plus installée) HortonWorks (100% d Apache Hadoop) MapR (support fichiers HDFS) => Cisco, Google, Amazon Pivotal HD EMC Corparation IBM InfoSphere BigInSights Amazon Elastic Map Reduce (solution hébergée) * ** 12 3
4 Les solutions techniques Au niveau des packages Big Data Open source ou propriétaire Critères de choix Simplicité => expérimentation Respect des standards Facilité d intégration des données Adéquation des fonctionnalités supportées Pièges à éviter Taxe sur les données (on est en Big Data) Packages non compatibles avec le mode natif d Apache Hadoop Un moteur par serveur => Coût Ne pas sur dimensionner => Complexité Bases de données Clé/Valeur Caractéristiques Solution dite NoSQL, hachage optimisé pour la répartition Stockage en mémoire d un couple clé-valeur ~ blob (binary large object) Les + Simpicité Extensibilité Performances (volume important) Jeux en ligne, gestion de traces, profils, e-commerce Les Utilisation spécifique (requêtes basées uniquement sur les clés) Pas de modèle relationnel Faible complexité des données * Redis, DynamoDB (amazon), SimpleDB, Voldemort, Riak, Cassandra (Apache) Bases de données orientées colonnes Caractéristiques Transposée d un base de donnée relationnelle Pas de valeur «null» stockée Les + Utilisée par les grands du Web Gain d espace, bonne indexation Marc (1) Mer (1) Berline (2) Jean (2) Montagne (3) 4x4 (3) Alain (3) Break (5) Victor (5) Facilité et rapidité de récupération d une colonne Possibilité d un très grand nombre de colonnes, de redimensionnement Quelques requêtes proche de SQL (select/update/delete) Les Données d un même type, qui se ressemblent Fortement orientée Big Data *BigTable (Google), Vertica (hp), Hadoop (Apache), Cloudera, DataStax, Bases de données orientées documents Caractéristiques Cas particulier des bases Clé/Valeur* Un document (Xml, Json, Image, ) est associé à une clé Un commentaire (Titre) est associé au document Les + On peut facilement récupérer les Titres Orientée données hétérogènes Gestion du contenu de pages Web Ajout simplifié de machines Les Problème dus à la duplications de données Très (Trop) grande flexibilité => incohérences *Terrastore, RavenDB, RaptorDB, SimpleDB, Redis, MongoDB, CouchDB, GigaSpaces, GemFire,
5 Bases de données orientées graphes Caractéristiques Des nœuds représentent des objets possédants de nombreuses propriétés Des liens représentent des relations entre les objets Possibilités Hypergraphes Les + On peut facilement parcourir le graphe (largeur, profondeur, ) Trouver les liens entre objets similaires Trouver des ascendants ou descendants communs Bien adaptée aux données relationnelles : réseaux sociaux, RDF, Objets Les Approche spécifique : nœuds/liens/propriétés Ne remplace pas les autres BD NoSQL ni les BD relationnelles *Neo4j (java), HyperGraphDB, FlockDB (Twitter), BigData, 17 Les algorithmes de tri Tris séquentiels (n éléments sur un seul processeur) Tri par insertion (bon si la liste est déjà un peu triée) Tri par sélection (on cherche le + petit ) Tri bulle (on décale tant que + grand ) Tri rapide (Quicksort) utilise un pivot Tris parallèles (n éléments distribués sur p processeurs) Tri bulle parallèle Tri fusion Tri Pair Impair (décalage à droite et à gauche des listes triées) Tri par paquets (un intervalle par processeur) Tri par échantillon (sample sort) séparateurs choisis sur echantillon Tri bitonique (fusion 2 à 2 de listes triées) Tri Hyperquicksort (basé sur les hyper-cubes) 18 Exemple de tri distribué Sur Google plus de 2 milliards de résultats pour «Big Data» => Pagerank Le filtrage distribué Ex : l indexation de tous les disques durs de la planète
6 Les dénombrements distribués Henri (6) Mer (6) Berline (7) Audrey (7) Mer (7) Voiture Nb 2 Berline Break 1 Spider 1 4x4 1 Marc (1) Mer (1) Berline (2) Jean (2) Montagne (5) 4x4 (9) Julie (5) Break (1) Victor (9) Anne (3) Campagne (3) Spider (4) Léa (4) Mer (8) Alain (8) Vacances Nb Campagne 1 Mer 4 Montagne 1 En théorie des graphes Calcul du degré Algorithme du plus court chemin Dijkstra parallèle Bellman Ford parallèle Arbre partiel extremum (couvrant) => Prim parallèle Arborescence minimum Huffman parallèle En analyse de données AFC 4D Correspondances Gènes/Performances Conclusions Les données sont elles fortement structurées non structurées hétérogènes Priorité à La lecture de données L écriture de données Peut-on perdre quelques data? Disponibilité permanente ou non de l application? Les données sont elle réparties? Le volume peut-il augmenter très fortement? Y a-t-il des contraintes temps réel
7 Conclusions Choix de la bonne solution Installer un cluster ou le simuler Hadoop or not Hadoop Quelle distribution? (Cloudera, Hortonworks, MapR, ) Modélisation, génération de code, planification des jobs Big Data, Intégration de différentes sources de données Problèmes juridiques Données ouvertes Données personnelles e-commerce Merci pour votre attention!!! 25 7
NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)
1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche
Plus en détailGroupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be
Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par
Plus en détailNoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)
1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche
Plus en détailLes participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.
Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision
Plus en détailBIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara
BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1 2 Introduction Historique des bases de données : méthodes de stockage et d analyse
Plus en détailCartographie des solutions BigData
Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?
Plus en détailFouillez facilement dans votre système Big Data. Olivier TAVARD
Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche
Plus en détailBases de données documentaires et distribuées Cours NFE04
Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire
Plus en détailLes bases de données relationnelles
Bases de données NO SQL et SIG : d un existant restreint à un avenir prometteur CHRISTIAN CAROLIN, AXES CONSEIL CAROLIN@AXES.FR - HTTP://WWW.AXES.FR Les bases de données relationnelles constituent désormais
Plus en détailAVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL
AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES
Plus en détailFORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis
FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis Joseph Salmon Télécom ParisTech Jeudi 6 Février Joseph Salmon (Télécom ParisTech) Big Data Jeudi 6 Février 1 / 18 Agenda Contexte et opportunités
Plus en détailLes technologies du Big Data
Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR
Plus en détailProgrammation parallèle et distribuée
Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution
Plus en détailProgrammation parallèle et distribuée
Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution
Plus en détailEntrez dans l ère du Numérique Très Haut Débit
MIPE Juin 2012 - Nantes http://www.network-th.fr - 0811 560 947 1. Le Très Haut Débit sur Fibre Optique au prix d une SDSL : Mythe ou Réalité? 2. Sauvegarder, Sécuriser, Protéger, Superviser : Délégueznous
Plus en détailLe BigData, aussi par et pour les PMEs
Parole d expert Le BigData, aussi par et pour les PMEs Stéphane MOUTON, CETIC Département Software and Services Technologies Avec le soutien de : LIEGE CREATIVE Le Big Data, aussi par et pour les PMEs
Plus en détailNoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011
NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011 Sommaire Introduction Théorème CAP NoSQL (principes, mécanismes, démos,...) Ce que nous avons constaté Recommandations Conclusion
Plus en détailMapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15
MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué
Plus en détailL écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13
L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,
Plus en détailCassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an
Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an Qui suis-je? Alexander DEJANOVSKI Ingénieur EAI Depuis 15 ans chez Chronopost @alexanderdeja Chronopost International
Plus en détailNoSQL. Etat de l art et benchmark
NoSQL Etat de l art et benchmark Travail de Bachelor réalisé en vue de l obtention du Bachelor HES par : Adriano Girolamo PIAZZA Conseiller au travail de Bachelor : David BILLARD, Professeur HES Genève,
Plus en détailIntroduction Big Data
Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue
Plus en détailHADOOP ET SON ÉCOSYSTÈME
HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos
Plus en détailMapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis
MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce
Plus en détailDocument réalisé par Khadidjatou BAMBA
Comprendre le BIG DATA Document réalisé par Khadidjatou BAMBA 1 Sommaire Avant propos. 3 Historique du Big Data.4 Introduction.....5 Chapitre I : Présentation du Big Data... 6 I. Généralités sur le Big
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailCNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010
CNAM 2010-2011 Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 Déploiement d une application dans le cloud. 1. Cloud Computing en 2010 2. Offre EC2
Plus en détailLes quatre piliers d une solution de gestion des Big Data
White Paper Les quatre piliers d une solution de gestion des Big Data Table des Matières Introduction... 4 Big Data : un terme très vaste... 4 Le Big Data... 5 La technologie Big Data... 5 Le grand changement
Plus en détailSurmonter les 5 défis opérationnels du Big Data
Surmonter les 5 défis opérationnels du Big Data Jean-Michel Franco Talend Connect 9 octobre 2014 Talend 2014 1 Agenda Agenda Le Big Data depuis la découverte jusqu au temps réel en passant par les applications
Plus en détailRicco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2
Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions
Plus en détailBIG DATA en Sciences et Industries de l Environnement
BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie
Plus en détail20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà
Plus en détailLe NoSQL - Cassandra
Le NoSQL - Cassandra Thèse Professionnelle Xavier MALETRAS 27/05/2012 Ce document présente la technologie NoSQL au travers de l utilisation du projet Cassandra. Il présente des situations ainsi que des
Plus en détailRecherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014
Recherche et Diffusion de l Information dans les Réseaux Philippe Robert Le 8 avril 2014 Présentation Présentation Directeur de recherche à l INRIA Responsable de l équipe de recherche Réseaux, Algorithmes
Plus en détailOffre formation Big Data Analytics
Offre formation Big Data Analytics OCTO 2014 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél : +33 (0)1 58 56 10 00 Fax : +33 (0)1 58 56 10 01 www.octo.com 1 Présentation d OCTO Technology 2 Une
Plus en détailHébergement MMI SEMESTRE 4
Hébergement MMI SEMESTRE 4 24/03/2015 Hébergement pour le Web Serveurs Mutualités Serveurs Dédiés Serveurs VPS Auto-Hébergement Cloud Serveurs Mutualités Chaque Serveur héberge plusieurs sites Les ressources
Plus en détailDéploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr
Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les
Plus en détailLabs Hadoop Février 2013
SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL
Plus en détailLes datas = le fuel du 21ième sicècle
Les datas = le fuel du 21ième sicècle D énormes gisements de création de valeurs http://www.your networkmarketin g.com/facebooktwitter-youtubestats-in-realtime-simulation/ Xavier Dalloz Le Plan Définition
Plus en détailEcole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales
Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire
Plus en détailTechnologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC
Technologies du Web Ludovic DENOYER - ludovic.denoyer@lip6.fr UPMC Février 2014 Ludovic DENOYER - ludovic.denoyer@lip6.fr Technologies du Web Plan Retour sur les BDs Le service Search Un peu plus sur les
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailIntroduction à MapReduce/Hadoop et Spark
1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -
Plus en détailPanorama des solutions analytiques existantes
Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement
Plus en détailBases de données documentaires et distribuées Cours NFE04
Bases de données documentaires et distribuées Cours NFE04 Introduction du cours Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire
Plus en détailPrototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop
Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Soutenance de projet ASR 27/01/2011 Julien Gerlier Siman Chen Encadrés par Bruno
Plus en détailMesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic
Mesures DNS à l ère du Big Data : outils et défis JCSA, 9 juillet 2015 Vincent Levigneron, Afnic Sommaire 1. Mesures DNS réalisées par l Afnic 2. Volumes et biais 3. Limitations 4. Pourquoi une approche
Plus en détailBig Data On Line Analytics
Fdil Fadila Bentayeb Lb Laboratoire ERIC Lyon 2 Big Data On Line Analytics ASD 2014 Hammamet Tunisie 1 Sommaire Sommaire Informatique décisionnelle (BI Business Intelligence) Big Data Big Data analytics
Plus en détailLa tête dans les nuages
19 novembre 2010 La tête dans les nuages Démystifier le "Cloud Computing" Jean Bernard, Directeur, Gestion des services Radialpoint SafeCare Inc. Au sujet de Radialpoint Radialpoint offre des solutions
Plus en détail4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
Plus en détailJean-François Boulicaut & Mohand-Saïd Hacid
e siècle! Jean-François Boulicaut & Mohand-Saïd Hacid http://liris.cnrs.fr/~jboulica http://liris.cnrs.fr/mohand-said.hacid Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205
Plus en détailOrganiser vos données - Big Data. Patrick Millart Senior Sales Consultant
Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be
Plus en détailSuite Jedox La Business-Driven Intelligence avec Jedox
Suite La Business-Driven Intelligence avec Une solution intégrée pour la simulation, l analyse et le reporting vous offre la possibilité d analyser vos données et de gérer votre planification selon vos
Plus en détailQuels choix de base de données pour vos projets Big Data?
Quels choix de base de données pour vos projets Big Data? Big Data? Le terme "big data" est très à la mode et naturellement un terme si générique est galvaudé. Beaucoup de promesses sont faites, et l'enthousiasme
Plus en détailTransformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES
Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES M a l g r é s o n ca r act è r e en apparence multiforme un enjeu central s est progressivement affirmé en matière
Plus en détailLe BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2
Le BIG DATA????? Big Bang? Big hype? Big Challenge? Big Buzz? Big Opportunity? Big Business? Big Hacking? Gérard Peliks planche 2 Les quatre paradigmes de la science en marche Paradigme 1 : L empirisme
Plus en détailWD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD
WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD Xe, RAFF et StableTrac sont des marques de Western Digital
Plus en détailBig Graph Data Forum Teratec 2013
Big Graph Data Forum Teratec 2013 MFG Labs 35 rue de Châteaudun 75009 Paris, France www.mfglabs.com twitter: @mfg_labs Julien Laugel MFG Labs julien.laugel@mfglabs.com @roolio SOMMAIRE MFG Labs Contexte
Plus en détailBig Data Concepts et mise en oeuvre de Hadoop
Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12
Plus en détailLe Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)
Donner du sens à la science Rechercher Se connecter / S'inscrire Suivre VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE MES THÈMES Types DOSSIER Paru le 15.11.2012 Mis à jour le 29.01.2014 Big Data, la
Plus en détailBig Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1
Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués
Plus en détailProgrammation parallèle et distribuée (Master 1 Info 2015-2016)
Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction
Plus en détailLivre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012
Livre blanc Solution Hadoop d entreprise d EMC Stockage NAS scale-out Isilon et Greenplum HD Par Julie Lockner et Terri McClure, Analystes seniors Février 2012 Ce livre blanc d ESG, qui a été commandé
Plus en détailCONFERENCE TECHNOM AIDE IBM
Conférence Big Data CONFERENCE TECHNOM AIDE IBM Le BIG DATA : le nouveau pétrole de la société. En présence de : Christophe MENICHETTI (spécialiste BIG DATA chez IBM) JN. SCHNEIDER et F. WEYGAND (professeurs
Plus en détailLes journées SQL Server 2013
Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne
Plus en détailCENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013
www.thalesgroup.com CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013 2 / Sommaire CENTAI : Présentation du laboratoire Plate-forme OSINT LAB Détection de la fraude à la carte bancaire
Plus en détailBig Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase
Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet
Plus en détailhttp://blog.khaledtannir.net
Algorithme de parallélisations des traitements Khaled TANNIR Doctorant CIFRE LARIS/ESTI http://blog.khaledtannir.net these@khaledtannir.net 2e SéRI 2010-2011 Jeudi 17 mars 2011 Présentation Doctorant CIFRE
Plus en détailRFC 791 (Jon Postel 1981)
RFC 791 (Jon Postel 1981) 0 1 2 3 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + Version IHL Type of Service Total Length
Plus en détailPrototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop
Julien Gerlier Siman Chen Rapport de projet de fin d étude ASR 2010/2011 Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Encadrants
Plus en détailM2 GL UE DOC «In memory analytics»
M2 GL UE DOC «In memory analytics» Alexandre Termier 2014/2015 Sources Travaux Amplab, U.C. Berkeley Slides Ion Stoica Présentations Databricks Slides Pat McDonough Articles de M. Zaharia et al. sur les
Plus en détailBig Data. Concept et perspectives : la réalité derrière le "buzz"
Big Data Concept et perspectives : la réalité derrière le "buzz" 2012 Agenda Concept & Perspectives Technologies & Acteurs 2 Pierre Audoin Consultants (PAC) Pierre Audoin Consultants (PAC) est une société
Plus en détailMaîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel
LIVRE BLANC Processeurs Intel Xeon Unités de stockage SSD Intel Cartes réseau convergé Ethernet Intel Distribution Intel pour logiciel * Maîtriser les technologies Big Data pour obtenir des résultats en
Plus en détailQu est-ce que le «cloud computing»?
Qu est-ce que le «cloud computing»? Par Morand Studer eleven Octobre 2011 Qu est-ce que le «cloud computing»? - Morand Studer eleven Octobre 2011 www.eleven.fr 1 Aujourd hui, la démocratisation de l informatique
Plus en détailLes enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013
Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine
Plus en détailTables Rondes Le «Big Data»
Tables Rondes Le «Big Data» 2012-2013 1 Plan Introduc9on 1 - Présenta9on Ingensi 2 - Le Big Data c est quoi? 3 - L histoire 4 - Le monde du libre : Hadoop 5 - Le système HDFS 6 - Les algorithmes distribués
Plus en détailSQL Server 2012 et SQL Server 2014
SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation
Plus en détailR+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!
R+Hadoop = Rhadoop* * Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata! 27 Janvier 2014 / Université Paul Sabatier / DTSI / David Tsang-Hin-Sun Big
Plus en détailBig data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique
Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai
Plus en détailAcquisition des données - Big Data. Dario VEGA Senior Sales Consultant
Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated
Plus en détailTitre : La BI vue par l intégrateur Orange
Titre : La BI vue par l intégrateur Orange Résumé : L entité Orange IT&L@bs, partenaire privilégié des entreprises et des collectivités dans la conception et l implémentation de SI Décisionnels innovants,
Plus en détailPrésentation du module Base de données spatio-temporelles
Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes
Plus en détailFormation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop
Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont
Plus en détailProjet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia
Projet Xdata Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia Mutualisation des données XData = Cross Data En croisant des données d origine diverses,
Plus en détailCassandra et Spark pour gérer la musique On-line
Cassandra et Spark pour gérer la musique On-line 16 Juin 2015 @ Paris Hammed RAMDANI Architecte SI 3.0 et BigData mramdani@palo-it.com +33 6 80 22 20 70 Appelez-moi Hammed ;-) (Sidi Mo)Hammed Ramdani @smramdani
Plus en détailStephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015
Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS Salon du Big Data 11 mars 2015 Accélération de l innovation +500 +280 Amazon EC2 Container Service +159 AWS Storage Gateway Amazon Elastic Transcoder
Plus en détailVeille Technologique. Cloud Computing
Veille Technologique Cloud Computing INTRODUCTION La veille technologique ou veille numérique consiste à s'informer de façon systématique sur les techniques les plus récentes et surtout sur leur mise à
Plus en détailPréface Dunod Toute reproduction non autorisée est un délit. Les raisons de l émergence du Big Data sont bien connues. Elles sont d abord économiques et technologiques. La chute exponentielle des coûts
Plus en détailPLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION
PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION KEOPS Automation Espace Performance 2B, rue du Professeur Jean Rouxel BP 30747 44481 CARQUEFOU Cedex Tel. +33 (0)2 28 232 555 -
Plus en détailLE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data
LE BIG DATA Solution EMC Big Data TRANSITION VERS LE BIG DATA En tirant profit du Big Data pour améliorer leur stratégie et son exécution, les entreprises se démarquent de la concurrence. La solution EMC
Plus en détailBases de Données NoSQL
Bases de Données NoSQL LI328 Technologies Web Mohamed-Amine Baazizi Transparents de Bernd Amann UPMC - LIP6 LI328 Technologies Web (B. Amann) 1 SGBD Universalité Systèmes «SQL» : Facilité d'utilisation
Plus en détailDocForum 18 Juin 2015. Réussites d un projet Big Data Les incontournables
DocForum 18 Juin 2015 Réussites d un projet Big Data Les incontournables Vos interlocuteurs Mick LEVY Directeur Innovation Business mick.levy@businessdecision.com 06.50.87.13.26 @mick_levy 2 Business &
Plus en détailBig Data et Prévisions. Philippe Picard, le 24 juin 2015. Page 1
Big Data et Prévisions Philippe Picard, le 24 juin 2015. Page 1 Vous dites prévisions et prédictions? Neptune Météo Marées Boson de Higgs Loto PMU Economie Sismique + Nostradamus _ Philippe Picard, le
Plus en détailFastilog, votre outil de gestion des activités du personnel
www.fastilog.fr Fastilog, votre outil de gestion des activités du personnel Gestion des congés Gestion des pointages Gestion des plannings Disponible en licence et en SaaS Fastilog, votre outil de gestion
Plus en détailHibernate vs. le Cloud Computing
Hibernate vs. le Cloud Computing Qui suis-je? Julien Dubois Co-auteur de «Spring par la pratique» Ancien de SpringSource Directeur du consulting chez Ippon Technologies Suivez-moi sur Twitter : @juliendubois
Plus en détailPerformance et usage. La différence NETGEAR - R7000. Streaming HD illimitée
Performance et usage Wi-Fi AC1900 - Vitesse 600Mbps (2.4GHz) + 1300 Mbps (5GHz) Processeur Dual Core 1GHz Fonctionnalités avancées pour le jeu en ligne sans latence Bande passante prioritaire pour les
Plus en détailLES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1
LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1 SAS Cost and Profitability Management, également appelé CPM (ou C&P), est le nouveau nom de la solution SAS Activity-Based Management. Cette version
Plus en détailBIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.
BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I. QUELLES PERSPECTIVES POUR LES 20 PROCHAINES ANNEES? 22 MARS 2013 CHARLES PARAT, DIR. INNOVATION adoption L ADOPTION DES EVOLUTIONS B.I. EST LENTE BIGDATA BUZZ MAINFRAME
Plus en détail