Mastodons. Une Approche Interdisciplinaire des Big Data. Mokrane Bouzeghoub CNRS / INS2I & MI !"#$%&%'()*%+,$-.'."$%%
|
|
|
- Heloïse Mathieu
- il y a 10 ans
- Total affichages :
Transcription
1 Mastodons Une Approche Interdisciplinaire des Big Data Mokrane Bouzeghoub CNRS / INS2I & MI!"#$%&%'()*%+,$-.'."$%%
2 PLAN Quelques concepts de base Les ouels du Big Data Le défi Mastodons (CNRS) Conclusion et perspeceves
3 IntroducEon Quelques concepts de Big Data 3
4 Emergence du Big Data Exemple : Linked Open Data IniEée en 2007 avec une dizaine de sources de données interconnectées Accès à plusieurs BD scientifiques et culturelles interconnectées sur le Web Aujourd hui, plusieurs centaines de sources connectées et ouvertes
5 Aucun domaine n échappe à l avalanche des données Commerce et les affaires SI d entreprise, Banques, transactions commerciales, systèmes de réservation, Gouvernements et organisations Loisirs Lois, réglementations, standards, infrastructures,. Musique, vidéo, jeux, réseaux sociaux Sciences fondamentales Santé Astronomie, physique et énergie, génome, Dossier médical, sécurité sociale, Environnement Climat, dév durable, pollution, alimentation, Humanités et Sciences Sociales Numérisation du savoir (littérature, histoire,art, srchitectures), données archéologiques
6 Qu est- ce qu une (très grande) masse de données? VLDB XLDB Massive Data Big Data Very Big Data Data Deluge Grandes Conf du domaine: VLDB, XLDB, ICDE, EDBT,
7 Complexité muledimensionnele des Big Data Nouvelles archi. de stockage Nouvelles archi. d interopérabilité Défi pour les réseaux de communicaeon Nouveaux modèles de calcul sur des flux Ne[oyage et transformaeon Fusion de données Nouveaux modèles de qualité (données & processus de traitement) h6p:// veracity
8 Les grands challenges scienefiques du Big Data Stockage et préservaeon des données Performance des accès, disponibilité des données ProtecGon des données IndexaGon sémangque (ontologies), indexagon pargcipagve (folksonomies) Analyse staeseque et sémaneque, raisonnement Analyse en temps réel de flux congnus de données émanant de différentes sources Requêtes mulgdimensionnelles sur des grands ensembles de données ExtracGon et interprétagon de connaissances Impact sociétal et économique ProtecGon de la vie privée, Droit à l oubli Droits de propriétés, droits d exploitagon Economie d énergie coût du stockage, coût de transfert
9 Exemple 1 : Analyse complexe à grande échelle Analyse en temps réel de flots continus de données émanant de différentes sources Ex: Découvrir et comprendre les patterns caractéristiques du comportement de certains phénomènes ou certaines populations Réaction en temps réel à des événements d alerte Ex: attaques sur le réseau Requêtes multidimensionnelles sur des grands ensembles de données Découvrir des corrélations entre phénomène
10 Exemple 2 : La visualisaeon des données Besoins Problèmes Navigation intuitive/contextuelle Visualisation de phénomènes non perceptibles (durant la simulation) Analyse /Interaction visuelle L approche de visualisation peut-elle aider à la compréhension d un phénomène Ou peut-elle introduire un biais et en altérer l interprétation? Ex: Visualisation post-traitement V.S Visualisation in-situ Évite des zones d ombre par perte de calculs intermédiaires à Coupler la simulation et la visualisation (vars température, pression, ) Ex: Swiss Nat Supercomputing Center visualcomplexity.com/vc
11 Exemple 3 : La préservaeon des données Comment préserver les données à durée de vie illimité? connaissances scientifiques produits culturelles connaissances archéologiques et environnementales connaissances sociales (recensements) Comment préserver les données à durée de vie longue mais limitée patrimoine informationnel des entreprises Données personnelles (stockées dans les disques privés ou publiés sur le Web) Données publiques (fichiers sécu, police, ) Quel coût pour la préservation des données Coût de conversion des données (formats) Coût pour la migration des technologies Coût de maintien des technologies de niche Quelle stratégie pour les données gérées dans le Cloud?
12 Du Big Data à la Science des Données La science est- elle dans les masses de données? La valeur de ces données réside dans les indicateurs, les pa[erns et les règles/lois qui peuvent en être dérivés (connaissance) Ces données sont importantes non seulement en raison de leur quaneté mais aussi en raison des relaeons existantes entre elles (sémaneque) Les données peuvent être source de plus- value scienefique mais aussi source de bruit et de pollueon (qualité, hétérogéneité, manipulaeon) Les masses de données nous parlent- elles de notre société? Nous disent- elles quelque chose que nous ne sachions déjà? Diront- elles quelque chose de nous aux généraeons futures? Ont- elles une objecevité en elles- mêmes ou sont- elles biaisées par des transformaeons subjeceves? Les masses de données génèrent- elles une valeur économique? Quels sont les secteurs privilégiés? Quel retour sur invesessement? Quel rôle pour ces données (maeère première, produits dérivés, capital)? Quel statut pour ces données (propriété privée, domaine publique, objet commercial)?
13 Science des données : un 4 e pilier de la Science La disponibilité de très grandes masses de données et la capacité de les traiter de manière efficace est en train de modifier la manière dont nous faisons de la science 1. Science empirique : observaeons de phénomènes naturels, évaluaeon de faits mesurables, extraceon de lois générales par raisonnement inducef 2. Science théorique : cadre de travail offrant des modèles (mathémaeques) pour comprendre un certain univers 3. Science computaeonnelle : simulaeon de phénomènes complexes pour comprendre ou valider des théories 4. Science des données: collecte massive de données et traitement pour en extraire des connaissances nouvelles
14 OuEls du Big Data NoSQL Hadoop MapReduce. 14
15 IntroducEon Un paysage très riche et hétérogène. OuEls d acquisieon et d enrichissement de données Architectures de stockage et d accès aux données Des ouels de transformaeon et d intégraeon Des modèles de calcul et d agrégaeon de données Des modèles d extraceon de connaissances (fouille) Des ouels d exploraeon et de visualisaeon Des produits très spécialisés Implémentant souvent des idées de recherche les plus récentes Avec des niveaux d abstraceon différents, nécessitant une forte compétence technique pour les ueliser Souvent de très bas niveau, nécessitant un coût de développement supplémentaire élevé 15
16 Une offre pléthore 16 FIGURE 1 Carte de l échosystème du Big Data en juin 2012.
17 Hbase MangoDB CoucheDB SimpleDB Cassandra Voldemort Oracle/NoSQL Caractérisée par la vague NoSQL (Not only SQL) Systèmes de BD ouverts Orienté sur des applicaeons batch Programmable à l aide de pa[erns ad hoc (comme Map/Reduce) Usage de SQL proscrit ou marginal Visant des données Non nécessairement relaeonnelles / Objet Représentées sous forme de couples (Clé, Val) Documents, matrices, graphes, Massivement distribuées (Sur Hadoop par ex.) Avec des exigences fortes sur Le passage à l échelle (montée en charge) Les performances La tolérance aux pannes 17
18 Hadoop/MapReduce: des briques de base Une architecture parallèle mule- cœurs Assurant à la fois le stockage et le calcul Pouvant passer aisément à l échelle Un système de fichiers distribué, HDFS RéparEssant intelligemment les données sur les nœuds du cluster Tolérant aux pannes grâce à un système de réplicaeon et de matérialisaeon des résultats de calculs Un modèle abstrait de calcul, MapReduce Adaptable à chaque type d applicaeon Efficace pour les très grands volumes de données 18
19 HDFS Système de fichiers distribué Données écrites une seule fois à la créaeon Données lues plusieurs fois en accès Fichier décomposé en fragments stockés dans des nœuds différents, avec de la réplicaeon (3 copies) Le nœud Maître maineent les méta- données nécessaires à la localisaeon des fragments et des fichiers MulEples implémentaeons (IBM GPFS, Quantcast QFS, BlobSeer BSFS ) 19
20 MapReduce Modèle de calcul batch Issue de la programmaeon fonceonnelle Prog ( Map ( k, v )*, Reduce ( k, v )* ) ConsEtué de 2 phases : Map(k,v) appliquée à chaque valeur v associée à une clé k Reduce(k,v ) agrégeant les résultats v des Map pour une clé donnée k Et un planificateur de tâches Allouant les paquets de données aux tâches Synchronisant les tâches Reduce sur la terminaison des tâches Map 20
21 ApplicaEons Tout problème dont les données sont Décomposables en fragments indépendants Représentables sous forme de couples (k,v) Et où l uelisateur est capable Exemples D exprimer sa solueon en termes de fonceons Map et Reduce D écrire/comprendre les fonceons de combinaison, tri, shuffle OpéraEon de Jointure de 2 tables Algorithmes de graphes Algorithmes de classificaeon (très coûteux) 21
22 Mise en œuvre : Une ingénierie très complexe À l installaeon: un très grand nombre de paramètres à fixer par le programmeur Le nombre de Maps (selon la taille des données et celle des blocks) Le nombre de Reduces (selon les performances visées) L agrégaeon locale de résultats d un même map (opgmisagon) Le critère de pareeonnement des résultats de map en fonceon du nombre de reduce En programmaeon SpécificaEon de la configuraeon du programme Ecriture des programmes Map et Reduce Maîtrise de tous les pa[erns de données et des API pour les tâches Map, Reduce, Combine, Connaître la localisaeon des fichiers input/output 22
23 Limites Traitement batch Pas de requête interaceve, pas de flux Impossible de contrôler l ordre des Mappers et Reducers (pas de synchronisaeon) Les mapers/reducers ne doivent pas dépendre des résultats d autres mapers/reducers Une tâche Reduce ne peut démarrer que lorsque tous les Map ont terminé (ou abandonné) Un coût très élevé pour certains algorithmes itéraefs Ex: algo des k- means (classif non supervisée) Inadapté pour certains traitements Analyse de flux 23
24 Nouveaux défis de recherche HadoopDB (Yale) ObjecEfs ciblés AgrégaEon en ligne Requêtes conenues Analyse de flux Monitoring d événements Techniques poteneelles Système de cache des données (aneciper les lectures) Connexion pipeline (éviter les séquences écriture- lecture) entre mapers et reducers Livraison prématurée de résultats (avec raffinement progressif) Contraintes MatérialisaEon périodique pour assurer la tolérance aux pannes OpEmisaEon des communicaeons pipeline Un nouveau modèle de synchronisaeon induit par le pipelining 24
25 25 Tendance
26 Le défi Mastodons!"#$%&%'()*%+,$-.'."$%% 26
27 ObjecEfs duire des concepts et des solueons qui n'auraient pu être obtenus sans coopéraeon entre les différentes disciplines Favoriser l émergence d une communauté scienefique interdisciplinaire autour de la science des données, et produire des solueons originales sur le périmètre des données scienefiques.!"#$%&%'()*%+,$-.'."$%%
28 Les critères de séleceon Vision scienefique de l équipe/consoreum sur les thèmes du défi Les verrous scienefiques et les axes de recherche à moyen terme, avec un focus pareculier sur la première année Les acquis scienefiques dans le domaine ou dans un domaine connexe suscepeble de contribuer aux problèmes scienefiques ou sociétaux posés (publicaeons significaeves, projets passés ou en cours, applicaeons réalisées, logiciels, brevets...) Les différentes disciplines impliquées et leurs contribueons respeceves au projet Une liste de 3 à 5 chercheurs seniors impliqués de façon significaeve dans la recherche.!"#$%&%'()*%+,$-.'."$%%
29 Quelques chiffres Défi lancé en 2012, avec un second appel en 2013 Projets de 3 à 5 ans avec un budget de 700 à 885 K /an Nb de soumissions: 58 Nb d UMR impliquées: + 100, Couvrant les 10 insgtuts Nb de projets retenus: Reste 16+1 projets en janvier 2014, cible janvier 2015: 10 projets Degré de pénétraeon dans les labos Nb d UMR impliquées: 69, couvrant les 10 insgtuts Nb de CH/EC impliqués: près de 300 Montant alloué/projet/an 30 à 120 K (projets ayant fusionné) Partenaires hors CNRS INRIA, INRA, IRSTEA, INSERM, CEA, ONERA, Universités, Ecoles!"#$%&%'()*%+,$-.'."$%% 29
30 ThémaEques couvertes et thémaeques orphelines Collecte, stockage et indexation de données massives Hétérogénéité, interopérabilité, intégration, partage des données Calcul intensif sur des grands volumes de données, parallélisme dirigé par les données, optimisation Extraction de connaissances, datamining et apprentissage, agrégation/résumé, sémantique et raisonnement Visualisation de grandes masses de données Qualité des données, protection et sécurité des données Problèmes de propriété, de droit d usage, droit à l oubli Consommation d énergie, environnement, recyclage Préservation/archivage des données (animation)!"#$%&%'()*%+,$-.'."$%%
31 Types de données visés dans les projets retenus Cosmologie, astrophysique Dynamique de la Cartographie céleste Sciences de la terre et de l univers (traitement d images) ModélisaEon, déformaeon de la croute terrestre Environnement, climat, biodiversité SimulaEon, intégraeon, fusion de données Biologie santé Génome, séquençage, phénotypage Données médicales Réseaux sociaux RI, analyse d opinions, santé Crowdsourcing!"#$%&%'()*%+,$-.'."$%%
32 Indicateurs de suivi Pérennité de la coopéraeon PublicaEons communes Co- encadrement de thèses Plateformes de test et d expérimentaeon Montage et soumission de nouveaux projets Dynamique pour faire émerger une communauté interdisciplinaire sur la science des données.!"#$%&%'()*%+,$-.'."$%%
33 Bilan à 3 ans + Une communauté interdisciplinaire en formaeon sur les thèmes de Big Data et Science des Données + Des résultats tangibles même s ils ne sont pas financés à 100% par le défi Mastodons + Levier pour inieer d autre projets ou réseaux de compétences - Risque de dispersion de la communauté - Coût de développement et de mise en œuvre des plateformes: un véritable verrou!!"#$%&%'()*%+,$-.'."$%%!"#$%&%'()*%+,$-.'."$%%
34 PerspecEves 2015 Poursuivre la structuraeon de la communauté Poursuite du soueen à certains projets (9 projets) Via le nouveau GDR MaDICS (animaeon) Via un nouveau défi thémaeque sur l analyse et le traitement d images (Imag In) Année thémaeque pour INS2I Coloriage de postes de CR1/CR2 SouEen aux plateformes (AcEon PlaSciDo)) SouEen aux recherches théoriques (PEPS FaSciDo)!"#$%&%'()*%+,$-.'."$%% Mener une réflexion sur une polieque de sites Faire émerger des sites de référence SouEen des plateformes en ingénierie 34
35 Zoom sur quelques projets Aressos SéPhénoHD PetaSky 35
36 Projet Aresos : Analyse de grands réseaux socio- sémaneques CAMS - INSMI, EHESS, Paris CSI - INSHS, Ecole des Mines, Paris IRIT - INS2I, U. Toulouse 3 LATTICE - INSHS, ENS/ U. Paris 3 LIG - INS2I, UJF, Grenoble LIP6 - INS2I, UPMC, Paris IRISA, INS2I, U. Rennes 1 GIS ISC- PIF, INSHS ObjecGfs : qui parle, de quoi, comment Reconnaissance d acteurs Analyse sociologique Recherche d informagon dans les microblogs IdenGficaGon de thémagques RecommandaGon collaboragve CrowdIndexing, tagging social 36
37 Projet SeqPhénoHD : Séquençage & Phénotypage Haut Débit Info et bio- info LIRMM, LIFL, IRISA Phénotypage INRA Génome France Génomique Biologie- environnement ISEM Etude du comportement des plantes, de différents génomes, Densité végétaeon (nb de feuilles) Croissance (rapidité, hauteur, encombrement, ) selon les évolueons de leur environnement Température, Humidité, Lumière/Ensoleillement Exemple 400 génomes 3 à 10 plants par génome 10 5 informaeons / jour
38 Projet PetaSky : observaeon astronomique grand champ (LSST) LIMOS (Clermont- Fd)=> F. Toumani LIRIS (Lyon) LPC (Clermont- Fd) APC (Paris) LAL (Paris) Centre de Calcul de l IN2P3/CNRS GesEon des données scienefiques dans le domaine de la cosmologie et l astrophysique Des dizaines de milliers de milliards d observaeons photométriques sur des dizaines de milliards d'objets 3 Milliards de sources 1-10 Millions d évènements par nuit 16 TB chaque 8 heures avec un taux de 540 MB/seconde EsGmaGon en fin de projet : Milliards de tuples (différentes versions des données sans prise en compte de la réplicagon), 60 PB 15 CEC, 8 ITA, 2 Doct.
39 Conclusion MathémaGque, InformaGque Traitement du signal Biologie, SHS.. CONCEPTS, MODELES, ALGORITHMES OrganisaGon - IndexaGon Accès - VisualisaGon Ne6oyage - EchanGllonnage ApprenGssage - Datamining ExaScale compugng Cloud CompuGng Réseaux haut débit OS / Middleware.. INFRASTRUCTURES Architectures MulG- cœurs / GPU HPC/ Parallélisme Stockage massif Big Data Data Science Connaissance, décision SémanGque, Qualité Physique, Energie, Cosmologie, Environnement, Biologie, Santé,. DONNEES / CONNAISSANCES Données du Web /rés. sociaux Données de capteurs Données de simulagon Corpus SHS
40 Sur le site du CNRS Big Data, la déferlante des octets CNRS le journal 04/03/14 12:30 Rechercher Partager l'article Donner du sens à la science Rechercher Se connecter / S'inscrire Suivre VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE MES THÈMES Types file:///users/mokrane-cnrs/desktop/big%20data,%20la%20déferlante%20des%20octets%20%7c%20cnrs%20le%20journal.webarchive Page 1 sur 10
41 Et ailleurs 41
Emergence du Big Data Exemple : Linked Open Data
16/05/2014 Une approche interdisciplinaire des grandes masses de données (Défi Mastodons) Mokrane Bouzeghoub DAS INS2I / MI 1 Emergence du Big Data Exemple : Linked Open Data Accès à plusieurs BD scientifiques
Emergence du Big Data Exemple : Linked Open Data
1 CNRS - Misionpour l'interdisciplinarité Mokrane Bouzeghoub 1 Une approche interdisciplinaire des grandes masses de données (Défi Mastodons) Mokrane Bouzeghoub DAS INS2I / MI Ecole de L Innova.on Thérapeu.
Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA
Masses de données 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA Rédacteurs : Mjo Huguet / N. Jozefowiez 1. Introduction : Besoins Informations et Aide
Mastodons Une approche interdisciplinaire des Big Data
Mastodons Une approche interdisciplinaire des Big Data Méga- données, IRIT Nov 2014 Mokrane Bouzeghoub DAS INS2I / MI CNRS - Mission pour l'interdisciplinarité Mokrane Bouzeghoub 1 1 Introduction 2 CNRS
Jean-François Boulicaut & Mohand-Saïd Hacid
e siècle! Jean-François Boulicaut & Mohand-Saïd Hacid http://liris.cnrs.fr/~jboulica http://liris.cnrs.fr/mohand-said.hacid Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205
4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre [email protected] Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
Programmation parallèle et distribuée
Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution
Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.
Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision
Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!
Indexmed : Le big data en écologie? Pas encore disent certains Pas si sûr! Avec IndexMed Relevons ce challenge! Origine du consortium L état des lieux (source : séminaire Allenvie, séminaire Indexmed1)
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Programmation parallèle et distribuée
Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution
Programmation parallèle et distribuée (Master 1 Info 2015-2016)
Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction
Introduction Big Data
Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue
NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)
1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche
Bases de données documentaires et distribuées Cours NFE04
Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers pré[email protected] Département d informatique Conservatoire
Pentaho Business Analytics Intégrer > Explorer > Prévoir
Pentaho Business Analytics Intégrer > Explorer > Prévoir Pentaho lie étroitement intégration de données et analytique. En effet, les services informatiques et les utilisateurs métiers peuvent accéder aux
Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON [email protected]
Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON [email protected] Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par
Les technologies du Big Data
Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR
Big Data. Concept et perspectives : la réalité derrière le "buzz"
Big Data Concept et perspectives : la réalité derrière le "buzz" 2012 Agenda Concept & Perspectives Technologies & Acteurs 2 Pierre Audoin Consultants (PAC) Pierre Audoin Consultants (PAC) est une société
NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)
1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche
Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique
Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai
Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2
Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions
Fouillez facilement dans votre système Big Data. Olivier TAVARD
Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche
Big Data Concepts et mise en oeuvre de Hadoop
Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12
MapReduce. Nicolas Dugué [email protected]. M2 MIAGE Systèmes d information répartis
MapReduce Nicolas Dugué [email protected] M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Les datas = le fuel du 21ième sicècle
Les datas = le fuel du 21ième sicècle D énormes gisements de création de valeurs http://www.your networkmarketin g.com/facebooktwitter-youtubestats-in-realtime-simulation/ Xavier Dalloz Le Plan Définition
Présentation du module Base de données spatio-temporelles
Présentation du module Base de données spatio-temporelles S. Lèbre [email protected] Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes
AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL
AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES
Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant
Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated
Déploiement d une architecture Hadoop pour analyse de flux. franç[email protected]
Déploiement d une architecture Hadoop pour analyse de flux franç[email protected] 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà
Masses de données et calcul : à l IRIT. 8 octobre 2013
Masses de données et calcul : la recherche en lien avec les Big Data à l IRIT 8 octobre 2013 08/10/2013 1 L IRIT en qq chiffres 700 personnes sur tous les sites toulousains 5 tutelles 7 thèmes et 21 équipes
Cartographie des solutions BigData
Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?
Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant
Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be
BIG DATA en Sciences et Industries de l Environnement
BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie
SÉRIE NOUVELLES ARCHITECTURES
SÉRIE NOUVELLES ARCHITECTURES Alerte au tsunami des données : les entreprises doivent prendre la vague maintenant! Quels sont les faits qui sous-tendent cette réalité? Quelles entreprises sont aujourd
Le BigData, aussi par et pour les PMEs
Parole d expert Le BigData, aussi par et pour les PMEs Stéphane MOUTON, CETIC Département Software and Services Technologies Avec le soutien de : LIEGE CREATIVE Le Big Data, aussi par et pour les PMEs
Big Data On Line Analytics
Fdil Fadila Bentayeb Lb Laboratoire ERIC Lyon 2 Big Data On Line Analytics ASD 2014 Hammamet Tunisie 1 Sommaire Sommaire Informatique décisionnelle (BI Business Intelligence) Big Data Big Data analytics
Le Big Data est-il polluant? BILLET. Big Data, la déferlante des octets VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE TERRE (/TERRE)
Donner du sens à la science Rechercher Se connecter / S'inscrire Suivre VIVANT MATIÈRE SOCIÉTÉS UNIVERS TERRE NUMÉRIQUE MES THÈMES Types DOSSIER Paru le 15.11.2012 Mis à jour le 29.01.2014 Big Data, la
Introduction à MapReduce/Hadoop et Spark
1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -
Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!
Indexmed : Le big data en écologie? Pas encore disent certains Pas si sûr! Avec IndexMed Relevons ce challenge! Origine du consortium L état des lieux (source : séminaire Allenvie, séminaire Indexmed1)
CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013
www.thalesgroup.com CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013 2 / Sommaire CENTAI : Présentation du laboratoire Plate-forme OSINT LAB Détection de la fraude à la carte bancaire
e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest [email protected] Programme fédérateur Biogenouest co-financé
e-biogenouest Coordinateur : Olivier Collin Animateur : Yvan Le Bras CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest [email protected] Programme fédérateur Biogenouest co-financé
ISTEX, vers des services innovants d accès à la connaissance
ISTEX, vers des services innovants d accès à la connaissance Synthèse rédigée par Raymond Bérard, directeur de l ABES, à partir du dossier de candidature d ISTEX aux Initiatives d excellence et des réunions
BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara
BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1 2 Introduction Historique des bases de données : méthodes de stockage et d analyse
Le pilotage des collaborations et l interopérabilité des systèmes d information Vers une démarche intégrée
Colloque : Systèmes Complexes d Information et Gestion des Risques pour l Aide à la Décision Le pilotage des collaborations et l interopérabilité des systèmes d information Vers une démarche intégrée BELKADI
IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21
IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances
Préface Dunod Toute reproduction non autorisée est un délit. Les raisons de l émergence du Big Data sont bien connues. Elles sont d abord économiques et technologiques. La chute exponentielle des coûts
Titre : La BI vue par l intégrateur Orange
Titre : La BI vue par l intégrateur Orange Résumé : L entité Orange IT&L@bs, partenaire privilégié des entreprises et des collectivités dans la conception et l implémentation de SI Décisionnels innovants,
FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis
FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis Joseph Salmon Télécom ParisTech Jeudi 6 Février Joseph Salmon (Télécom ParisTech) Big Data Jeudi 6 Février 1 / 18 Agenda Contexte et opportunités
DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM
DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications
Plan Le Big Data Mining enjeux et approches techniques Bernard Dousset Professeur des universités Institut de Recherche en Informatique de Toulouse UMR 5505 Université de Toulouse 118, Route de Narbonne,
Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013
Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer [email protected] Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine
L écosystème Hadoop Nicolas Thiébaud [email protected]. Tuesday, July 2, 13
L écosystème Hadoop Nicolas Thiébaud [email protected] HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,
Architectures d'intégration de données
Architectures d'intégration de données Dan VODISLAV Université de Cergy-ontoise Master Informatique M1 Cours IED lan Intégration de données Objectifs, principes, caractéristiques Architectures type d'intégration
Panorama des solutions analytiques existantes
Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement
Sommaire. Par$e 1 : Enjeux et probléma$ques des masses de données. Par$e 2 : Le défi Mastodons. Par$e 3 : Focus sur quelques projets
Mastodons Une approche interdisciplinaire des grandes masses de données (Big Data) Mokrane Bouzeghoub DAS INS2I / MI 1 Sommaire Par$e 1 : Enjeux et probléma$ques des masses de données Par$e 2 : Le défi
Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012
Business Intelligence, Etat de l art et perspectives ICAM JP Gouigoux 10/2012 CONTEXTE DE LA BI Un peu d histoire Premières bases de données utilisées comme simple système de persistance du contenu des
Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase
Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet
http://blog.khaledtannir.net
Algorithme de parallélisations des traitements Khaled TANNIR Doctorant CIFRE LARIS/ESTI http://blog.khaledtannir.net [email protected] 2e SéRI 2010-2011 Jeudi 17 mars 2011 Présentation Doctorant CIFRE
MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15
MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué
API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture
API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant
Apprentissage Automatique
Apprentissage Automatique Introduction-I [email protected] www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Bases de Données. Stella MARC-ZWECKER. [email protected]. Maître de conférences Dpt. Informatique - UdS
Bases de Données Stella MARC-ZWECKER Maître de conférences Dpt. Informatique - UdS [email protected] 1 Plan du cours 1. Introduction aux BD et aux SGBD Objectifs, fonctionnalités et évolutions
Les bases de données relationnelles
Bases de données NO SQL et SIG : d un existant restreint à un avenir prometteur CHRISTIAN CAROLIN, AXES CONSEIL [email protected] - HTTP://WWW.AXES.FR Les bases de données relationnelles constituent désormais
Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1
Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués
TRAVAUX DE RECHERCHE DANS LE
TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT
Labs Hadoop Février 2013
SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL
Conception des systèmes répartis
Conception des systèmes répartis Principes et concepts Gérard Padiou Département Informatique et Mathématiques appliquées ENSEEIHT Octobre 2012 Gérard Padiou Conception des systèmes répartis 1 / 37 plan
Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014
Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014 1 Classiquement, le Big Data se définit autour des 3 V : Volume, Variété et
Les données massives de Copernicus : vers un nouveau paradigme. Hervé Jeanjean Cnes
Les données massives de Copernicus : vers un nouveau paradigme Hervé Jeanjean Cnes 1 Règlement Copernicus du 03/04/2014 : cadre politique, organisationnel et financier Règlement délégué du 12/07/2013 sur
Cycle de vie, processus de gestion
Les données scientifiques au CNES Cycle de vie, processus de gestion Danièle BOUCON Réunion PIN du 4 janvier 2013 Réunion PIN du 22 mars 2012 Outils CNES Contexte des données scientifiques au CNES SOMMAIRE
«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII 11-09-2014
«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D Expernova Université d été GFII 11-09-2014 [Une tendance forte à l Open Innovation ] «Le monde est devenu
Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2
Le BIG DATA????? Big Bang? Big hype? Big Challenge? Big Buzz? Big Opportunity? Big Business? Big Hacking? Gérard Peliks planche 2 Les quatre paradigmes de la science en marche Paradigme 1 : L empirisme
X2BIRT : Mettez de l interactivité dans vos archives
Présentation Produit Présentation Produit X2BIRT : Mettez de l interactivité dans vos archives L accès à l information est capital pour les affaires. X2BIRT, la dernière innovation d Actuate, prend le
Master Informatique Aix-Marseille Université
Aix-Marseille Université http://masterinfo.univ-mrs.fr/ Département Informatique et Interactions UFR Sciences Laboratoire d Informatique Fondamentale Laboratoire des Sciences de l Information et des Systèmes
BI = Business Intelligence Master Data-ScienceCours 2 - ETL
BI = Business Intelligence Master Data-Science Cours 2 - ETL UPMC 1 er février 2015 Rappel L Informatique Décisionnelle (ID), en anglais Business Intelligence (BI), est l informatique à l usage des décideurs
HADOOP ET SON ÉCOSYSTÈME
HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos
3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. [email protected] http://www.metz.supelec.
3A-IIC - Parallélisme & Grid Stéphane Vialle [email protected] http://www.metz.supelec.fr/~vialle Principes et Objectifs Evolution Leçons du passé Composition d une Grille Exemple d utilisation
Big Data et l avenir du décisionnel
Big Data et l avenir du décisionnel Arjan Heijmenberg, Jaspersoft 1 Le nouveau monde des TI L entreprise en réseau de McKinsey McKinsey sur le Web 2.0 McKinsey Global Institute, décembre 2010 Emergence
Conserver les Big Data, source de valeur pour demain
Le potentiel et les défis du Big Data UIMM Mardi 2 et mercredi 3 juillet 2013 56 avenue de Wagram 75017 PARIS Conserver les Big Data, source de valeur pour demain Définir les Big Data Les Big Data à travers
neocampus : campus du futur 27 février 2015
neocampus : campus du futur 27 février 2015 Démarrage juin 2013 ECO-CAMPUS TOULOUSE Président B Monthubert Confort au quotidien pour la communauté universitaire Diminution de l empreinte écologique de
Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales
Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire
«Les projets collaboratifs pour les nuls»
«Les projets collaboratifs pour les nuls» Les jeudis du numérique à Vannes 28/05/15 Sommaire 1) Le projet collaboratif 2) Les appels à projets 3) Le financement 4) Le rôle d Images & Réseaux Les questions
BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS
BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions? Introduction Quelles sont les défis actuels
Laboratoire d informatique Gaspard-Monge UMR 8049. Journée Labex Bézout- ANSES
Laboratoire d informatique Gaspard-Monge UMR 8049 Journée Labex Bézout- ANSES Présentation du laboratoire 150 membres, 71 chercheurs et enseignants-chercheurs, 60 doctorants 4 tutelles : CNRS, École des
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
#BigData Dossier de presse Mai 2014
#BigData Dossier de presse Mai 2014 La valeur du Big Data pour l entreprise Comment permettre l avènement d une culture de la donnée pour tous? Dans un monde porté par la mobilité et le Cloud, non seulement
Environmental Research and Innovation ( ERIN )
DÉpartEment RDI Environmental Research and Innovation ( ERIN ) Le département «Environmental Research and Innovation» (ERIN) du LIST élabore des stratégies, des technologies et des outils visant à mieux
Hadoop, les clés du succès
Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject
Certificat Big Data - Master MAthématiques
1 / 1 Certificat Big Data - Master MAthématiques Master 2 Auteur : Sylvain Lamprier UPMC Fouille de données et Medias Sociaux 2 / 1 Rich and big data: Millions d utilisateurs Millions de contenus Multimedia
Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics
Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics Big data le Buzz Le Big Data? Tout le monde en parle sans trop savoir ce qu il signifie. Les médias high-tech en font la nouvelle panacée,
Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.
Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service
Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence
É C O L E D I N G É N I E U R D E S T E C H N O L O G I E S D E L I N F O R M A T I O N E T D E L A C O M M U N I C A T I O N Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION Mentions
Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop
Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont
BIG Data et R: opportunités et perspectives
BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, [email protected] 2 Ecole des Sciences Géomatiques, IAV Rabat,
