BIG DATA («BD») and DBMS platform

Dimension: px
Commencer à balayer dès la page:

Download "BIG DATA («BD») and DBMS platform"

Transcription

1 BIG DATA («BD») and DBMS platform ( «De BIG Brother à BIG DATA») Pr Serge Miranda Directeur Master MBDS ( Conférence

2 Exa-octets/jour! «Entre les débuts de la culture humaine et 2003, l humanité a produit 5 exa-octets (10**18) d information (5000 petaoctets). Aujourd hui nous produisons autant d information tous les 2 jours» Eric Schmidt (CEO de Google), Davos 2010 Famille en vacances en 2012

3 Plan DATA ecosystem BIG DATA OPEN DATA, LINKED DATA (Web Sémantique), WEB DATA NO SQL Hadoop (Ex en Annexe du MBDS2012) NEW SQL Stonebraker 2011) Oracle BIG DATA for the enterprise Microsoft BIG DATA

4 «DATA» roots/key words? 1) «DATA X» : DATA base (19/8/1968 : Ted Codd et Modèle Relationnel), DBMS DATA bank DATA warehouse (ETL/DATA Pumping,..) DATA mart DATA mining (OLAP, Corrélations,..), Data Analytics, DATA Pumping DATA Systems («SQL», «NO SQL», «NEW SQL» en 2012) DATA mash up 2) «Y DATA»: - Linked DATA, Web DATA (DBpedia, Web Sémantique) - Meta DATA - Open DATA BIG Data (Data Science)

5 World is changing / UN NOUVEAU MONDE (mobiquitaire). Tiepolo (Un Nouveau Monde)

6 Le Futur n est plus ce qu il était! «SOLOMO» (SOcial-LOcal-MObile) du WEB du futur «WEB au cube» DATA WEB + Capteurs + TAGS «Futur mobiquitaire» et «Écosystème endogène du Smartphone» (de la production d info à la consommation d info) En 2011, plus d abonnements au mobile que d habitants sur la planète 2015 : La moitié de la planète aura un smartphone (50% NFC) 1000 Milliards d objets tagués en 2020 USERWARE Instagram (Photo),.. Déferlante BOTTOM UP (crowdsourcing,..) Approches commmunautaires 2.0 «dynamiques, géolocalisées, contextuelles, temporelles» : tourisme, transport, santé,

7 2012 : le début d un «tsunami DATA» 140 Millions de messages/jour sur TWITTER 1 million de SMS échangés toutes les 3 sec requêtes par sec sur Google (3 millions de mails par sec; 10 sites créés par sec) > 1 heure de video par seconde sur YOUTUBE 1 milliard d «amis» sur Facebook 20 petaoctets (10**15) de données traitées chaque jour sur Google (20 fois contenu BNF!) (IDC) 35 zetta octets dans le monde numérique en 2020 (1000 milliards d objets tagués) Ambition NSA (Service Renseignement USA) : analyse simultanée d un yottaoctet (10**24) <10**99 = «Google»> Les nouveaux réseaux communautaires spacio temporels TEMPS REEL ++ d entreprises («Zero mail» chez Atos et Bluekiwi en 2012, Microsoft et) Entre individus (PATH, PAIR, Google+,..) SANTE, TRANSPORT, TOURISME,

8 2012 Google* indexe 20 milliards de pages par jour pour répondre à 3,3 milliards de requêtes quotidiennes et par seconde. Google, c est aussi 425 millions d utilisateurs de sa messagerie Gmail, disposant chacun d un espace de stockage de 10 Go, soit 4,25 «Eo». Google compte 250 millions de membres sur le réseau social Google+. Mais ça n est pas tout. YouTube recense 800 millions d utilisateurs qui passent 4 milliards d heures à regarder des vidéos chaque mois Les utilisateurs de youtube envoient 72 heures de vidéos par minute pour 1,3 milliard de vidéos hébergées en tout. *GOOGLE vient du chiffre mathematique 1 suivi de 100 Zeros

9 Une Minute sur Internet en 2011 c est : 9

10 Des nouvelles technologies visant - Scalabilité + disponibilité + performance 10

11 Apports des BD (Bases de données) Services TIPS Transactions, Interface non procédurale (SQL), Persistence, Structuration (SCHEMA) «T» : Propriétés «ACID» des BD SQL (Atomicité, Cohérence, Isolation, Durabilité) OLTP (On line Transaction Processing) Data Warehouse/data Mining (et OLCP) Approche TOP DOWN

12 Besoins mobiquitaires OLTP Temps Réel Géolocalisation (Contextualisation, Temporalité) Réseaux sociaux spacio temporels temps réel (électeurs, spectateurs,..) Approche décisionnelle/oltp temps réel BOTTOM UP Jeux, Marketing Réseaux sociaux (Twitter, Facebook,..) TAGS NFC,

13 Generations Share Differently s era generation Focus on society Friendships are forged through adversity s era generation Focus on community Friendships forged through identification with a cause s era generation Focus on the individual Friendships forged through individual goal accomplishment 2000 s era generation Focus on common interests and SHARING Des rapports de FORCE aux rapports de FLUX (Joel de Rosnay 2012 SURFER LA VIE ) Friendships are created or thrive virtually IOGDC Open Data Tutorial 13

14 «Capital SOCIAL» (relationnel)? Social capital consists of the stock of active connections among people; the trust, mutual understanding, and shared values and behaviors that bind the members of human networks and communities and make cooperative action possible Robert Putnam, Harvard University (loi de Metcafe sur la VALEUR d un RESEAU)

15 Une dichotomie «data system»/dbms ou une intégration? DATA BASE MANAGEMENT SYSTEMS (DBMS SQL) et TIPS Données structurées (Tables, Objets, ) : Schéma et modèle Objet Relationnel Applications transactionnelles avec cohérence ACID Interface SQL Sécurité Gestion/PRODUCTION/DECISION (Datawarehouse) Standards SQL3/0DMG (See [ORACLE12] ) BIG DATA/ OPEN DATA (Not Only SQL : NO SQL) Données non structurées (accessibles sur le WEB par URL) Données temps réel Interrogation par machine Collaboration/PARTAGE communautaire Standards RDF, SPARQL, OWL,

16 BIG DATA (Wikipedia) Big data («grosse donnée» ou données massives) est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Les perspectives du traitement des big data sont énormes, notamment pour l'analyse d'opinions ou de tendances industrielles, la génomique, l'épidémiologie ou la lutte contre la criminalité ou la sécurité 2. Le phénomène Big data est considéré comme l'un des grands défis informatiques de la décennie Il engendre une dynamique importante tant par l'administration 3, que par les spécialistes sur le terrain des technologies ou des usages 4. Outil adapté : Graph Databases (en), framework : MapReduce ou Hadoop et systèmes de gestion de bases de données comme BigTable.

17 Open Data (Wikipedia) Une donnée ouverte (en anglais open data) est une information publique brute, qui a vocation à être librement accessible et réutilisable. La philosophie pratique de l'open data préconise une libre disponibilité pour tous et chacun, sans restriction de copyright, brevets ou d'autres mécanismes de contrôle. En 2010, Tim Berners-Lee a donné une échelle de qualité des données ouvertes qui va de zéro à 5 étoiles. Vos données (non filtrées c'est-à-dire dégradées) sont en ligne quel que soit leur format (n'importe quel format) Vos données sont disponibles sous forme de données structurées (par exemple Excel en csv, ou avec RDF) les données sont libres d'être exploitées car la machine ne fait aucune distinction entre les données libres ou non.(voir la partie sur les licences) utiliser des URL pour identifier vos données, de sorte que l'on puisse pointer dessus lier vos données à d'autres personnes pour fournir un contexte à ces données

18 Les données ouvertes dans le Web des données (Wikipedia) Les principaux problèmes de l'exploitation des données ouvertes sont de l'ordre technique car les données en masse ne peuvent pas être traitées humainement. Le concept de Web des données appliqué aux données ouvertes met en œuvre 3 mécanismes : permettre l'existence de la donnée sur le réseau à travers une URI unique(cela inclut les URL). diminuer le coût de transformation de la données en apportant des formats standards lisible par les machines (comme avec RDF,RDFa ou les Microdonnée dans le HTML5) ; améliorer la qualité de la donnée pour éviter qu'un traitement de mise à disposition ne puisse les altérer. Un entrepôt de données même avec des erreurs est préférable qu'un entrepôt biaisé. Ainsi, des mécanisme pour la fréquence et l automatisation des mises à jour de la donnée par les producteurs des données est possible avec un service SPARQL sur ces données. Les données ouvertes ne sont pas contrôlables par leurs producteurs (contrôle des mises à jours) et réellement exploitables par d'autres qu'à la condition d'utiliser ces 3 mécanismes.

19 Tim Berners-Lee, (Weaving the Web, 2001) on SEMANTIC WEB I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web the content, links, and transactions between people and computers. A Semantic Web, which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The intelligent agents people have touted for ages will finally materialize

20 «WEB Sémantique» du W3C Le Web sémantique est un mouvement collaboratif mené par le World Wide Web Consortium(W3C) 1 qui favorise des méthodes communes pour échanger des données. Le Web sémantique vise à aider l'émergence de nouvelles connaissances en s'appuyant sur les connaissances déjà présentes sur Internet. Pour y parvenir, le Web sémantique met en œuvre le Web des données qui consiste à lier et structurer l'information sur Internet pour accéder simplement à la connaissance qu'elle contient déjà 2. Selon le W3C, «le Web sémantique fournit un framework qui permet aux données d'être partagées et réutilisées entres plusieurs applications, entreprises et groupes d'utilisateurs». 2 Le Web sémantique propose des langages spécialement conçus pour les données : le RDF (Resource Description Framework), le OWL(Web Ontology Language), et le XML (extensible Markup Language). HTML décrit les documents et les liens entre eux. RDF, OWL, et XML, en revanche, peuvent décrire également des choses, comme des personnes, des réunions, ou des pièces d'avion.< WIKIPEDIA>

21 BIG DATA

22 WEB et rêve de Laplace! «Le Web contient une description exhaustive du monde passé et présent» Julien Laugel (MFG Labs) Rêve de LAPLACE «Une entité connaitra parfaitement l état du monde passé et présent pour prévoir son évolution»

23 Grands Domaines d application BIG DATA et Projets du MBDS : du moteur de recherche au moteur de LA recherche Génétique (découverte de 4 gènes liés au cancer du foie,..) médecine (neurosciences : localisation migraine, ) Epidémies, Pandémies, Catastrophes (Ex SANDY en Oct 2012 avec cartographie inondations via analyse tweets) Climatologie, Astronomie Océanographie (Expert planton, méduses,..)chimie Linguistique, Macro-Economie Transport (Projet VAMP), AIDE SOCIALE (Projet FIRST Inde) COMMERCE, TOURISME (Projet MATRIUM, REVE, IMAJEANS)

24 Recherche scientifique AVANT Big Data PROBLEME Etat de l art INTUITION VALIDATION par Expérience, simulation, calculs,

25 Recherche scientifique avec BIG DATA Analyse informatique de BIG DATA Identification de CORRELATIONS nouvelles Générateur d hypothèses Émergence de DECOUVERTES (avec ou pas expérimentations) SCIENCE demain? Mise en relief de corrélations Recherche de modèles expliquant les corrélations

26 EX1 : Big data et Neurosciences Projet BrainScanr de Jessica et Bradley VOYTEK Analyse de 3,5 millions d articles en neurosciences Carte de «proximité statistique» entre termes neuroscientifiques Générateur automatique d hypothèses Proximité entre «sérotonine» et «migraine» (2943 articles) Proximité entre «striatum» (région cerveau) et «migraine» (4782 articles)» Réorientation des travaux de recherche!

27 Ex2: BIG DATA et psycho-linguistique «Emergence des mots chez le bébé?» Deb ROY du MIT a enregistré et filmé son propre bébé pendant 3 ans (jour et nuit!) (90 000H de video et H audio) <200 teraoctets> 70 Millions de mots prononcés Approche d analyse psycho linguistique d assimilation et d évolution du langage chez l être humain (et modèle contextuel)!

28 Autres Exemples BIG DATA Déforestation : projet PlanetarySKIN (7 tera de données satellites) Suivi astronomique en direct : Projet LSST (30 Tera chaque nuit) Micro-organismes marins: Projet GOS (2 teraoctets) Bio Chimie sur 100 millions de molécules : Projet BSrC Cancer du foie :projet ICGC (200 teraoctets) analyse des BD sur tumeurs de 5O types de cancers Détection épidémies en temps réel : Projet Healthmap (1 teraoctets) : Suivi progression cholera en Haiti avec 2 semaines d avance (cholera, grippe, dengue,..)

29 OPEN DATA

30 What Makes DATA OPEN? Data Open Format Open The US Government through the Open Government Directive ( anda_2010/m10-06.pdf ) defines an open format as one that is platform independent, machine readable, and made available to the public without restrictions that would impede the re-use of that information. 9 July

31 OPEN (DATA) FORMAT? Example Open Formats: PDF for documents (but not data) CSV for data (Excel) Web standards for publishing, sharing or linking HTML, XML, RDF Web standards for syndication RSS, Atom, JSON 31

32 Metadata? Metadata The information about the data being shared Who produced it Where When Use restrictions Etc. Use standards such as ADMS or Dublin Core New (Search-oriented) Embedded dataset metadata coming

33 Data analytics Analytics based on over 1,000,000 datasets from around the world can be seen at

34 Real Outcomes = Better Lives Open data eases the burden on families in caring for a sick child or seeking medical information More importantly, the data as it s aggregated empowers communities to make changes that improve the quality of life of citizens In California, ReLeaf plants trees in areas identified by Together We Breathe as danger areas for asthma sufferers Cities see hot spots that trigger asthma problems for their citizens Each company in Health 2.0 used government data to innovate and create high-value jobs in America Civic Commons has a great collection of good open use cases: 9 July 2012 IOGDC Open Data Tutorial 34

35 Health.data.gov + Healthtap!

36 Energy Drives Innovation Energy.Data.gov connects innovators, industry, academia, and government at federal, state, and local levels 9 July 2012 IOGDC Open Data Tutorial 36

37 Challenges Spark Ideas Energy.Data.gov connects works with challenges across the nation to integrate federal data and bring government personnel to code-a-thons 9 July 2012 IOGDC Open Data Tutorial 37

38 Changing Economic Equations Economic Equations Study from Malaysian government: 9 July 2012 IOGDC Open Data Tutorial 38

39 Data Mashups of Many Kinds More than 50 of these at IOGDC Open Data Tutorial 39

40 Policies Become Essential Policies are needed to help drive the ecosystem and motivate departments to continue to share data openly Build the policies based around issues that are universal Licensing, provenance: Open data on food, security, culture, transportation, and transparency 9 July

41 Linking Data LINKING DATA goes beyond govt Government Data is currently over ½ the cloud in size (~17B triples), 10s of thousands of links to other data (within and without) 9 July 2012 IOGDC Open Data Tutorial 41

42 5 star LINKED OPEN DATA

43 Linked DATA/ Semantic WEB

44 «Linked DATA», RDF format and SPARQL [BENE2006] To make data machine processable, we need: - Unambiguous names for resources (that may also bind data to real world objects): URIs (URL) - common data model to access, connect, describe the resources: RDF - Access to that data: SPARQL - Define common vocabularies: RDFS, OWL, SKOS - Reasoning logics: OWL, Rules

45 RDF W3C Recommendation: January 15th, 2008 SPARQL queries RDF graphs An RDF graph is a set of triples to describe WEB resources RDF/XML is the W3C recommendation Simple triple: subject predicate object (cf Minsky et linguistique sur triplet <Sujet><Verbe> <Complément>) :serge rdf:label «serge" ; rdf:type ex:person ; ex:homepage

46 Sparql : SQL-like syntax PREFIX dc: <URI abrégé> SELECT?title WHERE { < dc:title?title } < liste des triplets> FROM Name of the graph Note : Jena is a Java framework for building Semantic Web applications; provides an environment for RDF, RDFS and OWL, SPARQL and includes a rule- based inference engine

47 Exemple RDF [MAEV2012] < > Sujet < Prédicat Objet

48 SPARQL [MAEV2012] Langage d interrogation, ajout, modification et suppression de données RDF. Exemple : Auteurs français nés en 1900?

49 SPARQL engine Note : GRDDL (2007) to get RDF triples out of XML documents

50 Dataset «DBPEDIA»? DBPEDIA : Donnéees extraites de Wikipedia sous forme RDF DBPedia is an RDF version of information from Wikipedia which : - Contains data derived from Wikipedia s infoboxes, category hierarchy, article, abstracts, and various external links - Contains over 130 million triples - Dataset:

51 DBPEDIA [GAND2012] Projets 2012 [GAND2012]): Datalift.org (ANR) Kolflow (ANR) pluggable to any RDF store (SparQL1.1) ERWAN (visualisation de données RDF/XML) Mobile DB PEDIA? Tourisme mobiquitaire et guide temps réel (Cf Projet de FUI VAMP) Moteur KGRAM/Corese en Open Source VERROUS? - Modeles pour meta données? - Architectures logicielles Nice ouvertes Sophia Antipolis (stockage, acces,..)

52 DATA WEB (web de données) livre de David Wood Linking Government Data en 2011: le Web des données est passé de quelques 40 millions de triplets RDF au sein de quatre entrepôts de données en 2007 à 203 entrepôts avec plus de 25 milliards de triplets avec 395 millions de liens à la fin 2010.

53 EX : Dataset JAMENDO Jamendo is a community collection of music all freely licensed under Creative Commons licenses DBTune.org hosts a queryable RDF version of information about Jamendo's music collection - Data on thousands of artists, tens of thousands of albums, and nearly 100,000 tracks -

54 EX : Dataset GOVtrack (USA) GovTrack provides SPARQL access to data on the U.S. Congress - Contains over 13,000,000 triples about legislators, bills, and votes -

55 EX (GovTrack) : Find Senate bills that either John McCain or Barack Obama sponsored and the other cosponsored [CORNO2008] PREFIX bill: < PREFIX dc: < foaf: < SELECT?title?sponsor?status WHERE { {?bill bill:sponsor?mccain ; bill:cosponsor?obama. } UNION {?bill bill:sponsor?obama ; bill:cosponsor?mccain. }?bill a bill:senatebill ; bill:status?status ; bill:sponsor?sponsor ; dc:title?title.?obama foaf:name "Barack Obama".?mccain foaf:name "John McCain".}

56 Links to OPEN DATA community W3C egovernment Interest Group age Open Data Innovation Network on LinkedIn

57 DATA SYSTEMS «NO SQL (NOT ONLY SQL)

58 NO SQL (Not Only SQL) Un nouveau courant non relationnel permettant la gestion de données de type BIG DATA + Scalabilité + Evolutivité + Liberté de modélisation + Simplicité 12

59 NO SQL/ Data Systems [Noel2011] Platonic architecture of a DATA SYSTEM? 1) BATCH LAYER : HADOOP (arbitrary computations, horizontal scalability, map reduction,..) 2) SPEED LAYER : RIAK, CASSANDRA (NO SQL DB), MONGO DB (NO SQL), H- BASE (incremental algorithms, subset of big data,..) : Conclusion : one store both for operational data and analytics, REAL TIME in the pocket

60

61 Introduction à Hadoop Qui utilise Hadoop? Heck Another Darn Obscure Open-source Project Un modèle open source Un projet Apache, open source et de plus haut niveau Un modèle Clé/valeur distribué Permet de répartir le flux des requêtes Un modèle élastique Souplesse du schéma Souplesse de l infrastructure de stockage Souplesse de modélisation Un modèle tolérant aux pannes Replication des données entre les serveurs du cluster 61

62 Hadoop Distributed File System Le système de fichier distribué d Hadoop Composé de : Serveur maître: le NameNode Serveurs esclaves: les DataNodes Figure- Des Hadoop clusters avec des milliers de nœuds 62

63 L écosystème Hadoop 63

64 Hadoop MapReduce Techniques Open Source de la fondation Apache existe au travers d Hadoop et de son écosystème Paradigme de programmation introduit par Google pour traiter de gros volumes de données. L architecture MapReduce est composée de : Un JobTracker : centralisateur de tâches Des TaskTracker qui se chargent d exécuter les travaux demandés. 64

65 Son rôle consiste à diviser le traitement en 2 étapes : Map : étape d ingestion et de transformation des données sous la forme de paires clé/valeur Reduce : étape de fusion des enregistrements par clé pour former le résultat final.

66 L écosystème Hadoop: SQOOP Connecter Hadoop Hive SQL like queries DSL Hadoop Base de données relationnelles Sqoop Hbase Base de données pour un accès aléatoire read/ write Sqoop Systèmes d entreposage de données HDFS Un système de fichiers distribués Write once, read many 66

67 L écosystème Hadoop: Pig..PigLatin Un langage de script permettant d interroger des grands ensembles de données Des Job MapReduce sont générés. Une succession d opérations à appliquer à des données en entrée pour produire un résultat. Pig latin: adapté au grandes quantités de données un langage d interrogation comme SQL et les logiques relationnelles 67

68 Ex HADOOP en Annexe (MBDS TUNIS)

69 «From NO SQL to NEW SQL» [RICH2012] ([STON2011]

70 «From NO SQL to NEW SQL» [RICH2012] ([STON2011] NO SQL (Modèles basés colonnes, valeurs, ou graphes) : Cassandra (column), Mongo DB, SimpleDB, DynamoDB, CouchDB, Membase, Retis,.. NEW SQL (on top of RDB) : Scale DB, NimbusDB, VoltDB de Stonebraker (open Source, in memory RDB), Clustrix, + Oracle BIG DATA, Microsoft BIG DATA, Future is polyglot persistence

71 M.Stonebraker (2011) et VOLTDB Replacing real SQL ACID with either no ACID or ACID lite just pushes consistency problems into the applications where they are far harder to solve. Second, the absence of SQL makes queries a lot of work NEW SQL

72 Verrous Systèmes amphibiens :Passerelles entre SGBD/Datawarehouse TOP DOWN (SQL) et décisionnel BOTTOM UP (NOSQL) Maintien ACID approche SQL Interface SQL++ (Complexité cachée) Maintien Performances bottom up et scalabilité approches NOSQL «NEW SQL» (Stonebraker,..)

73 NEW SQL (ORACLE and BIG DATA)

74 BIG DATA for the enterprise [ORACLE2012]

75 Oracle BIG DATA for enterprise HADOOP and ORACLE Apache Hadoop is a new technology that allows large data volumes to be organized and processed while keeping the data on the original data storage cluster. Hadoop Distributed File System (HDFS) is the longterm storage system for web logs for example. These web logs are turned into browsing behavior (sessions) by running MapReduce programs on the cluster and generating aggregated results on the same cluster. These aggregated results are then loaded into a Relational DBMS system.

76 Oracle Solution Spectrum Many new technologies have emerged to address the IT infrastructure requirements outlined above. At last count, there were over 120 open source key-value databases for acquiring and storing big data, with Hadoop emerging as the primary system for organizing big data and relational databases expanding their reach into less structured data sets to analyze big data. These new systems have created a divided solutions spectrum comprised of: Not Only SQL (NoSQL) solutions: developer-centric specialized systems SQL solutions: the world typically equated with the manageability, security and trusted nature of relational database management systems (RDBMS) NoSQL systems are designed to capture all data without categorizing and parsing it upon entry into the system, and therefore the data is highly varied. SQL systems, on the other hand, typically place data in well-defined structures and impose metadata on the data captured to ensure consistency and validate data types.

77 Oracle Big Data solutions

78 Oracle Big Data Appliance

79 Oracle In-Database Analytics Oracle R Enterprise (statistics; prediction) In-Database Data Mining (predictive analytics) In-Database Text Mining (sentiment analysis) In-Database Semantic Analysis (Graphs) In-Database Spatial (data plotted on a map) In-Database MapReduce (procedural logic)

80 NEW SQL (Microsoft SQL Server 2012 et BIG DATA)

81 Big Data dans SQL SERVER 2012 SQL SERVER intègre la composante Hadoop, (framework open source spécialisé dans la gestion de données non structurées). L éditeur lance ainsi une seconde version d Hadoop pour Azure et Windows Server. Interface Excel à Hadoop le projet Apache Sqoop, la mise à disposition de Mahoot (outils de datamining pour Hadoop)

82

83 Recherches Informatiques Passerelles NEW SQL : Modèles, conception, algorithmique (requetes, ACID), systèmes, Middleware, OLTP Temps reel Reseaux sociaux spacio temps réel Applications innovantes décisionnelles autour de OLTP Temps réel (Interfaces Réseaux sociaux, tag mining)

84 Conclusion BIG DATA et recherche scientifique? Risque de prédire sans expliquer? La fin d un monde scientifique traditionnel? il n y a : Plus d hypothèses à formuler Avant! Plus d expérimentation à faire pendant! Plus de compréhension après!

85 Conclusion BIG DATA : évolution des méthodes scientifiques Méthode logique d Aristote (330 a JC) Méthode expérimentale de Roger Bacon (1250) Méthode théorique de Newton(1700) Méthode de simulation d Enrico Forni (1950) Méthode d analyse des liens de Google? Twitters? TAGS NFC? Apres une science des traitements : Vers une SCIENCE DES DONNEES? DES SERVICES?

86

87 Questions? 87

88 References [ORACLE2012] White Paper Oracle, January 2012 «Oracle BIG DATA for the enterprise» [GAND2012]Fabien Gandon «Recherches Web Sémantqiue» Juin 2012 [BUFFA2012] Michel Buffa, Proposition recherche pour Fui VAMP [MAEVA2012] Maeva Antoine, Rapport MBDS2012, INRIA Sophia, Equipe OASIS [DAVIS2009] «30 Minute Guide to RDF and Linked Data Ian Davis 2009, Slide Share [RICH2012] SQL, NO SQL and NEW SQL Chris Richardon Feb 2012 SLIDE SHARE [STON2011] New SQL: An Alternative to NoSQL and Old SQL for New OLTP Apps» ACM, Juin 2011 [NOEL2011] «BIG DATA Steven Noels, Wim Von Leuven, SAI 7 April 2011 [BEEM2012] «Open Data Tutorial», Hadley Beeman et al, IOGDC, 2012 [BERN2006] SPARQL will make a huge difference Tim Berners-Lee, May 2006 [CORNO2008], Corno et al, «SPARQL - QueryLanguage for RDF» [BASSM2012] Bassma Ben Dhouma «Implémentation d une application pour pour la gestion des données de type Big Data sous un Hadoop Cluster en utilisant une base de données Nosql» MBDS, Univ Manouba Oct 2012

89 Annexe : Projet MBDS Tunis (Univ de La Manouba), 2012 Application Hadoop pour Maroc Telecom [BASSM2012] Système d exploitation: Unix - Ubuntu Langage de programmation: JAVA Outils de travail: - Hadoop Sqoop - Pig 89

90 Millions Contexte du Projet (BASSM2012] Abonnés 43 millions / jour transactions Call 26 millions/ jour transactions de recharge Taux de pénétration en % Parc des abonnés Une croissance à 2 chiffres Une explosion de la BD 90

91 Problématique BIG DATA du Projet [BASSM2012] Quantités de données à stocker et données inexploitables par SQL simple 137 tables Temps de traitement 100 GB 10 min 1 TB 2 heures 1 PB 3 mois Compléxité et lourdeur des requêtes SQL Coût de stockage SQL ne permet pas de répondre aux besoins de Maroc telecom en terme de gestion BIG DATA 91

92 Architecture de l application Hadoop pour Maroc Telecom [BASSM2012] 92

93 Les étapes de réalisation Application Hadoop pour Maroc Telecom [BASSM2012] Installation de l environnement Configuration du Hadoop cluster Migration des données de la base de données oracle vers le HDFS en utilisant Soop Traitement des données présentes dans le HDFS en utilisant des scripts en PigLatin basés sur sur les UDFs du pig 93

94 Application Hadoop pour Maroc Telecom [BASSM2012] Etape 1: Installation de l environnement de travail (1/5) Configuration du Hadoop cluster Adressage Réseau et définition des machines Master et Slaves Attribuer l adresse IP et définir la hôte Master Attribuer l adresse IP et définir les hôtes Slaves Configuration SSH Installer les packages SSH Générer une paire de clés RSA Tester la configuration SSH Configuration HDFS Repertoire: Conf/ Fichier :hadoop-defaults.xml Configuration du fichier hadoopsite.xlm Configuration du fichier hdfssite.xml Configuration MapReduce Configuration du fichier coresite.xml 94

95 Application Hadoop pour Maroc Telecom [BASSM2012] Etape 1: Installation de l environnement de travail (2/5) Le serveurs master JobTracker NameNode Couche Couche MapReduce HDSF Les serveurs slaves Tasktracker DataNode Tasktracker DataNode JobTracker DataNode Structure générale du Hadoop cluster avec 4 nœuds 95

96 Application Hadoop pour Maroc Telecom [BASSM2012] Etape1: Installation de l environnement de travail (3/5) Démarrage du Cluster Formater le HDFS $bin / hadoop namenode format Démarrer le HDFS $ bin / start-dfs.sh Démarrer le MapReduce $ Bin / start-mapred.sh Démarrer le Cluster $bin/start-all.sh Arrêter le Cluster $bin/stop-all.sh 96

97 Application Hadoop pour Maroc Telecom [BASSM2012] Etape1: Installation de l environnement de travail (4/5) Récapitulatif du cluster Capacité totale nœuds actifs et morts L interface Web Du NameNode 97

98 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Installation de l environnement de travail (5/5) / L interface Web Du JobTraker. 98

99 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (1/4) Extrait de la base de données Maroc Telecom : Les tables quotidiennes 99

100 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (2/4) Exemple Importation de la table «IAM_REJECTED_MIGRATION» Spécifiez le JDBC de connexion Mot de passe le JDBC de la connexion, d authentification l adresse IP du serveur le port et le nom de la base nom d'utilisateur pour s authentifier sqoop --connect jdbc:oracle:thin:@ip:port:maroctelecom --username root --password ***** table IAM_REJECTED_MIGRATION' --split-by TARIFFINDEX; nom de la table à importer par quelle colonne les données doivent être indexées

101 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (3/4) Lancement de la commande d importation 101

102 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (4/4) Résultat du lancement de la commande 102

103 Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Migration des données (1/4) Objectifs Gestion de données de types complexes Réduction du temps de réponse des requêtes SQL lourdes et complexes Des requêtes en langage naturel pour du filtrage dynamique (idem sans in-memory) 103

104 Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Traitement des données migrées (2/4) Exemple SELECT TO_NUMBER (TO_CHAR (TIMESTAMP, 'yyyymmdd')),tariffindex, SUBSTR(BEARER_FLAG,1,1),COUNT(DISTINCT MSISDN),FORFAIT FROM IAM_CALL2 WHERE TARIFFINDEX IN (1,2,3,5,6,9,15,16,21,22,24,25,26,27,18) GROUP BY TO_NUMBER (TO_CHAR (TIMESTAMP, 'yyyymmdd')), TARIFFINDEX, SUBSTR(BEARER_FLAG,1,1),FORFAIT; Requêtes SQL à traduire en PigLatin 104

105 Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Traitement des données migrées (3/4) Script PigLatin 105

106 Application Hadoop pour Maroc Telecom [BASSM2012] Traitement des données migrées (4/4) Lancement du Pig Lancement du shell GRUNT Lignes du script i Lancement du Job MapReduce Script PigLatin 106

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

BD**2 : Des BD à BD (des Bases de Données à BIG DATA)

BD**2 : Des BD à BD (des Bases de Données à BIG DATA) BD**2 : Des BD à BD (des Bases de Données à BIG DATA) Pr Serge Miranda Directeur Master MBDS (www.mbds- fr.org) Conférence MBDS 2013 World is changing : Tiepolo (Un Nouveau Monde; Venise) «Big» DATA? IDC

Plus en détail

Bigdata et Web sémantique. les données + l intelligence= la solution

Bigdata et Web sémantique. les données + l intelligence= la solution Bigdata et Web sémantique les données + l intelligence= la solution 131214 1 big data et Web sémantique deux notions bien différentes et pourtant... (sable et silicium). «bigdata» ce n est pas que des

Plus en détail

Le nouveau visage de la Dataviz dans MicroStrategy 10

Le nouveau visage de la Dataviz dans MicroStrategy 10 Le nouveau visage de la Dataviz dans MicroStrategy 10 Pour la première fois, MicroStrategy 10 offre une plateforme analytique qui combine une expérience utilisateur facile et agréable, et des capacités

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

Les datas = le fuel du 21ième sicècle

Les datas = le fuel du 21ième sicècle Les datas = le fuel du 21ième sicècle D énormes gisements de création de valeurs http://www.your networkmarketin g.com/facebooktwitter-youtubestats-in-realtime-simulation/ Xavier Dalloz Le Plan Définition

Plus en détail

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1 2 Introduction Historique des bases de données : méthodes de stockage et d analyse

Plus en détail

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite. Rational ClearCase or ClearCase MultiSite Version 7.0.1 Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite. Product Overview IBM Rational

Plus en détail

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France 2013 SAP AG. All rights reserved. Customer 1 Rôles et Attentes Instantanéité BIG DATA Users IT Real Time SAP HANA

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

SQL Server 2012 et SQL Server 2014

SQL Server 2012 et SQL Server 2014 SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation

Plus en détail

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par. École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par

Plus en détail

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence L offre décisionnel IBM Patrick COOLS Spécialiste Business Intelligence Le marché du Business Intelligence L enjeux actuel des entreprises : devenir plus «agiles» Elargir les marchés tout en maintenant

Plus en détail

Instructions Mozilla Thunderbird Page 1

Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Ce manuel est écrit pour les utilisateurs qui font déjà configurer un compte de courrier électronique dans Mozilla Thunderbird et

Plus en détail

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES 1 FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES «Dans le concret, projets de transformation vers le BigData» V1-10/03/15 ABED AJRAOU CONNAISSEZ-VOUS PAGESJAUNES? CONNAISSEZ-VOUS PAGESJAUNES? LES MEGADONNEES RÉPONDENT

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

Forthcoming Database

Forthcoming Database DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

Les bases de données relationnelles

Les bases de données relationnelles Bases de données NO SQL et SIG : d un existant restreint à un avenir prometteur CHRISTIAN CAROLIN, AXES CONSEIL CAROLIN@AXES.FR - HTTP://WWW.AXES.FR Les bases de données relationnelles constituent désormais

Plus en détail

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France L Art d être Numérique Thierry Pierre Directeur Business Development SAP France La Transformation Numérique «Plus largement, l impact potentiel des technologies numériques disruptives (cloud, impression

Plus en détail

La rencontre du Big Data et du Cloud

La rencontre du Big Data et du Cloud La rencontre du Big Data et du Cloud Libérez le potentiel de toutes vos données Visualisez et exploitez plus rapidement les données de tous types, quelle que soit leur taille et indépendamment de leur

Plus en détail

Philippe Lemerle Big Data Secteur public. Copyright 2015, Oracle and/or its affiliates. All rights reserved.

Philippe Lemerle Big Data Secteur public. Copyright 2015, Oracle and/or its affiliates. All rights reserved. Philippe Lemerle Big Data Secteur public 1 Le Monde se crée une copie numérique de lui même (*) (*) The world is making a digital copy of itself Paul Sonderegger, Oracle Approche réductioniste propriétés

Plus en détail

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015 Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS Salon du Big Data 11 mars 2015 Accélération de l innovation +500 +280 Amazon EC2 Container Service +159 AWS Storage Gateway Amazon Elastic Transcoder

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton Linked Open Data Le Web de données Réseau, usages, perspectives Sommaire Histoire du Linked Open Data Structure et évolution du réseau Utilisations du Linked Open Data Présence sur le réseau LOD Futurs

Plus en détail

Anticiper et prédire les sinistres avec une approche Big Data

Anticiper et prédire les sinistres avec une approche Big Data Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél

Plus en détail

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24.2 1 Semestre 4 : Fev. 2015 Grid : exemple SETI@home 2 Semestre 4 : Fev. 2015 Grid : exemple SETI@home

Plus en détail

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013 Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,

Plus en détail

APPENDIX 6 BONUS RING FORMAT

APPENDIX 6 BONUS RING FORMAT #4 EN FRANÇAIS CI-DESSOUS Preamble and Justification This motion is being presented to the membership as an alternative format for clubs to use to encourage increased entries, both in areas where the exhibitor

Plus en détail

JDev Atelier Datalift

JDev Atelier Datalift JDev Atelier Datalift RDF, Linked (Open) Data & Datalift Your business JDev technologists. - 6 septembre Powering 2013 progress Le Linked Data Publier des données structurées sur le Web en les reliant

Plus en détail

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA Ladjel BELLATRECHE bellatreche@ensma.fr http://www.lias lab.fr/members/bellatreche Les déterminants de la motivation selon Rolland Viau Perception

Plus en détail

SparkInData. Place de Marché des applications Spatiales 09-04-2015

SparkInData. Place de Marché des applications Spatiales 09-04-2015 SparkInData Place de Marché des applications Spatiales 09-04-2015 SparkInData / Concept Place de marché Plateforme fédérative Haute valeur ajoutée Acteurs reconnus Consortium homogène Architecture Big

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

WEB page builder and server for SCADA applications usable from a WEB navigator

WEB page builder and server for SCADA applications usable from a WEB navigator Générateur de pages WEB et serveur pour supervision accessible à partir d un navigateur WEB WEB page builder and server for SCADA applications usable from a WEB navigator opyright 2007 IRAI Manual Manuel

Plus en détail

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces Micro-ordinateurs, informations, idées, trucs et astuces Utiliser une WebCam Auteur : François CHAUSSON Date : 8 février 2008 Référence : utiliser une WebCam.doc Préambule Voici quelques informations utiles

Plus en détail

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation - définition - étapes - impacts La révolution en cours du big data - essai de définition - acteurs - priorités

Plus en détail

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation. Les infrastructure du Big Data Le «Big Data» vise à tirer un avantage concurrentiel au travers de méthodes de collecte, d analyse et d exploitation des données qu on ne pouvait utiliser jusqu à présent

Plus en détail

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Soutenance de projet ASR 27/01/2011 Julien Gerlier Siman Chen Encadrés par Bruno

Plus en détail

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech Le dispositif L Institut suisse de brainworking (ISB) est une association

Plus en détail

VMware ESX : Installation. Hervé Chaudret RSI - Délégation Centre Poitou-Charentes

VMware ESX : Installation. Hervé Chaudret RSI - Délégation Centre Poitou-Charentes VMware ESX : Installation VMware ESX : Installation Créer la Licence ESX 3.0.1 Installation ESX 3.0.1 Outil de management Virtual Infrastructure client 2.0.1 Installation Fonctionnalités Installation Virtual

Plus en détail

Cedric Dumoulin (C) The Java EE 7 Tutorial http://docs.oracle.com/javaee/7/tutorial/doc/

Cedric Dumoulin (C) The Java EE 7 Tutorial http://docs.oracle.com/javaee/7/tutorial/doc/ Cedric Dumoulin (C) The Java EE 7 Tutorial http://docs.oracle.com/javaee/7/tutorial/doc/ Webographie The Java EE 7 Tutorial http://docs.oracle.com/javaee/7/tutorial/doc/ Les slides de cette présentation

Plus en détail

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Big Data. Concept et perspectives : la réalité derrière le buzz Big Data Concept et perspectives : la réalité derrière le "buzz" 2012 Agenda Concept & Perspectives Technologies & Acteurs 2 Pierre Audoin Consultants (PAC) Pierre Audoin Consultants (PAC) est une société

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Jean-Marc Spaggiari Cloudera jms@cloudera.com @jmspaggi Mai 2014 1 2 Avant qu on commence Agenda -Qu est-ce que Hadoop et pourquoi

Plus en détail

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Big Data -Comment exploiter les données et les transformer en prise de décisions? IBM Global Industry Solution Center Nice-Paris Big Data -Comment exploiter les données et les transformer en prise de décisions? Apollonie Sbragia Architecte Senior & Responsable Centre D Excellence Assurance

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Importation et exportation de données dans HDFS

Importation et exportation de données dans HDFS 1 Importation et exportation de données dans HDFS Introduction Dans une installation type, Hadoop se trouve au cœur d un flux de données complexe. Ces données proviennent souvent de systèmes disparates

Plus en détail

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht. Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.fr 1 MVC et le web 27/05/14 2 L'évolution des systèmes informatiques

Plus en détail

How to Login to Career Page

How to Login to Career Page How to Login to Career Page BASF Canada July 2013 To view this instruction manual in French, please scroll down to page 16 1 Job Postings How to Login/Create your Profile/Sign Up for Job Posting Notifications

Plus en détail

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data Qui sommes-nous? Société de stratégie et de consulting IT spécialisée en ebusiness, Cloud Computing, Business

Plus en détail

Frequently Asked Questions

Frequently Asked Questions GS1 Canada-1WorldSync Partnership Frequently Asked Questions 1. What is the nature of the GS1 Canada-1WorldSync partnership? GS1 Canada has entered into a partnership agreement with 1WorldSync for the

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

BD 2: des Bases de Données à Big Data

BD 2: des Bases de Données à Big Data BD 2: des Bases de Données à Big Data Professeur Serge Miranda Département Informatique Université de Nice Sophia Antipolis Directeur du Master MBDS (www.mbds-fr.org) MOOC 2014-2015 sur plateforme FUN

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Application Form/ Formulaire de demande

Application Form/ Formulaire de demande Application Form/ Formulaire de demande Ecosystem Approaches to Health: Summer Workshop and Field school Approches écosystémiques de la santé: Atelier intensif et stage d été Please submit your application

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

XtremWeb-HEP 8.0.0. Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

XtremWeb-HEP 8.0.0. Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire XtremWeb-HEP 8.0.0 Interconnecting jobs over DG Virtualization over DG Oleg Lodygensky Objectives 1.Deploy Virtual Machines in XtremWeb-HEP desktop grid to: protect volunteer resources generalize «pilot

Plus en détail

Java et les bases de données

Java et les bases de données Michel Bonjour http://cuiwww.unige.ch/~bonjour CENTRE UNIVERSITAIRE D INFORMATIQUE UNIVERSITE DE GENEVE Plan Introduction JDBC: API SQL pour Java - JDBC, Java, ODBC, SQL - Architecture, interfaces, exemples

Plus en détail

Londres 1854 Des problèmes (re)connus Faire plus avec moins Tendances et défis «BYOD» WIN INTUNE «Nouveaux paradigmes» «Big Data» «Cloud» Windows Server Gestion Sys. Center Identité & Virt CLOUD OS Microsoft

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

L ESPACE À TRAVERS LE REGARD DES FEMMES. European Economic and Social Committee Comité économique et social européen

L ESPACE À TRAVERS LE REGARD DES FEMMES. European Economic and Social Committee Comité économique et social européen L ESPACE À TRAVERS LE REGARD DES FEMMES 13 European Economic and Social Committee Comité économique et social européen 13 This publication is part of a series of catalogues published in the context of

Plus en détail

Document réalisé par Khadidjatou BAMBA

Document réalisé par Khadidjatou BAMBA Comprendre le BIG DATA Document réalisé par Khadidjatou BAMBA 1 Sommaire Avant propos. 3 Historique du Big Data.4 Introduction.....5 Chapitre I : Présentation du Big Data... 6 I. Généralités sur le Big

Plus en détail

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul Big Data Les problématiques liées au stockage des données et aux capacités de calcul Les problématiques liées au Big Data La capacité de stockage - Traitement : Ponctuel ou permanent? - Cycle de vie des

Plus en détail

Discours du Ministre Tassarajen Pillay Chedumbrum. Ministre des Technologies de l'information et de la Communication (TIC) Worshop on Dot.

Discours du Ministre Tassarajen Pillay Chedumbrum. Ministre des Technologies de l'information et de la Communication (TIC) Worshop on Dot. Discours du Ministre Tassarajen Pillay Chedumbrum Ministre des Technologies de l'information et de la Communication (TIC) Worshop on Dot.Mu Date: Jeudi 12 Avril 2012 L heure: 9h15 Venue: Conference Room,

Plus en détail

HSCS 6.4 : mieux appréhender la gestion du stockage en environnement VMware et service de fichiers HNAS Laurent Bartoletti Product Marketing Manager

HSCS 6.4 : mieux appréhender la gestion du stockage en environnement VMware et service de fichiers HNAS Laurent Bartoletti Product Marketing Manager HSCS 6.4 : mieux appréhender la gestion du stockage en environnement VMware et service de fichiers HNAS Laurent Bartoletti Product Marketing Manager Hitachi Storage Command Suite Portfolio SAN Assets &

Plus en détail

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC Technologies du Web Ludovic DENOYER - ludovic.denoyer@lip6.fr UPMC Février 2014 Ludovic DENOYER - ludovic.denoyer@lip6.fr Technologies du Web Plan Retour sur les BDs Le service Search Un peu plus sur les

Plus en détail

Le Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan

Le Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan Le Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan RDF sur le Web Micro-formats Micro-données RDFa Vocabulaires communs Dublin Core, FOAF, SKOS Linked Open Data Architecture

Plus en détail

Quels choix de base de données pour vos projets Big Data?

Quels choix de base de données pour vos projets Big Data? Quels choix de base de données pour vos projets Big Data? Big Data? Le terme "big data" est très à la mode et naturellement un terme si générique est galvaudé. Beaucoup de promesses sont faites, et l'enthousiasme

Plus en détail

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION 1 12 rue Denis Papin 37300 JOUE LES TOURS Tel: 02.47.68.34.00 Fax: 02.47.68.35.48 www.herve consultants.net contacts@herve consultants.net TABLE DES MATIERES A Objet...1 B Les équipements et pré-requis...2

Plus en détail

Hadoop, les clés du succès

Hadoop, les clés du succès Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

Plan. Department of Informatics

Plan. Department of Informatics Plan 1. Application Servers 2. Servlets, JSP, JDBC 3. J2EE: Vue d ensemble 4. Distributed Programming 5. Enterprise JavaBeans 6. Enterprise JavaBeans: Special Topics 7. Prise de recul critique Enterprise

Plus en détail

RAPID 3.34 - Prenez le contrôle sur vos données

RAPID 3.34 - Prenez le contrôle sur vos données RAPID 3.34 - Prenez le contrôle sur vos données Parmi les fonctions les plus demandées par nos utilisateurs, la navigation au clavier et la possibilité de disposer de champs supplémentaires arrivent aux

Plus en détail

EMC Forum 2014. EMC ViPR et ECS : présentation des services software-defined

EMC Forum 2014. EMC ViPR et ECS : présentation des services software-defined EMC Forum 2014 EMC ViPR et ECS : présentation des services software-defined 1 2 3 4 5 Software is Eating the World Marc Andreessen co-fondateur de Netscape Les entreprises qui utilisent efficacement le

Plus en détail

Conserver les Big Data, source de valeur pour demain

Conserver les Big Data, source de valeur pour demain Le potentiel et les défis du Big Data UIMM Mardi 2 et mercredi 3 juillet 2013 56 avenue de Wagram 75017 PARIS Conserver les Big Data, source de valeur pour demain Définir les Big Data Les Big Data à travers

Plus en détail

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES M a l g r é s o n ca r act è r e en apparence multiforme un enjeu central s est progressivement affirmé en matière

Plus en détail

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013 Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine

Plus en détail

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing Présentation d Oracle 10g Chapitre VII Présentation d ORACLE 10g 7.1 Nouvelles fonctionnalités 7.2 Architecture d Oracle 10g 7.3 Outils annexes 7.4 Conclusions 7.1 Nouvelles fonctionnalités Gestion des

Plus en détail

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF CEST MAINTENANT PDF ==> Download: CEST MAINTENANT PDF CEST MAINTENANT PDF - Are you searching for Cest Maintenant Books? Now, you will be happy that at this time Cest Maintenant PDF is available at our

Plus en détail

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes Le Centre d Innovation des Technologies sans Contact-EuraRFID (CITC EuraRFID) est un acteur clé en matière de l Internet des Objets et de l Intelligence Ambiante. C est un centre de ressources, d expérimentations

Plus en détail

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions? Introduction Quelles sont les défis actuels

Plus en détail