BIG DATA («BD») and DBMS platform

Dimension: px
Commencer à balayer dès la page:

Download "BIG DATA («BD») and DBMS platform"

Transcription

1 BIG DATA («BD») and DBMS platform ( «De BIG Brother à BIG DATA») Pr Serge Miranda Directeur Master MBDS (www.mbds-fr.org) Conférence

2 Exa-octets/jour! «Entre les débuts de la culture humaine et 2003, l humanité a produit 5 exa-octets (10**18) d information (5000 petaoctets). Aujourd hui nous produisons autant d information tous les 2 jours» Eric Schmidt (CEO de Google), Davos 2010 Famille en vacances en 2012

3 Plan DATA ecosystem BIG DATA OPEN DATA, LINKED DATA (Web Sémantique), WEB DATA NO SQL Hadoop (Ex en Annexe du MBDS2012) NEW SQL Stonebraker 2011) Oracle BIG DATA for the enterprise Microsoft BIG DATA

4 «DATA» roots/key words? 1) «DATA X» : DATA base (19/8/1968 : Ted Codd et Modèle Relationnel), DBMS DATA bank DATA warehouse (ETL/DATA Pumping,..) DATA mart DATA mining (OLAP, Corrélations,..), Data Analytics, DATA Pumping DATA Systems («SQL», «NO SQL», «NEW SQL» en 2012) DATA mash up 2) «Y DATA»: - Linked DATA, Web DATA (DBpedia, Web Sémantique) - Meta DATA - Open DATA BIG Data (Data Science)

5 World is changing / UN NOUVEAU MONDE (mobiquitaire). Tiepolo (Un Nouveau Monde)

6 Le Futur n est plus ce qu il était! «SOLOMO» (SOcial-LOcal-MObile) du WEB du futur «WEB au cube» DATA WEB + Capteurs + TAGS «Futur mobiquitaire» et «Écosystème endogène du Smartphone» (de la production d info à la consommation d info) En 2011, plus d abonnements au mobile que d habitants sur la planète 2015 : La moitié de la planète aura un smartphone (50% NFC) 1000 Milliards d objets tagués en 2020 USERWARE Instagram (Photo),.. Déferlante BOTTOM UP (crowdsourcing,..) Approches commmunautaires 2.0 «dynamiques, géolocalisées, contextuelles, temporelles» : tourisme, transport, santé,

7 2012 : le début d un «tsunami DATA» 140 Millions de messages/jour sur TWITTER 1 million de SMS échangés toutes les 3 sec requêtes par sec sur Google (3 millions de mails par sec; 10 sites créés par sec) > 1 heure de video par seconde sur YOUTUBE 1 milliard d «amis» sur Facebook 20 petaoctets (10**15) de données traitées chaque jour sur Google (20 fois contenu BNF!) (IDC) 35 zetta octets dans le monde numérique en 2020 (1000 milliards d objets tagués) Ambition NSA (Service Renseignement USA) : analyse simultanée d un yottaoctet (10**24) <10**99 = «Google»> Les nouveaux réseaux communautaires spacio temporels TEMPS REEL ++ d entreprises («Zero mail» chez Atos et Bluekiwi en 2012, Microsoft et) Entre individus (PATH, PAIR, Google+,..) SANTE, TRANSPORT, TOURISME,

8 2012 Google* indexe 20 milliards de pages par jour pour répondre à 3,3 milliards de requêtes quotidiennes et par seconde. Google, c est aussi 425 millions d utilisateurs de sa messagerie Gmail, disposant chacun d un espace de stockage de 10 Go, soit 4,25 «Eo». Google compte 250 millions de membres sur le réseau social Google+. Mais ça n est pas tout. YouTube recense 800 millions d utilisateurs qui passent 4 milliards d heures à regarder des vidéos chaque mois Les utilisateurs de youtube envoient 72 heures de vidéos par minute pour 1,3 milliard de vidéos hébergées en tout. *GOOGLE vient du chiffre mathematique 1 suivi de 100 Zeros

9 Une Minute sur Internet en 2011 c est : 9

10 Des nouvelles technologies visant - Scalabilité + disponibilité + performance 10

11 Apports des BD (Bases de données) Services TIPS Transactions, Interface non procédurale (SQL), Persistence, Structuration (SCHEMA) «T» : Propriétés «ACID» des BD SQL (Atomicité, Cohérence, Isolation, Durabilité) OLTP (On line Transaction Processing) Data Warehouse/data Mining (et OLCP) Approche TOP DOWN

12 Besoins mobiquitaires OLTP Temps Réel Géolocalisation (Contextualisation, Temporalité) Réseaux sociaux spacio temporels temps réel (électeurs, spectateurs,..) Approche décisionnelle/oltp temps réel BOTTOM UP Jeux, Marketing Réseaux sociaux (Twitter, Facebook,..) TAGS NFC,

13 Generations Share Differently s era generation Focus on society Friendships are forged through adversity s era generation Focus on community Friendships forged through identification with a cause s era generation Focus on the individual Friendships forged through individual goal accomplishment 2000 s era generation Focus on common interests and SHARING Des rapports de FORCE aux rapports de FLUX (Joel de Rosnay 2012 SURFER LA VIE ) Friendships are created or thrive virtually IOGDC Open Data Tutorial 13

14 «Capital SOCIAL» (relationnel)? Social capital consists of the stock of active connections among people; the trust, mutual understanding, and shared values and behaviors that bind the members of human networks and communities and make cooperative action possible Robert Putnam, Harvard University (loi de Metcafe sur la VALEUR d un RESEAU)

15 Une dichotomie «data system»/dbms ou une intégration? DATA BASE MANAGEMENT SYSTEMS (DBMS SQL) et TIPS Données structurées (Tables, Objets, ) : Schéma et modèle Objet Relationnel Applications transactionnelles avec cohérence ACID Interface SQL Sécurité Gestion/PRODUCTION/DECISION (Datawarehouse) Standards SQL3/0DMG (See [ORACLE12] ) BIG DATA/ OPEN DATA (Not Only SQL : NO SQL) Données non structurées (accessibles sur le WEB par URL) Données temps réel Interrogation par machine Collaboration/PARTAGE communautaire Standards RDF, SPARQL, OWL,

16 BIG DATA (Wikipedia) Big data («grosse donnée» ou données massives) est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Les perspectives du traitement des big data sont énormes, notamment pour l'analyse d'opinions ou de tendances industrielles, la génomique, l'épidémiologie ou la lutte contre la criminalité ou la sécurité 2. Le phénomène Big data est considéré comme l'un des grands défis informatiques de la décennie Il engendre une dynamique importante tant par l'administration 3, que par les spécialistes sur le terrain des technologies ou des usages 4. Outil adapté : Graph Databases (en), framework : MapReduce ou Hadoop et systèmes de gestion de bases de données comme BigTable.

17 Open Data (Wikipedia) Une donnée ouverte (en anglais open data) est une information publique brute, qui a vocation à être librement accessible et réutilisable. La philosophie pratique de l'open data préconise une libre disponibilité pour tous et chacun, sans restriction de copyright, brevets ou d'autres mécanismes de contrôle. En 2010, Tim Berners-Lee a donné une échelle de qualité des données ouvertes qui va de zéro à 5 étoiles. Vos données (non filtrées c'est-à-dire dégradées) sont en ligne quel que soit leur format (n'importe quel format) Vos données sont disponibles sous forme de données structurées (par exemple Excel en csv, ou avec RDF) les données sont libres d'être exploitées car la machine ne fait aucune distinction entre les données libres ou non.(voir la partie sur les licences) utiliser des URL pour identifier vos données, de sorte que l'on puisse pointer dessus lier vos données à d'autres personnes pour fournir un contexte à ces données

18 Les données ouvertes dans le Web des données (Wikipedia) Les principaux problèmes de l'exploitation des données ouvertes sont de l'ordre technique car les données en masse ne peuvent pas être traitées humainement. Le concept de Web des données appliqué aux données ouvertes met en œuvre 3 mécanismes : permettre l'existence de la donnée sur le réseau à travers une URI unique(cela inclut les URL). diminuer le coût de transformation de la données en apportant des formats standards lisible par les machines (comme avec RDF,RDFa ou les Microdonnée dans le HTML5) ; améliorer la qualité de la donnée pour éviter qu'un traitement de mise à disposition ne puisse les altérer. Un entrepôt de données même avec des erreurs est préférable qu'un entrepôt biaisé. Ainsi, des mécanisme pour la fréquence et l automatisation des mises à jour de la donnée par les producteurs des données est possible avec un service SPARQL sur ces données. Les données ouvertes ne sont pas contrôlables par leurs producteurs (contrôle des mises à jours) et réellement exploitables par d'autres qu'à la condition d'utiliser ces 3 mécanismes.

19 Tim Berners-Lee, (Weaving the Web, 2001) on SEMANTIC WEB I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web the content, links, and transactions between people and computers. A Semantic Web, which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The intelligent agents people have touted for ages will finally materialize

20 «WEB Sémantique» du W3C Le Web sémantique est un mouvement collaboratif mené par le World Wide Web Consortium(W3C) 1 qui favorise des méthodes communes pour échanger des données. Le Web sémantique vise à aider l'émergence de nouvelles connaissances en s'appuyant sur les connaissances déjà présentes sur Internet. Pour y parvenir, le Web sémantique met en œuvre le Web des données qui consiste à lier et structurer l'information sur Internet pour accéder simplement à la connaissance qu'elle contient déjà 2. Selon le W3C, «le Web sémantique fournit un framework qui permet aux données d'être partagées et réutilisées entres plusieurs applications, entreprises et groupes d'utilisateurs». 2 Le Web sémantique propose des langages spécialement conçus pour les données : le RDF (Resource Description Framework), le OWL(Web Ontology Language), et le XML (extensible Markup Language). HTML décrit les documents et les liens entre eux. RDF, OWL, et XML, en revanche, peuvent décrire également des choses, comme des personnes, des réunions, ou des pièces d'avion.< WIKIPEDIA>

21 BIG DATA

22 WEB et rêve de Laplace! «Le Web contient une description exhaustive du monde passé et présent» Julien Laugel (MFG Labs) Rêve de LAPLACE «Une entité connaitra parfaitement l état du monde passé et présent pour prévoir son évolution»

23 Grands Domaines d application BIG DATA et Projets du MBDS : du moteur de recherche au moteur de LA recherche Génétique (découverte de 4 gènes liés au cancer du foie,..) médecine (neurosciences : localisation migraine, ) Epidémies, Pandémies, Catastrophes (Ex SANDY en Oct 2012 avec cartographie inondations via analyse tweets) Climatologie, Astronomie Océanographie (Expert planton, méduses,..)chimie Linguistique, Macro-Economie Transport (Projet VAMP), AIDE SOCIALE (Projet FIRST Inde) COMMERCE, TOURISME (Projet MATRIUM, REVE, IMAJEANS)

24 Recherche scientifique AVANT Big Data PROBLEME Etat de l art INTUITION VALIDATION par Expérience, simulation, calculs,

25 Recherche scientifique avec BIG DATA Analyse informatique de BIG DATA Identification de CORRELATIONS nouvelles Générateur d hypothèses Émergence de DECOUVERTES (avec ou pas expérimentations) SCIENCE demain? Mise en relief de corrélations Recherche de modèles expliquant les corrélations

26 EX1 : Big data et Neurosciences Projet BrainScanr de Jessica et Bradley VOYTEK Analyse de 3,5 millions d articles en neurosciences Carte de «proximité statistique» entre termes neuroscientifiques Générateur automatique d hypothèses Proximité entre «sérotonine» et «migraine» (2943 articles) Proximité entre «striatum» (région cerveau) et «migraine» (4782 articles)» Réorientation des travaux de recherche!

27 Ex2: BIG DATA et psycho-linguistique «Emergence des mots chez le bébé?» Deb ROY du MIT a enregistré et filmé son propre bébé pendant 3 ans (jour et nuit!) (90 000H de video et H audio) <200 teraoctets> 70 Millions de mots prononcés Approche d analyse psycho linguistique d assimilation et d évolution du langage chez l être humain (et modèle contextuel)!

28 Autres Exemples BIG DATA Déforestation : projet PlanetarySKIN (7 tera de données satellites) Suivi astronomique en direct : Projet LSST (30 Tera chaque nuit) Micro-organismes marins: Projet GOS (2 teraoctets) Bio Chimie sur 100 millions de molécules : Projet BSrC Cancer du foie :projet ICGC (200 teraoctets) analyse des BD sur tumeurs de 5O types de cancers Détection épidémies en temps réel : Projet Healthmap (1 teraoctets) : Suivi progression cholera en Haiti avec 2 semaines d avance (cholera, grippe, dengue,..)

29 OPEN DATA

30 What Makes DATA OPEN? Data Open Format Open The US Government through the Open Government Directive (http://www.whitehouse.gov/omb/assets/memor anda_2010/m10-06.pdf ) defines an open format as one that is platform independent, machine readable, and made available to the public without restrictions that would impede the re-use of that information. 9 July

31 OPEN (DATA) FORMAT? Example Open Formats: PDF for documents (but not data) CSV for data (Excel) Web standards for publishing, sharing or linking HTML, XML, RDF Web standards for syndication RSS, Atom, JSON 31

32 Metadata? Metadata The information about the data being shared Who produced it Where When Use restrictions Etc. Use standards such as ADMS or Dublin Core New (Search-oriented) Embedded dataset metadata coming

33 Data analytics Analytics based on over 1,000,000 datasets from around the world can be seen at

34 Real Outcomes = Better Lives Open data eases the burden on families in caring for a sick child or seeking medical information More importantly, the data as it s aggregated empowers communities to make changes that improve the quality of life of citizens In California, ReLeaf plants trees in areas identified by Together We Breathe as danger areas for asthma sufferers Cities see hot spots that trigger asthma problems for their citizens Each company in Health 2.0 used government data to innovate and create high-value jobs in America Civic Commons has a great collection of good open use cases: 9 July 2012 IOGDC Open Data Tutorial 34

35 Health.data.gov + Healthtap!

36 Energy Drives Innovation Energy.Data.gov connects innovators, industry, academia, and government at federal, state, and local levels 9 July 2012 IOGDC Open Data Tutorial 36

37 Challenges Spark Ideas Energy.Data.gov connects works with challenges across the nation to integrate federal data and bring government personnel to code-a-thons 9 July 2012 IOGDC Open Data Tutorial 37

38 Changing Economic Equations Economic Equations Study from Malaysian government: 9 July 2012 IOGDC Open Data Tutorial 38

39 Data Mashups of Many Kinds More than 50 of these at IOGDC Open Data Tutorial 39

40 Policies Become Essential Policies are needed to help drive the ecosystem and motivate departments to continue to share data openly Build the policies based around issues that are universal Licensing, provenance: Open data on food, security, culture, transportation, and transparency 9 July

41 Linking Data LINKING DATA goes beyond govt Government Data is currently over ½ the cloud in size (~17B triples), 10s of thousands of links to other data (within and without) 9 July 2012 IOGDC Open Data Tutorial 41

42 5 star LINKED OPEN DATA

43 Linked DATA/ Semantic WEB

44 «Linked DATA», RDF format and SPARQL [BENE2006] To make data machine processable, we need: - Unambiguous names for resources (that may also bind data to real world objects): URIs (URL) - common data model to access, connect, describe the resources: RDF - Access to that data: SPARQL - Define common vocabularies: RDFS, OWL, SKOS - Reasoning logics: OWL, Rules

45 RDF W3C Recommendation: January 15th, 2008 SPARQL queries RDF graphs An RDF graph is a set of triples to describe WEB resources RDF/XML is the W3C recommendation Simple triple: subject predicate object (cf Minsky et linguistique sur triplet <Sujet><Verbe> <Complément>) :serge rdf:label «serge" ; rdf:type ex:person ; ex:homepage

46 Sparql : SQL-like syntax PREFIX dc: <URI abrégé> SELECT?title WHERE { <http://example.org/book/book1> dc:title?title } < liste des triplets> FROM Name of the graph Note : Jena is a Java framework for building Semantic Web applications; provides an environment for RDF, RDFS and OWL, SPARQL and includes a rule- based inference engine

47 Exemple RDF [MAEV2012] < > Sujet < Prédicat Objet

48 SPARQL [MAEV2012] Langage d interrogation, ajout, modification et suppression de données RDF. Exemple : Auteurs français nés en 1900?

49 SPARQL engine Note : GRDDL (2007) to get RDF triples out of XML documents

50 Dataset «DBPEDIA»? DBPEDIA : Donnéees extraites de Wikipedia sous forme RDF DBPedia is an RDF version of information from Wikipedia which : - Contains data derived from Wikipedia s infoboxes, category hierarchy, article, abstracts, and various external links - Contains over 130 million triples - Dataset:

51 DBPEDIA [GAND2012] Projets 2012 [GAND2012]): Datalift.org (ANR) Kolflow (ANR) pluggable to any RDF store (SparQL1.1) ERWAN (visualisation de données RDF/XML) Mobile DB PEDIA? Tourisme mobiquitaire et guide temps réel (Cf Projet de FUI VAMP) Moteur KGRAM/Corese en Open Source VERROUS? - Modeles pour meta données? - Architectures logicielles Nice ouvertes Sophia Antipolis (stockage, acces,..)

52 DATA WEB (web de données) livre de David Wood Linking Government Data en 2011: le Web des données est passé de quelques 40 millions de triplets RDF au sein de quatre entrepôts de données en 2007 à 203 entrepôts avec plus de 25 milliards de triplets avec 395 millions de liens à la fin 2010.

53 EX : Dataset JAMENDO Jamendo is a community collection of music all freely licensed under Creative Commons licenses - - DBTune.org hosts a queryable RDF version of information about Jamendo's music collection - Data on thousands of artists, tens of thousands of albums, and nearly 100,000 tracks -

54 EX : Dataset GOVtrack (USA) GovTrack provides SPARQL access to data on the U.S. Congress - Contains over 13,000,000 triples about legislators, bills, and votes -

55 EX (GovTrack) : Find Senate bills that either John McCain or Barack Obama sponsored and the other cosponsored [CORNO2008] PREFIX bill: <http://www.rdfabout.com/rdf/schema/usbill/> PREFIX dc: <http://purl.org/dc/elements/1.1/> foaf: <http://xmlns.com/foaf/0.1/> SELECT?title?sponsor?status WHERE { {?bill bill:sponsor?mccain ; bill:cosponsor?obama. } UNION {?bill bill:sponsor?obama ; bill:cosponsor?mccain. }?bill a bill:senatebill ; bill:status?status ; bill:sponsor?sponsor ; dc:title?title.?obama foaf:name "Barack Obama".?mccain foaf:name "John McCain".}

56 Links to OPEN DATA community W3C egovernment Interest Group age Open Data Innovation Network on LinkedIn

57 DATA SYSTEMS «NO SQL (NOT ONLY SQL)

58 NO SQL (Not Only SQL) Un nouveau courant non relationnel permettant la gestion de données de type BIG DATA + Scalabilité + Evolutivité + Liberté de modélisation + Simplicité 12

59 NO SQL/ Data Systems [Noel2011] Platonic architecture of a DATA SYSTEM? 1) BATCH LAYER : HADOOP (arbitrary computations, horizontal scalability, map reduction,..) 2) SPEED LAYER : RIAK, CASSANDRA (NO SQL DB), MONGO DB (NO SQL), H- BASE (incremental algorithms, subset of big data,..) : Conclusion : one store both for operational data and analytics, REAL TIME in the pocket

60

61 Introduction à Hadoop Qui utilise Hadoop? Heck Another Darn Obscure Open-source Project Un modèle open source Un projet Apache, open source et de plus haut niveau Un modèle Clé/valeur distribué Permet de répartir le flux des requêtes Un modèle élastique Souplesse du schéma Souplesse de l infrastructure de stockage Souplesse de modélisation Un modèle tolérant aux pannes Replication des données entre les serveurs du cluster 61

62 Hadoop Distributed File System Le système de fichier distribué d Hadoop Composé de : Serveur maître: le NameNode Serveurs esclaves: les DataNodes Figure- Des Hadoop clusters avec des milliers de nœuds 62

63 L écosystème Hadoop 63

64 Hadoop MapReduce Techniques Open Source de la fondation Apache existe au travers d Hadoop et de son écosystème Paradigme de programmation introduit par Google pour traiter de gros volumes de données. L architecture MapReduce est composée de : Un JobTracker : centralisateur de tâches Des TaskTracker qui se chargent d exécuter les travaux demandés. 64

65 Son rôle consiste à diviser le traitement en 2 étapes : Map : étape d ingestion et de transformation des données sous la forme de paires clé/valeur Reduce : étape de fusion des enregistrements par clé pour former le résultat final.

66 L écosystème Hadoop: SQOOP Connecter Hadoop Hive SQL like queries DSL Hadoop Base de données relationnelles Sqoop Hbase Base de données pour un accès aléatoire read/ write Sqoop Systèmes d entreposage de données HDFS Un système de fichiers distribués Write once, read many 66

67 L écosystème Hadoop: Pig..PigLatin Un langage de script permettant d interroger des grands ensembles de données Des Job MapReduce sont générés. Une succession d opérations à appliquer à des données en entrée pour produire un résultat. Pig latin: adapté au grandes quantités de données un langage d interrogation comme SQL et les logiques relationnelles 67

68 Ex HADOOP en Annexe (MBDS TUNIS)

69 «From NO SQL to NEW SQL» [RICH2012] ([STON2011]

70 «From NO SQL to NEW SQL» [RICH2012] ([STON2011] NO SQL (Modèles basés colonnes, valeurs, ou graphes) : Cassandra (column), Mongo DB, SimpleDB, DynamoDB, CouchDB, Membase, Retis,.. NEW SQL (on top of RDB) : Scale DB, NimbusDB, VoltDB de Stonebraker (open Source, in memory RDB), Clustrix, + Oracle BIG DATA, Microsoft BIG DATA, Future is polyglot persistence

71 M.Stonebraker (2011) et VOLTDB Replacing real SQL ACID with either no ACID or ACID lite just pushes consistency problems into the applications where they are far harder to solve. Second, the absence of SQL makes queries a lot of work NEW SQL

72 Verrous Systèmes amphibiens :Passerelles entre SGBD/Datawarehouse TOP DOWN (SQL) et décisionnel BOTTOM UP (NOSQL) Maintien ACID approche SQL Interface SQL++ (Complexité cachée) Maintien Performances bottom up et scalabilité approches NOSQL «NEW SQL» (Stonebraker,..)

73 NEW SQL (ORACLE and BIG DATA)

74 BIG DATA for the enterprise [ORACLE2012]

75 Oracle BIG DATA for enterprise HADOOP and ORACLE Apache Hadoop is a new technology that allows large data volumes to be organized and processed while keeping the data on the original data storage cluster. Hadoop Distributed File System (HDFS) is the longterm storage system for web logs for example. These web logs are turned into browsing behavior (sessions) by running MapReduce programs on the cluster and generating aggregated results on the same cluster. These aggregated results are then loaded into a Relational DBMS system.

76 Oracle Solution Spectrum Many new technologies have emerged to address the IT infrastructure requirements outlined above. At last count, there were over 120 open source key-value databases for acquiring and storing big data, with Hadoop emerging as the primary system for organizing big data and relational databases expanding their reach into less structured data sets to analyze big data. These new systems have created a divided solutions spectrum comprised of: Not Only SQL (NoSQL) solutions: developer-centric specialized systems SQL solutions: the world typically equated with the manageability, security and trusted nature of relational database management systems (RDBMS) NoSQL systems are designed to capture all data without categorizing and parsing it upon entry into the system, and therefore the data is highly varied. SQL systems, on the other hand, typically place data in well-defined structures and impose metadata on the data captured to ensure consistency and validate data types.

77 Oracle Big Data solutions

78 Oracle Big Data Appliance

79 Oracle In-Database Analytics Oracle R Enterprise (statistics; prediction) In-Database Data Mining (predictive analytics) In-Database Text Mining (sentiment analysis) In-Database Semantic Analysis (Graphs) In-Database Spatial (data plotted on a map) In-Database MapReduce (procedural logic)

80 NEW SQL (Microsoft SQL Server 2012 et BIG DATA)

81 Big Data dans SQL SERVER 2012 SQL SERVER intègre la composante Hadoop, (framework open source spécialisé dans la gestion de données non structurées). L éditeur lance ainsi une seconde version d Hadoop pour Azure et Windows Server. Interface Excel à Hadoop le projet Apache Sqoop, la mise à disposition de Mahoot (outils de datamining pour Hadoop)

82

83 Recherches Informatiques Passerelles NEW SQL : Modèles, conception, algorithmique (requetes, ACID), systèmes, Middleware, OLTP Temps reel Reseaux sociaux spacio temps réel Applications innovantes décisionnelles autour de OLTP Temps réel (Interfaces Réseaux sociaux, tag mining)

84 Conclusion BIG DATA et recherche scientifique? Risque de prédire sans expliquer? La fin d un monde scientifique traditionnel? il n y a : Plus d hypothèses à formuler Avant! Plus d expérimentation à faire pendant! Plus de compréhension après!

85 Conclusion BIG DATA : évolution des méthodes scientifiques Méthode logique d Aristote (330 a JC) Méthode expérimentale de Roger Bacon (1250) Méthode théorique de Newton(1700) Méthode de simulation d Enrico Forni (1950) Méthode d analyse des liens de Google? Twitters? TAGS NFC? Apres une science des traitements : Vers une SCIENCE DES DONNEES? DES SERVICES?

86

87 Questions? 87

88 References [ORACLE2012] White Paper Oracle, January 2012 «Oracle BIG DATA for the enterprise» [GAND2012]Fabien Gandon «Recherches Web Sémantqiue» Juin 2012 [BUFFA2012] Michel Buffa, Proposition recherche pour Fui VAMP [MAEVA2012] Maeva Antoine, Rapport MBDS2012, INRIA Sophia, Equipe OASIS [DAVIS2009] «30 Minute Guide to RDF and Linked Data Ian Davis 2009, Slide Share [RICH2012] SQL, NO SQL and NEW SQL Chris Richardon Feb 2012 SLIDE SHARE [STON2011] New SQL: An Alternative to NoSQL and Old SQL for New OLTP Apps» ACM, Juin 2011 [NOEL2011] «BIG DATA Steven Noels, Wim Von Leuven, SAI 7 April 2011 [BEEM2012] «Open Data Tutorial», Hadley Beeman et al, IOGDC, 2012 [BERN2006] SPARQL will make a huge difference Tim Berners-Lee, May 2006 [CORNO2008], Corno et al, «SPARQL - QueryLanguage for RDF» [BASSM2012] Bassma Ben Dhouma «Implémentation d une application pour pour la gestion des données de type Big Data sous un Hadoop Cluster en utilisant une base de données Nosql» MBDS, Univ Manouba Oct 2012

89 Annexe : Projet MBDS Tunis (Univ de La Manouba), 2012 Application Hadoop pour Maroc Telecom [BASSM2012] Système d exploitation: Unix - Ubuntu Langage de programmation: JAVA Outils de travail: - Hadoop Sqoop - Pig 89

90 Millions Contexte du Projet (BASSM2012] Abonnés 43 millions / jour transactions Call 26 millions/ jour transactions de recharge Taux de pénétration en % Parc des abonnés Une croissance à 2 chiffres Une explosion de la BD 90

91 Problématique BIG DATA du Projet [BASSM2012] Quantités de données à stocker et données inexploitables par SQL simple 137 tables Temps de traitement 100 GB 10 min 1 TB 2 heures 1 PB 3 mois Compléxité et lourdeur des requêtes SQL Coût de stockage SQL ne permet pas de répondre aux besoins de Maroc telecom en terme de gestion BIG DATA 91

92 Architecture de l application Hadoop pour Maroc Telecom [BASSM2012] 92

93 Les étapes de réalisation Application Hadoop pour Maroc Telecom [BASSM2012] Installation de l environnement Configuration du Hadoop cluster Migration des données de la base de données oracle vers le HDFS en utilisant Soop Traitement des données présentes dans le HDFS en utilisant des scripts en PigLatin basés sur sur les UDFs du pig 93

94 Application Hadoop pour Maroc Telecom [BASSM2012] Etape 1: Installation de l environnement de travail (1/5) Configuration du Hadoop cluster Adressage Réseau et définition des machines Master et Slaves Attribuer l adresse IP et définir la hôte Master Attribuer l adresse IP et définir les hôtes Slaves Configuration SSH Installer les packages SSH Générer une paire de clés RSA Tester la configuration SSH Configuration HDFS Repertoire: Conf/ Fichier :hadoop-defaults.xml Configuration du fichier hadoopsite.xlm Configuration du fichier hdfssite.xml Configuration MapReduce Configuration du fichier coresite.xml 94

95 Application Hadoop pour Maroc Telecom [BASSM2012] Etape 1: Installation de l environnement de travail (2/5) Le serveurs master JobTracker NameNode Couche Couche MapReduce HDSF Les serveurs slaves Tasktracker DataNode Tasktracker DataNode JobTracker DataNode Structure générale du Hadoop cluster avec 4 nœuds 95

96 Application Hadoop pour Maroc Telecom [BASSM2012] Etape1: Installation de l environnement de travail (3/5) Démarrage du Cluster Formater le HDFS $bin / hadoop namenode format Démarrer le HDFS $ bin / start-dfs.sh Démarrer le MapReduce $ Bin / start-mapred.sh Démarrer le Cluster $bin/start-all.sh Arrêter le Cluster $bin/stop-all.sh 96

97 Application Hadoop pour Maroc Telecom [BASSM2012] Etape1: Installation de l environnement de travail (4/5) Récapitulatif du cluster Capacité totale nœuds actifs et morts L interface Web Du NameNode 97

98 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Installation de l environnement de travail (5/5) / L interface Web Du JobTraker. 98

99 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (1/4) Extrait de la base de données Maroc Telecom : Les tables quotidiennes 99

100 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (2/4) Exemple Importation de la table «IAM_REJECTED_MIGRATION» Spécifiez le JDBC de connexion Mot de passe le JDBC de la connexion, d authentification l adresse IP du serveur le port et le nom de la base nom d'utilisateur pour s authentifier sqoop --connect --username root --password ***** table IAM_REJECTED_MIGRATION' --split-by TARIFFINDEX; nom de la table à importer par quelle colonne les données doivent être indexées

101 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (3/4) Lancement de la commande d importation 101

102 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (4/4) Résultat du lancement de la commande 102

103 Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Migration des données (1/4) Objectifs Gestion de données de types complexes Réduction du temps de réponse des requêtes SQL lourdes et complexes Des requêtes en langage naturel pour du filtrage dynamique (idem sans in-memory) 103

104 Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Traitement des données migrées (2/4) Exemple SELECT TO_NUMBER (TO_CHAR (TIMESTAMP, 'yyyymmdd')),tariffindex, SUBSTR(BEARER_FLAG,1,1),COUNT(DISTINCT MSISDN),FORFAIT FROM IAM_CALL2 WHERE TARIFFINDEX IN (1,2,3,5,6,9,15,16,21,22,24,25,26,27,18) GROUP BY TO_NUMBER (TO_CHAR (TIMESTAMP, 'yyyymmdd')), TARIFFINDEX, SUBSTR(BEARER_FLAG,1,1),FORFAIT; Requêtes SQL à traduire en PigLatin 104

105 Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Traitement des données migrées (3/4) Script PigLatin 105

106 Application Hadoop pour Maroc Telecom [BASSM2012] Traitement des données migrées (4/4) Lancement du Pig Lancement du shell GRUNT Lignes du script i Lancement du Job MapReduce Script PigLatin 106

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages 1 Mehdi LOUIZI Plan Pourquoi Hadoop? Présentation et Architecture Démo Usages 2 Pourquoi Hadoop? Limites du Big Data Les entreprises n analysent que 12% des données qu elles possèdent (Enquête Forrester

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1 2 Introduction Historique des bases de données : méthodes de stockage et d analyse

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

quand le lien fait sens

quand le lien fait sens Fabien Gandon - @fabien_gandon - http://fabien.info Wimmics (Inria, I3S, CNRS, Université de Nice) W3C AC Rep pour Inria Données liées et Web sémantique quand le lien fait sens étendre la mémoire humaine

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

Sophia Conf 2014. Bases de données RDF. versatilité, puissance et scalabilité. Bases de données RDF

Sophia Conf 2014. Bases de données RDF. versatilité, puissance et scalabilité. Bases de données RDF Sophia Conf 2014 versatilité, puissance et scalabilité Your business 2 juillet technologists. 2014 Sophia Conf Powering 2014 progress Agenda Introduction Vision du Web sémantique par Atos Modèle W3C vs

Plus en détail

Module MLBDA Master Informatique Spécialité DAC. Cours 10 NoSQL

Module MLBDA Master Informatique Spécialité DAC. Cours 10 NoSQL Module MLBDA Master Informatique Spécialité DAC Cours 10 NoSQL Systèmes NoSQL (not only SQL) Systèmes qui abandonnent certaines propriétés des SGBDR (one size does not fit all): Le langage d interrogation

Plus en détail

La rencontre du Big Data et du Cloud

La rencontre du Big Data et du Cloud La rencontre du Big Data et du Cloud Libérez le potentiel de toutes vos données Visualisez et exploitez plus rapidement les données de tous types, quelle que soit leur taille et indépendamment de leur

Plus en détail

Bigdata et Web sémantique. les données + l intelligence= la solution

Bigdata et Web sémantique. les données + l intelligence= la solution Bigdata et Web sémantique les données + l intelligence= la solution 131214 1 big data et Web sémantique deux notions bien différentes et pourtant... (sable et silicium). «bigdata» ce n est pas que des

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Synthèse d étude et projets d'intergiciels. Base NOSQL

Synthèse d étude et projets d'intergiciels. Base NOSQL Synthèse d étude et projets d'intergiciels Base NOSQL octera [AT] octera [DOT] info Résumé Devant le besoin grandissant en performance et en disponibilité des services/sites possédant un fort trafic, un

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

Quick Start Guide This guide will help you install a base configuration of IBM Tivoli Key Lifecycle Manager.

Quick Start Guide This guide will help you install a base configuration of IBM Tivoli Key Lifecycle Manager. IBM Tivoli Key Lifecycle Manager Version 2.0.1 Quick Start Guide This guide will help you install a base configuration of IBM Tivoli Key Lifecycle Manager. National Language Version: To obtain the Quick

Plus en détail

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite. Rational ClearCase or ClearCase MultiSite Version 7.0.1 Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite. Product Overview IBM Rational

Plus en détail

KARMA Le système de Revenue Management d'air France KLM avec Hadoop

KARMA Le système de Revenue Management d'air France KLM avec Hadoop KARMA Le système de Revenue Management d'air France KLM avec Hadoop Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 16 Décembre 2014 Martial AYAS maayas@airfrance.fr 2 Agenda 1. Présentation

Plus en détail

Données liées et Web sémantique quand le lien fait sens

Données liées et Web sémantique quand le lien fait sens Données liées et Web sémantique quand le lien fait sens Fabien Gandon #inria_industrie étendre la mémoire humaine Vannevar BUSH 2 étendre la mémoire humaine Vannevar BUSH Memex, Life Magazine, 10/09/1945

Plus en détail

Les datas = le fuel du 21ième sicècle

Les datas = le fuel du 21ième sicècle Les datas = le fuel du 21ième sicècle D énormes gisements de création de valeurs http://www.your networkmarketin g.com/facebooktwitter-youtubestats-in-realtime-simulation/ Xavier Dalloz Le Plan Définition

Plus en détail

Les licences Creative Commons expliquées aux élèves

Les licences Creative Commons expliquées aux élèves Les licences Creative Commons expliquées aux élèves Source du document : http://framablog.org/index.php/post/2008/03/11/education-b2i-creative-commons Diapo 1 Creative Commons presents : Sharing Creative

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Big Data -Comment exploiter les données et les transformer en prise de décisions? IBM Global Industry Solution Center Nice-Paris Big Data -Comment exploiter les données et les transformer en prise de décisions? Apollonie Sbragia Architecte Senior & Responsable Centre D Excellence Assurance

Plus en détail

Introduction & concepts Big Data Khamprasit LANPHOUTHACOUL, Responsable de Centre de Compétences OAB UFR IM²AG, St Martin d'hères le 22 octobre 2015

Introduction & concepts Big Data Khamprasit LANPHOUTHACOUL, Responsable de Centre de Compétences OAB UFR IM²AG, St Martin d'hères le 22 octobre 2015 Introduction & concepts Big Data Khamprasit LANPHOUTHACOUL, Responsable de Centre de Compétences OAB UFR IM²AG, St Martin d'hères le 22 octobre 2015 Et à propos des objectifs de cette présentation? 2 Big

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

Un ACTIF InConToURnABLE PoUR DEs PARTEnARIATs significatifs. social. An ASSeT To meaningful PARTneRSHIPS

Un ACTIF InConToURnABLE PoUR DEs PARTEnARIATs significatifs. social. An ASSeT To meaningful PARTneRSHIPS Le capital Un ACTIF InConToURnABLE PoUR DEs PARTEnARIATs significatifs social capital An ASSeT To meaningful PARTneRSHIPS Présentation des participants participants presentation Fondation Dufresne et Gauthier

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

LA PERSONNE SPÉCIALE

LA PERSONNE SPÉCIALE LA PERSONNE SPÉCIALE These first questions give us some basic information about you. They set the stage and help us to begin to get to know you. 1. Comment tu t appelles? What is your name? Je m appelle

Plus en détail

Projet Datalift : retour d expérience sur les standards

Projet Datalift : retour d expérience sur les standards ign.fr Les outils du web Sémantique comme supports des données et métadonnées géographiques Projet Datalift : retour d expérience sur les standards Forum Décryptagéo Marne La Vallée 8 avril 2014 Bénédicte

Plus en détail

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France 2013 SAP AG. All rights reserved. Customer 1 Rôles et Attentes Instantanéité BIG DATA Users IT Real Time SAP HANA

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

J2EE : Services Web. Stéphane Croisier, Directeur Serge Huber, Directeur Technique. 13 Juin 2002. 2002 Jahia Ltd. All rights reserved.

J2EE : Services Web. Stéphane Croisier, Directeur Serge Huber, Directeur Technique. 13 Juin 2002. 2002 Jahia Ltd. All rights reserved. J2EE : Services Web Stéphane Croisier, Directeur Serge Huber, Directeur Technique 13 Juin 2002 Aperçu Interopérabilité en XML/HTTP SOAP ebxml Outils d EAI JXTA Normes d interopérabilité XML SOAP/UDDI Inventé

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES 1 FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES «Dans le concret, projets de transformation vers le BigData» V1-10/03/15 ABED AJRAOU CONNAISSEZ-VOUS PAGESJAUNES? CONNAISSEZ-VOUS PAGESJAUNES? LES MEGADONNEES RÉPONDENT

Plus en détail

BD**2 : Des BD à BD (des Bases de Données à BIG DATA)

BD**2 : Des BD à BD (des Bases de Données à BIG DATA) BD**2 : Des BD à BD (des Bases de Données à BIG DATA) Pr Serge Miranda Directeur Master MBDS (www.mbds- fr.org) Conférence MBDS 2013 World is changing : Tiepolo (Un Nouveau Monde; Venise) «Big» DATA? IDC

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

NoSQL Faut-il franchir le pas?

NoSQL Faut-il franchir le pas? NoSQL Faut-il franchir le pas? Guillaume HARRY Journées rbdd Octobre 2015 Sommaire 1. Evolution des bases de données 2. Le mouvement NoSQL 3. Les grandes familles du NoSQL 4. Aller ou non vers le NoSQL?

Plus en détail

Les activités de recherche sont associées à des voies technologiques et à des opportunités concrètes sur le court, moyen et long terme.

Les activités de recherche sont associées à des voies technologiques et à des opportunités concrètes sur le court, moyen et long terme. Mémoires 2010-2011 www.euranova.eu EURANOVA R&D Euranova est une société Belge constituée depuis le 1er Septembre 2008. Sa vision est simple : «Être un incubateur technologique focalisé sur l utilisation

Plus en détail

The managing Information system (S.I.D.) of the Civil Servants Health Insurance. Mutualité Fonction Publique - Direction des Systèmes d Information

The managing Information system (S.I.D.) of the Civil Servants Health Insurance. Mutualité Fonction Publique - Direction des Systèmes d Information The managing Information system (S.I.D.) of the Civil Servants Health Insurance Mutualité Fonction Publique - Direction des Systèmes d Information Joseph GARACOITS - Isabelle RICHARD France Intervention

Plus en détail

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Le nouveau visage de la Dataviz dans MicroStrategy 10

Le nouveau visage de la Dataviz dans MicroStrategy 10 Le nouveau visage de la Dataviz dans MicroStrategy 10 Pour la première fois, MicroStrategy 10 offre une plateforme analytique qui combine une expérience utilisateur facile et agréable, et des capacités

Plus en détail

Rational Team Concert

Rational Team Concert Une gestion de projet agile avec Rational Team Concert Samira Bataouche Consultante, IBM Rational France 1 SCRUM en Bref Events Artifacts Development Team Source: Scrum Handbook 06 Décembre 2012 Agilité?

Plus en détail

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Responsable du stage : Nabil Belcaid Le Guyader Chef de projet : Ali Belcaid Déroulement du stage

Plus en détail

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence L offre décisionnel IBM Patrick COOLS Spécialiste Business Intelligence Le marché du Business Intelligence L enjeux actuel des entreprises : devenir plus «agiles» Elargir les marchés tout en maintenant

Plus en détail

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Big Data. Concept et perspectives : la réalité derrière le buzz Big Data Concept et perspectives : la réalité derrière le "buzz" 2012 Agenda Concept & Perspectives Technologies & Acteurs 2 Pierre Audoin Consultants (PAC) Pierre Audoin Consultants (PAC) est une société

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

CEISAR Survey on IT education

CEISAR Survey on IT education CEISAR Survey on IT education Objectives In June 2007, the CEISAR conducted a survey to understand what company needs are in terms of training on Computer Science and Management of IS. Our objective was

Plus en détail

Sun ONE Application Server Platform Summary

Sun ONE Application Server Platform Summary Sun ONE Application Server Platform Summary Version 7, Update 3 Part Number 817-5602-10 February 2004 This document provides the specifics on supported platform components for the Sun Open Net Environment

Plus en détail

SQL-ON-HADOOP. Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr

SQL-ON-HADOOP. Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr Données structurées (RDBMS) Exiger de strictement être organisé Annexer à RDBMS sans couture Consultable

Plus en détail

Londres 1854 Des problèmes (re)connus Faire plus avec moins Tendances et défis «BYOD» WIN INTUNE «Nouveaux paradigmes» «Big Data» «Cloud» Windows Server Gestion Sys. Center Identité & Virt CLOUD OS Microsoft

Plus en détail

Academic Project. B3 - Architecture. Resit Project. Version 1.0 Last update: 24/05/2013 Use: Students Author: Samuel CUELLA

Academic Project. B3 - Architecture. Resit Project. Version 1.0 Last update: 24/05/2013 Use: Students Author: Samuel CUELLA SUPINFO Academic Dept. Resit Project Academic Project 2012-2013 Version 1.0 Last update: 24/05/2013 Use: Students Author: Samuel CUELLA Conditions d utilisations : SUPINFO International University vous

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Accès au support technique produits et licences par le portail client MGL de M2Msoft.com. Version 2010. Manuel Utilisateur

Accès au support technique produits et licences par le portail client MGL de M2Msoft.com. Version 2010. Manuel Utilisateur Accès au support technique produits et licences par le portail client MGL de M2Msoft.com Version 2010 Manuel Utilisateur Access to M2Msoft customer support portal, mgl.m2msoft.com, 2010 release. User manual

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Les humanités numériques à l ère du big data

Les humanités numériques à l ère du big data Les humanités numériques à l ère du big data D. A. ZIGHED djamel@zighed.com Journées Big data & visualisation Focus sur les humanités numériques ISH Lyon 18-19 juin 2015 Co-organisées par EGC AFIHM - SFdS

Plus en détail

NoSql. Principes. Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData

NoSql. Principes. Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData NoSql Principes Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData Les SGBD NoSql partagés ne peuvent satisfaire que 2 critères au plus NoSql Les transactions

Plus en détail

VMware ESX : Installation. Hervé Chaudret RSI - Délégation Centre Poitou-Charentes

VMware ESX : Installation. Hervé Chaudret RSI - Délégation Centre Poitou-Charentes VMware ESX : Installation VMware ESX : Installation Créer la Licence ESX 3.0.1 Installation ESX 3.0.1 Outil de management Virtual Infrastructure client 2.0.1 Installation Fonctionnalités Installation Virtual

Plus en détail

Action de formation: SQL Server Business Intelligence & Data Warehouse

Action de formation: SQL Server Business Intelligence & Data Warehouse Action de formation: SQL Server Business Intelligence & Data Warehouse Contenu : Integration Services Présentation de Management Studio - Présenter les différentes tâches de SSMS - Structure des serveurs

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data Qui sommes-nous? Société de stratégie et de consulting IT spécialisée en ebusiness, Cloud Computing, Business

Plus en détail

Raison d être : transformer l «infobésité» en connaissance accessible

Raison d être : transformer l «infobésité» en connaissance accessible ViaSema : qui sommes-nous? Raison d être : transformer l «infobésité» en connaissance accessible Start-up créée en 2010 Jeune Entreprise Innovante Cap Digital 3 brevets 3 publications 1 Web sémantique

Plus en détail

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions? Introduction Quelles sont les défis actuels

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Hadoop, les clés du succès

Hadoop, les clés du succès Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

Forthcoming Database

Forthcoming Database DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of

Plus en détail

Transformations technologiques et nouvelles compétences IT

Transformations technologiques et nouvelles compétences IT Transformations technologiques et nouvelles compétences IT brunosch@microsoft.com Bruno Schröder National Technology Officer Microsoft Belux Prévisions: La disponibilité généralisée de capacités massives

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Mappy en Chiffre Filiale du groupe Solocal 10M de visiteurs uniques 300M visites annuelles 100 collaborateurs dont 60% technique 3,7 Md de dalles

Plus en détail

SEcurité et Internet Des Objets : le laboratoire SEIDO

SEcurité et Internet Des Objets : le laboratoire SEIDO SEcurité et Internet Des Objets : le laboratoire SEIDO Gérard Memmi, Chef du Département Informatique et Réseaux Télécom ParisTech Philippe Forestier, Chef de projet EDF R&D AGENDA 1. INTERNET OF THINGS

Plus en détail

Générateur de pages WEB et serveur pour supervision accessible à partir d un navigateur WEB

Générateur de pages WEB et serveur pour supervision accessible à partir d un navigateur WEB AUTOMGEN 8.009 Générateur de pages WEB et serveur pour supervision accessible à partir d un navigateur WEB version 2 : support de sources vidéo, support 3D, support de l ensemble des objets IRIS 2D WEB

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation - définition - étapes - impacts La révolution en cours du big data - essai de définition - acteurs - priorités

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan 1 Sommaire 1. Google en chiffres 2. Les raisons d être de GFS 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan 4. Les Evolutions et Alternatives

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction du cours Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Microsoft Lync 6/5/2013

Microsoft Lync 6/5/2013 1 Microsoft travaille depuis plus de 20 ans sur l amélioration de la productivité individuelle (Word à 25 ans) Plus de 10 sur la productivité collaborative (sharepoint fête ses 10 ans) et les Communications

Plus en détail

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 CNAM 2010-2011 Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 Déploiement d une application dans le cloud. 1. Cloud Computing en 2010 2. Offre EC2

Plus en détail

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES M a l g r é s o n ca r act è r e en apparence multiforme un enjeu central s est progressivement affirmé en matière

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Le Web Sémantique Technologies

Le Web Sémantique Technologies Le Web Sémantique Technologies Serge Linckels Université du Luxembourg, FSTC, 4 novembre 2004 Vers la Crise du Web? Chacun «réalise» des pages Web HTML hardcoding en Notepad Conversion (Word, Excel ) Avec

Plus en détail

Open Data. Enjeux et perspectives dans les télécommunications

Open Data. Enjeux et perspectives dans les télécommunications Open Data Enjeux et perspectives dans les télécommunications Orange Labs 28/09/2012 Patrick launay, Recherche & Développement, Orange Labs - Recherche & Développement Printemps de la Recherche EDF Open

Plus en détail

Des données brutes au Web des données liées Le projet Datalift

Des données brutes au Web des données liées Le projet Datalift Des données brutes au Web des données liées Le projet Datalift Seminaire INTech ouverture des donnees 5 Juin 2012 INRIA Grenoble Rhône-Alpes François Scharffe Francois.scharffe@lirmm.fr @lechatpito Présentation

Plus en détail

Transformation Digitale & Sécurité. CERT-IST 24/11/2015 Fabrice CHATRON

Transformation Digitale & Sécurité. CERT-IST 24/11/2015 Fabrice CHATRON Transformation Digitale & Sécurité CERT-IST 24/11/2015 Fabrice CHATRON Agenda Le digital c est quoi? La transformation digitale / enjeux de sécurité La transformation des modes de travail Agenda Le digital

Plus en détail

Raising the efficiency gains of industry by ICT means

Raising the efficiency gains of industry by ICT means Raising the efficiency gains of industry by ICT means 1/44 E-Government Consortium Thales IS ATG 2/44 ICT gains are similar for governments Industry Gains Government Gains Revenue Growth Expand government

Plus en détail

Comment concevoir et réaliser des applications mobiles combinant l'iot et le cognitif? Erwan Maréchal

Comment concevoir et réaliser des applications mobiles combinant l'iot et le cognitif? Erwan Maréchal IBM 2015 App Days Amphithéatre Blaise Pascal Comment concevoir et réaliser des applications mobiles combinant l'iot et le cognitif? Erwan Maréchal Appli Single Page : le concept du «Single Page App» Qu

Plus en détail

C est quoi, Facebook?

C est quoi, Facebook? C est quoi, Facebook? aujourd hui l un des sites Internet les plus visités au monde. Si tu as plus de 13 ans, tu fais peut-être partie des 750 millions de personnes dans le monde qui ont une page Facebook?

Plus en détail

Lieberman Software Corporation

Lieberman Software Corporation Lieberman Software Corporation Managing Privileged Accounts Ou La Gestion des Comptes à Privilèges 2012 by Lieberman Software Corporation Agenda L éditeur Lieberman Software Les défis Failles sécurité,

Plus en détail

C est quoi, Facebook?

C est quoi, Facebook? C est quoi, Facebook? Si tu as plus de 13 ans, tu fais peut-être partie des 750 millions de personnes dans le monde qui ont un compte Facebook? Et si tu es plus jeune, tu as dû entendre parler autour de

Plus en détail

Introduction au web de données et au web sémantique

Introduction au web de données et au web sémantique Introduction au web de données et au web sémantique Catherine Faron Zucker faron@unice.fr Web des données ouvertes Un mouvement mondial utile pour diffuser des données produites utile pour partager de

Plus en détail

Exemple introductif. Web des données. Exemple d architecture. Anne-Cécile Caron 2014-2015. Le web sémantique est composé :

Exemple introductif. Web des données. Exemple d architecture. Anne-Cécile Caron 2014-2015. Le web sémantique est composé : 1/19 2/19 Exemple introductif Les Rich Snippets de Google permettent au moteur de recherche d ajouter des informations, en plus d un simple lien vers un site, à partir d informations sémantiques trouvées

Plus en détail