BIG DATA («BD») and DBMS platform
|
|
- Jean-Luc Larrivée
- il y a 8 ans
- Total affichages :
Transcription
1 BIG DATA («BD») and DBMS platform ( «De BIG Brother à BIG DATA») Pr Serge Miranda Directeur Master MBDS ( Conférence
2 Exa-octets/jour! «Entre les débuts de la culture humaine et 2003, l humanité a produit 5 exa-octets (10**18) d information (5000 petaoctets). Aujourd hui nous produisons autant d information tous les 2 jours» Eric Schmidt (CEO de Google), Davos 2010 Famille en vacances en 2012
3 Plan DATA ecosystem BIG DATA OPEN DATA, LINKED DATA (Web Sémantique), WEB DATA NO SQL Hadoop (Ex en Annexe du MBDS2012) NEW SQL Stonebraker 2011) Oracle BIG DATA for the enterprise Microsoft BIG DATA
4 «DATA» roots/key words? 1) «DATA X» : DATA base (19/8/1968 : Ted Codd et Modèle Relationnel), DBMS DATA bank DATA warehouse (ETL/DATA Pumping,..) DATA mart DATA mining (OLAP, Corrélations,..), Data Analytics, DATA Pumping DATA Systems («SQL», «NO SQL», «NEW SQL» en 2012) DATA mash up 2) «Y DATA»: - Linked DATA, Web DATA (DBpedia, Web Sémantique) - Meta DATA - Open DATA BIG Data (Data Science)
5 World is changing / UN NOUVEAU MONDE (mobiquitaire). Tiepolo (Un Nouveau Monde)
6 Le Futur n est plus ce qu il était! «SOLOMO» (SOcial-LOcal-MObile) du WEB du futur «WEB au cube» DATA WEB + Capteurs + TAGS «Futur mobiquitaire» et «Écosystème endogène du Smartphone» (de la production d info à la consommation d info) En 2011, plus d abonnements au mobile que d habitants sur la planète 2015 : La moitié de la planète aura un smartphone (50% NFC) 1000 Milliards d objets tagués en 2020 USERWARE Instagram (Photo),.. Déferlante BOTTOM UP (crowdsourcing,..) Approches commmunautaires 2.0 «dynamiques, géolocalisées, contextuelles, temporelles» : tourisme, transport, santé,
7 2012 : le début d un «tsunami DATA» 140 Millions de messages/jour sur TWITTER 1 million de SMS échangés toutes les 3 sec requêtes par sec sur Google (3 millions de mails par sec; 10 sites créés par sec) > 1 heure de video par seconde sur YOUTUBE 1 milliard d «amis» sur Facebook 20 petaoctets (10**15) de données traitées chaque jour sur Google (20 fois contenu BNF!) (IDC) 35 zetta octets dans le monde numérique en 2020 (1000 milliards d objets tagués) Ambition NSA (Service Renseignement USA) : analyse simultanée d un yottaoctet (10**24) <10**99 = «Google»> Les nouveaux réseaux communautaires spacio temporels TEMPS REEL ++ d entreprises («Zero mail» chez Atos et Bluekiwi en 2012, Microsoft et) Entre individus (PATH, PAIR, Google+,..) SANTE, TRANSPORT, TOURISME,
8 2012 Google* indexe 20 milliards de pages par jour pour répondre à 3,3 milliards de requêtes quotidiennes et par seconde. Google, c est aussi 425 millions d utilisateurs de sa messagerie Gmail, disposant chacun d un espace de stockage de 10 Go, soit 4,25 «Eo». Google compte 250 millions de membres sur le réseau social Google+. Mais ça n est pas tout. YouTube recense 800 millions d utilisateurs qui passent 4 milliards d heures à regarder des vidéos chaque mois Les utilisateurs de youtube envoient 72 heures de vidéos par minute pour 1,3 milliard de vidéos hébergées en tout. *GOOGLE vient du chiffre mathematique 1 suivi de 100 Zeros
9 Une Minute sur Internet en 2011 c est : 9
10 Des nouvelles technologies visant - Scalabilité + disponibilité + performance 10
11 Apports des BD (Bases de données) Services TIPS Transactions, Interface non procédurale (SQL), Persistence, Structuration (SCHEMA) «T» : Propriétés «ACID» des BD SQL (Atomicité, Cohérence, Isolation, Durabilité) OLTP (On line Transaction Processing) Data Warehouse/data Mining (et OLCP) Approche TOP DOWN
12 Besoins mobiquitaires OLTP Temps Réel Géolocalisation (Contextualisation, Temporalité) Réseaux sociaux spacio temporels temps réel (électeurs, spectateurs,..) Approche décisionnelle/oltp temps réel BOTTOM UP Jeux, Marketing Réseaux sociaux (Twitter, Facebook,..) TAGS NFC,
13 Generations Share Differently s era generation Focus on society Friendships are forged through adversity s era generation Focus on community Friendships forged through identification with a cause s era generation Focus on the individual Friendships forged through individual goal accomplishment 2000 s era generation Focus on common interests and SHARING Des rapports de FORCE aux rapports de FLUX (Joel de Rosnay 2012 SURFER LA VIE ) Friendships are created or thrive virtually IOGDC Open Data Tutorial 13
14 «Capital SOCIAL» (relationnel)? Social capital consists of the stock of active connections among people; the trust, mutual understanding, and shared values and behaviors that bind the members of human networks and communities and make cooperative action possible Robert Putnam, Harvard University (loi de Metcafe sur la VALEUR d un RESEAU)
15 Une dichotomie «data system»/dbms ou une intégration? DATA BASE MANAGEMENT SYSTEMS (DBMS SQL) et TIPS Données structurées (Tables, Objets, ) : Schéma et modèle Objet Relationnel Applications transactionnelles avec cohérence ACID Interface SQL Sécurité Gestion/PRODUCTION/DECISION (Datawarehouse) Standards SQL3/0DMG (See [ORACLE12] ) BIG DATA/ OPEN DATA (Not Only SQL : NO SQL) Données non structurées (accessibles sur le WEB par URL) Données temps réel Interrogation par machine Collaboration/PARTAGE communautaire Standards RDF, SPARQL, OWL,
16 BIG DATA (Wikipedia) Big data («grosse donnée» ou données massives) est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Les perspectives du traitement des big data sont énormes, notamment pour l'analyse d'opinions ou de tendances industrielles, la génomique, l'épidémiologie ou la lutte contre la criminalité ou la sécurité 2. Le phénomène Big data est considéré comme l'un des grands défis informatiques de la décennie Il engendre une dynamique importante tant par l'administration 3, que par les spécialistes sur le terrain des technologies ou des usages 4. Outil adapté : Graph Databases (en), framework : MapReduce ou Hadoop et systèmes de gestion de bases de données comme BigTable.
17 Open Data (Wikipedia) Une donnée ouverte (en anglais open data) est une information publique brute, qui a vocation à être librement accessible et réutilisable. La philosophie pratique de l'open data préconise une libre disponibilité pour tous et chacun, sans restriction de copyright, brevets ou d'autres mécanismes de contrôle. En 2010, Tim Berners-Lee a donné une échelle de qualité des données ouvertes qui va de zéro à 5 étoiles. Vos données (non filtrées c'est-à-dire dégradées) sont en ligne quel que soit leur format (n'importe quel format) Vos données sont disponibles sous forme de données structurées (par exemple Excel en csv, ou avec RDF) les données sont libres d'être exploitées car la machine ne fait aucune distinction entre les données libres ou non.(voir la partie sur les licences) utiliser des URL pour identifier vos données, de sorte que l'on puisse pointer dessus lier vos données à d'autres personnes pour fournir un contexte à ces données
18 Les données ouvertes dans le Web des données (Wikipedia) Les principaux problèmes de l'exploitation des données ouvertes sont de l'ordre technique car les données en masse ne peuvent pas être traitées humainement. Le concept de Web des données appliqué aux données ouvertes met en œuvre 3 mécanismes : permettre l'existence de la donnée sur le réseau à travers une URI unique(cela inclut les URL). diminuer le coût de transformation de la données en apportant des formats standards lisible par les machines (comme avec RDF,RDFa ou les Microdonnée dans le HTML5) ; améliorer la qualité de la donnée pour éviter qu'un traitement de mise à disposition ne puisse les altérer. Un entrepôt de données même avec des erreurs est préférable qu'un entrepôt biaisé. Ainsi, des mécanisme pour la fréquence et l automatisation des mises à jour de la donnée par les producteurs des données est possible avec un service SPARQL sur ces données. Les données ouvertes ne sont pas contrôlables par leurs producteurs (contrôle des mises à jours) et réellement exploitables par d'autres qu'à la condition d'utiliser ces 3 mécanismes.
19 Tim Berners-Lee, (Weaving the Web, 2001) on SEMANTIC WEB I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web the content, links, and transactions between people and computers. A Semantic Web, which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The intelligent agents people have touted for ages will finally materialize
20 «WEB Sémantique» du W3C Le Web sémantique est un mouvement collaboratif mené par le World Wide Web Consortium(W3C) 1 qui favorise des méthodes communes pour échanger des données. Le Web sémantique vise à aider l'émergence de nouvelles connaissances en s'appuyant sur les connaissances déjà présentes sur Internet. Pour y parvenir, le Web sémantique met en œuvre le Web des données qui consiste à lier et structurer l'information sur Internet pour accéder simplement à la connaissance qu'elle contient déjà 2. Selon le W3C, «le Web sémantique fournit un framework qui permet aux données d'être partagées et réutilisées entres plusieurs applications, entreprises et groupes d'utilisateurs». 2 Le Web sémantique propose des langages spécialement conçus pour les données : le RDF (Resource Description Framework), le OWL(Web Ontology Language), et le XML (extensible Markup Language). HTML décrit les documents et les liens entre eux. RDF, OWL, et XML, en revanche, peuvent décrire également des choses, comme des personnes, des réunions, ou des pièces d'avion.< WIKIPEDIA>
21 BIG DATA
22 WEB et rêve de Laplace! «Le Web contient une description exhaustive du monde passé et présent» Julien Laugel (MFG Labs) Rêve de LAPLACE «Une entité connaitra parfaitement l état du monde passé et présent pour prévoir son évolution»
23 Grands Domaines d application BIG DATA et Projets du MBDS : du moteur de recherche au moteur de LA recherche Génétique (découverte de 4 gènes liés au cancer du foie,..) médecine (neurosciences : localisation migraine, ) Epidémies, Pandémies, Catastrophes (Ex SANDY en Oct 2012 avec cartographie inondations via analyse tweets) Climatologie, Astronomie Océanographie (Expert planton, méduses,..)chimie Linguistique, Macro-Economie Transport (Projet VAMP), AIDE SOCIALE (Projet FIRST Inde) COMMERCE, TOURISME (Projet MATRIUM, REVE, IMAJEANS)
24 Recherche scientifique AVANT Big Data PROBLEME Etat de l art INTUITION VALIDATION par Expérience, simulation, calculs,
25 Recherche scientifique avec BIG DATA Analyse informatique de BIG DATA Identification de CORRELATIONS nouvelles Générateur d hypothèses Émergence de DECOUVERTES (avec ou pas expérimentations) SCIENCE demain? Mise en relief de corrélations Recherche de modèles expliquant les corrélations
26 EX1 : Big data et Neurosciences Projet BrainScanr de Jessica et Bradley VOYTEK Analyse de 3,5 millions d articles en neurosciences Carte de «proximité statistique» entre termes neuroscientifiques Générateur automatique d hypothèses Proximité entre «sérotonine» et «migraine» (2943 articles) Proximité entre «striatum» (région cerveau) et «migraine» (4782 articles)» Réorientation des travaux de recherche!
27 Ex2: BIG DATA et psycho-linguistique «Emergence des mots chez le bébé?» Deb ROY du MIT a enregistré et filmé son propre bébé pendant 3 ans (jour et nuit!) (90 000H de video et H audio) <200 teraoctets> 70 Millions de mots prononcés Approche d analyse psycho linguistique d assimilation et d évolution du langage chez l être humain (et modèle contextuel)!
28 Autres Exemples BIG DATA Déforestation : projet PlanetarySKIN (7 tera de données satellites) Suivi astronomique en direct : Projet LSST (30 Tera chaque nuit) Micro-organismes marins: Projet GOS (2 teraoctets) Bio Chimie sur 100 millions de molécules : Projet BSrC Cancer du foie :projet ICGC (200 teraoctets) analyse des BD sur tumeurs de 5O types de cancers Détection épidémies en temps réel : Projet Healthmap (1 teraoctets) : Suivi progression cholera en Haiti avec 2 semaines d avance (cholera, grippe, dengue,..)
29 OPEN DATA
30 What Makes DATA OPEN? Data Open Format Open The US Government through the Open Government Directive ( anda_2010/m10-06.pdf ) defines an open format as one that is platform independent, machine readable, and made available to the public without restrictions that would impede the re-use of that information. 9 July
31 OPEN (DATA) FORMAT? Example Open Formats: PDF for documents (but not data) CSV for data (Excel) Web standards for publishing, sharing or linking HTML, XML, RDF Web standards for syndication RSS, Atom, JSON 31
32 Metadata? Metadata The information about the data being shared Who produced it Where When Use restrictions Etc. Use standards such as ADMS or Dublin Core New (Search-oriented) Embedded dataset metadata coming
33 Data analytics Analytics based on over 1,000,000 datasets from around the world can be seen at
34 Real Outcomes = Better Lives Open data eases the burden on families in caring for a sick child or seeking medical information More importantly, the data as it s aggregated empowers communities to make changes that improve the quality of life of citizens In California, ReLeaf plants trees in areas identified by Together We Breathe as danger areas for asthma sufferers Cities see hot spots that trigger asthma problems for their citizens Each company in Health 2.0 used government data to innovate and create high-value jobs in America Civic Commons has a great collection of good open use cases: 9 July 2012 IOGDC Open Data Tutorial 34
35 Health.data.gov + Healthtap!
36 Energy Drives Innovation Energy.Data.gov connects innovators, industry, academia, and government at federal, state, and local levels 9 July 2012 IOGDC Open Data Tutorial 36
37 Challenges Spark Ideas Energy.Data.gov connects works with challenges across the nation to integrate federal data and bring government personnel to code-a-thons 9 July 2012 IOGDC Open Data Tutorial 37
38 Changing Economic Equations Economic Equations Study from Malaysian government: 9 July 2012 IOGDC Open Data Tutorial 38
39 Data Mashups of Many Kinds More than 50 of these at IOGDC Open Data Tutorial 39
40 Policies Become Essential Policies are needed to help drive the ecosystem and motivate departments to continue to share data openly Build the policies based around issues that are universal Licensing, provenance: Open data on food, security, culture, transportation, and transparency 9 July
41 Linking Data LINKING DATA goes beyond govt Government Data is currently over ½ the cloud in size (~17B triples), 10s of thousands of links to other data (within and without) 9 July 2012 IOGDC Open Data Tutorial 41
42 5 star LINKED OPEN DATA
43 Linked DATA/ Semantic WEB
44 «Linked DATA», RDF format and SPARQL [BENE2006] To make data machine processable, we need: - Unambiguous names for resources (that may also bind data to real world objects): URIs (URL) - common data model to access, connect, describe the resources: RDF - Access to that data: SPARQL - Define common vocabularies: RDFS, OWL, SKOS - Reasoning logics: OWL, Rules
45 RDF W3C Recommendation: January 15th, 2008 SPARQL queries RDF graphs An RDF graph is a set of triples to describe WEB resources RDF/XML is the W3C recommendation Simple triple: subject predicate object (cf Minsky et linguistique sur triplet <Sujet><Verbe> <Complément>) :serge rdf:label «serge" ; rdf:type ex:person ; ex:homepage
46 Sparql : SQL-like syntax PREFIX dc: <URI abrégé> SELECT?title WHERE { < dc:title?title } < liste des triplets> FROM Name of the graph Note : Jena is a Java framework for building Semantic Web applications; provides an environment for RDF, RDFS and OWL, SPARQL and includes a rule- based inference engine
47 Exemple RDF [MAEV2012] < > Sujet < Prédicat Objet
48 SPARQL [MAEV2012] Langage d interrogation, ajout, modification et suppression de données RDF. Exemple : Auteurs français nés en 1900?
49 SPARQL engine Note : GRDDL (2007) to get RDF triples out of XML documents
50 Dataset «DBPEDIA»? DBPEDIA : Donnéees extraites de Wikipedia sous forme RDF DBPedia is an RDF version of information from Wikipedia which : - Contains data derived from Wikipedia s infoboxes, category hierarchy, article, abstracts, and various external links - Contains over 130 million triples - Dataset:
51 DBPEDIA [GAND2012] Projets 2012 [GAND2012]): Datalift.org (ANR) Kolflow (ANR) pluggable to any RDF store (SparQL1.1) ERWAN (visualisation de données RDF/XML) Mobile DB PEDIA? Tourisme mobiquitaire et guide temps réel (Cf Projet de FUI VAMP) Moteur KGRAM/Corese en Open Source VERROUS? - Modeles pour meta données? - Architectures logicielles Nice ouvertes Sophia Antipolis (stockage, acces,..)
52 DATA WEB (web de données) livre de David Wood Linking Government Data en 2011: le Web des données est passé de quelques 40 millions de triplets RDF au sein de quatre entrepôts de données en 2007 à 203 entrepôts avec plus de 25 milliards de triplets avec 395 millions de liens à la fin 2010.
53 EX : Dataset JAMENDO Jamendo is a community collection of music all freely licensed under Creative Commons licenses DBTune.org hosts a queryable RDF version of information about Jamendo's music collection - Data on thousands of artists, tens of thousands of albums, and nearly 100,000 tracks -
54 EX : Dataset GOVtrack (USA) GovTrack provides SPARQL access to data on the U.S. Congress - Contains over 13,000,000 triples about legislators, bills, and votes -
55 EX (GovTrack) : Find Senate bills that either John McCain or Barack Obama sponsored and the other cosponsored [CORNO2008] PREFIX bill: < PREFIX dc: < foaf: < SELECT?title?sponsor?status WHERE { {?bill bill:sponsor?mccain ; bill:cosponsor?obama. } UNION {?bill bill:sponsor?obama ; bill:cosponsor?mccain. }?bill a bill:senatebill ; bill:status?status ; bill:sponsor?sponsor ; dc:title?title.?obama foaf:name "Barack Obama".?mccain foaf:name "John McCain".}
56 Links to OPEN DATA community W3C egovernment Interest Group age Open Data Innovation Network on LinkedIn
57 DATA SYSTEMS «NO SQL (NOT ONLY SQL)
58 NO SQL (Not Only SQL) Un nouveau courant non relationnel permettant la gestion de données de type BIG DATA + Scalabilité + Evolutivité + Liberté de modélisation + Simplicité 12
59 NO SQL/ Data Systems [Noel2011] Platonic architecture of a DATA SYSTEM? 1) BATCH LAYER : HADOOP (arbitrary computations, horizontal scalability, map reduction,..) 2) SPEED LAYER : RIAK, CASSANDRA (NO SQL DB), MONGO DB (NO SQL), H- BASE (incremental algorithms, subset of big data,..) : Conclusion : one store both for operational data and analytics, REAL TIME in the pocket
60
61 Introduction à Hadoop Qui utilise Hadoop? Heck Another Darn Obscure Open-source Project Un modèle open source Un projet Apache, open source et de plus haut niveau Un modèle Clé/valeur distribué Permet de répartir le flux des requêtes Un modèle élastique Souplesse du schéma Souplesse de l infrastructure de stockage Souplesse de modélisation Un modèle tolérant aux pannes Replication des données entre les serveurs du cluster 61
62 Hadoop Distributed File System Le système de fichier distribué d Hadoop Composé de : Serveur maître: le NameNode Serveurs esclaves: les DataNodes Figure- Des Hadoop clusters avec des milliers de nœuds 62
63 L écosystème Hadoop 63
64 Hadoop MapReduce Techniques Open Source de la fondation Apache existe au travers d Hadoop et de son écosystème Paradigme de programmation introduit par Google pour traiter de gros volumes de données. L architecture MapReduce est composée de : Un JobTracker : centralisateur de tâches Des TaskTracker qui se chargent d exécuter les travaux demandés. 64
65 Son rôle consiste à diviser le traitement en 2 étapes : Map : étape d ingestion et de transformation des données sous la forme de paires clé/valeur Reduce : étape de fusion des enregistrements par clé pour former le résultat final.
66 L écosystème Hadoop: SQOOP Connecter Hadoop Hive SQL like queries DSL Hadoop Base de données relationnelles Sqoop Hbase Base de données pour un accès aléatoire read/ write Sqoop Systèmes d entreposage de données HDFS Un système de fichiers distribués Write once, read many 66
67 L écosystème Hadoop: Pig..PigLatin Un langage de script permettant d interroger des grands ensembles de données Des Job MapReduce sont générés. Une succession d opérations à appliquer à des données en entrée pour produire un résultat. Pig latin: adapté au grandes quantités de données un langage d interrogation comme SQL et les logiques relationnelles 67
68 Ex HADOOP en Annexe (MBDS TUNIS)
69 «From NO SQL to NEW SQL» [RICH2012] ([STON2011]
70 «From NO SQL to NEW SQL» [RICH2012] ([STON2011] NO SQL (Modèles basés colonnes, valeurs, ou graphes) : Cassandra (column), Mongo DB, SimpleDB, DynamoDB, CouchDB, Membase, Retis,.. NEW SQL (on top of RDB) : Scale DB, NimbusDB, VoltDB de Stonebraker (open Source, in memory RDB), Clustrix, + Oracle BIG DATA, Microsoft BIG DATA, Future is polyglot persistence
71 M.Stonebraker (2011) et VOLTDB Replacing real SQL ACID with either no ACID or ACID lite just pushes consistency problems into the applications where they are far harder to solve. Second, the absence of SQL makes queries a lot of work NEW SQL
72 Verrous Systèmes amphibiens :Passerelles entre SGBD/Datawarehouse TOP DOWN (SQL) et décisionnel BOTTOM UP (NOSQL) Maintien ACID approche SQL Interface SQL++ (Complexité cachée) Maintien Performances bottom up et scalabilité approches NOSQL «NEW SQL» (Stonebraker,..)
73 NEW SQL (ORACLE and BIG DATA)
74 BIG DATA for the enterprise [ORACLE2012]
75 Oracle BIG DATA for enterprise HADOOP and ORACLE Apache Hadoop is a new technology that allows large data volumes to be organized and processed while keeping the data on the original data storage cluster. Hadoop Distributed File System (HDFS) is the longterm storage system for web logs for example. These web logs are turned into browsing behavior (sessions) by running MapReduce programs on the cluster and generating aggregated results on the same cluster. These aggregated results are then loaded into a Relational DBMS system.
76 Oracle Solution Spectrum Many new technologies have emerged to address the IT infrastructure requirements outlined above. At last count, there were over 120 open source key-value databases for acquiring and storing big data, with Hadoop emerging as the primary system for organizing big data and relational databases expanding their reach into less structured data sets to analyze big data. These new systems have created a divided solutions spectrum comprised of: Not Only SQL (NoSQL) solutions: developer-centric specialized systems SQL solutions: the world typically equated with the manageability, security and trusted nature of relational database management systems (RDBMS) NoSQL systems are designed to capture all data without categorizing and parsing it upon entry into the system, and therefore the data is highly varied. SQL systems, on the other hand, typically place data in well-defined structures and impose metadata on the data captured to ensure consistency and validate data types.
77 Oracle Big Data solutions
78 Oracle Big Data Appliance
79 Oracle In-Database Analytics Oracle R Enterprise (statistics; prediction) In-Database Data Mining (predictive analytics) In-Database Text Mining (sentiment analysis) In-Database Semantic Analysis (Graphs) In-Database Spatial (data plotted on a map) In-Database MapReduce (procedural logic)
80 NEW SQL (Microsoft SQL Server 2012 et BIG DATA)
81 Big Data dans SQL SERVER 2012 SQL SERVER intègre la composante Hadoop, (framework open source spécialisé dans la gestion de données non structurées). L éditeur lance ainsi une seconde version d Hadoop pour Azure et Windows Server. Interface Excel à Hadoop le projet Apache Sqoop, la mise à disposition de Mahoot (outils de datamining pour Hadoop)
82
83 Recherches Informatiques Passerelles NEW SQL : Modèles, conception, algorithmique (requetes, ACID), systèmes, Middleware, OLTP Temps reel Reseaux sociaux spacio temps réel Applications innovantes décisionnelles autour de OLTP Temps réel (Interfaces Réseaux sociaux, tag mining)
84 Conclusion BIG DATA et recherche scientifique? Risque de prédire sans expliquer? La fin d un monde scientifique traditionnel? il n y a : Plus d hypothèses à formuler Avant! Plus d expérimentation à faire pendant! Plus de compréhension après!
85 Conclusion BIG DATA : évolution des méthodes scientifiques Méthode logique d Aristote (330 a JC) Méthode expérimentale de Roger Bacon (1250) Méthode théorique de Newton(1700) Méthode de simulation d Enrico Forni (1950) Méthode d analyse des liens de Google? Twitters? TAGS NFC? Apres une science des traitements : Vers une SCIENCE DES DONNEES? DES SERVICES?
86
87 Questions? 87
88 References [ORACLE2012] White Paper Oracle, January 2012 «Oracle BIG DATA for the enterprise» [GAND2012]Fabien Gandon «Recherches Web Sémantqiue» Juin 2012 [BUFFA2012] Michel Buffa, Proposition recherche pour Fui VAMP [MAEVA2012] Maeva Antoine, Rapport MBDS2012, INRIA Sophia, Equipe OASIS [DAVIS2009] «30 Minute Guide to RDF and Linked Data Ian Davis 2009, Slide Share [RICH2012] SQL, NO SQL and NEW SQL Chris Richardon Feb 2012 SLIDE SHARE [STON2011] New SQL: An Alternative to NoSQL and Old SQL for New OLTP Apps» ACM, Juin 2011 [NOEL2011] «BIG DATA Steven Noels, Wim Von Leuven, SAI 7 April 2011 [BEEM2012] «Open Data Tutorial», Hadley Beeman et al, IOGDC, 2012 [BERN2006] SPARQL will make a huge difference Tim Berners-Lee, May 2006 [CORNO2008], Corno et al, «SPARQL - QueryLanguage for RDF» [BASSM2012] Bassma Ben Dhouma «Implémentation d une application pour pour la gestion des données de type Big Data sous un Hadoop Cluster en utilisant une base de données Nosql» MBDS, Univ Manouba Oct 2012
89 Annexe : Projet MBDS Tunis (Univ de La Manouba), 2012 Application Hadoop pour Maroc Telecom [BASSM2012] Système d exploitation: Unix - Ubuntu Langage de programmation: JAVA Outils de travail: - Hadoop Sqoop - Pig 89
90 Millions Contexte du Projet (BASSM2012] Abonnés 43 millions / jour transactions Call 26 millions/ jour transactions de recharge Taux de pénétration en % Parc des abonnés Une croissance à 2 chiffres Une explosion de la BD 90
91 Problématique BIG DATA du Projet [BASSM2012] Quantités de données à stocker et données inexploitables par SQL simple 137 tables Temps de traitement 100 GB 10 min 1 TB 2 heures 1 PB 3 mois Compléxité et lourdeur des requêtes SQL Coût de stockage SQL ne permet pas de répondre aux besoins de Maroc telecom en terme de gestion BIG DATA 91
92 Architecture de l application Hadoop pour Maroc Telecom [BASSM2012] 92
93 Les étapes de réalisation Application Hadoop pour Maroc Telecom [BASSM2012] Installation de l environnement Configuration du Hadoop cluster Migration des données de la base de données oracle vers le HDFS en utilisant Soop Traitement des données présentes dans le HDFS en utilisant des scripts en PigLatin basés sur sur les UDFs du pig 93
94 Application Hadoop pour Maroc Telecom [BASSM2012] Etape 1: Installation de l environnement de travail (1/5) Configuration du Hadoop cluster Adressage Réseau et définition des machines Master et Slaves Attribuer l adresse IP et définir la hôte Master Attribuer l adresse IP et définir les hôtes Slaves Configuration SSH Installer les packages SSH Générer une paire de clés RSA Tester la configuration SSH Configuration HDFS Repertoire: Conf/ Fichier :hadoop-defaults.xml Configuration du fichier hadoopsite.xlm Configuration du fichier hdfssite.xml Configuration MapReduce Configuration du fichier coresite.xml 94
95 Application Hadoop pour Maroc Telecom [BASSM2012] Etape 1: Installation de l environnement de travail (2/5) Le serveurs master JobTracker NameNode Couche Couche MapReduce HDSF Les serveurs slaves Tasktracker DataNode Tasktracker DataNode JobTracker DataNode Structure générale du Hadoop cluster avec 4 nœuds 95
96 Application Hadoop pour Maroc Telecom [BASSM2012] Etape1: Installation de l environnement de travail (3/5) Démarrage du Cluster Formater le HDFS $bin / hadoop namenode format Démarrer le HDFS $ bin / start-dfs.sh Démarrer le MapReduce $ Bin / start-mapred.sh Démarrer le Cluster $bin/start-all.sh Arrêter le Cluster $bin/stop-all.sh 96
97 Application Hadoop pour Maroc Telecom [BASSM2012] Etape1: Installation de l environnement de travail (4/5) Récapitulatif du cluster Capacité totale nœuds actifs et morts L interface Web Du NameNode 97
98 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Installation de l environnement de travail (5/5) / L interface Web Du JobTraker. 98
99 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (1/4) Extrait de la base de données Maroc Telecom : Les tables quotidiennes 99
100 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (2/4) Exemple Importation de la table «IAM_REJECTED_MIGRATION» Spécifiez le JDBC de connexion Mot de passe le JDBC de la connexion, d authentification l adresse IP du serveur le port et le nom de la base nom d'utilisateur pour s authentifier sqoop --connect jdbc:oracle:thin:@ip:port:maroctelecom --username root --password ***** table IAM_REJECTED_MIGRATION' --split-by TARIFFINDEX; nom de la table à importer par quelle colonne les données doivent être indexées
101 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (3/4) Lancement de la commande d importation 101
102 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (4/4) Résultat du lancement de la commande 102
103 Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Migration des données (1/4) Objectifs Gestion de données de types complexes Réduction du temps de réponse des requêtes SQL lourdes et complexes Des requêtes en langage naturel pour du filtrage dynamique (idem sans in-memory) 103
104 Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Traitement des données migrées (2/4) Exemple SELECT TO_NUMBER (TO_CHAR (TIMESTAMP, 'yyyymmdd')),tariffindex, SUBSTR(BEARER_FLAG,1,1),COUNT(DISTINCT MSISDN),FORFAIT FROM IAM_CALL2 WHERE TARIFFINDEX IN (1,2,3,5,6,9,15,16,21,22,24,25,26,27,18) GROUP BY TO_NUMBER (TO_CHAR (TIMESTAMP, 'yyyymmdd')), TARIFFINDEX, SUBSTR(BEARER_FLAG,1,1),FORFAIT; Requêtes SQL à traduire en PigLatin 104
105 Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Traitement des données migrées (3/4) Script PigLatin 105
106 Application Hadoop pour Maroc Telecom [BASSM2012] Traitement des données migrées (4/4) Lancement du Pig Lancement du shell GRUNT Lignes du script i Lancement du Job MapReduce Script PigLatin 106
L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13
L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,
Plus en détail20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà
Plus en détailAcquisition des données - Big Data. Dario VEGA Senior Sales Consultant
Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated
Plus en détailLabs Hadoop Février 2013
SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL
Plus en détailMapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15
MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué
Plus en détailIntroduction à MapReduce/Hadoop et Spark
1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -
Plus en détailBig data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique
Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai
Plus en détailBD**2 : Des BD à BD (des Bases de Données à BIG DATA)
BD**2 : Des BD à BD (des Bases de Données à BIG DATA) Pr Serge Miranda Directeur Master MBDS (www.mbds- fr.org) Conférence MBDS 2013 World is changing : Tiepolo (Un Nouveau Monde; Venise) «Big» DATA? IDC
Plus en détailBigdata et Web sémantique. les données + l intelligence= la solution
Bigdata et Web sémantique les données + l intelligence= la solution 131214 1 big data et Web sémantique deux notions bien différentes et pourtant... (sable et silicium). «bigdata» ce n est pas que des
Plus en détailLe nouveau visage de la Dataviz dans MicroStrategy 10
Le nouveau visage de la Dataviz dans MicroStrategy 10 Pour la première fois, MicroStrategy 10 offre une plateforme analytique qui combine une expérience utilisateur facile et agréable, et des capacités
Plus en détailCartographie des solutions BigData
Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?
Plus en détailAVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL
AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES
Plus en détailLes datas = le fuel du 21ième sicècle
Les datas = le fuel du 21ième sicècle D énormes gisements de création de valeurs http://www.your networkmarketin g.com/facebooktwitter-youtubestats-in-realtime-simulation/ Xavier Dalloz Le Plan Définition
Plus en détailNoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)
1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche
Plus en détailBIG Data et R: opportunités et perspectives
BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,
Plus en détailBIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara
BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1 2 Introduction Historique des bases de données : méthodes de stockage et d analyse
Plus en détailQuick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.
Rational ClearCase or ClearCase MultiSite Version 7.0.1 Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite. Product Overview IBM Rational
Plus en détailInnovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France
Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France 2013 SAP AG. All rights reserved. Customer 1 Rôles et Attentes Instantanéité BIG DATA Users IT Real Time SAP HANA
Plus en détailBIG DATA en Sciences et Industries de l Environnement
BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie
Plus en détailHADOOP ET SON ÉCOSYSTÈME
HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos
Plus en détail4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
Plus en détailBig Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1
Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués
Plus en détailNoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)
1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche
Plus en détailSQL Server 2012 et SQL Server 2014
SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation
Plus en détailTHÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.
École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par
Plus en détailL offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence
L offre décisionnel IBM Patrick COOLS Spécialiste Business Intelligence Le marché du Business Intelligence L enjeux actuel des entreprises : devenir plus «agiles» Elargir les marchés tout en maintenant
Plus en détailInstructions Mozilla Thunderbird Page 1
Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Ce manuel est écrit pour les utilisateurs qui font déjà configurer un compte de courrier électronique dans Mozilla Thunderbird et
Plus en détailFINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES
1 FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES «Dans le concret, projets de transformation vers le BigData» V1-10/03/15 ABED AJRAOU CONNAISSEZ-VOUS PAGESJAUNES? CONNAISSEZ-VOUS PAGESJAUNES? LES MEGADONNEES RÉPONDENT
Plus en détailDéploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr
Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les
Plus en détailForthcoming Database
DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of
Plus en détailOrganiser vos données - Big Data. Patrick Millart Senior Sales Consultant
Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be
Plus en détailFouillez facilement dans votre système Big Data. Olivier TAVARD
Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche
Plus en détailLes technologies du Big Data
Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR
Plus en détailPrésentation du module Base de données spatio-temporelles
Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes
Plus en détailLes bases de données relationnelles
Bases de données NO SQL et SIG : d un existant restreint à un avenir prometteur CHRISTIAN CAROLIN, AXES CONSEIL CAROLIN@AXES.FR - HTTP://WWW.AXES.FR Les bases de données relationnelles constituent désormais
Plus en détailL Art d être Numérique. Thierry Pierre Directeur Business Development SAP France
L Art d être Numérique Thierry Pierre Directeur Business Development SAP France La Transformation Numérique «Plus largement, l impact potentiel des technologies numériques disruptives (cloud, impression
Plus en détailLa rencontre du Big Data et du Cloud
La rencontre du Big Data et du Cloud Libérez le potentiel de toutes vos données Visualisez et exploitez plus rapidement les données de tous types, quelle que soit leur taille et indépendamment de leur
Plus en détailPhilippe Lemerle Big Data Secteur public. Copyright 2015, Oracle and/or its affiliates. All rights reserved.
Philippe Lemerle Big Data Secteur public 1 Le Monde se crée une copie numérique de lui même (*) (*) The world is making a digital copy of itself Paul Sonderegger, Oracle Approche réductioniste propriétés
Plus en détailStephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015
Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS Salon du Big Data 11 mars 2015 Accélération de l innovation +500 +280 Amazon EC2 Container Service +159 AWS Storage Gateway Amazon Elastic Transcoder
Plus en détailLes participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.
Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision
Plus en détailRicco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2
Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions
Plus en détailLinked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton
Linked Open Data Le Web de données Réseau, usages, perspectives Sommaire Histoire du Linked Open Data Structure et évolution du réseau Utilisations du Linked Open Data Présence sur le réseau LOD Futurs
Plus en détailAnticiper et prédire les sinistres avec une approche Big Data
Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél
Plus en détailSystèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma
Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24.2 1 Semestre 4 : Fev. 2015 Grid : exemple SETI@home 2 Semestre 4 : Fev. 2015 Grid : exemple SETI@home
Plus en détailLamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013
Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,
Plus en détailAPPENDIX 6 BONUS RING FORMAT
#4 EN FRANÇAIS CI-DESSOUS Preamble and Justification This motion is being presented to the membership as an alternative format for clubs to use to encourage increased entries, both in areas where the exhibitor
Plus en détailJDev Atelier Datalift
JDev Atelier Datalift RDF, Linked (Open) Data & Datalift Your business JDev technologists. - 6 septembre Powering 2013 progress Le Linked Data Publier des données structurées sur le Web en les reliant
Plus en détailDe l Etudiant à SBA à l Enseignant Chercheur à l ENSMA
De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA Ladjel BELLATRECHE bellatreche@ensma.fr http://www.lias lab.fr/members/bellatreche Les déterminants de la motivation selon Rolland Viau Perception
Plus en détailSparkInData. Place de Marché des applications Spatiales 09-04-2015
SparkInData Place de Marché des applications Spatiales 09-04-2015 SparkInData / Concept Place de marché Plateforme fédérative Haute valeur ajoutée Acteurs reconnus Consortium homogène Architecture Big
Plus en détailGroupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be
Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par
Plus en détailWEB page builder and server for SCADA applications usable from a WEB navigator
Générateur de pages WEB et serveur pour supervision accessible à partir d un navigateur WEB WEB page builder and server for SCADA applications usable from a WEB navigator opyright 2007 IRAI Manual Manuel
Plus en détailUtiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces
Micro-ordinateurs, informations, idées, trucs et astuces Utiliser une WebCam Auteur : François CHAUSSON Date : 8 février 2008 Référence : utiliser une WebCam.doc Préambule Voici quelques informations utiles
Plus en détailBIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation
BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation - définition - étapes - impacts La révolution en cours du big data - essai de définition - acteurs - priorités
Plus en détailLe traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.
Les infrastructure du Big Data Le «Big Data» vise à tirer un avantage concurrentiel au travers de méthodes de collecte, d analyse et d exploitation des données qu on ne pouvait utiliser jusqu à présent
Plus en détailPrototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop
Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Soutenance de projet ASR 27/01/2011 Julien Gerlier Siman Chen Encadrés par Bruno
Plus en détailPrésentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech
Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech Le dispositif L Institut suisse de brainworking (ISB) est une association
Plus en détailVMware ESX : Installation. Hervé Chaudret RSI - Délégation Centre Poitou-Charentes
VMware ESX : Installation VMware ESX : Installation Créer la Licence ESX 3.0.1 Installation ESX 3.0.1 Outil de management Virtual Infrastructure client 2.0.1 Installation Fonctionnalités Installation Virtual
Plus en détailCedric Dumoulin (C) The Java EE 7 Tutorial http://docs.oracle.com/javaee/7/tutorial/doc/
Cedric Dumoulin (C) The Java EE 7 Tutorial http://docs.oracle.com/javaee/7/tutorial/doc/ Webographie The Java EE 7 Tutorial http://docs.oracle.com/javaee/7/tutorial/doc/ Les slides de cette présentation
Plus en détailBig Data. Concept et perspectives : la réalité derrière le "buzz"
Big Data Concept et perspectives : la réalité derrière le "buzz" 2012 Agenda Concept & Perspectives Technologies & Acteurs 2 Pierre Audoin Consultants (PAC) Pierre Audoin Consultants (PAC) est une société
Plus en détailLes journées SQL Server 2013
Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne
Plus en détailHadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?
Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Jean-Marc Spaggiari Cloudera jms@cloudera.com @jmspaggi Mai 2014 1 2 Avant qu on commence Agenda -Qu est-ce que Hadoop et pourquoi
Plus en détailBig Data -Comment exploiter les données et les transformer en prise de décisions?
IBM Global Industry Solution Center Nice-Paris Big Data -Comment exploiter les données et les transformer en prise de décisions? Apollonie Sbragia Architecte Senior & Responsable Centre D Excellence Assurance
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailImportation et exportation de données dans HDFS
1 Importation et exportation de données dans HDFS Introduction Dans une installation type, Hadoop se trouve au cœur d un flux de données complexe. Ces données proviennent souvent de systèmes disparates
Plus en détailEvolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.
Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.fr 1 MVC et le web 27/05/14 2 L'évolution des systèmes informatiques
Plus en détailHow to Login to Career Page
How to Login to Career Page BASF Canada July 2013 To view this instruction manual in French, please scroll down to page 16 1 Job Postings How to Login/Create your Profile/Sign Up for Job Posting Notifications
Plus en détailQlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data
QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data Qui sommes-nous? Société de stratégie et de consulting IT spécialisée en ebusiness, Cloud Computing, Business
Plus en détailFrequently Asked Questions
GS1 Canada-1WorldSync Partnership Frequently Asked Questions 1. What is the nature of the GS1 Canada-1WorldSync partnership? GS1 Canada has entered into a partnership agreement with 1WorldSync for the
Plus en détailPanorama des solutions analytiques existantes
Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement
Plus en détailBD 2: des Bases de Données à Big Data
BD 2: des Bases de Données à Big Data Professeur Serge Miranda Département Informatique Université de Nice Sophia Antipolis Directeur du Master MBDS (www.mbds-fr.org) MOOC 2014-2015 sur plateforme FUN
Plus en détailTRAVAUX DE RECHERCHE DANS LE
TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT
Plus en détailProgrammation parallèle et distribuée
Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution
Plus en détailApplication Form/ Formulaire de demande
Application Form/ Formulaire de demande Ecosystem Approaches to Health: Summer Workshop and Field school Approches écosystémiques de la santé: Atelier intensif et stage d été Please submit your application
Plus en détailBig Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase
Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet
Plus en détailBig Data Concepts et mise en oeuvre de Hadoop
Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12
Plus en détailXtremWeb-HEP 8.0.0. Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire
XtremWeb-HEP 8.0.0 Interconnecting jobs over DG Virtualization over DG Oleg Lodygensky Objectives 1.Deploy Virtual Machines in XtremWeb-HEP desktop grid to: protect volunteer resources generalize «pilot
Plus en détailJava et les bases de données
Michel Bonjour http://cuiwww.unige.ch/~bonjour CENTRE UNIVERSITAIRE D INFORMATIQUE UNIVERSITE DE GENEVE Plan Introduction JDBC: API SQL pour Java - JDBC, Java, ODBC, SQL - Architecture, interfaces, exemples
Plus en détailLondres 1854 Des problèmes (re)connus Faire plus avec moins Tendances et défis «BYOD» WIN INTUNE «Nouveaux paradigmes» «Big Data» «Cloud» Windows Server Gestion Sys. Center Identité & Virt CLOUD OS Microsoft
Plus en détailBases de données documentaires et distribuées Cours NFE04
Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire
Plus en détailBUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise
BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la
Plus en détailL ESPACE À TRAVERS LE REGARD DES FEMMES. European Economic and Social Committee Comité économique et social européen
L ESPACE À TRAVERS LE REGARD DES FEMMES 13 European Economic and Social Committee Comité économique et social européen 13 This publication is part of a series of catalogues published in the context of
Plus en détailDocument réalisé par Khadidjatou BAMBA
Comprendre le BIG DATA Document réalisé par Khadidjatou BAMBA 1 Sommaire Avant propos. 3 Historique du Big Data.4 Introduction.....5 Chapitre I : Présentation du Big Data... 6 I. Généralités sur le Big
Plus en détailBig Data. Les problématiques liées au stockage des données et aux capacités de calcul
Big Data Les problématiques liées au stockage des données et aux capacités de calcul Les problématiques liées au Big Data La capacité de stockage - Traitement : Ponctuel ou permanent? - Cycle de vie des
Plus en détailDiscours du Ministre Tassarajen Pillay Chedumbrum. Ministre des Technologies de l'information et de la Communication (TIC) Worshop on Dot.
Discours du Ministre Tassarajen Pillay Chedumbrum Ministre des Technologies de l'information et de la Communication (TIC) Worshop on Dot.Mu Date: Jeudi 12 Avril 2012 L heure: 9h15 Venue: Conference Room,
Plus en détailHSCS 6.4 : mieux appréhender la gestion du stockage en environnement VMware et service de fichiers HNAS Laurent Bartoletti Product Marketing Manager
HSCS 6.4 : mieux appréhender la gestion du stockage en environnement VMware et service de fichiers HNAS Laurent Bartoletti Product Marketing Manager Hitachi Storage Command Suite Portfolio SAN Assets &
Plus en détailTechnologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC
Technologies du Web Ludovic DENOYER - ludovic.denoyer@lip6.fr UPMC Février 2014 Ludovic DENOYER - ludovic.denoyer@lip6.fr Technologies du Web Plan Retour sur les BDs Le service Search Un peu plus sur les
Plus en détailLe Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan
Le Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan RDF sur le Web Micro-formats Micro-données RDFa Vocabulaires communs Dublin Core, FOAF, SKOS Linked Open Data Architecture
Plus en détailQuels choix de base de données pour vos projets Big Data?
Quels choix de base de données pour vos projets Big Data? Big Data? Le terme "big data" est très à la mode et naturellement un terme si générique est galvaudé. Beaucoup de promesses sont faites, et l'enthousiasme
Plus en détailTABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION
1 12 rue Denis Papin 37300 JOUE LES TOURS Tel: 02.47.68.34.00 Fax: 02.47.68.35.48 www.herve consultants.net contacts@herve consultants.net TABLE DES MATIERES A Objet...1 B Les équipements et pré-requis...2
Plus en détailHadoop, les clés du succès
Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject
Plus en détailPlan. Department of Informatics
Plan 1. Application Servers 2. Servlets, JSP, JDBC 3. J2EE: Vue d ensemble 4. Distributed Programming 5. Enterprise JavaBeans 6. Enterprise JavaBeans: Special Topics 7. Prise de recul critique Enterprise
Plus en détailRAPID 3.34 - Prenez le contrôle sur vos données
RAPID 3.34 - Prenez le contrôle sur vos données Parmi les fonctions les plus demandées par nos utilisateurs, la navigation au clavier et la possibilité de disposer de champs supplémentaires arrivent aux
Plus en détailEMC Forum 2014. EMC ViPR et ECS : présentation des services software-defined
EMC Forum 2014 EMC ViPR et ECS : présentation des services software-defined 1 2 3 4 5 Software is Eating the World Marc Andreessen co-fondateur de Netscape Les entreprises qui utilisent efficacement le
Plus en détailConserver les Big Data, source de valeur pour demain
Le potentiel et les défis du Big Data UIMM Mardi 2 et mercredi 3 juillet 2013 56 avenue de Wagram 75017 PARIS Conserver les Big Data, source de valeur pour demain Définir les Big Data Les Big Data à travers
Plus en détailTransformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES
Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES M a l g r é s o n ca r act è r e en apparence multiforme un enjeu central s est progressivement affirmé en matière
Plus en détailLes enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013
Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine
Plus en détailPerformances. Gestion des serveurs (2/2) Clustering. Grid Computing
Présentation d Oracle 10g Chapitre VII Présentation d ORACLE 10g 7.1 Nouvelles fonctionnalités 7.2 Architecture d Oracle 10g 7.3 Outils annexes 7.4 Conclusions 7.1 Nouvelles fonctionnalités Gestion des
Plus en détailGet Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF
CEST MAINTENANT PDF ==> Download: CEST MAINTENANT PDF CEST MAINTENANT PDF - Are you searching for Cest Maintenant Books? Now, you will be happy that at this time Cest Maintenant PDF is available at our
Plus en détailQuatre axes au service de la performance et des mutations Four lines serve the performance and changes
Le Centre d Innovation des Technologies sans Contact-EuraRFID (CITC EuraRFID) est un acteur clé en matière de l Internet des Objets et de l Intelligence Ambiante. C est un centre de ressources, d expérimentations
Plus en détailBI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS
BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions? Introduction Quelles sont les défis actuels
Plus en détail