BIG DATA («BD») and DBMS platform

Dimension: px
Commencer à balayer dès la page:

Download "BIG DATA («BD») and DBMS platform"

Transcription

1 BIG DATA («BD») and DBMS platform ( «De BIG Brother à BIG DATA») Pr Serge Miranda Directeur Master MBDS (www.mbds-fr.org) Conférence

2 Exa-octets/jour! «Entre les débuts de la culture humaine et 2003, l humanité a produit 5 exa-octets (10**18) d information (5000 petaoctets). Aujourd hui nous produisons autant d information tous les 2 jours» Eric Schmidt (CEO de Google), Davos 2010 Famille en vacances en 2012

3 Plan DATA ecosystem BIG DATA OPEN DATA, LINKED DATA (Web Sémantique), WEB DATA NO SQL Hadoop (Ex en Annexe du MBDS2012) NEW SQL Stonebraker 2011) Oracle BIG DATA for the enterprise Microsoft BIG DATA

4 «DATA» roots/key words? 1) «DATA X» : DATA base (19/8/1968 : Ted Codd et Modèle Relationnel), DBMS DATA bank DATA warehouse (ETL/DATA Pumping,..) DATA mart DATA mining (OLAP, Corrélations,..), Data Analytics, DATA Pumping DATA Systems («SQL», «NO SQL», «NEW SQL» en 2012) DATA mash up 2) «Y DATA»: - Linked DATA, Web DATA (DBpedia, Web Sémantique) - Meta DATA - Open DATA BIG Data (Data Science)

5 World is changing / UN NOUVEAU MONDE (mobiquitaire). Tiepolo (Un Nouveau Monde)

6 Le Futur n est plus ce qu il était! «SOLOMO» (SOcial-LOcal-MObile) du WEB du futur «WEB au cube» DATA WEB + Capteurs + TAGS «Futur mobiquitaire» et «Écosystème endogène du Smartphone» (de la production d info à la consommation d info) En 2011, plus d abonnements au mobile que d habitants sur la planète 2015 : La moitié de la planète aura un smartphone (50% NFC) 1000 Milliards d objets tagués en 2020 USERWARE Instagram (Photo),.. Déferlante BOTTOM UP (crowdsourcing,..) Approches commmunautaires 2.0 «dynamiques, géolocalisées, contextuelles, temporelles» : tourisme, transport, santé,

7 2012 : le début d un «tsunami DATA» 140 Millions de messages/jour sur TWITTER 1 million de SMS échangés toutes les 3 sec requêtes par sec sur Google (3 millions de mails par sec; 10 sites créés par sec) > 1 heure de video par seconde sur YOUTUBE 1 milliard d «amis» sur Facebook 20 petaoctets (10**15) de données traitées chaque jour sur Google (20 fois contenu BNF!) (IDC) 35 zetta octets dans le monde numérique en 2020 (1000 milliards d objets tagués) Ambition NSA (Service Renseignement USA) : analyse simultanée d un yottaoctet (10**24) <10**99 = «Google»> Les nouveaux réseaux communautaires spacio temporels TEMPS REEL ++ d entreprises («Zero mail» chez Atos et Bluekiwi en 2012, Microsoft et) Entre individus (PATH, PAIR, Google+,..) SANTE, TRANSPORT, TOURISME,

8 2012 Google* indexe 20 milliards de pages par jour pour répondre à 3,3 milliards de requêtes quotidiennes et par seconde. Google, c est aussi 425 millions d utilisateurs de sa messagerie Gmail, disposant chacun d un espace de stockage de 10 Go, soit 4,25 «Eo». Google compte 250 millions de membres sur le réseau social Google+. Mais ça n est pas tout. YouTube recense 800 millions d utilisateurs qui passent 4 milliards d heures à regarder des vidéos chaque mois Les utilisateurs de youtube envoient 72 heures de vidéos par minute pour 1,3 milliard de vidéos hébergées en tout. *GOOGLE vient du chiffre mathematique 1 suivi de 100 Zeros

9 Une Minute sur Internet en 2011 c est : 9

10 Des nouvelles technologies visant - Scalabilité + disponibilité + performance 10

11 Apports des BD (Bases de données) Services TIPS Transactions, Interface non procédurale (SQL), Persistence, Structuration (SCHEMA) «T» : Propriétés «ACID» des BD SQL (Atomicité, Cohérence, Isolation, Durabilité) OLTP (On line Transaction Processing) Data Warehouse/data Mining (et OLCP) Approche TOP DOWN

12 Besoins mobiquitaires OLTP Temps Réel Géolocalisation (Contextualisation, Temporalité) Réseaux sociaux spacio temporels temps réel (électeurs, spectateurs,..) Approche décisionnelle/oltp temps réel BOTTOM UP Jeux, Marketing Réseaux sociaux (Twitter, Facebook,..) TAGS NFC,

13 Generations Share Differently s era generation Focus on society Friendships are forged through adversity s era generation Focus on community Friendships forged through identification with a cause s era generation Focus on the individual Friendships forged through individual goal accomplishment 2000 s era generation Focus on common interests and SHARING Des rapports de FORCE aux rapports de FLUX (Joel de Rosnay 2012 SURFER LA VIE ) Friendships are created or thrive virtually IOGDC Open Data Tutorial 13

14 «Capital SOCIAL» (relationnel)? Social capital consists of the stock of active connections among people; the trust, mutual understanding, and shared values and behaviors that bind the members of human networks and communities and make cooperative action possible Robert Putnam, Harvard University (loi de Metcafe sur la VALEUR d un RESEAU)

15 Une dichotomie «data system»/dbms ou une intégration? DATA BASE MANAGEMENT SYSTEMS (DBMS SQL) et TIPS Données structurées (Tables, Objets, ) : Schéma et modèle Objet Relationnel Applications transactionnelles avec cohérence ACID Interface SQL Sécurité Gestion/PRODUCTION/DECISION (Datawarehouse) Standards SQL3/0DMG (See [ORACLE12] ) BIG DATA/ OPEN DATA (Not Only SQL : NO SQL) Données non structurées (accessibles sur le WEB par URL) Données temps réel Interrogation par machine Collaboration/PARTAGE communautaire Standards RDF, SPARQL, OWL,

16 BIG DATA (Wikipedia) Big data («grosse donnée» ou données massives) est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Les perspectives du traitement des big data sont énormes, notamment pour l'analyse d'opinions ou de tendances industrielles, la génomique, l'épidémiologie ou la lutte contre la criminalité ou la sécurité 2. Le phénomène Big data est considéré comme l'un des grands défis informatiques de la décennie Il engendre une dynamique importante tant par l'administration 3, que par les spécialistes sur le terrain des technologies ou des usages 4. Outil adapté : Graph Databases (en), framework : MapReduce ou Hadoop et systèmes de gestion de bases de données comme BigTable.

17 Open Data (Wikipedia) Une donnée ouverte (en anglais open data) est une information publique brute, qui a vocation à être librement accessible et réutilisable. La philosophie pratique de l'open data préconise une libre disponibilité pour tous et chacun, sans restriction de copyright, brevets ou d'autres mécanismes de contrôle. En 2010, Tim Berners-Lee a donné une échelle de qualité des données ouvertes qui va de zéro à 5 étoiles. Vos données (non filtrées c'est-à-dire dégradées) sont en ligne quel que soit leur format (n'importe quel format) Vos données sont disponibles sous forme de données structurées (par exemple Excel en csv, ou avec RDF) les données sont libres d'être exploitées car la machine ne fait aucune distinction entre les données libres ou non.(voir la partie sur les licences) utiliser des URL pour identifier vos données, de sorte que l'on puisse pointer dessus lier vos données à d'autres personnes pour fournir un contexte à ces données

18 Les données ouvertes dans le Web des données (Wikipedia) Les principaux problèmes de l'exploitation des données ouvertes sont de l'ordre technique car les données en masse ne peuvent pas être traitées humainement. Le concept de Web des données appliqué aux données ouvertes met en œuvre 3 mécanismes : permettre l'existence de la donnée sur le réseau à travers une URI unique(cela inclut les URL). diminuer le coût de transformation de la données en apportant des formats standards lisible par les machines (comme avec RDF,RDFa ou les Microdonnée dans le HTML5) ; améliorer la qualité de la donnée pour éviter qu'un traitement de mise à disposition ne puisse les altérer. Un entrepôt de données même avec des erreurs est préférable qu'un entrepôt biaisé. Ainsi, des mécanisme pour la fréquence et l automatisation des mises à jour de la donnée par les producteurs des données est possible avec un service SPARQL sur ces données. Les données ouvertes ne sont pas contrôlables par leurs producteurs (contrôle des mises à jours) et réellement exploitables par d'autres qu'à la condition d'utiliser ces 3 mécanismes.

19 Tim Berners-Lee, (Weaving the Web, 2001) on SEMANTIC WEB I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web the content, links, and transactions between people and computers. A Semantic Web, which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The intelligent agents people have touted for ages will finally materialize

20 «WEB Sémantique» du W3C Le Web sémantique est un mouvement collaboratif mené par le World Wide Web Consortium(W3C) 1 qui favorise des méthodes communes pour échanger des données. Le Web sémantique vise à aider l'émergence de nouvelles connaissances en s'appuyant sur les connaissances déjà présentes sur Internet. Pour y parvenir, le Web sémantique met en œuvre le Web des données qui consiste à lier et structurer l'information sur Internet pour accéder simplement à la connaissance qu'elle contient déjà 2. Selon le W3C, «le Web sémantique fournit un framework qui permet aux données d'être partagées et réutilisées entres plusieurs applications, entreprises et groupes d'utilisateurs». 2 Le Web sémantique propose des langages spécialement conçus pour les données : le RDF (Resource Description Framework), le OWL(Web Ontology Language), et le XML (extensible Markup Language). HTML décrit les documents et les liens entre eux. RDF, OWL, et XML, en revanche, peuvent décrire également des choses, comme des personnes, des réunions, ou des pièces d'avion.< WIKIPEDIA>

21 BIG DATA

22 WEB et rêve de Laplace! «Le Web contient une description exhaustive du monde passé et présent» Julien Laugel (MFG Labs) Rêve de LAPLACE «Une entité connaitra parfaitement l état du monde passé et présent pour prévoir son évolution»

23 Grands Domaines d application BIG DATA et Projets du MBDS : du moteur de recherche au moteur de LA recherche Génétique (découverte de 4 gènes liés au cancer du foie,..) médecine (neurosciences : localisation migraine, ) Epidémies, Pandémies, Catastrophes (Ex SANDY en Oct 2012 avec cartographie inondations via analyse tweets) Climatologie, Astronomie Océanographie (Expert planton, méduses,..)chimie Linguistique, Macro-Economie Transport (Projet VAMP), AIDE SOCIALE (Projet FIRST Inde) COMMERCE, TOURISME (Projet MATRIUM, REVE, IMAJEANS)

24 Recherche scientifique AVANT Big Data PROBLEME Etat de l art INTUITION VALIDATION par Expérience, simulation, calculs,

25 Recherche scientifique avec BIG DATA Analyse informatique de BIG DATA Identification de CORRELATIONS nouvelles Générateur d hypothèses Émergence de DECOUVERTES (avec ou pas expérimentations) SCIENCE demain? Mise en relief de corrélations Recherche de modèles expliquant les corrélations

26 EX1 : Big data et Neurosciences Projet BrainScanr de Jessica et Bradley VOYTEK Analyse de 3,5 millions d articles en neurosciences Carte de «proximité statistique» entre termes neuroscientifiques Générateur automatique d hypothèses Proximité entre «sérotonine» et «migraine» (2943 articles) Proximité entre «striatum» (région cerveau) et «migraine» (4782 articles)» Réorientation des travaux de recherche!

27 Ex2: BIG DATA et psycho-linguistique «Emergence des mots chez le bébé?» Deb ROY du MIT a enregistré et filmé son propre bébé pendant 3 ans (jour et nuit!) (90 000H de video et H audio) <200 teraoctets> 70 Millions de mots prononcés Approche d analyse psycho linguistique d assimilation et d évolution du langage chez l être humain (et modèle contextuel)!

28 Autres Exemples BIG DATA Déforestation : projet PlanetarySKIN (7 tera de données satellites) Suivi astronomique en direct : Projet LSST (30 Tera chaque nuit) Micro-organismes marins: Projet GOS (2 teraoctets) Bio Chimie sur 100 millions de molécules : Projet BSrC Cancer du foie :projet ICGC (200 teraoctets) analyse des BD sur tumeurs de 5O types de cancers Détection épidémies en temps réel : Projet Healthmap (1 teraoctets) : Suivi progression cholera en Haiti avec 2 semaines d avance (cholera, grippe, dengue,..)

29 OPEN DATA

30 What Makes DATA OPEN? Data Open Format Open The US Government through the Open Government Directive (http://www.whitehouse.gov/omb/assets/memor anda_2010/m10-06.pdf ) defines an open format as one that is platform independent, machine readable, and made available to the public without restrictions that would impede the re-use of that information. 9 July

31 OPEN (DATA) FORMAT? Example Open Formats: PDF for documents (but not data) CSV for data (Excel) Web standards for publishing, sharing or linking HTML, XML, RDF Web standards for syndication RSS, Atom, JSON 31

32 Metadata? Metadata The information about the data being shared Who produced it Where When Use restrictions Etc. Use standards such as ADMS or Dublin Core New (Search-oriented) Embedded dataset metadata coming

33 Data analytics Analytics based on over 1,000,000 datasets from around the world can be seen at

34 Real Outcomes = Better Lives Open data eases the burden on families in caring for a sick child or seeking medical information More importantly, the data as it s aggregated empowers communities to make changes that improve the quality of life of citizens In California, ReLeaf plants trees in areas identified by Together We Breathe as danger areas for asthma sufferers Cities see hot spots that trigger asthma problems for their citizens Each company in Health 2.0 used government data to innovate and create high-value jobs in America Civic Commons has a great collection of good open use cases: 9 July 2012 IOGDC Open Data Tutorial 34

35 Health.data.gov + Healthtap!

36 Energy Drives Innovation Energy.Data.gov connects innovators, industry, academia, and government at federal, state, and local levels 9 July 2012 IOGDC Open Data Tutorial 36

37 Challenges Spark Ideas Energy.Data.gov connects works with challenges across the nation to integrate federal data and bring government personnel to code-a-thons 9 July 2012 IOGDC Open Data Tutorial 37

38 Changing Economic Equations Economic Equations Study from Malaysian government: 9 July 2012 IOGDC Open Data Tutorial 38

39 Data Mashups of Many Kinds More than 50 of these at IOGDC Open Data Tutorial 39

40 Policies Become Essential Policies are needed to help drive the ecosystem and motivate departments to continue to share data openly Build the policies based around issues that are universal Licensing, provenance: Open data on food, security, culture, transportation, and transparency 9 July

41 Linking Data LINKING DATA goes beyond govt Government Data is currently over ½ the cloud in size (~17B triples), 10s of thousands of links to other data (within and without) 9 July 2012 IOGDC Open Data Tutorial 41

42 5 star LINKED OPEN DATA

43 Linked DATA/ Semantic WEB

44 «Linked DATA», RDF format and SPARQL [BENE2006] To make data machine processable, we need: - Unambiguous names for resources (that may also bind data to real world objects): URIs (URL) - common data model to access, connect, describe the resources: RDF - Access to that data: SPARQL - Define common vocabularies: RDFS, OWL, SKOS - Reasoning logics: OWL, Rules

45 RDF W3C Recommendation: January 15th, 2008 SPARQL queries RDF graphs An RDF graph is a set of triples to describe WEB resources RDF/XML is the W3C recommendation Simple triple: subject predicate object (cf Minsky et linguistique sur triplet <Sujet><Verbe> <Complément>) :serge rdf:label «serge" ; rdf:type ex:person ; ex:homepage

46 Sparql : SQL-like syntax PREFIX dc: <URI abrégé> SELECT?title WHERE { <http://example.org/book/book1> dc:title?title } < liste des triplets> FROM Name of the graph Note : Jena is a Java framework for building Semantic Web applications; provides an environment for RDF, RDFS and OWL, SPARQL and includes a rule- based inference engine

47 Exemple RDF [MAEV2012] < > Sujet < Prédicat Objet

48 SPARQL [MAEV2012] Langage d interrogation, ajout, modification et suppression de données RDF. Exemple : Auteurs français nés en 1900?

49 SPARQL engine Note : GRDDL (2007) to get RDF triples out of XML documents

50 Dataset «DBPEDIA»? DBPEDIA : Donnéees extraites de Wikipedia sous forme RDF DBPedia is an RDF version of information from Wikipedia which : - Contains data derived from Wikipedia s infoboxes, category hierarchy, article, abstracts, and various external links - Contains over 130 million triples - Dataset:

51 DBPEDIA [GAND2012] Projets 2012 [GAND2012]): Datalift.org (ANR) Kolflow (ANR) pluggable to any RDF store (SparQL1.1) ERWAN (visualisation de données RDF/XML) Mobile DB PEDIA? Tourisme mobiquitaire et guide temps réel (Cf Projet de FUI VAMP) Moteur KGRAM/Corese en Open Source VERROUS? - Modeles pour meta données? - Architectures logicielles Nice ouvertes Sophia Antipolis (stockage, acces,..)

52 DATA WEB (web de données) livre de David Wood Linking Government Data en 2011: le Web des données est passé de quelques 40 millions de triplets RDF au sein de quatre entrepôts de données en 2007 à 203 entrepôts avec plus de 25 milliards de triplets avec 395 millions de liens à la fin 2010.

53 EX : Dataset JAMENDO Jamendo is a community collection of music all freely licensed under Creative Commons licenses - - DBTune.org hosts a queryable RDF version of information about Jamendo's music collection - Data on thousands of artists, tens of thousands of albums, and nearly 100,000 tracks -

54 EX : Dataset GOVtrack (USA) GovTrack provides SPARQL access to data on the U.S. Congress - Contains over 13,000,000 triples about legislators, bills, and votes -

55 EX (GovTrack) : Find Senate bills that either John McCain or Barack Obama sponsored and the other cosponsored [CORNO2008] PREFIX bill: <http://www.rdfabout.com/rdf/schema/usbill/> PREFIX dc: <http://purl.org/dc/elements/1.1/> foaf: <http://xmlns.com/foaf/0.1/> SELECT?title?sponsor?status WHERE { {?bill bill:sponsor?mccain ; bill:cosponsor?obama. } UNION {?bill bill:sponsor?obama ; bill:cosponsor?mccain. }?bill a bill:senatebill ; bill:status?status ; bill:sponsor?sponsor ; dc:title?title.?obama foaf:name "Barack Obama".?mccain foaf:name "John McCain".}

56 Links to OPEN DATA community W3C egovernment Interest Group age Open Data Innovation Network on LinkedIn

57 DATA SYSTEMS «NO SQL (NOT ONLY SQL)

58 NO SQL (Not Only SQL) Un nouveau courant non relationnel permettant la gestion de données de type BIG DATA + Scalabilité + Evolutivité + Liberté de modélisation + Simplicité 12

59 NO SQL/ Data Systems [Noel2011] Platonic architecture of a DATA SYSTEM? 1) BATCH LAYER : HADOOP (arbitrary computations, horizontal scalability, map reduction,..) 2) SPEED LAYER : RIAK, CASSANDRA (NO SQL DB), MONGO DB (NO SQL), H- BASE (incremental algorithms, subset of big data,..) : Conclusion : one store both for operational data and analytics, REAL TIME in the pocket

60

61 Introduction à Hadoop Qui utilise Hadoop? Heck Another Darn Obscure Open-source Project Un modèle open source Un projet Apache, open source et de plus haut niveau Un modèle Clé/valeur distribué Permet de répartir le flux des requêtes Un modèle élastique Souplesse du schéma Souplesse de l infrastructure de stockage Souplesse de modélisation Un modèle tolérant aux pannes Replication des données entre les serveurs du cluster 61

62 Hadoop Distributed File System Le système de fichier distribué d Hadoop Composé de : Serveur maître: le NameNode Serveurs esclaves: les DataNodes Figure- Des Hadoop clusters avec des milliers de nœuds 62

63 L écosystème Hadoop 63

64 Hadoop MapReduce Techniques Open Source de la fondation Apache existe au travers d Hadoop et de son écosystème Paradigme de programmation introduit par Google pour traiter de gros volumes de données. L architecture MapReduce est composée de : Un JobTracker : centralisateur de tâches Des TaskTracker qui se chargent d exécuter les travaux demandés. 64

65 Son rôle consiste à diviser le traitement en 2 étapes : Map : étape d ingestion et de transformation des données sous la forme de paires clé/valeur Reduce : étape de fusion des enregistrements par clé pour former le résultat final.

66 L écosystème Hadoop: SQOOP Connecter Hadoop Hive SQL like queries DSL Hadoop Base de données relationnelles Sqoop Hbase Base de données pour un accès aléatoire read/ write Sqoop Systèmes d entreposage de données HDFS Un système de fichiers distribués Write once, read many 66

67 L écosystème Hadoop: Pig..PigLatin Un langage de script permettant d interroger des grands ensembles de données Des Job MapReduce sont générés. Une succession d opérations à appliquer à des données en entrée pour produire un résultat. Pig latin: adapté au grandes quantités de données un langage d interrogation comme SQL et les logiques relationnelles 67

68 Ex HADOOP en Annexe (MBDS TUNIS)

69 «From NO SQL to NEW SQL» [RICH2012] ([STON2011]

70 «From NO SQL to NEW SQL» [RICH2012] ([STON2011] NO SQL (Modèles basés colonnes, valeurs, ou graphes) : Cassandra (column), Mongo DB, SimpleDB, DynamoDB, CouchDB, Membase, Retis,.. NEW SQL (on top of RDB) : Scale DB, NimbusDB, VoltDB de Stonebraker (open Source, in memory RDB), Clustrix, + Oracle BIG DATA, Microsoft BIG DATA, Future is polyglot persistence

71 M.Stonebraker (2011) et VOLTDB Replacing real SQL ACID with either no ACID or ACID lite just pushes consistency problems into the applications where they are far harder to solve. Second, the absence of SQL makes queries a lot of work NEW SQL

72 Verrous Systèmes amphibiens :Passerelles entre SGBD/Datawarehouse TOP DOWN (SQL) et décisionnel BOTTOM UP (NOSQL) Maintien ACID approche SQL Interface SQL++ (Complexité cachée) Maintien Performances bottom up et scalabilité approches NOSQL «NEW SQL» (Stonebraker,..)

73 NEW SQL (ORACLE and BIG DATA)

74 BIG DATA for the enterprise [ORACLE2012]

75 Oracle BIG DATA for enterprise HADOOP and ORACLE Apache Hadoop is a new technology that allows large data volumes to be organized and processed while keeping the data on the original data storage cluster. Hadoop Distributed File System (HDFS) is the longterm storage system for web logs for example. These web logs are turned into browsing behavior (sessions) by running MapReduce programs on the cluster and generating aggregated results on the same cluster. These aggregated results are then loaded into a Relational DBMS system.

76 Oracle Solution Spectrum Many new technologies have emerged to address the IT infrastructure requirements outlined above. At last count, there were over 120 open source key-value databases for acquiring and storing big data, with Hadoop emerging as the primary system for organizing big data and relational databases expanding their reach into less structured data sets to analyze big data. These new systems have created a divided solutions spectrum comprised of: Not Only SQL (NoSQL) solutions: developer-centric specialized systems SQL solutions: the world typically equated with the manageability, security and trusted nature of relational database management systems (RDBMS) NoSQL systems are designed to capture all data without categorizing and parsing it upon entry into the system, and therefore the data is highly varied. SQL systems, on the other hand, typically place data in well-defined structures and impose metadata on the data captured to ensure consistency and validate data types.

77 Oracle Big Data solutions

78 Oracle Big Data Appliance

79 Oracle In-Database Analytics Oracle R Enterprise (statistics; prediction) In-Database Data Mining (predictive analytics) In-Database Text Mining (sentiment analysis) In-Database Semantic Analysis (Graphs) In-Database Spatial (data plotted on a map) In-Database MapReduce (procedural logic)

80 NEW SQL (Microsoft SQL Server 2012 et BIG DATA)

81 Big Data dans SQL SERVER 2012 SQL SERVER intègre la composante Hadoop, (framework open source spécialisé dans la gestion de données non structurées). L éditeur lance ainsi une seconde version d Hadoop pour Azure et Windows Server. Interface Excel à Hadoop le projet Apache Sqoop, la mise à disposition de Mahoot (outils de datamining pour Hadoop)

82

83 Recherches Informatiques Passerelles NEW SQL : Modèles, conception, algorithmique (requetes, ACID), systèmes, Middleware, OLTP Temps reel Reseaux sociaux spacio temps réel Applications innovantes décisionnelles autour de OLTP Temps réel (Interfaces Réseaux sociaux, tag mining)

84 Conclusion BIG DATA et recherche scientifique? Risque de prédire sans expliquer? La fin d un monde scientifique traditionnel? il n y a : Plus d hypothèses à formuler Avant! Plus d expérimentation à faire pendant! Plus de compréhension après!

85 Conclusion BIG DATA : évolution des méthodes scientifiques Méthode logique d Aristote (330 a JC) Méthode expérimentale de Roger Bacon (1250) Méthode théorique de Newton(1700) Méthode de simulation d Enrico Forni (1950) Méthode d analyse des liens de Google? Twitters? TAGS NFC? Apres une science des traitements : Vers une SCIENCE DES DONNEES? DES SERVICES?

86

87 Questions? 87

88 References [ORACLE2012] White Paper Oracle, January 2012 «Oracle BIG DATA for the enterprise» [GAND2012]Fabien Gandon «Recherches Web Sémantqiue» Juin 2012 [BUFFA2012] Michel Buffa, Proposition recherche pour Fui VAMP [MAEVA2012] Maeva Antoine, Rapport MBDS2012, INRIA Sophia, Equipe OASIS [DAVIS2009] «30 Minute Guide to RDF and Linked Data Ian Davis 2009, Slide Share [RICH2012] SQL, NO SQL and NEW SQL Chris Richardon Feb 2012 SLIDE SHARE [STON2011] New SQL: An Alternative to NoSQL and Old SQL for New OLTP Apps» ACM, Juin 2011 [NOEL2011] «BIG DATA Steven Noels, Wim Von Leuven, SAI 7 April 2011 [BEEM2012] «Open Data Tutorial», Hadley Beeman et al, IOGDC, 2012 [BERN2006] SPARQL will make a huge difference Tim Berners-Lee, May 2006 [CORNO2008], Corno et al, «SPARQL - QueryLanguage for RDF» [BASSM2012] Bassma Ben Dhouma «Implémentation d une application pour pour la gestion des données de type Big Data sous un Hadoop Cluster en utilisant une base de données Nosql» MBDS, Univ Manouba Oct 2012

89 Annexe : Projet MBDS Tunis (Univ de La Manouba), 2012 Application Hadoop pour Maroc Telecom [BASSM2012] Système d exploitation: Unix - Ubuntu Langage de programmation: JAVA Outils de travail: - Hadoop Sqoop - Pig 89

90 Millions Contexte du Projet (BASSM2012] Abonnés 43 millions / jour transactions Call 26 millions/ jour transactions de recharge Taux de pénétration en % Parc des abonnés Une croissance à 2 chiffres Une explosion de la BD 90

91 Problématique BIG DATA du Projet [BASSM2012] Quantités de données à stocker et données inexploitables par SQL simple 137 tables Temps de traitement 100 GB 10 min 1 TB 2 heures 1 PB 3 mois Compléxité et lourdeur des requêtes SQL Coût de stockage SQL ne permet pas de répondre aux besoins de Maroc telecom en terme de gestion BIG DATA 91

92 Architecture de l application Hadoop pour Maroc Telecom [BASSM2012] 92

93 Les étapes de réalisation Application Hadoop pour Maroc Telecom [BASSM2012] Installation de l environnement Configuration du Hadoop cluster Migration des données de la base de données oracle vers le HDFS en utilisant Soop Traitement des données présentes dans le HDFS en utilisant des scripts en PigLatin basés sur sur les UDFs du pig 93

94 Application Hadoop pour Maroc Telecom [BASSM2012] Etape 1: Installation de l environnement de travail (1/5) Configuration du Hadoop cluster Adressage Réseau et définition des machines Master et Slaves Attribuer l adresse IP et définir la hôte Master Attribuer l adresse IP et définir les hôtes Slaves Configuration SSH Installer les packages SSH Générer une paire de clés RSA Tester la configuration SSH Configuration HDFS Repertoire: Conf/ Fichier :hadoop-defaults.xml Configuration du fichier hadoopsite.xlm Configuration du fichier hdfssite.xml Configuration MapReduce Configuration du fichier coresite.xml 94

95 Application Hadoop pour Maroc Telecom [BASSM2012] Etape 1: Installation de l environnement de travail (2/5) Le serveurs master JobTracker NameNode Couche Couche MapReduce HDSF Les serveurs slaves Tasktracker DataNode Tasktracker DataNode JobTracker DataNode Structure générale du Hadoop cluster avec 4 nœuds 95

96 Application Hadoop pour Maroc Telecom [BASSM2012] Etape1: Installation de l environnement de travail (3/5) Démarrage du Cluster Formater le HDFS $bin / hadoop namenode format Démarrer le HDFS $ bin / start-dfs.sh Démarrer le MapReduce $ Bin / start-mapred.sh Démarrer le Cluster $bin/start-all.sh Arrêter le Cluster $bin/stop-all.sh 96

97 Application Hadoop pour Maroc Telecom [BASSM2012] Etape1: Installation de l environnement de travail (4/5) Récapitulatif du cluster Capacité totale nœuds actifs et morts L interface Web Du NameNode 97

98 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Installation de l environnement de travail (5/5) / L interface Web Du JobTraker. 98

99 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (1/4) Extrait de la base de données Maroc Telecom : Les tables quotidiennes 99

100 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (2/4) Exemple Importation de la table «IAM_REJECTED_MIGRATION» Spécifiez le JDBC de connexion Mot de passe le JDBC de la connexion, d authentification l adresse IP du serveur le port et le nom de la base nom d'utilisateur pour s authentifier sqoop --connect --username root --password ***** table IAM_REJECTED_MIGRATION' --split-by TARIFFINDEX; nom de la table à importer par quelle colonne les données doivent être indexées

101 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (3/4) Lancement de la commande d importation 101

102 Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (4/4) Résultat du lancement de la commande 102

103 Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Migration des données (1/4) Objectifs Gestion de données de types complexes Réduction du temps de réponse des requêtes SQL lourdes et complexes Des requêtes en langage naturel pour du filtrage dynamique (idem sans in-memory) 103

104 Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Traitement des données migrées (2/4) Exemple SELECT TO_NUMBER (TO_CHAR (TIMESTAMP, 'yyyymmdd')),tariffindex, SUBSTR(BEARER_FLAG,1,1),COUNT(DISTINCT MSISDN),FORFAIT FROM IAM_CALL2 WHERE TARIFFINDEX IN (1,2,3,5,6,9,15,16,21,22,24,25,26,27,18) GROUP BY TO_NUMBER (TO_CHAR (TIMESTAMP, 'yyyymmdd')), TARIFFINDEX, SUBSTR(BEARER_FLAG,1,1),FORFAIT; Requêtes SQL à traduire en PigLatin 104

105 Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Traitement des données migrées (3/4) Script PigLatin 105

106 Application Hadoop pour Maroc Telecom [BASSM2012] Traitement des données migrées (4/4) Lancement du Pig Lancement du shell GRUNT Lignes du script i Lancement du Job MapReduce Script PigLatin 106

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages 1 Mehdi LOUIZI Plan Pourquoi Hadoop? Présentation et Architecture Démo Usages 2 Pourquoi Hadoop? Limites du Big Data Les entreprises n analysent que 12% des données qu elles possèdent (Enquête Forrester

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

KARMA Le système de Revenue Management d'air France KLM avec Hadoop

KARMA Le système de Revenue Management d'air France KLM avec Hadoop KARMA Le système de Revenue Management d'air France KLM avec Hadoop Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 16 Décembre 2014 Martial AYAS maayas@airfrance.fr 2 Agenda 1. Présentation

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

Sophia Conf 2014. Bases de données RDF. versatilité, puissance et scalabilité. Bases de données RDF

Sophia Conf 2014. Bases de données RDF. versatilité, puissance et scalabilité. Bases de données RDF Sophia Conf 2014 versatilité, puissance et scalabilité Your business 2 juillet technologists. 2014 Sophia Conf Powering 2014 progress Agenda Introduction Vision du Web sémantique par Atos Modèle W3C vs

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Les licences Creative Commons expliquées aux élèves

Les licences Creative Commons expliquées aux élèves Les licences Creative Commons expliquées aux élèves Source du document : http://framablog.org/index.php/post/2008/03/11/education-b2i-creative-commons Diapo 1 Creative Commons presents : Sharing Creative

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

Bigdata et Web sémantique. les données + l intelligence= la solution

Bigdata et Web sémantique. les données + l intelligence= la solution Bigdata et Web sémantique les données + l intelligence= la solution 131214 1 big data et Web sémantique deux notions bien différentes et pourtant... (sable et silicium). «bigdata» ce n est pas que des

Plus en détail

quand le lien fait sens

quand le lien fait sens Fabien Gandon - @fabien_gandon - http://fabien.info Wimmics (Inria, I3S, CNRS, Université de Nice) W3C AC Rep pour Inria Données liées et Web sémantique quand le lien fait sens étendre la mémoire humaine

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1 2 Introduction Historique des bases de données : méthodes de stockage et d analyse

Plus en détail

Les datas = le fuel du 21ième sicècle

Les datas = le fuel du 21ième sicècle Les datas = le fuel du 21ième sicècle D énormes gisements de création de valeurs http://www.your networkmarketin g.com/facebooktwitter-youtubestats-in-realtime-simulation/ Xavier Dalloz Le Plan Définition

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

BD**2 : Des BD à BD (des Bases de Données à BIG DATA)

BD**2 : Des BD à BD (des Bases de Données à BIG DATA) BD**2 : Des BD à BD (des Bases de Données à BIG DATA) Pr Serge Miranda Directeur Master MBDS (www.mbds- fr.org) Conférence MBDS 2013 World is changing : Tiepolo (Un Nouveau Monde; Venise) «Big» DATA? IDC

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

Les activités de recherche sont associées à des voies technologiques et à des opportunités concrètes sur le court, moyen et long terme.

Les activités de recherche sont associées à des voies technologiques et à des opportunités concrètes sur le court, moyen et long terme. Mémoires 2010-2011 www.euranova.eu EURANOVA R&D Euranova est une société Belge constituée depuis le 1er Septembre 2008. Sa vision est simple : «Être un incubateur technologique focalisé sur l utilisation

Plus en détail

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite. Rational ClearCase or ClearCase MultiSite Version 7.0.1 Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite. Product Overview IBM Rational

Plus en détail

Un ACTIF InConToURnABLE PoUR DEs PARTEnARIATs significatifs. social. An ASSeT To meaningful PARTneRSHIPS

Un ACTIF InConToURnABLE PoUR DEs PARTEnARIATs significatifs. social. An ASSeT To meaningful PARTneRSHIPS Le capital Un ACTIF InConToURnABLE PoUR DEs PARTEnARIATs significatifs social capital An ASSeT To meaningful PARTneRSHIPS Présentation des participants participants presentation Fondation Dufresne et Gauthier

Plus en détail

NoSQL Faut-il franchir le pas?

NoSQL Faut-il franchir le pas? NoSQL Faut-il franchir le pas? Guillaume HARRY Journées rbdd Octobre 2015 Sommaire 1. Evolution des bases de données 2. Le mouvement NoSQL 3. Les grandes familles du NoSQL 4. Aller ou non vers le NoSQL?

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

C est quoi, Facebook?

C est quoi, Facebook? C est quoi, Facebook? Si tu as plus de 13 ans, tu fais peut-être partie des 750 millions de personnes dans le monde qui ont un compte Facebook? Et si tu es plus jeune, tu as dû entendre parler autour de

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France 2013 SAP AG. All rights reserved. Customer 1 Rôles et Attentes Instantanéité BIG DATA Users IT Real Time SAP HANA

Plus en détail

Projet Datalift : retour d expérience sur les standards

Projet Datalift : retour d expérience sur les standards ign.fr Les outils du web Sémantique comme supports des données et métadonnées géographiques Projet Datalift : retour d expérience sur les standards Forum Décryptagéo Marne La Vallée 8 avril 2014 Bénédicte

Plus en détail

Le nouveau visage de la Dataviz dans MicroStrategy 10

Le nouveau visage de la Dataviz dans MicroStrategy 10 Le nouveau visage de la Dataviz dans MicroStrategy 10 Pour la première fois, MicroStrategy 10 offre une plateforme analytique qui combine une expérience utilisateur facile et agréable, et des capacités

Plus en détail

The managing Information system (S.I.D.) of the Civil Servants Health Insurance. Mutualité Fonction Publique - Direction des Systèmes d Information

The managing Information system (S.I.D.) of the Civil Servants Health Insurance. Mutualité Fonction Publique - Direction des Systèmes d Information The managing Information system (S.I.D.) of the Civil Servants Health Insurance Mutualité Fonction Publique - Direction des Systèmes d Information Joseph GARACOITS - Isabelle RICHARD France Intervention

Plus en détail

Quick Start Guide This guide will help you install a base configuration of IBM Tivoli Key Lifecycle Manager.

Quick Start Guide This guide will help you install a base configuration of IBM Tivoli Key Lifecycle Manager. IBM Tivoli Key Lifecycle Manager Version 2.0.1 Quick Start Guide This guide will help you install a base configuration of IBM Tivoli Key Lifecycle Manager. National Language Version: To obtain the Quick

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par. École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par

Plus en détail

Sun ONE Application Server Platform Summary

Sun ONE Application Server Platform Summary Sun ONE Application Server Platform Summary Version 7, Update 3 Part Number 817-5602-10 February 2004 This document provides the specifics on supported platform components for the Sun Open Net Environment

Plus en détail

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES 1 FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES «Dans le concret, projets de transformation vers le BigData» V1-10/03/15 ABED AJRAOU CONNAISSEZ-VOUS PAGESJAUNES? CONNAISSEZ-VOUS PAGESJAUNES? LES MEGADONNEES RÉPONDENT

Plus en détail

Instructions Mozilla Thunderbird Page 1

Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Page 1 Instructions Mozilla Thunderbird Ce manuel est écrit pour les utilisateurs qui font déjà configurer un compte de courrier électronique dans Mozilla Thunderbird et

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

La rencontre du Big Data et du Cloud

La rencontre du Big Data et du Cloud La rencontre du Big Data et du Cloud Libérez le potentiel de toutes vos données Visualisez et exploitez plus rapidement les données de tous types, quelle que soit leur taille et indépendamment de leur

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Forthcoming Database

Forthcoming Database DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of

Plus en détail

Données liées et Web sémantique quand le lien fait sens

Données liées et Web sémantique quand le lien fait sens Données liées et Web sémantique quand le lien fait sens Fabien Gandon #inria_industrie étendre la mémoire humaine Vannevar BUSH 2 étendre la mémoire humaine Vannevar BUSH Memex, Life Magazine, 10/09/1945

Plus en détail

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence L offre décisionnel IBM Patrick COOLS Spécialiste Business Intelligence Le marché du Business Intelligence L enjeux actuel des entreprises : devenir plus «agiles» Elargir les marchés tout en maintenant

Plus en détail

Academic Project. B3 - Architecture. Resit Project. Version 1.0 Last update: 24/05/2013 Use: Students Author: Samuel CUELLA

Academic Project. B3 - Architecture. Resit Project. Version 1.0 Last update: 24/05/2013 Use: Students Author: Samuel CUELLA SUPINFO Academic Dept. Resit Project Academic Project 2012-2013 Version 1.0 Last update: 24/05/2013 Use: Students Author: Samuel CUELLA Conditions d utilisations : SUPINFO International University vous

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

Rational Team Concert

Rational Team Concert Une gestion de projet agile avec Rational Team Concert Samira Bataouche Consultante, IBM Rational France 1 SCRUM en Bref Events Artifacts Development Team Source: Scrum Handbook 06 Décembre 2012 Agilité?

Plus en détail

New Features. Developed by. BPM Conseil - SARL au capital de 70 000 euros - RCS LYON 479 400 129 9, rue Pierre Blanc - 69001 Lyon - France 1/20

New Features. Developed by. BPM Conseil - SARL au capital de 70 000 euros - RCS LYON 479 400 129 9, rue Pierre Blanc - 69001 Lyon - France 1/20 5 New Features Developed by 1/20 Sommaire 1 Introduction... 3 2 Evolutions des studios de développement et améliorations fonctionnelles... 5 3 Portail Vanilla... 6 3.1 Open Street Maps... 6 3.2 Gestion

Plus en détail

PC industriels et disques associés

PC industriels et disques associés Technical Service Bulletin PRODUIT DATE CREATION DATE MODIFICATION FICHIER PC INDUSTRIEL 23/03/2010 201005 REV A PC industriels et disques associés English version follows. SF01 (du 4 au 8 janvier 2010)

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France L Art d être Numérique Thierry Pierre Directeur Business Development SAP France La Transformation Numérique «Plus largement, l impact potentiel des technologies numériques disruptives (cloud, impression

Plus en détail

Introduction au web de données et au web sémantique

Introduction au web de données et au web sémantique Introduction au web de données et au web sémantique Catherine Faron Zucker faron@unice.fr Web des données ouvertes Un mouvement mondial utile pour diffuser des données produites utile pour partager de

Plus en détail

A partir de ces différents matériels, l administrateur a déterminé huit configurations différentes. Il vous demande de les compléter.

A partir de ces différents matériels, l administrateur a déterminé huit configurations différentes. Il vous demande de les compléter. Exonet - Ressources mutualisées en réseau Description du thème Propriétés Intitulé long Formation concernée Présentation Modules Activités Compétences ; Savoir-faire Description Ressources mutualisées

Plus en détail

J2EE : Services Web. Stéphane Croisier, Directeur Serge Huber, Directeur Technique. 13 Juin 2002. 2002 Jahia Ltd. All rights reserved.

J2EE : Services Web. Stéphane Croisier, Directeur Serge Huber, Directeur Technique. 13 Juin 2002. 2002 Jahia Ltd. All rights reserved. J2EE : Services Web Stéphane Croisier, Directeur Serge Huber, Directeur Technique 13 Juin 2002 Aperçu Interopérabilité en XML/HTTP SOAP ebxml Outils d EAI JXTA Normes d interopérabilité XML SOAP/UDDI Inventé

Plus en détail

Introduction aux bases de données NoSQL

Introduction aux bases de données NoSQL Introduction aux bases de données NoSQL Khaled Tannir ets@khaledtannir.net Montréal - 23 Juillet 2015 Qui suis-je? Khaled TANNIR Big Data Architect Lead 20 ans d expérience ets@khaledtannir.net @khaled_tannir

Plus en détail

REAL APPLICATION CLUSTERS

REAL APPLICATION CLUSTERS Oracle upg adm 9i Claude DA COSTA Chap 11 Scalable Real Appli Clusters Page 1/10 REAL APPLICATION CLUSTERS Cash Fusion Shared server_side initialization parameter Oracle upg adm 9i Claude DA COSTA Chap

Plus en détail

eid Trends in french egovernment Liberty Alliance Workshop April, 20th 2007 French Ministry of Finance, DGME

eid Trends in french egovernment Liberty Alliance Workshop April, 20th 2007 French Ministry of Finance, DGME eid Trends in french egovernment Liberty Alliance Workshop April, 20th 2007 French Ministry of Finance, DGME Agenda What do we have today? What are our plans? What needs to be solved! What do we have today?

Plus en détail

Sun Java System Application Server Platform Edition 8.2 J2EE Tutorial

Sun Java System Application Server Platform Edition 8.2 J2EE Tutorial Sun Java System Application Server Platform Edition 8.2 J2EE Tutorial Sun Microsystems, Inc. 4150 Network Circle Santa Clara, CA 95054 U.S.A. Part No: 819 4709 Copyright 2005 Sun Microsystems, Inc. 4150

Plus en détail

Accès au support technique produits et licences par le portail client MGL de M2Msoft.com. Version 2010. Manuel Utilisateur

Accès au support technique produits et licences par le portail client MGL de M2Msoft.com. Version 2010. Manuel Utilisateur Accès au support technique produits et licences par le portail client MGL de M2Msoft.com Version 2010 Manuel Utilisateur Access to M2Msoft customer support portal, mgl.m2msoft.com, 2010 release. User manual

Plus en détail

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24.2 1 Semestre 4 : Fev. 2015 Grid : exemple SETI@home 2 Semestre 4 : Fev. 2015 Grid : exemple SETI@home

Plus en détail

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Big Data. Concept et perspectives : la réalité derrière le buzz Big Data Concept et perspectives : la réalité derrière le "buzz" 2012 Agenda Concept & Perspectives Technologies & Acteurs 2 Pierre Audoin Consultants (PAC) Pierre Audoin Consultants (PAC) est une société

Plus en détail

SQL Server 2012 et SQL Server 2014

SQL Server 2012 et SQL Server 2014 SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation

Plus en détail

Les infrastructures des municipalités s effondrent partout au Canada. Canada s cities and towns are crumbling around us

Les infrastructures des municipalités s effondrent partout au Canada. Canada s cities and towns are crumbling around us SKILLED TRADES PLATFORM 2015 PLATEFORME DES MÉTIERS SPÉCIALISÉS 2015 Canada s cities and towns are crumbling around us Canada needs a comprehensive integrated infrastructure program that will eliminate

Plus en détail

Raising the efficiency gains of industry by ICT means

Raising the efficiency gains of industry by ICT means Raising the efficiency gains of industry by ICT means 1/44 E-Government Consortium Thales IS ATG 2/44 ICT gains are similar for governments Industry Gains Government Gains Revenue Growth Expand government

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

C est quoi, Facebook?

C est quoi, Facebook? C est quoi, Facebook? aujourd hui l un des sites Internet les plus visités au monde. Si tu as plus de 13 ans, tu fais peut-être partie des 750 millions de personnes dans le monde qui ont une page Facebook?

Plus en détail

Les humanités numériques à l ère du big data

Les humanités numériques à l ère du big data Les humanités numériques à l ère du big data D. A. ZIGHED djamel@zighed.com Journées Big data & visualisation Focus sur les humanités numériques ISH Lyon 18-19 juin 2015 Co-organisées par EGC AFIHM - SFdS

Plus en détail

Formation en conduite et gestion de projets. Renforcer les capacités des syndicats en Europe

Formation en conduite et gestion de projets. Renforcer les capacités des syndicats en Europe Formation en conduite et gestion de projets Renforcer les capacités des syndicats en Europe Pourquoi la gestion de projets? Le département Formation de l Institut syndical européen (ETUI, European Trade

Plus en détail

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Responsable du stage : Nabil Belcaid Le Guyader Chef de projet : Ali Belcaid Déroulement du stage

Plus en détail

Philippe Lemerle Big Data Secteur public. Copyright 2015, Oracle and/or its affiliates. All rights reserved.

Philippe Lemerle Big Data Secteur public. Copyright 2015, Oracle and/or its affiliates. All rights reserved. Philippe Lemerle Big Data Secteur public 1 Le Monde se crée une copie numérique de lui même (*) (*) The world is making a digital copy of itself Paul Sonderegger, Oracle Approche réductioniste propriétés

Plus en détail

(Programme de formation pour les parents ~ Training program for parents)

(Programme de formation pour les parents ~ Training program for parents) PODUM-INFO-ACTION (PIA) La «carte routière» pour les parents, sur l éducation en langue française en Ontario A «road map» for parents, on French-language education in Ontario (Programme de formation pour

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca Une brève introduction aux Données Massives - Challenges et perspectives Romain Picot-Clémente Cécile Bothorel Philippe Lenca Plan 1 Big Data 2 4Vs 3 Hadoop et son écosystème 4 Nouveaux challenges, nouvelles

Plus en détail

Read Me First: Guide to Sun HPC ClusterTools 3.1 Documentation

Read Me First: Guide to Sun HPC ClusterTools 3.1 Documentation Read Me First: Guide to Sun HPC ClusterTools 3.1 Documentation Sun Microsystems, Inc. 901 San Antonio Road Palo Alto, CA 94303-4900 USA 650 960-1300 Fax 650 969-9131 Part No. 806-3729-10 March 2000, Revision

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015 Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS Salon du Big Data 11 mars 2015 Accélération de l innovation +500 +280 Amazon EC2 Container Service +159 AWS Storage Gateway Amazon Elastic Transcoder

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013 Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Des données brutes au Web des données liées Le projet Datalift

Des données brutes au Web des données liées Le projet Datalift Des données brutes au Web des données liées Le projet Datalift Seminaire INTech ouverture des donnees 5 Juin 2012 INRIA Grenoble Rhône-Alpes François Scharffe Francois.scharffe@lirmm.fr @lechatpito Présentation

Plus en détail

Construire une Documentation Structurée des Dépendances et des Services (DSDS) Rafael Diaz Maurin, CRU JRES, Nantes, le 2 décembre 2009

Construire une Documentation Structurée des Dépendances et des Services (DSDS) Rafael Diaz Maurin, CRU JRES, Nantes, le 2 décembre 2009 Construire une Documentation Structurée des Dépendances et des Services (DSDS) Rafael Diaz Maurin, CRU 1 Agenda Introduction : qu'est-ce qu'une DSDS? Les ontologies : outils pour la DSDS Protégé : éditeur

Plus en détail

Les bases de données relationnelles

Les bases de données relationnelles Bases de données NO SQL et SIG : d un existant restreint à un avenir prometteur CHRISTIAN CAROLIN, AXES CONSEIL CAROLIN@AXES.FR - HTTP://WWW.AXES.FR Les bases de données relationnelles constituent désormais

Plus en détail

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton Linked Open Data Le Web de données Réseau, usages, perspectives Sommaire Histoire du Linked Open Data Structure et évolution du réseau Utilisations du Linked Open Data Présence sur le réseau LOD Futurs

Plus en détail

Organisation de Coopération et de Développement Economiques Organisation for Economic Co-operation and Development. Bil.

Organisation de Coopération et de Développement Economiques Organisation for Economic Co-operation and Development. Bil. A usage officiel/for Official Use C(2006)34 C(2006)34 A usage officiel/for Official Use Organisation de Coopération et de Développement Economiques Organisation for Economic Co-operation and Development

Plus en détail

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Soutenance de projet ASR 27/01/2011 Julien Gerlier Siman Chen Encadrés par Bruno

Plus en détail

Conférences invitées

Conférences invitées Conférences invitées The Process of Process Modeling Barbara Weber University of Innsbruck, Austria Barbara.Weber@uibk.ac.at ABSTRACT. Business process models have gained significant importance due to

Plus en détail

TRADITIONAL ARCHTECTURE AND URBANISM: CURRICULA AND TRAINING COURSE DEVELOPMENT-TAUMA

TRADITIONAL ARCHTECTURE AND URBANISM: CURRICULA AND TRAINING COURSE DEVELOPMENT-TAUMA COURSE DEVELOPMENT-TAUMA 2010-1-TR1-LEO05-16787 1 Information sur le projet Titre: Code Projet: TRADITIONAL ARCHTECTURE AND URBANISM: CURRICULA AND TRAINING COURSE DEVELOPMENT-TAUMA 2010-1-TR1-LEO05-16787

Plus en détail

AMESD-Puma2010-EFTS- Configuration-update-TEN (en-fr)

AMESD-Puma2010-EFTS- Configuration-update-TEN (en-fr) AMESD-Puma2010-EFTS- Configuration-update-TEN (en-fr) Doc.No. : EUM/OPS/TEN/13/706466 Issue : v3 Date : 7 May 2014 WBS : EUMETSAT Eumetsat-Allee 1, D-64295 Darmstadt, Germany Tel: +49 6151 807-7 Fax: +49

Plus en détail

SEcurité et Internet Des Objets : le laboratoire SEIDO

SEcurité et Internet Des Objets : le laboratoire SEIDO SEcurité et Internet Des Objets : le laboratoire SEIDO Gérard Memmi, Chef du Département Informatique et Réseaux Télécom ParisTech Philippe Forestier, Chef de projet EDF R&D AGENDA 1. INTERNET OF THINGS

Plus en détail

CONTRAT D ETUDES - LEARNING AGREEMENT

CONTRAT D ETUDES - LEARNING AGREEMENT CONTRAT D ETUDES - LEARNING AGREEMENT Règles générales La présence aux séances d enseignement des modules choisis est obligatoire. Chaque module comporte des séances de travail encadrées et non encadrées

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

SQL-ON-HADOOP. Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr

SQL-ON-HADOOP. Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr Données structurées (RDBMS) Exiger de strictement être organisé Annexer à RDBMS sans couture Consultable

Plus en détail

IEEE Learning Technology Standards Committee Comité des Normes en Technologies d Apprentissage de l IEEE

IEEE Learning Technology Standards Committee Comité des Normes en Technologies d Apprentissage de l IEEE IEEE Learning Technology Standards Committee Comité des Normes en Technologies d Apprentissage de l IEEE Robby Robson Chair, LTSC Président, LTSC rrobson@eduworks.com 19 March, 2003 What is the LTSC? Le

Plus en détail

APPENDIX 6 BONUS RING FORMAT

APPENDIX 6 BONUS RING FORMAT #4 EN FRANÇAIS CI-DESSOUS Preamble and Justification This motion is being presented to the membership as an alternative format for clubs to use to encourage increased entries, both in areas where the exhibitor

Plus en détail