BIG DATA («BD») and DBMS platform ( «De BIG Brother à BIG DATA») Pr Serge Miranda Directeur Master MBDS (www.mbds-fr.org) Conférence 2012-2013
Exa-octets/jour! «Entre les débuts de la culture humaine et 2003, l humanité a produit 5 exa-octets (10**18) d information (5000 petaoctets). Aujourd hui nous produisons autant d information tous les 2 jours» Eric Schmidt (CEO de Google), Davos 2010 Famille en vacances en 2012
Plan DATA ecosystem BIG DATA OPEN DATA, LINKED DATA (Web Sémantique), WEB DATA NO SQL Hadoop (Ex en Annexe du MBDS2012) NEW SQL Stonebraker 2011) Oracle BIG DATA for the enterprise Microsoft BIG DATA
«DATA» roots/key words? 1) «DATA X» : DATA base (19/8/1968 : Ted Codd et Modèle Relationnel), DBMS DATA bank DATA warehouse (ETL/DATA Pumping,..) DATA mart DATA mining (OLAP, Corrélations,..), Data Analytics, DATA Pumping DATA Systems («SQL», «NO SQL», «NEW SQL» en 2012) DATA mash up 2) «Y DATA»: - Linked DATA, Web DATA (DBpedia, Web Sémantique) - Meta DATA - Open DATA BIG Data (Data Science)
World is changing / UN NOUVEAU MONDE (mobiquitaire). Tiepolo (Un Nouveau Monde)
Le Futur n est plus ce qu il était! «SOLOMO» (SOcial-LOcal-MObile) du WEB du futur «WEB au cube» DATA WEB + Capteurs + TAGS «Futur mobiquitaire» et «Écosystème endogène du Smartphone» (de la production d info à la consommation d info) En 2011, plus d abonnements au mobile que d habitants sur la planète 2015 : La moitié de la planète aura un smartphone (50% NFC) 1000 Milliards d objets tagués en 2020 USERWARE Instagram (Photo),.. Déferlante BOTTOM UP (crowdsourcing,..) Approches commmunautaires 2.0 «dynamiques, géolocalisées, contextuelles, temporelles» : tourisme, transport, santé,
2012 : le début d un «tsunami DATA» 140 Millions de messages/jour sur TWITTER 1 million de SMS échangés toutes les 3 sec 300 000 requêtes par sec sur Google (3 millions de mails par sec; 10 sites créés par sec) > 1 heure de video par seconde sur YOUTUBE 1 milliard d «amis» sur Facebook 20 petaoctets (10**15) de données traitées chaque jour sur Google (20 fois contenu BNF!) (IDC) 35 zetta octets dans le monde numérique en 2020 (1000 milliards d objets tagués) Ambition NSA (Service Renseignement USA) : analyse simultanée d un yottaoctet (10**24) <10**99 = «Google»> Les nouveaux réseaux communautaires spacio temporels TEMPS REEL ++ d entreprises («Zero mail» chez Atos et Bluekiwi en 2012, Microsoft et) Entre individus (PATH, PAIR, Google+,..) SANTE, TRANSPORT, TOURISME,
2012 Google* indexe 20 milliards de pages par jour pour répondre à 3,3 milliards de requêtes quotidiennes et 40 000 par seconde. Google, c est aussi 425 millions d utilisateurs de sa messagerie Gmail, disposant chacun d un espace de stockage de 10 Go, soit 4,25 «Eo». Google compte 250 millions de membres sur le réseau social Google+. Mais ça n est pas tout. YouTube recense 800 millions d utilisateurs qui passent 4 milliards d heures à regarder des vidéos chaque mois Les utilisateurs de youtube envoient 72 heures de vidéos par minute pour 1,3 milliard de vidéos hébergées en tout. *GOOGLE vient du chiffre mathematique 1 suivi de 100 Zeros
Une Minute sur Internet en 2011 c est : 9
Des nouvelles technologies visant - Scalabilité + disponibilité + performance 10
Apports des BD (Bases de données) Services TIPS Transactions, Interface non procédurale (SQL), Persistence, Structuration (SCHEMA) «T» : Propriétés «ACID» des BD SQL (Atomicité, Cohérence, Isolation, Durabilité) OLTP (On line Transaction Processing) Data Warehouse/data Mining (et OLCP) Approche TOP DOWN
Besoins mobiquitaires OLTP Temps Réel Géolocalisation (Contextualisation, Temporalité) Réseaux sociaux spacio temporels temps réel (électeurs, spectateurs,..) Approche décisionnelle/oltp temps réel BOTTOM UP Jeux, Marketing Réseaux sociaux (Twitter, Facebook,..) TAGS NFC,
Generations Share Differently 1930-50 s era generation Focus on society Friendships are forged through adversity 1960-70 s era generation Focus on community Friendships forged through identification with a cause 1980-90 s era generation Focus on the individual Friendships forged through individual goal accomplishment 2000 s era generation Focus on common interests and SHARING Des rapports de FORCE aux rapports de FLUX (Joel de Rosnay 2012 SURFER LA VIE ) Friendships are created or thrive virtually IOGDC Open Data Tutorial 13
«Capital SOCIAL» (relationnel)? Social capital consists of the stock of active connections among people; the trust, mutual understanding, and shared values and behaviors that bind the members of human networks and communities and make cooperative action possible Robert Putnam, Harvard University (loi de Metcafe sur la VALEUR d un RESEAU)
Une dichotomie «data system»/dbms ou une intégration? DATA BASE MANAGEMENT SYSTEMS (DBMS SQL) et TIPS Données structurées (Tables, Objets, ) : Schéma et modèle Objet Relationnel Applications transactionnelles avec cohérence ACID Interface SQL Sécurité Gestion/PRODUCTION/DECISION (Datawarehouse) Standards SQL3/0DMG (See [ORACLE12] ) BIG DATA/ OPEN DATA (Not Only SQL : NO SQL) Données non structurées (accessibles sur le WEB par URL) Données temps réel Interrogation par machine Collaboration/PARTAGE communautaire Standards RDF, SPARQL, OWL,
BIG DATA (Wikipedia) Big data («grosse donnée» ou données massives) est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisation des données doivent être redéfinis. Les perspectives du traitement des big data sont énormes, notamment pour l'analyse d'opinions ou de tendances industrielles, la génomique, l'épidémiologie ou la lutte contre la criminalité ou la sécurité 2. Le phénomène Big data est considéré comme l'un des grands défis informatiques de la décennie 2010-2020. Il engendre une dynamique importante tant par l'administration 3, que par les spécialistes sur le terrain des technologies ou des usages 4. Outil adapté : Graph Databases (en), framework : MapReduce ou Hadoop et systèmes de gestion de bases de données comme BigTable.
Open Data (Wikipedia) Une donnée ouverte (en anglais open data) est une information publique brute, qui a vocation à être librement accessible et réutilisable. La philosophie pratique de l'open data préconise une libre disponibilité pour tous et chacun, sans restriction de copyright, brevets ou d'autres mécanismes de contrôle. En 2010, Tim Berners-Lee a donné une échelle de qualité des données ouvertes qui va de zéro à 5 étoiles. Vos données (non filtrées c'est-à-dire dégradées) sont en ligne quel que soit leur format (n'importe quel format) Vos données sont disponibles sous forme de données structurées (par exemple Excel en csv, ou avec RDF) les données sont libres d'être exploitées car la machine ne fait aucune distinction entre les données libres ou non.(voir la partie sur les licences) utiliser des URL pour identifier vos données, de sorte que l'on puisse pointer dessus lier vos données à d'autres personnes pour fournir un contexte à ces données
Les données ouvertes dans le Web des données (Wikipedia) Les principaux problèmes de l'exploitation des données ouvertes sont de l'ordre technique car les données en masse ne peuvent pas être traitées humainement. Le concept de Web des données appliqué aux données ouvertes met en œuvre 3 mécanismes : permettre l'existence de la donnée sur le réseau à travers une URI unique(cela inclut les URL). diminuer le coût de transformation de la données en apportant des formats standards lisible par les machines (comme avec RDF,RDFa ou les Microdonnée dans le HTML5) ; améliorer la qualité de la donnée pour éviter qu'un traitement de mise à disposition ne puisse les altérer. Un entrepôt de données même avec des erreurs est préférable qu'un entrepôt biaisé. Ainsi, des mécanisme pour la fréquence et l automatisation des mises à jour de la donnée par les producteurs des données est possible avec un service SPARQL sur ces données. Les données ouvertes ne sont pas contrôlables par leurs producteurs (contrôle des mises à jours) et réellement exploitables par d'autres qu'à la condition d'utiliser ces 3 mécanismes.
Tim Berners-Lee, (Weaving the Web, 2001) on SEMANTIC WEB I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web the content, links, and transactions between people and computers. A Semantic Web, which should make this possible, has yet to emerge, but when it does, the day-to-day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The intelligent agents people have touted for ages will finally materialize
«WEB Sémantique» du W3C http://www.w3.org/2001/sw/ Le Web sémantique est un mouvement collaboratif mené par le World Wide Web Consortium(W3C) 1 qui favorise des méthodes communes pour échanger des données. Le Web sémantique vise à aider l'émergence de nouvelles connaissances en s'appuyant sur les connaissances déjà présentes sur Internet. Pour y parvenir, le Web sémantique met en œuvre le Web des données qui consiste à lier et structurer l'information sur Internet pour accéder simplement à la connaissance qu'elle contient déjà 2. Selon le W3C, «le Web sémantique fournit un framework qui permet aux données d'être partagées et réutilisées entres plusieurs applications, entreprises et groupes d'utilisateurs». 2 Le Web sémantique propose des langages spécialement conçus pour les données : le RDF (Resource Description Framework), le OWL(Web Ontology Language), et le XML (extensible Markup Language). HTML décrit les documents et les liens entre eux. RDF, OWL, et XML, en revanche, peuvent décrire également des choses, comme des personnes, des réunions, ou des pièces d'avion.< WIKIPEDIA>
BIG DATA
WEB et rêve de Laplace! «Le Web contient une description exhaustive du monde passé et présent» Julien Laugel (MFG Labs) Rêve de LAPLACE «Une entité connaitra parfaitement l état du monde passé et présent pour prévoir son évolution»
Grands Domaines d application BIG DATA et Projets du MBDS 2012-2015: du moteur de recherche au moteur de LA recherche Génétique (découverte de 4 gènes liés au cancer du foie,..) médecine (neurosciences : localisation migraine, ) Epidémies, Pandémies, Catastrophes (Ex SANDY en Oct 2012 avec cartographie inondations via analyse tweets) Climatologie, Astronomie Océanographie (Expert planton, méduses,..)chimie Linguistique, Macro-Economie Transport (Projet VAMP), AIDE SOCIALE (Projet FIRST Inde) COMMERCE, TOURISME (Projet MATRIUM, REVE, IMAJEANS)
Recherche scientifique AVANT Big Data PROBLEME Etat de l art INTUITION VALIDATION par Expérience, simulation, calculs,
Recherche scientifique avec BIG DATA Analyse informatique de BIG DATA Identification de CORRELATIONS nouvelles Générateur d hypothèses Émergence de DECOUVERTES (avec ou pas expérimentations) SCIENCE demain? Mise en relief de corrélations Recherche de modèles expliquant les corrélations
EX1 : Big data et Neurosciences Projet BrainScanr de Jessica et Bradley VOYTEK Analyse de 3,5 millions d articles en neurosciences Carte de «proximité statistique» entre termes neuroscientifiques Générateur automatique d hypothèses Proximité entre «sérotonine» et «migraine» (2943 articles) Proximité entre «striatum» (région cerveau) et «migraine» (4782 articles)» Réorientation des travaux de recherche!
Ex2: BIG DATA et psycho-linguistique «Emergence des mots chez le bébé?» Deb ROY du MIT a enregistré et filmé son propre bébé pendant 3 ans (jour et nuit!) (90 000H de video et 140 000 H audio) <200 teraoctets> 70 Millions de mots prononcés Approche d analyse psycho linguistique d assimilation et d évolution du langage chez l être humain (et modèle contextuel)!
Autres Exemples BIG DATA Déforestation : projet PlanetarySKIN (7 tera de données satellites) Suivi astronomique en direct : Projet LSST (30 Tera chaque nuit) Micro-organismes marins: Projet GOS (2 teraoctets) Bio Chimie sur 100 millions de molécules : Projet BSrC Cancer du foie :projet ICGC (200 teraoctets) analyse des BD sur 25000 tumeurs de 5O types de cancers Détection épidémies en temps réel : Projet Healthmap (1 teraoctets) : Suivi progression cholera en Haiti avec 2 semaines d avance (cholera, grippe, dengue,..)
OPEN DATA
What Makes DATA OPEN? Data Open Format Open The US Government through the Open Government Directive (http://www.whitehouse.gov/omb/assets/memor anda_2010/m10-06.pdf ) defines an open format as one that is platform independent, machine readable, and made available to the public without restrictions that would impede the re-use of that information. 9 July 2012 30
OPEN (DATA) FORMAT? Example Open Formats: PDF for documents (but not data) CSV for data (Excel) Web standards for publishing, sharing or linking HTML, XML, RDF Web standards for syndication RSS, Atom, JSON 31
Metadata? Metadata The information about the data being shared Who produced it Where When Use restrictions Etc. Use standards such as ADMS or Dublin Core New (Search-oriented) Embedded dataset metadata coming
Data analytics Analytics based on over 1,000,000 datasets from around the world can be seen at http://logd.tw.rpi.edu/iogds_data_analytics
Real Outcomes = Better Lives Open data eases the burden on families in caring for a sick child or seeking medical information More importantly, the data as it s aggregated empowers communities to make changes that improve the quality of life of citizens In California, ReLeaf plants trees in areas identified by Together We Breathe as danger areas for asthma sufferers Cities see hot spots that trigger asthma problems for their citizens Each company in Health 2.0 used government data to innovate and create high-value jobs in America Civic Commons has a great collection of good open use cases: http://civiccommons.org/ 9 July 2012 IOGDC Open Data Tutorial 34
Health.data.gov + Healthtap!
Energy Drives Innovation Energy.Data.gov connects innovators, industry, academia, and government at federal, state, and local levels 9 July 2012 IOGDC Open Data Tutorial 36
Challenges Spark Ideas Energy.Data.gov connects works with challenges across the nation to integrate federal data and bring government personnel to code-a-thons 9 July 2012 IOGDC Open Data Tutorial 37
Changing Economic Equations Economic Equations Study from Malaysian government: http://www.transknowformance.com/article.cfm?id=53 9 July 2012 IOGDC Open Data Tutorial 38
Data Mashups of Many Kinds More than 50 of these at http://logd.tw.rpi.edu IOGDC Open Data Tutorial 39
Policies Become Essential Policies are needed to help drive the ecosystem and motivate departments to continue to share data openly Build the policies based around issues that are universal Licensing, provenance: http://creativecommons.org/licenses/ Open data on food, security, culture, transportation, and transparency 9 July 2012 40
Linking Data LINKING DATA goes beyond govt Government Data is currently over ½ the cloud in size (~17B triples), 10s of thousands of links to other data (within and without) http://linkeddata.org/ 9 July 2012 IOGDC Open Data Tutorial 41
5 star LINKED OPEN DATA
Linked DATA/ Semantic WEB
«Linked DATA», RDF format and SPARQL [BENE2006] To make data machine processable, we need: - Unambiguous names for resources (that may also bind data to real world objects): URIs (URL) - common data model to access, connect, describe the resources: RDF - Access to that data: SPARQL - Define common vocabularies: RDFS, OWL, SKOS - Reasoning logics: OWL, Rules
RDF W3C Recommendation: January 15th, 2008 SPARQL queries RDF graphs An RDF graph is a set of triples to describe WEB resources RDF/XML is the W3C recommendation Simple triple: subject predicate object (cf Minsky et linguistique sur triplet <Sujet><Verbe> <Complément>) :serge rdf:label «serge" ; rdf:type ex:person ; ex:homepage http://example.org/sergespage/.
Sparql : SQL-like syntax PREFIX dc: http://purl.org/dc/elements/1.1/ <URI abrégé> SELECT?title WHERE { <http://example.org/book/book1> dc:title?title } < liste des triplets> FROM Name of the graph Note : Jena is a Java framework for building Semantic Web applications; provides an environment for RDF, RDFS and OWL, SPARQL and includes a rule- based inference engine
Exemple RDF [MAEV2012] < http://fr.wikipedia.org/wiki/bill_gates > Sujet < http://www.w3.org/pim/contact#mailbox> Prédicat «bill.gates@microsoft.com» Objet
SPARQL [MAEV2012] Langage d interrogation, ajout, modification et suppression de données RDF. Exemple : Auteurs français nés en 1900?
SPARQL engine Note : GRDDL (2007) to get RDF triples out of XML documents
Dataset «DBPEDIA»? DBPEDIA : Donnéees extraites de Wikipedia sous forme RDF DBPedia is an RDF version of information from Wikipedia which : - Contains data derived from Wikipedia s infoboxes, category hierarchy, article, abstracts, and various external links - Contains over 130 million triples - Dataset: http://dbpedia.org/
DBPEDIA [GAND2012] Projets 2012 [GAND2012]): Datalift.org (ANR) Kolflow (ANR) pluggable to any RDF store (SparQL1.1) ERWAN (visualisation de données RDF/XML) Mobile DB PEDIA? Tourisme mobiquitaire et guide temps réel (Cf Projet de FUI VAMP) Moteur KGRAM/Corese en Open Source VERROUS? - Modeles pour meta données? - Architectures logicielles Nice ouvertes Sophia Antipolis (stockage, acces,..)
DATA WEB (web de données) livre de David Wood Linking Government Data en 2011: le Web des données est passé de quelques 40 millions de triplets RDF au sein de quatre entrepôts de données en 2007 à 203 entrepôts avec plus de 25 milliards de triplets avec 395 millions de liens à la fin 2010.
EX : Dataset JAMENDO Jamendo is a community collection of music all freely licensed under Creative Commons licenses - http://www.jamendo.com/it/ - DBTune.org hosts a queryable RDF version of information about Jamendo's music collection - Data on thousands of artists, tens of thousands of albums, and nearly 100,000 tracks - http://dbtune.org/
EX : Dataset GOVtrack (USA) GovTrack provides SPARQL access to data on the U.S. Congress - Contains over 13,000,000 triples about legislators, bills, and votes - http://www.govtrack.us/
EX (GovTrack) : Find Senate bills that either John McCain or Barack Obama sponsored and the other cosponsored [CORNO2008] PREFIX bill: <http://www.rdfabout.com/rdf/schema/usbill/> PREFIX dc: <http://purl.org/dc/elements/1.1/> foaf: <http://xmlns.com/foaf/0.1/> SELECT?title?sponsor?status WHERE { {?bill bill:sponsor?mccain ; bill:cosponsor?obama. } UNION {?bill bill:sponsor?obama ; bill:cosponsor?mccain. }?bill a bill:senatebill ; bill:status?status ; bill:sponsor?sponsor ; dc:title?title.?obama foaf:name "Barack Obama".?mccain foaf:name "John McCain".}
Links to OPEN DATA community W3C egovernment Interest Group http://www.w3.org/egov/wiki/main_p age Open Data Innovation Network on LinkedIn http://bit.ly/odnetwork
DATA SYSTEMS «NO SQL (NOT ONLY SQL)
NO SQL (Not Only SQL) Un nouveau courant non relationnel permettant la gestion de données de type BIG DATA + Scalabilité + Evolutivité + Liberté de modélisation + Simplicité 12
NO SQL/ Data Systems [Noel2011] Platonic architecture of a DATA SYSTEM? 1) BATCH LAYER : HADOOP (arbitrary computations, horizontal scalability, map reduction,..) 2) SPEED LAYER : RIAK, CASSANDRA (NO SQL DB), MONGO DB (NO SQL), H- BASE (incremental algorithms, subset of big data,..) : Conclusion : one store both for operational data and analytics, REAL TIME in the pocket
Introduction à Hadoop Qui utilise Hadoop? Heck Another Darn Obscure Open-source Project Un modèle open source Un projet Apache, open source et de plus haut niveau Un modèle Clé/valeur distribué Permet de répartir le flux des requêtes Un modèle élastique Souplesse du schéma Souplesse de l infrastructure de stockage Souplesse de modélisation Un modèle tolérant aux pannes Replication des données entre les serveurs du cluster 61
Hadoop Distributed File System Le système de fichier distribué d Hadoop Composé de : Serveur maître: le NameNode Serveurs esclaves: les DataNodes Figure- Des Hadoop clusters avec des milliers de nœuds 62
L écosystème Hadoop 63
Hadoop MapReduce Techniques Open Source de la fondation Apache existe au travers d Hadoop et de son écosystème Paradigme de programmation introduit par Google pour traiter de gros volumes de données. L architecture MapReduce est composée de : Un JobTracker : centralisateur de tâches Des TaskTracker qui se chargent d exécuter les travaux demandés. 64
Son rôle consiste à diviser le traitement en 2 étapes : Map : étape d ingestion et de transformation des données sous la forme de paires clé/valeur Reduce : étape de fusion des enregistrements par clé pour former le résultat final.
L écosystème Hadoop: SQOOP Connecter Hadoop Hive SQL like queries DSL Hadoop Base de données relationnelles Sqoop Hbase Base de données pour un accès aléatoire read/ write Sqoop Systèmes d entreposage de données HDFS Un système de fichiers distribués Write once, read many 66
L écosystème Hadoop: Pig..PigLatin Un langage de script permettant d interroger des grands ensembles de données Des Job MapReduce sont générés. Une succession d opérations à appliquer à des données en entrée pour produire un résultat. Pig latin: adapté au grandes quantités de données un langage d interrogation comme SQL et les logiques relationnelles 67
Ex HADOOP en Annexe (MBDS TUNIS)
«From NO SQL to NEW SQL» [RICH2012] ([STON2011]
«From NO SQL to NEW SQL» [RICH2012] ([STON2011] NO SQL (Modèles basés colonnes, valeurs, ou graphes) : Cassandra (column), Mongo DB, SimpleDB, DynamoDB, CouchDB, Membase, Retis,.. NEW SQL (on top of RDB) : Scale DB, NimbusDB, VoltDB de Stonebraker (open Source, in memory RDB), Clustrix, + Oracle BIG DATA, Microsoft BIG DATA, Future is polyglot persistence
M.Stonebraker (2011) et VOLTDB Replacing real SQL ACID with either no ACID or ACID lite just pushes consistency problems into the applications where they are far harder to solve. Second, the absence of SQL makes queries a lot of work NEW SQL
Verrous Systèmes amphibiens :Passerelles entre SGBD/Datawarehouse TOP DOWN (SQL) et décisionnel BOTTOM UP (NOSQL) Maintien ACID approche SQL Interface SQL++ (Complexité cachée) Maintien Performances bottom up et scalabilité approches NOSQL «NEW SQL» (Stonebraker,..)
NEW SQL (ORACLE and BIG DATA)
BIG DATA for the enterprise [ORACLE2012]
Oracle BIG DATA for enterprise HADOOP and ORACLE Apache Hadoop is a new technology that allows large data volumes to be organized and processed while keeping the data on the original data storage cluster. Hadoop Distributed File System (HDFS) is the longterm storage system for web logs for example. These web logs are turned into browsing behavior (sessions) by running MapReduce programs on the cluster and generating aggregated results on the same cluster. These aggregated results are then loaded into a Relational DBMS system.
Oracle Solution Spectrum Many new technologies have emerged to address the IT infrastructure requirements outlined above. At last count, there were over 120 open source key-value databases for acquiring and storing big data, with Hadoop emerging as the primary system for organizing big data and relational databases expanding their reach into less structured data sets to analyze big data. These new systems have created a divided solutions spectrum comprised of: Not Only SQL (NoSQL) solutions: developer-centric specialized systems SQL solutions: the world typically equated with the manageability, security and trusted nature of relational database management systems (RDBMS) NoSQL systems are designed to capture all data without categorizing and parsing it upon entry into the system, and therefore the data is highly varied. SQL systems, on the other hand, typically place data in well-defined structures and impose metadata on the data captured to ensure consistency and validate data types.
Oracle Big Data solutions
Oracle Big Data Appliance
Oracle In-Database Analytics Oracle R Enterprise (statistics; prediction) In-Database Data Mining (predictive analytics) In-Database Text Mining (sentiment analysis) In-Database Semantic Analysis (Graphs) In-Database Spatial (data plotted on a map) In-Database MapReduce (procedural logic)
NEW SQL (Microsoft SQL Server 2012 et BIG DATA)
Big Data dans SQL SERVER 2012 SQL SERVER intègre la composante Hadoop, (framework open source spécialisé dans la gestion de données non structurées). L éditeur lance ainsi une seconde version d Hadoop pour Azure et Windows Server. Interface Excel à Hadoop le projet Apache Sqoop, la mise à disposition de Mahoot (outils de datamining pour Hadoop)
Recherches Informatiques Passerelles NEW SQL : Modèles, conception, algorithmique (requetes, ACID), systèmes, Middleware, OLTP Temps reel Reseaux sociaux spacio temps réel Applications innovantes décisionnelles autour de OLTP Temps réel (Interfaces Réseaux sociaux, tag mining)
Conclusion BIG DATA et recherche scientifique? Risque de prédire sans expliquer? La fin d un monde scientifique traditionnel? il n y a : Plus d hypothèses à formuler Avant! Plus d expérimentation à faire pendant! Plus de compréhension après!
Conclusion BIG DATA : évolution des méthodes scientifiques Méthode logique d Aristote (330 a JC) Méthode expérimentale de Roger Bacon (1250) Méthode théorique de Newton(1700) Méthode de simulation d Enrico Forni (1950) Méthode d analyse des liens de Google? Twitters? TAGS NFC? Apres une science des traitements : Vers une SCIENCE DES DONNEES? DES SERVICES?
Questions? 87
References [ORACLE2012] White Paper Oracle, January 2012 «Oracle BIG DATA for the enterprise» [GAND2012]Fabien Gandon «Recherches Web Sémantqiue» Juin 2012 [BUFFA2012] Michel Buffa, Proposition recherche pour Fui VAMP [MAEVA2012] Maeva Antoine, Rapport MBDS2012, INRIA Sophia, Equipe OASIS [DAVIS2009] «30 Minute Guide to RDF and Linked Data Ian Davis 2009, Slide Share [RICH2012] SQL, NO SQL and NEW SQL Chris Richardon Feb 2012 SLIDE SHARE [STON2011] New SQL: An Alternative to NoSQL and Old SQL for New OLTP Apps» ACM, Juin 2011 [NOEL2011] «BIG DATA Steven Noels, Wim Von Leuven, SAI 7 April 2011 [BEEM2012] «Open Data Tutorial», Hadley Beeman et al, IOGDC, 2012 [BERN2006] SPARQL will make a huge difference Tim Berners-Lee, May 2006 [CORNO2008], Corno et al, «SPARQL - QueryLanguage for RDF» [BASSM2012] Bassma Ben Dhouma «Implémentation d une application pour pour la gestion des données de type Big Data sous un Hadoop Cluster en utilisant une base de données Nosql» MBDS, Univ Manouba Oct 2012
Annexe : Projet MBDS Tunis (Univ de La Manouba), 2012 Application Hadoop pour Maroc Telecom [BASSM2012] Système d exploitation: Unix - Ubuntu Langage de programmation: JAVA Outils de travail: - Hadoop 0.20 - Sqoop - Pig 89
Millions Contexte du Projet (BASSM2012] 40.982.279 Abonnés 43 millions / jour transactions Call 26 millions/ jour transactions de recharge Taux de pénétration en % Parc des abonnés 100 30 20 50 10 0 2004 2005 2006 2007 2008 2009 0 2004 2005 2006 2007 2008 2009 Une croissance à 2 chiffres Une explosion de la BD 90
Problématique BIG DATA du Projet [BASSM2012] Quantités de données à stocker et données inexploitables par SQL simple 137 tables Temps de traitement 100 GB 10 min 1 TB 2 heures 1 PB 3 mois Compléxité et lourdeur des requêtes SQL Coût de stockage SQL ne permet pas de répondre aux besoins de Maroc telecom en terme de gestion BIG DATA 91
Architecture de l application Hadoop pour Maroc Telecom [BASSM2012] 92
Les étapes de réalisation Application Hadoop pour Maroc Telecom [BASSM2012] Installation de l environnement Configuration du Hadoop cluster Migration des données de la base de données oracle vers le HDFS en utilisant Soop Traitement des données présentes dans le HDFS en utilisant des scripts en PigLatin basés sur sur les UDFs du pig 93
Application Hadoop pour Maroc Telecom [BASSM2012] Etape 1: Installation de l environnement de travail (1/5) Configuration du Hadoop cluster Adressage Réseau et définition des machines Master et Slaves Attribuer l adresse IP et définir la hôte Master Attribuer l adresse IP et définir les hôtes Slaves Configuration SSH Installer les packages SSH Générer une paire de clés RSA Tester la configuration SSH Configuration HDFS Repertoire: Conf/ Fichier :hadoop-defaults.xml Configuration du fichier hadoopsite.xlm Configuration du fichier hdfssite.xml Configuration MapReduce Configuration du fichier coresite.xml 94
Application Hadoop pour Maroc Telecom [BASSM2012] Etape 1: Installation de l environnement de travail (2/5) Le serveurs master JobTracker NameNode Couche Couche MapReduce HDSF Les serveurs slaves Tasktracker DataNode Tasktracker DataNode JobTracker DataNode Structure générale du Hadoop cluster avec 4 nœuds 95
Application Hadoop pour Maroc Telecom [BASSM2012] Etape1: Installation de l environnement de travail (3/5) Démarrage du Cluster Formater le HDFS $bin / hadoop namenode format Démarrer le HDFS $ bin / start-dfs.sh Démarrer le MapReduce $ Bin / start-mapred.sh Démarrer le Cluster $bin/start-all.sh Arrêter le Cluster $bin/stop-all.sh 96
Application Hadoop pour Maroc Telecom [BASSM2012] Etape1: Installation de l environnement de travail (4/5) Récapitulatif du cluster http://localhost:50070 Capacité totale nœuds actifs et morts L interface Web Du NameNode 97
Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Installation de l environnement de travail (5/5) http://localhost:50030/ / L interface Web Du JobTraker. 98
Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (1/4) Extrait de la base de données Maroc Telecom : Les tables quotidiennes 99
Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (2/4) Exemple Importation de la table «IAM_REJECTED_MIGRATION» Spécifiez le JDBC de connexion Mot de passe le JDBC de la connexion, d authentification l adresse IP du serveur le port et le nom de la base nom d'utilisateur pour s authentifier sqoop --connect jdbc:oracle:thin:@ip:port:maroctelecom --username root --password ***** table IAM_REJECTED_MIGRATION' --split-by TARIFFINDEX; nom de la table à importer par quelle colonne les données doivent être indexées
Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (3/4) Lancement de la commande d importation 101
Application Hadoop pour Maroc Telecom [BASSM2012] Etape2: Migration des données (4/4) Résultat du lancement de la commande 102
Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Migration des données (1/4) Objectifs Gestion de données de types complexes Réduction du temps de réponse des requêtes SQL lourdes et complexes Des requêtes en langage naturel pour du filtrage dynamique (idem sans in-memory) 103
Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Traitement des données migrées (2/4) Exemple SELECT TO_NUMBER (TO_CHAR (TIMESTAMP, 'yyyymmdd')),tariffindex, SUBSTR(BEARER_FLAG,1,1),COUNT(DISTINCT MSISDN),FORFAIT FROM IAM_CALL2 WHERE TARIFFINDEX IN (1,2,3,5,6,9,15,16,21,22,24,25,26,27,18) GROUP BY TO_NUMBER (TO_CHAR (TIMESTAMP, 'yyyymmdd')), TARIFFINDEX, SUBSTR(BEARER_FLAG,1,1),FORFAIT; Requêtes SQL à traduire en PigLatin 104
Application Hadoop pour Maroc Telecom [BASSM2012] Etape3: Traitement des données migrées (3/4) Script PigLatin 105
Application Hadoop pour Maroc Telecom [BASSM2012] Traitement des données migrées (4/4) Lancement du Pig Lancement du shell GRUNT Lignes du script i Lancement du Job MapReduce Script PigLatin 106