BD**2 : Des BD à BD (des Bases de Données à BIG DATA)

Dimension: px
Commencer à balayer dès la page:

Download "BD**2 : Des BD à BD (des Bases de Données à BIG DATA)"

Transcription

1 BD**2 : Des BD à BD (des Bases de Données à BIG DATA) Pr Serge Miranda Directeur Master MBDS (www.mbds- fr.org) Conférence MBDS 2013

2 World is changing : Tiepolo (Un Nouveau Monde; Venise)

3 «Big» DATA? IDC 2012 : 1.8 Ze;a octets 10**24 ont été produits en 2011 (50% de croissance par an) Big data doesn t look like it s just an IT trend, either. Gartner forecasts 4.4m IT jobs will be created globally by 2015 to support big data.

4 VOLUME : Exa- octets /seconde! «Entre les débuts de la culture humaine et 2003, l humanité a produit 5 exa- octets (10**18; 1000 peta) d informayon Aujourd hui nous produisons autant d informayon tous les 2 jours» Eric Schmidt (CEO de Google), Davos 2010 En 2013 : chaque 10 minutes! En 2015 chaque 10 secondes (UC BERKELEY report, Big 2013), Data Pr en Serge 2020 Miranda, Univ de

5 De ans à 2013! Bibliothèque d Alexandrie : tout le savoir Humain! Chaque terrien 2013 aurait (en moyenne) 300 fois la collechon de ceee bibliothèque! 1200 EXAOCTETS 5 piles de CD de la Terre à la Lune (VIKT2013) En 2000 : ¼ des infos du monde étaient numérisées Doublement tous les ans En 2013 : 98%!

6 VOLUME BIG DATA? Chaque Seconde en 2012 sur Internet: requêtes sur Google (3 millions de mails par sec; 10 sites créés par sec) SMS Mails échangés 3000 visites sur Facebook ( 1 milliard «d amis») > 1 heure de video sur YOUTUBE (hébergement d 1,5 milliard de videos) 4000 tweets (140 M/jour) 20 Applicafons smartphones téléchargées 2 CV postés sur Linkedin (188 Millions de CV) et.. 1 usurpafon d idenfté

7 «DATAFICATION» (mise en donnée numérique; géoloc)? CORRELATION (Comment?) >> CAUSALITE (Pourquoi?)! GOOGLE et l algorithme de la grippe (NATURE, 2009) 1 milliard de recherches Google par jour analysées aux USA PrévenHon des incendies à New York Pb des immeubles en sous locahon et vétustes Moins de risques sur ceux qui ont eu un ravalement! «COURTIER de données» (Acxiom, Experian, )

8 EvoluHon société? «La vie des sociétés dans lesquelles règne le mode de produc9on s annonce comme une immense accumulayon de marchandises» Karl Marx Le Capital (1867) RévoluHon industrielle «comme une immense accumulayon de SPECTACLES» Guy Debord (1967) (images, TV, Top Down/BROADCAST) UHlisateur PASSIF «comme une Immense accumulayon d INFORMATIONS temps réel» Réseaux sociaux, NFC et Big Data BOTTOM UP/Narrowcast UHlisateur InteracHf et proachf

9 Plan DATA ecosystem (Mobiquitous informahon systems; Social network) BIG DATA OPEN DATA, LINKED DATA (Web Séman9que), WEB DATA DATA SYSTEMS SQL (et ODMG) NO SQL Hadoop (Ex en Annexe du MBDS2012) NEW SQL Stonebraker (2011) Oracle BIG DATA for the enterprise Microsoq BIG DATA IBM, Teradata RESEARCH Areas References

10 «DATA» roots/key words? 1) «DATA X» : DATA base (19/8/1968 : Ted Codd et Modèle RelaYonnel), DBMS DATA bank DATA warehouse (ETL/DATA Pumping,..) DATA mart DATA mining (OLAP, CorrélaHons,..), Data AnalyHcs, DATA Pumping DATA Systems («SQL», «NO SQL», «NEW SQL» en 2011) DATA mash up DATA SCIENCE 2) «Y DATA»: - Linked DATA, Web DATA (DBpedia, Web SémanHque) - Meta DATA - Open DATA è BIG Data («Data Science» + «Data Business»)

11 VOLUME le début d un «tsunami DATA» Vers le YOTTA De Données 20 petaoctets (10**15) de données traitées chaque jour sur Google (20 fois contenu BNF!) Datawarehouse de WALMART et BD. De la CIA (IDC) 35 zeea octets dans le monde numérique en Milliards d objets tagués en 2020 (1 tera) Ambifon NSA (Service Renseignement USA) : analyse simultanée d un yo;aoctet (10**32) è Vers 10**99 = «Google»> Les nouveaux réseaux communautaires spacio temporels TEMPS REEL ++ d entreprises («Zero mail» chez Atos et Bluekiwi en 2012, Microsoq et) Entre individus (PATH, PAIR, Google+,..) SANTE, TRANSPORT, TOURISME,

12 Un nouvel ESPACE DATA «Déluge» de DATA BOTTOM UP TEMP REEL (2.0, Tags,..) Non structurées (linked data) Gouvernement (Open Data). è «DATA DELUGE SCIENCE massively interdisciplinary coopera9on towards a global approach for interoperability «G.Glinos, EC 2012

13 UN NOUVEAU MONDE mobiquitaire! «Futur mobiquitaire» et «Écosystème endogène du Smartphone» (de la produchon d info à la consommahon d info) En 2011, plus d abonnements au mobile que d habitants sur la planète 2015 : La moihé de la planète aura un smartphone (50% NFC) 1000 Milliards d objets tagués en 2020 MOBIQUITE : MOBIlité et ubiquite USERWARE Instagram (Photo),..

14 Le Futur n est plus ce qu il était! «WEB? au cube» DATA WEB + Capteurs + TAGS «SOLOMO» (SOcial- LOcal- MObile) Déferlante /Déluge BOTTOM UP (crowdsourcing,..) Approches communautaires 2.0 «dynamiques, géolocalisées, contextuelles, temporelles» : tourisme, transport, santé,

15 BIG DATA : the crossing road!

16 BIG DATA? «BIG DATA Refers to data sets whose size is beyond the capabiliyes of the current DB (SQL) technology» C. Thanos, April 2012, Ercim News

17 BIG DATA (Wikipedia) Big data («grosse donnée» ou données massives) est une expression anglophone u9lisée pour désigner des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des ou9ls classiques de ges9on de base de données. Dans ces nouveaux ordres de grandeur, la capture, le stockage, la recherche, le partage, l'analyse et la visualisa9on des données doivent être redéfinis. Les perspec9ves du traitement des big data sont énormes, notamment pour l'analyse d'opinions ou de tendances industrielles, la génomique, l'épidémiologie ou la luqe contre la criminalité ou la sécurité 2. Le phénomène Big data est considéré comme l'un des grands défis informayques de la décennie Il engendre une dynamique importante tant par l'administra9on 3, que par les spécialistes sur le terrain des technologies ou des usages 4. OuHl adapté : Graph Databases (en), framework : MapReduce ou Hadoop et systèmes de geshon de bases de données comme BigTable.

18 BIG DATA : Les 3 «V» de M. Stonebraker (2011) et les 4V De Popescu (Variability) «Il y a beaucoup de bruit autour du Big Data. Ce concept a plusieurs significa9ons en fonc9on du type de personnes. Selon moi, la meilleure façon de considérer le Big Data est de penser au concept de trois V. Big Data peut être synonyme de gros Volume. Du teraoctet au petaoctet. Il peut également signifier la rapidité [Velocity] de traitement de flux con9nus de données. Enfin, la troisième significa9on : vous avez à manipuler une grande Variété de données, de sources hétérogènes. Vous avez à intégrer entre mille et deux mille sources de données différentes et l opéra9on est un calvaire. La vérité est que le Big Data a bien trois significa9ons et que les éditeurs n en abordent qu une à la fois. Il est important de connaître leur posi9onnement pour leur poser les bonnes ques9ons.

19 BIG DATA and «4V» VOLUME : Massively distributed architecture required to store data EX : Google, Amazon, Facebook, with 10 to 100 K servers VELOCITY (real Hme)with Extreme query Workload Indicators >> Precise answers Variety Unstructured data (linked data RDF, Open data,..) Semi structured data (XML) Variability Schema EVOLUTION (flexibility,..)

20 DefiniHon BIG DATA by IDC : 5th V!

21 2012 Google* indexe 20 milliards de pages par jour pour répondre à 3,3 milliards de requêtes quo9diennes. Google, c est aussi 425 millions d u9lisateurs de sa messagerie Gmail, disposant chacun d un espace de stockage de 10 Go, soit 4,25 «Eo». Google compte 250 millions de membres sur le réseau social Google+. YouTube recense 800 millions d u9lisateurs qui passent 4 milliards d heures à regarder des vidéos chaque mois Les u9lisateurs de youtube envoient 72 heures de vidéos par minute pour 1,3 milliard de vidéos hébergées en tout. *GOOGLE vient du chiffre mathémayque 1 suivi de 100 Zeros

22 VARIETY du «BIG» Data [FERM2012] WEB DATA : réseaux sociaux (TWITTER, FB, Instagram,..), e- commerce, indexahon, stockage de photos (Instagram), de vidéos, linked data, etc. ex: Google traitait 24 petaoctets de données par jour avec MapReduce en 2009) OPEN DATA données publiques (open data). LINKED DATA (Web Sémanfque) MOBIQUITOUS /TAGGED OBJECT DATA : Internet et objets communicants: RFID, NFC, réseaux de capteurs, journaux des appels en téléphonie; Données des sciences: génomique, astronomie, physique subatomique ex: le CERN annonce produire 15 petaoctets de données par an avec le LHC climatologie ex: le centre de recherche allemand sur le climat gère une base de données de 60 petaoctets données commerciales ex: historique des transachons dans une chaîne d hypermarchés données personnelles ex: dossiers médicaux;

23 Besoins mobiquitaires OLTP/OLCP Temps Réel Géolocalisafon (ContextualisaHon, Temporalité) Réseaux sociaux spacio temporels temps réel (électeurs, spectateurs,..) Approche décisionnelle/oltp temps réel (DATA ANALYTICS) BOTTOM UP Jeux, MarkeHng, CommunicaHon Réseaux sociaux (Twieer, Facebook,..) TAGS NFC,

24 Infographie BIG DATA (Dec 2012) hep://www.siliconrepublic.com/strategy/ item / the- future- of- big- data- inf

25 WEB et rêve de Laplace! «Le Web con9ent une descrip9on exhaus9ve du monde passé et présent» Julien Laugel (MFG Labs) Rêve de LAPLACE «Une enyté connaitra parfaitement l état du monde passé et présent pour prévoir son évoluyon»

26 Grands Domaines d applicafon BIG DATA et Projets du MBDS : du moteur de recherche au moteur de LA recherche GénéHque (découverte de 4 gènes liés au cancer du foie,..) médecine (neurosciences : localisahon migraine, ) Epidémies, Pandémies, Catastrophes (Ex SANDY en Oct 2012 avec cartographie inondahons via analyse tweets) Climatologie, Astronomie Océanographie (Expert planton, méduses,..)chimie LinguisHque, Macro- Economie Transport (Projet VAMP) Cartographie temps réel AIDE SOCIALE (Projet FIRST Inde) COMMERCE, TOURISME (Projet MATRIUM, REVE, IMAJEANS); Projet CITY WALLET avec Nice, Vitoria (Espagne) et Bruxelles

27 Recherche scienhfique AVANT Big PROBLEME Etat de l art INTUITION Data VALIDATION par Expérience, simulahon, calculs,

28 Recherche scienhfique avec BIG DATA Analyse informahque de BIG DATA IdenHficaHon de CORRELATIONS nouvelles Générateur d hypothèses Émergence de DECOUVERTES (avec ou pas expérimentahons) SCIENCE demain? Mise en relief de corrélahons Recherche de modèles expliquant les corrélahons

29 GeneraHons Share Differently s era generation Focus on society Friendships are forged through adversity s era generation Focus on community Friendships forged through identification with a cause s era generation Focus on the individual Friendships forged through individual goal accomplishment 2000 s era generation Focus on common interests and SHARING Des rapports de FORCE aux rapports de FLUX (Joel de Rosnay 2012 SURFER LA VIE ) Friendships are created or thrive virtually Big Data 2013 Pr Serge Miranda, Univ de IOGDC Open Data Tutorial

30 BIG DATA et «Village TERRE»! «D une distance de 6 à une distance de 2» (UC BERKELEY) «Expert» (financier, médecin, professeur, guide,..) + «ExperHse» (Data AnalyHcs)!

31 EX1 : Big data et Neurosciences Projet BrainScanr de Jessica et Bradley VOYTEK Analyse de 3,5 millions d arhcles en neurosciences Carte de «proximité stahshque» entre termes neuroscienhfiques Générateur automahque d hypothèses Proximité entre «sérotonine» et «migraine» (2943 arhcles) Proximité entre «striatum» (région cerveau) et «migraine» (4782 arhcles)» è RéorientaHon des travaux de recherche!

32 Ex2: BIG DATA et psycho- linguishque «Emergence des mots chez le bébé?» Deb ROY du MIT a enregistré et filmé son propre bébé pendant 3 ans (jour et nuit!) (90 000H de video et H audio) <200 teraoctets> 70 Millions de mots prononcés Approche d analyse psycho linguisfque d assimilafon et d évolufon du langage chez l être humain (et modèle contextuel)!

33 «Profil numérique et BIG DATA»

34 Exemple: MOODMeter!

35 MOOC? (Massively Open Online Courses) Concept né en 2008 Mise en Oeuvre à l été 2011 à l Université de Stanford aux USA avec une approche pédagogique essenhellement portée sur le contenu de l enseignement diffusé 1 cours gra9uit en Intelligence Ar9ficielle a été suivi par étudiants (finalisé par ) Andrew Ng l un des pionniers, le MOOC répond à une problémahque simple «La demande dans le monde est bien trop grande et notre société est incapable de construire assez d universités pour y répondre».

36 MOOC, Mobiquité et BIG DATA Retour temps réel pour professeurs sur ATTENTION des étudiants (eye tracking, émofons,..) Retour temps réel sur exercices Retour temps réel sur Intérêt des cours (au dela de l évaluafon finale) Echanges 2.0 entre étudiants

37 vers les M200C! M2OOC : Mobiquitous MOOC

38 Autres Exemples BIG DATA Déforestafon : projet PlanetarySKIN (7 tera de données satellites) Suivi astronomique en direct : Projet LSST (30 Tera chaque nuit) Micro- organismes marins: Projet GOS (2 teraoctets) Bio Chimie sur 100 millions de molécules : Projet BSrC Cancer du foie :projet ICGC (200 teraoctets) analyse des BD sur tumeurs de 5O types de cancers Détecfon épidémies en temps réel : Projet Healthmap (1 teraoctets) : Suivi progression cholera en HaiH avec 2 semaines d avance (cholera, grippe, dengue,..)

39 OPEN DATA

40 Open Data (Wikipedia) «Une donnée ouverte (en anglais open data) est une informa9on publique brute, qui a voca9on à être librement accessible et réu9lisable. La philosophie pra9que de l'open data préconise une libre disponibilité pour tous et chacun, sans restric9on de copyright, brevets ou d'autres mécanismes de contrôle.»

41 Les données ouvertes dans le Web des données (Wikipedia) Les principaux problèmes de l'exploita9on des données ouvertes sont de l'ordre technique car les données en masse ne peuvent pas être traitées humainement. Le concept de Web des données appliqué aux données ouvertes met en œuvre 3 mécanismes : permeqre l'existence de la donnée sur le réseau à travers une URI unique(cela inclut les URL). diminuer le coût de transforma9on de la données en apportant des formats standards lisible par les machines (comme avec RDF,RDFa ou les Microdonnée dans le HTML5) ; améliorer la qualité de la donnée pour éviter qu'un traitement de mise à disposi9on ne puisse les altérer. Un entrepôt de données même avec des erreurs est préférable qu'un entrepôt biaisé. Ainsi, des mécanisme pour la fréquence et l automa9sa9on des mises à jour de la donnée par les producteurs des données est possible avec un service SPARQL sur ces données. Les données ouvertes ne sont pas contrôlables par leurs producteurs (contrôle des mises à jours) et réellement exploitables par d'autres qu'à la condi9on d'u9liser ces 3 mécanismes.

42 What Makes DATA OPEN? Data Open Format Open The US Government through the Open Government DirecHve ( hep://www.whitehouse.gov/omb/assets/ memoranda_2010/m10-06.pdf ) defines an open format as one that is pla orm independent, machine readable, and made available to the public without restrichons that would impede the re- use of that informahon.

43 OPEN (DATA) FORMAT? Example Open Formats: PDF for documents (but not data) CSV for data (Excel) Web standards for publishing, sharing or linking HTML, XML, RDF Web standards for syndicahon RSS, Atom, JSON

44 Links to OPEN DATA community W3C egovernment Interest Group hep://www.w3.org/egov/wiki/ Main_Page Open Data InnovaHon Network on LinkedIn hep://bit.ly/odnetwork

45 Linking Data LINKING DATA goes beyond govt Government Data is currently over ½ the cloud in size (~17B triples), 10s of thousands of links to other data (within and without) hep://linkeddata.org/ Big Data 2013 Pr Serge Miranda, Univ de IOGDC Open Data Tutorial

46 «5 star» LINKED OPEN DATA En 2010, Tim Berners- Lee a donné une échelle de qualité des données ouvertes qui va de zéro à 5 étoiles.

47 Data analyfcs AnalyHcs based on over 1,000,000 datasets from around the world can be seen at hep://logd.tw.rpi.edu/iogds_data_analyhcs

48 (Open) Linked DATA/ Semanfc WEB Variante Open Data issue du Web Séman9que : Open Linked Data

49 Tim Berners- Lee, (Weaving the Web, 2001) on SEMANTIC WEB I have a dream for the Web [in which computers] become capable of analyzing all the data on the Web the content, links, and transac9ons between people and computers. A Seman9c Web, which should make this possible, has yet to emerge, but when it does, the day- to- day mechanisms of trade, bureaucracy and our daily lives will be handled by machines talking to machines. The intelligent agents people have touted for ages will finally materialize

50 «WEB SémanYque» du W3C hep://www.w3.org/2001/sw/ Le Web séman9que est un mouvement collabora9f mené par le World Wide Web Consor9um(W3C) 1 qui favorise des méthodes communes pour échanger des données. Le Web séman9que vise à aider l'émergence de nouvelles connaissances en s'appuyant sur les connaissances déjà présentes sur Internet. Pour y parvenir, le Web séman9que met en œuvre le Web des données qui consiste à lier et structurer l'informa9on sur Internet pour accéder simplement à la connaissance qu'elle con9ent déjà 2. Selon le W3C, «le Web séman9que fournit un framework qui permet aux données d'être partagées et réu9lisées entres plusieurs applica9ons, entreprises et groupes d'u9lisateurs». 2 Le Web séman9que propose des langages spécialement conçus pour les données : le RDF (Resource Descrip9on Framework), le OWL(Web Ontology Language), et le XML (extensible Markup Language). HTML décrit les documents et les liens entre eux. RDF, OWL, et XML, en revanche, peuvent décrire également des choses, comme des personnes, des réunions, ou des pièces d'avion.< WIKIPEDIA>

51 WEB SEMANTIQUE? è Un Modele de Données! un FORMAT Commun (Structures des données) Des idenhfiants universels de ressources du Web (URI/ URL) Un Format unique : RDF Un schéma : RDF Un langage de Manipulafon SPARQL OWL

52 «Linked DATA», RDF format and SPARQL [BENE2006] To make data machine processable : - Unambiguous names for resources (that may also bind data to real world objects): URIs (URL) - common data structures to access, connect, describe the resources: RDF (Resource Descripfon Framework) - Access to that data: SPARQL - Define common vocabularies: RDFS, OWL, SKOS - Reasoning logics: OWL, Rules

53 RDF (2008) Defined by W3C January 15th, 2008 Info representahon in the WWW Inherits XML Syntax Exploits URI to idenhfy Resources An RDF graph is a set of triples to describe WEB resources RDF/XML is the W3C recommendahon Simple triple: <subject predicate object> (cf Minsky et linguisyque sur triplet <Sujet><Verbe> <Complément>)

54 RDFS (RDF Schema) To specify vocabularies in RDF Classes/subclasses Resources Range Domain

55 Sparql : SQL- like syntax SPARQL queries for RDF graphs PREFIX dc: hep://purl.org/dc/elements/1.1/ <URI abrégé> SELECT?ftle WHERE { <h;p://example.org/book/book1> dc:ftle?ftle } < liste des triplets> FROM Name of the RDF graph Note : Jena is a Java framework for building Seman9c Web applica9ons; provides an environment for RDF, RDFS and OWL, SPARQL and includes a rule- based inference engine

56 Exemple RDF [MAEV2012] < > Sujet < Prédicat Objet Big Data 2013 Pr Serge Miranda, Univ de Nice Sophia Antipolis

57 Exemple SPARQL [MAEV2012] Langage d interrogation, ajout, modisication et suppression de données RDF. Exemple : Quels sont les Auteurs français nés en 1900? Big Data 2013 Pr Serge Miranda, Univ de Nice Sophia Antipolis

58 SPARQL engine Note : GRDDL (2007) to get RDF triples out of XML documents

59 OWL (Ontology Web Language) Declarafve logic- based language based on RDF Programs (reasoners) to Verify consistency of knowledge Discover implicit knowledge OWL Object properhes SemanHc inherent approach with resasoning capability Appropriate for DATA Exchange (protocols) Cf [ALIMI2012] to model the SE of Global Pla orm

60 DATA WEB (web de données) livre de David Wood Linking Government Data en 2011: le Web des données est passé de quelques 40 millions de triplets RDF au sein de quatre entrepôts de données en 2007 à 203 entrepôts avec plus de 25 milliards de triplets avec 395 millions de liens à la fin 2010.

61 EX : Dataset GOVtrack (USA) GovTrack provides SPARQL access to data on the U.S. Congress - Contains over 13,000,000 triples about legislators, bills, and votes - h;p://www.govtrack.us/

62 EX (GovTrack) : Find Senate bills that either John McCain or Barack Obama sponsored and the other cosponsored [CORNO2008] PREFIX bill: <hep://www.rdfabout.com/rdf/schema/usbill/> PREFIX dc: <hep://purl.org/dc/elements/1.1/> foaf: <hep://xmlns.com/foaf/0.1/> SELECT?Htle?sponsor?status WHERE { {?bill bill:sponsor?mccain ; bill:cosponsor?obama. } UNION {?bill bill:sponsor?obama ; bill:cosponsor?mccain. }?bill a bill:senatebill ; bill:status?status ; bill:sponsor?sponsor ; dc:htle?htle.?obama foaf:name "Barack Obama".?mccain foaf:name "John McCain".}

63 Dataset «DBPEDIA»? DBPEDIA : Données extraites de Wikipedia sous forme RDF DBPedia is an RDF version of informafon from Wikipedia which : - Contains data derived from Wikipedia s infoboxes, category hierarchy, arhcle, abstracts, and various external links - Contains over 130 million triples - Dataset: h;p://dbpedia.org/

64 DBPEDIA [GAND2012] Projets 2012 [GAND2012]): Dataliq.org (ANR) Kolflow (ANR) pluggable to any RDF store (SparQL1.1) ERWAN (visualisafon de données RDF/XML) Mobile DB PEDIA? è Tourisme mobiquitaire et guide temps réel Moteur KGRAM/Corese en Open Source VERROUS? - Modeles pour meta données? - Architectures logicielles ouvertes (stockage, acces,..)

65 DATA SYSTEMS for BIG DATA SQL (SQL2/SQL3) NO SQL (NOT ONLY SQL) NEWSQL

66 Approche Top Down SQL? Approche top down par STRUCTURATION des données /PRE définifon d un Schéma «fixe» (cf Modèle de données) UNIVERS REEL MODELE DE DONNEES SCHEMA

67 Approche Top DOWN SQL (données Structurées) 3 phases pour mise en place BD SQL : 1) CONCEPTION (UML,..) puis 2) Schéma (figé) puis 3) CREATION BD SQL (SQL3) ou ODMG ApplicaHons TRANSACTIONNELLES (OLTP) Propriétés TIPS Propriétés ACID ApplicaHons décisionnelles (OLCP) top down DATAWAREHOUSE DATA MINING

68 Rappels Modèle de données «relahonnel» (de CODD) support SQL «Modèle relafonnel de CODD» è Prérequis à SQL2 «Modèle OR de Chris Date» (3rd manifesto) è Prérequis à SQL3 et ODMG Modèle de Codd (19/8/1968) DOMAINES RELATIONS Aeributs/CP/CE Double définihon formelle

69 Apports des BD SQL2 et SQL3 Propriétés «TIPS» de l approche BD SQL TransacHons, Interface non procédurale (SQL), Persistance, StructuraHon (SCHEMA) «T» : «TRANSACTIONS» Propriétés «ACID» : Atomicité, Cohérence, IsolaHon, Durabilité OLTP (On line Transac9on Processing) Data Warehouse/data Mining (et OLCP : On Line Complex Processing) è Approche TOP DOWN

70 Traitements SQL Non SQL Marché BD SQL et standards OR? (Stonebraker 96 et Gartner) SGBD-OR SGBD- R (1) SQL2 G/P/D (2) SQL3 /Mobiquité SGF SGBD- OO (3) ODMG /CAO Simples Complexes Données (1) : 10 G$ <licences *> en 2010 (20 % de croissance, 60 G $ en 2020) (3) : 1/100 de (1) en 2010 et 2020 (2) : 2x (3) en 2010 ; 2*(1) en 2020! * Marché de 27 Big Data G 2013 dollars Pr Serge Miranda, avec Univ services de et support en 2010

71 Une dichotomie «data system»big DATA /SQL ou une intégrafon? SQL/ DATA BASE MANAGEMENT SYSTEMS (DBMS) et TIPS Données structurées (Tables, Objets, ) : Schéma et modèle Objet RelaHonnel Approche TOP DOWN ApplicaHons transachonnelles avec cohérence ACID et Propriétés TIPS Schema fixe et données structurées Systèmes centralisés et SCALABILITE VERTICALE (Serveur ++ et transachonnel ACID) Interface SQL avec réponses précises Gesfon/PRODUCTION/DECISION (Datawarehouse) Standards SQL3/0DMG (See [ORACLE12] ) NO SQL (Not Only SQL) Données non structurées (accessibles sur le WEB par URL,..) Approche BOTTOM UP Systèmes réparfs et SCALABILITE HORIZONTALE (10K + Servers ) Schema VARIABLE ou pas de Schéma et données non structurées (TEXT), semi- structurées (XML) ou liées (RDF) ApplicaHons DECISIONNELLES avec Données temps réel et SCALABILITE HORIZONTALE (Propriétés BASE et Thèorème CAP) InterrogaHon par machine avec indicahons de réponses et ONTOLOGIES Collaborafon/PARTAGE communautaire/cartographie TEMPS REEL Standards (Linked data : RDF, SPARQL, OWL, )

72 Les 4 «V» de Popescu pour BIG DATA [POPE2012] Alex Popescu, (comme Forrester Research), enrichit les 3 V de Stonebraker pour définir BIG DATA : - Volume: les données dépassent les limites de la scalabilité verhcale des ouhls classiques, nécessitant des soluhons de stockage distribués et des ouhls de traitement parallèles. - Variété: les données sont hétérogènes ce qui rend leur intégrahon complexe et coûteuse. - Vélocité: les données doivent être traitées et analysées rapidement eu égard à la vitesse de leur capture. - Variabilité: le format (Schéma) et le sens des données peut varier au fil du temps.

73 Propriétés «BASE» transachonnelles de Big Data BASE : Basically Available Scalability Eventually consistent Replica consistency; Cross Node Consistency CAP Theorem Consistency, SQL Availability, Parffoning NO SQL

74 Données «COMPLEXES» : SQL3, NO SQL et NEWSQL? Traitements SQL SGBD-OR SQL SQL3 (MIRA2013) NEW SQL Non SQL SGBD- OO ODMG NO SQL Complexes Structurées Top Down Complexes Non Structurées Temps Réel Bottom Up BIG DATA Données

75 NO SQL (Not Only SQL) (1998) Une approche non SQL permeeant la geshon de données de type BIG DATA cf 4 «V» de POPESCU + VARIABILITE + VOLUME + VELOCITE + VARIETE 12

76 NO SQL et les leaders du Web (logiciels Open Source) Google MapReduce et BigTable, Yahoo! Hadoop, S4, Amazon Dynamo, S3, Facebook Cassandra, Hive, Twieer : Storm, FlockDB, LinkedIn : KaŽa, SenseiDB, Voldemort, etc.

77 FondaHon APACHE Hadoop, Lucene/Solr, Hbase, Hive, Pig, Cassandra, Mahout, Zookeeper, S4, Storm, KaŽa, Flume, Hama, Giraph Start ups autour de Hadoop en 2012 : Cloudera (76M$ levés), Hortonworks (~20M$), Datameer (12M$), ZeQaset, Drawntoscale,

78 Types de SGBD «NO SQL» Les bases NoSQL visent à passer à l échelle (SCALABILITY) de manière horizontale en relâchant les condi9ons fortes de transac9onnalité (ACID ) aqendues des bases SQL (BASE), et en renonçant au modèle rela9onnel. 4 types de base NoSQL: Clé- valeur (ex: Hadoop, Cassandra,..) < table de hachage> Orientées colonne (Ex : BigTable,..) < stockage par COLONNES pas par lignes> Orientées document (ex: CouchDB, MongoDB,..) DOC = record; Pas de schéma; Ensemble de CLE- VALEUR; Graphe (ex: Neo4j) pour réseaux sociaux. Nœuds/liens/propriétés; pas d opérateurs ensemblistes mais parcours de graphes

79 NO SQL/ Data Systems [Noel2011] Platonic architecture of a DATA SYSTEM? 1) BATCH LAYER : HADOOP (arbitrary computahons, horizontal scalability, map reduchon,..) 2) SPEED LAYER : RIAK, CASSANDRA (NO SQL DB), MONGO DB (NO SQL), H- BASE (incremental algorithms, subset of big data,..) : Conclusion : one store both for operafonal data and analyfcs, REAL TIME in the pocket

80 MAP REDUCE et HADOOP

81 MAP REDUCE (Google 2004) MapReduce est à l origine une technique de programmahon connue de longue date en programmahon fonchonnelle, mais surtout un framework développé par Google pour le CALCUL DISTRIBUE implémentafons en open source: Hadoop (Yahoo! puis Fondafon Apache), Disco (Nokia), MrJob (Yelp!), etc. Autres implémenta9ons de MapReduce intégrées dans les bases de données No SQL: CouchDB, MongoDB, Riak,

82 L écosystème Hadoop

83

84

85 Son rôle consiste à diviser le traitement en 2 étapes : Map : étape d ingeshon et de transformahon des données sous la forme de paires clé/valeur Reduce : étape de fusion des enregistrements par clé pour former le résultat final.

86 Résumé MAP REDUCE Les différentes étapes du traitement vont donc être: - Découper les données d'entrée («spli ng») en «morceaux» parallélisables - Mapper chacun des «morceaux» pour produire des valeurs associées à des clefs. - Grouper («shuffling») ces couples clef- valeur par clef. - Réduire (Reduce) les groupes indexés par clef en une forme finale, avec une valeur pour chaque clef.

87 Exemple simple pour illustrer approche MAP REDUCE

88 Enfin, il nous rester à programmer notre opérafon REDUCE, qui va recevoir la liste des groupes construits après l'opérafon MAP. Dans notre cas, l'opérafon REDUCE va simplement consister à addifonner les valeurs associées à chaque clef comme nous avons associé une valeur de «1» à chaque présence d'un mot dans MAP è cela nous donnera à terme le nombre d occurrences des mots du texte.

89 NEW SQL?

90 «From NO SQL to NEW SQL» Replacing real SQL ACID with either no ACID or ACID lite just pushes consistency problems into the applica9ons where they are far harder to solve. Second, the absence of SQL makes queries a lot of work M.Stonebraker Avec HADOOP, l administrateur est L u9lisateur!

91 Verrous MeHssage Systèmes amphibiens :Passerelles entre SGBD/Datawarehouse TOP DOWN (SQL) et décisionnel/analyhcs BOTTOM UP (NOSQL) MainHen ACID approche SQL Interface SQL++ (Complexité cachée) MainHen Performances boqom up et scalabilité approches NOSQL è «NEW SQL»

92 «From NO SQL to NEW SQL» [RICH2012] ([STON2011] NEW SQL (on top of SQL) : VoltDB de Stonebraker MYSQL Scale DB, NimbusDB, (open Source, in memory RDB), Clustrix, + TERADATA BIG DATA, Oracle BIG DATA, Microsoˆ BIG DATA, IBM Big Data Future is polyglot persistence

93 VOLTDB (Stonebraker 2011) : Designed by DBMS pioneer Mike Stonebraker for organiza9ons that have reached the price/performance limita9ons of general purpose SQL databases, VoltDB is a NewSQL database that combines the proven power of rela9onal processing with blazing speed, linear scalability and uncompromising fault tolerance. VoltDB is the ideal solu9on for high velocity database applica9ons that require 100% accuracy and real- 9me analy9cs. JUIN 2012 : VOLTDB Processes TransacYon par seconde sur Cloud Amazon

94 CTO de Teradata Stephen Brobst (Oct 2012) «Désormais, vous pouvez bénéficier de la puissance de MapReduce et de la facilité d usage de SQL, Avant, avec Hadoop, les seules personnes capables d extraire des données étaient celles qui les avaient placées»

95 Big Data Teradata «Unified Data Architecture», avec intégrahon Hadoop. système de fichiers HDFS (Hadoop Distributed File System), au moyen du langage de requêtage SQL, un langage très familier dans le monde des bases de données. HCatalog, un framework de métadonnées Open Source développé par Hortonworks, et SQL- H, qui permet d analyser des données stockées sur un filesystem HDFS en uhlisant SQL. ASTER, propriété de Teradata, avait inventé et breveté SQL- MapReduce, qui greffe à SQL des fonchonnalités de MapReduce. L appliance Teradata- Aster Big Analyfcs plus de 50 applicahons analyhques pré- intégrées. 15 petabytes de données, réparhes entre les deux bases,

BIG DATA («BD») and DBMS platform

BIG DATA («BD») and DBMS platform BIG DATA («BD») and DBMS platform ( «De BIG Brother à BIG DATA») Pr Serge Miranda Directeur Master MBDS (www.mbds-fr.org) Conférence 2012-2013 Exa-octets/jour! «Entre les débuts de la culture humaine et

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1 2 Introduction Historique des bases de données : méthodes de stockage et d analyse

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Big data et données géospatiales : Enjeux et défis pour la géomatique Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique Événement 25e anniversaire du CRG Université Laval, Qc, Canada 08 mai

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON stephane.mouton@cetic.be Groupe de Discussion Big Data Aperçu des technologies et applications Stéphane MOUTON stephane.mouton@cetic.be Recherche appliquée et transfert technologique q Agréé «Centre Collectif de Recherche» par

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Sophia Conf 2014. Bases de données RDF. versatilité, puissance et scalabilité. Bases de données RDF

Sophia Conf 2014. Bases de données RDF. versatilité, puissance et scalabilité. Bases de données RDF Sophia Conf 2014 versatilité, puissance et scalabilité Your business 2 juillet technologists. 2014 Sophia Conf Powering 2014 progress Agenda Introduction Vision du Web sémantique par Atos Modèle W3C vs

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

NoSQL Faut-il franchir le pas?

NoSQL Faut-il franchir le pas? NoSQL Faut-il franchir le pas? Guillaume HARRY Journées rbdd Octobre 2015 Sommaire 1. Evolution des bases de données 2. Le mouvement NoSQL 3. Les grandes familles du NoSQL 4. Aller ou non vers le NoSQL?

Plus en détail

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

KARMA Le système de Revenue Management d'air France KLM avec Hadoop

KARMA Le système de Revenue Management d'air France KLM avec Hadoop KARMA Le système de Revenue Management d'air France KLM avec Hadoop Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 16 Décembre 2014 Martial AYAS maayas@airfrance.fr 2 Agenda 1. Présentation

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on Thierry Badard, PhD, ing. jr Centre de Recherche en Géoma6que Conférence ITIS - Big Data et Open Data au coeur

Plus en détail

Les datas = le fuel du 21ième sicècle

Les datas = le fuel du 21ième sicècle Les datas = le fuel du 21ième sicècle D énormes gisements de création de valeurs http://www.your networkmarketin g.com/facebooktwitter-youtubestats-in-realtime-simulation/ Xavier Dalloz Le Plan Définition

Plus en détail

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages 1 Mehdi LOUIZI Plan Pourquoi Hadoop? Présentation et Architecture Démo Usages 2 Pourquoi Hadoop? Limites du Big Data Les entreprises n analysent que 12% des données qu elles possèdent (Enquête Forrester

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Bigdata et Web sémantique. les données + l intelligence= la solution

Bigdata et Web sémantique. les données + l intelligence= la solution Bigdata et Web sémantique les données + l intelligence= la solution 131214 1 big data et Web sémantique deux notions bien différentes et pourtant... (sable et silicium). «bigdata» ce n est pas que des

Plus en détail

NoSql. Principes. Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData

NoSql. Principes. Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData NoSql Principes Google (Map Reduce, Big Table) et Amazone (Dynamo) pour faire face à la monté en charge liée au BigData Les SGBD NoSql partagés ne peuvent satisfaire que 2 critères au plus NoSql Les transactions

Plus en détail

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation - définition - étapes - impacts La révolution en cours du big data - essai de définition - acteurs - priorités

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce

Plus en détail

Conférences invitées

Conférences invitées Conférences invitées The Process of Process Modeling Barbara Weber University of Innsbruck, Austria Barbara.Weber@uibk.ac.at ABSTRACT. Business process models have gained significant importance due to

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

Tables Rondes Le «Big Data»

Tables Rondes Le «Big Data» Tables Rondes Le «Big Data» 2012-2013 1 Plan Introduc9on 1 - Présenta9on Ingensi 2 - Le Big Data c est quoi? 3 - L histoire 4 - Le monde du libre : Hadoop 5 - Le système HDFS 6 - Les algorithmes distribués

Plus en détail

La rencontre du Big Data et du Cloud

La rencontre du Big Data et du Cloud La rencontre du Big Data et du Cloud Libérez le potentiel de toutes vos données Visualisez et exploitez plus rapidement les données de tous types, quelle que soit leur taille et indépendamment de leur

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

BD 2: des Bases de Données à Big Data

BD 2: des Bases de Données à Big Data BD 2: des Bases de Données à Big Data Professeur Serge Miranda Département Informatique Université de Nice Sophia Antipolis Directeur du Master MBDS (www.mbds-fr.org) MOOC 2014-2015 sur plateforme FUN

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

Web sémantique, données libres et liées, UNT

Web sémantique, données libres et liées, UNT Web sémantique, données libres et liées, UNT Yolaine Bourda September 20, 2012 Web sémantique De nombreux documents sont présents sur le Web. Pourtant il est parfois difficile d avoir des réponses à des

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Introduction aux bases de données NoSQL

Introduction aux bases de données NoSQL Introduction aux bases de données NoSQL Khaled Tannir ets@khaledtannir.net Montréal - 23 Juillet 2015 Qui suis-je? Khaled TANNIR Big Data Architect Lead 20 ans d expérience ets@khaledtannir.net @khaled_tannir

Plus en détail

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par. École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011

NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011 NoSQL : hype ou innovation? Grégory Ogonowski / Recherches Octobre 2011 Sommaire Introduction Théorème CAP NoSQL (principes, mécanismes, démos,...) Ce que nous avons constaté Recommandations Conclusion

Plus en détail

MIF18 - Les SGBD Non-Relationnels

MIF18 - Les SGBD Non-Relationnels MIF18 - Les SGBD Non-Relationnels Fabien Duchateau fabien.duchateau [at] univ-lyon1.fr Université Claude Bernard Lyon 1 2013-2014 Transparents disponibles sur http://liris.cnrs.fr/~ecoquery/dokuwiki/doku.php?id=

Plus en détail

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES 1 FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES «Dans le concret, projets de transformation vers le BigData» V1-10/03/15 ABED AJRAOU CONNAISSEZ-VOUS PAGESJAUNES? CONNAISSEZ-VOUS PAGESJAUNES? LES MEGADONNEES RÉPONDENT

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Mappy en Chiffre Filiale du groupe Solocal 10M de visiteurs uniques 300M visites annuelles 100 collaborateurs dont 60% technique 3,7 Md de dalles

Plus en détail

quand le lien fait sens

quand le lien fait sens Fabien Gandon - @fabien_gandon - http://fabien.info Wimmics (Inria, I3S, CNRS, Université de Nice) W3C AC Rep pour Inria Données liées et Web sémantique quand le lien fait sens étendre la mémoire humaine

Plus en détail

For Fun and Profit Datasio 2012

For Fun and Profit Datasio 2012 For Fun and Profit Datasio 2012 130 Nouveaux acteurs Big Data depuis 2009 1 2 3 Agenda Hadoop, poids lourd du Big Data Stats Web avec Hive chez Scoop.it Profession: Data Scientist Agenda 1 Hadoop, poids

Plus en détail

Les bases de données relationnelles

Les bases de données relationnelles Bases de données NO SQL et SIG : d un existant restreint à un avenir prometteur CHRISTIAN CAROLIN, AXES CONSEIL CAROLIN@AXES.FR - HTTP://WWW.AXES.FR Les bases de données relationnelles constituent désormais

Plus en détail

Big Graph Data Forum Teratec 2013

Big Graph Data Forum Teratec 2013 Big Graph Data Forum Teratec 2013 MFG Labs 35 rue de Châteaudun 75009 Paris, France www.mfglabs.com twitter: @mfg_labs Julien Laugel MFG Labs julien.laugel@mfglabs.com @roolio SOMMAIRE MFG Labs Contexte

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

JDev Atelier Datalift

JDev Atelier Datalift JDev Atelier Datalift RDF, Linked (Open) Data & Datalift Your business JDev technologists. - 6 septembre Powering 2013 progress Le Linked Data Publier des données structurées sur le Web en les reliant

Plus en détail

Gestion de données complexes

Gestion de données complexes Master 2 Informatique Spécialité AIGLE Gestion de données complexes Amayas ABBOUTE Gilles ENTRINGER SOMMAIRE Sommaire i 1 - Introduction 1 2 - Technologies utilisées 2 2.1 API Jena........................................

Plus en détail

Capture the value of your IT

Capture the value of your IT Trader s S.A.S www.quick-software-line.com 01 53 10 27 50 Capture the value of your IT Think Data! En 2014 En 2015 Trader s puts your Data in Motion with Quick-SmartData!!! Quick-SmartData à l intérieur

Plus en détail

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013 Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine

Plus en détail

Anticiper et prédire les sinistres avec une approche Big Data

Anticiper et prédire les sinistres avec une approche Big Data Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél

Plus en détail

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Big Data. Concept et perspectives : la réalité derrière le buzz Big Data Concept et perspectives : la réalité derrière le "buzz" 2012 Agenda Concept & Perspectives Technologies & Acteurs 2 Pierre Audoin Consultants (PAC) Pierre Audoin Consultants (PAC) est une société

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Le Cloud Computing avec Amazon Web Services

Le Cloud Computing avec Amazon Web Services Le Cloud Computing avec Amazon Web Services Jeff Barr Traduit par Isabelle Hurbain-Palatin, avec la contribution technique de Dominique Colombani Pearson Education France a apporté le plus grand soin à

Plus en détail

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group 1 Catherine Chochoy I/T Specialist, IBM Information Management on System z, Software Group Alain Maneville Executive I/T specialist, zchampion, IBM Systems and Technology Group 2 Le défi du Big Data (et

Plus en détail

Les activités de recherche sont associées à des voies technologiques et à des opportunités concrètes sur le court, moyen et long terme.

Les activités de recherche sont associées à des voies technologiques et à des opportunités concrètes sur le court, moyen et long terme. Mémoires 2010-2011 www.euranova.eu EURANOVA R&D Euranova est une société Belge constituée depuis le 1er Septembre 2008. Sa vision est simple : «Être un incubateur technologique focalisé sur l utilisation

Plus en détail

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine 24.2. Slimane.bah@emi.ac.ma Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24.2 1 Semestre 4 : Fev. 2015 Grid : exemple SETI@home 2 Semestre 4 : Fev. 2015 Grid : exemple SETI@home

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence L offre décisionnel IBM Patrick COOLS Spécialiste Business Intelligence Le marché du Business Intelligence L enjeux actuel des entreprises : devenir plus «agiles» Elargir les marchés tout en maintenant

Plus en détail

Généralités sur les bases de données

Généralités sur les bases de données Généralités sur les bases de données Qu est-ce donc qu une base de données? Que peut-on attendre d un système de gestion de bases de données? Que peut-on faire avec une base de données? 1 Des données?

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

Données liées et Web sémantique quand le lien fait sens

Données liées et Web sémantique quand le lien fait sens Données liées et Web sémantique quand le lien fait sens Fabien Gandon #inria_industrie étendre la mémoire humaine Vannevar BUSH 2 étendre la mémoire humaine Vannevar BUSH Memex, Life Magazine, 10/09/1945

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

Présentation du module. Base de données spatio-temporelles. Exemple. Introduction Exemple. Plan. Plan

Présentation du module. Base de données spatio-temporelles. Exemple. Introduction Exemple. Plan. Plan Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Partie 1 : Notion de bases de données (Conception

Plus en détail

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data? Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data? Dr Wolfgang Martin Analyste et adhérant du Boulder BI Brain Trust Les Big data Démystifier les Big data.

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Comment concevoir et réaliser des applications mobiles combinant l'iot et le cognitif? Erwan Maréchal

Comment concevoir et réaliser des applications mobiles combinant l'iot et le cognitif? Erwan Maréchal IBM 2015 App Days Amphithéatre Blaise Pascal Comment concevoir et réaliser des applications mobiles combinant l'iot et le cognitif? Erwan Maréchal Appli Single Page : le concept du «Single Page App» Qu

Plus en détail

Le BigData, aussi par et pour les PMEs

Le BigData, aussi par et pour les PMEs Parole d expert Le BigData, aussi par et pour les PMEs Stéphane MOUTON, CETIC Département Software and Services Technologies Avec le soutien de : LIEGE CREATIVE Le Big Data, aussi par et pour les PMEs

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation. Les infrastructure du Big Data Le «Big Data» vise à tirer un avantage concurrentiel au travers de méthodes de collecte, d analyse et d exploitation des données qu on ne pouvait utiliser jusqu à présent

Plus en détail

Introduction au web de données et au web sémantique

Introduction au web de données et au web sémantique Introduction au web de données et au web sémantique Catherine Faron Zucker faron@unice.fr Web des données ouvertes Un mouvement mondial utile pour diffuser des données produites utile pour partager de

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France L Art d être Numérique Thierry Pierre Directeur Business Development SAP France La Transformation Numérique «Plus largement, l impact potentiel des technologies numériques disruptives (cloud, impression

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Les humanités numériques à l ère du big data

Les humanités numériques à l ère du big data Les humanités numériques à l ère du big data D. A. ZIGHED djamel@zighed.com Journées Big data & visualisation Focus sur les humanités numériques ISH Lyon 18-19 juin 2015 Co-organisées par EGC AFIHM - SFdS

Plus en détail

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012 Business Intelligence, Etat de l art et perspectives ICAM JP Gouigoux 10/2012 CONTEXTE DE LA BI Un peu d histoire Premières bases de données utilisées comme simple système de persistance du contenu des

Plus en détail

SEcurité et Internet Des Objets : le laboratoire SEIDO

SEcurité et Internet Des Objets : le laboratoire SEIDO SEcurité et Internet Des Objets : le laboratoire SEIDO Gérard Memmi, Chef du Département Informatique et Réseaux Télécom ParisTech Philippe Forestier, Chef de projet EDF R&D AGENDA 1. INTERNET OF THINGS

Plus en détail

Document réalisé par Khadidjatou BAMBA

Document réalisé par Khadidjatou BAMBA Comprendre le BIG DATA Document réalisé par Khadidjatou BAMBA 1 Sommaire Avant propos. 3 Historique du Big Data.4 Introduction.....5 Chapitre I : Présentation du Big Data... 6 I. Généralités sur le Big

Plus en détail

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca Une brève introduction aux Données Massives - Challenges et perspectives Romain Picot-Clémente Cécile Bothorel Philippe Lenca Plan 1 Big Data 2 4Vs 3 Hadoop et son écosystème 4 Nouveaux challenges, nouvelles

Plus en détail

CONTRAT D ETUDES - LEARNING AGREEMENT

CONTRAT D ETUDES - LEARNING AGREEMENT CONTRAT D ETUDES - LEARNING AGREEMENT Règles générales La présence aux séances d enseignement des modules choisis est obligatoire. Chaque module comporte des séances de travail encadrées et non encadrées

Plus en détail

10. Base de données et Web. OlivierCuré [ocure@univ-mlv.fr]

10. Base de données et Web. OlivierCuré [ocure@univ-mlv.fr] 10. Base de données et Web 313 Evolution de l'information Ordre de grandeur : 314 1Mo : 1 gros roman 200Mo : ce que mémorise un être humain dans sa vie. 900Mo : information contenue dans le génome d'une

Plus en détail

Datomic. La base qui détonne (aka database as a value)

Datomic. La base qui détonne (aka database as a value) Datomic La base qui détonne (aka database as a value) Identité Base de données NoSQL Distribuée ("cloud"!) ACID Annoncée début 2012 Version 0.8.XXXX Rich Hickey et Relevance (Clojure!) Licence privative

Plus en détail

Introduction data science

Introduction data science Introduction data science Data science Master 2 ISIDIS Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/~verel Université du Littoral Côte d Opale Laboratoire LISIC Equipe

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

Offre formation Big Data Analytics

Offre formation Big Data Analytics Offre formation Big Data Analytics OCTO 2014 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél : +33 (0)1 58 56 10 00 Fax : +33 (0)1 58 56 10 01 www.octo.com 1 Présentation d OCTO Technology 2 Une

Plus en détail

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Responsable du stage : Nabil Belcaid Le Guyader Chef de projet : Ali Belcaid Déroulement du stage

Plus en détail

Fouille de données et sémantique : des techniques pour donner du sens aux données

Fouille de données et sémantique : des techniques pour donner du sens aux données Fouille de données et sémantique : des techniques pour donner du sens aux données Nathalie Aussenac-Gilles (IRIT) co-animatrice avec M. Boughanem de l axe masse de données et calcul http://www.irit.fr/-masses-de-donnees-et-calcul,677-?lang=fr

Plus en détail

Big Data On Line Analytics

Big Data On Line Analytics Fdil Fadila Bentayeb Lb Laboratoire ERIC Lyon 2 Big Data On Line Analytics ASD 2014 Hammamet Tunisie 1 Sommaire Sommaire Informatique décisionnelle (BI Business Intelligence) Big Data Big Data analytics

Plus en détail

Sun ONE Application Server Platform Summary

Sun ONE Application Server Platform Summary Sun ONE Application Server Platform Summary Version 7, Update 3 Part Number 817-5602-10 February 2004 This document provides the specifics on supported platform components for the Sun Open Net Environment

Plus en détail

Introduction Big Data

Introduction Big Data Introduction Big Data SOMMAIRE Rédacteurs : Réf.: SH. Lazare / F. Barthélemy AXIO_BD_V1 QU'EST-CE QUE LE BIG DATA? ENJEUX TECHNOLOGIQUES ENJEUX STRATÉGIQUES BIG DATA ET RH ANNEXE Ce document constitue

Plus en détail

AMESD-Puma2010-EFTS- Configuration-update-TEN (en-fr)

AMESD-Puma2010-EFTS- Configuration-update-TEN (en-fr) AMESD-Puma2010-EFTS- Configuration-update-TEN (en-fr) Doc.No. : EUM/OPS/TEN/13/706466 Issue : v3 Date : 7 May 2014 WBS : EUMETSAT Eumetsat-Allee 1, D-64295 Darmstadt, Germany Tel: +49 6151 807-7 Fax: +49

Plus en détail

Bases de Données. Stella MARC-ZWECKER. stella@unistra.u-strasbg.fr. Maître de conférences Dpt. Informatique - UdS

Bases de Données. Stella MARC-ZWECKER. stella@unistra.u-strasbg.fr. Maître de conférences Dpt. Informatique - UdS Bases de Données Stella MARC-ZWECKER Maître de conférences Dpt. Informatique - UdS stella@unistra.u-strasbg.fr 1 Plan du cours 1. Introduction aux BD et aux SGBD Objectifs, fonctionnalités et évolutions

Plus en détail

Quick Start Guide This guide will help you install a base configuration of IBM Tivoli Key Lifecycle Manager.

Quick Start Guide This guide will help you install a base configuration of IBM Tivoli Key Lifecycle Manager. IBM Tivoli Key Lifecycle Manager Version 2.0.1 Quick Start Guide This guide will help you install a base configuration of IBM Tivoli Key Lifecycle Manager. National Language Version: To obtain the Quick

Plus en détail