Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on Thierry Badard, PhD, ing. jr Centre de Recherche en Géoma6que Conférence ITIS - Big Data et Open Data au coeur de la ville intelligente 29 avril 2014
Plan de la présenta-on Déluge de données Qu est ce que le Big data Écosystème technologique Big data Use cases et défis rela-fs au Big data Et le géospa-al dans tout cela? Défis et enjeux
Variété de sources d informa-on Explosion de la téléphonie mobile Quan-té colossale de documents/informa-ons Sur le Net mais aussi dans vos propres systèmes d informa-on! Wiki, blogs, documents Word, PDF, emails, logs/transac-ons, stats Apogée des réseaux sociaux Non seulement textuels, mais aussi image, vidéo, Avec documents, données hautement non structurées Développement de l open data Accessibilité de plus en plus grande à de la donnée $ Développement d API d accès Les capteurs sont partout et fournissent des quan-tés immenses : Imagerie, vidéo, nuages de points, mesures diverses, En con-nu dans le temps è Historique, accès à différents états
Variété de sources d informa-on
Variété de sources d informa-on
Variété de sources d informa-on
Variété de sources d informa-on Explosion de la téléphonie mobile Quan-té colossale de documents/informa-ons Sur le Net mais aussi dans vos propres systèmes d informa-on! Wiki, blogs, documents Word, PDF, emails, logs/transac-ons, stats Apogée des réseaux sociaux Non seulement textuels, mais aussi image, vidéo, Avec documents, données hautement non structurées Développement de l open data Accessibilité de plus en plus grande à de la donnée $ Développement d API d accès Les capteurs sont partout et fournissent des quan-tés immenses : Imagerie, vidéo, nuages de points, mesures diverses, En con-nu dans le temps è Historique, accès à différents états Explosion à venir des objets connectés (Internet of Things), drones (diminu-on des coûts),
Informa-on overload Souce : IDC
Informa-on overload Souce : IDC
Qu est ce que le Big data? Dan Ariely
Qu est ce que le Big data? Selon un étude intéressante de Celent auprès de 33 ins-tu-ons financières (banques et assurances) : Les répondants devaient choisir 3 phrases parmi 4 pour définir le terme Big data : "data that is semi- structured or unstructured" (74%) "predic-ve analy-cs or modeling" (68%) "large volumes of data that can not be accommodated with tradi-onal rela-onal DBMS" (59%) social media data (27%)
Qu est ce que le Big data? Selon un étude intéressante de Celent auprès de 33 ins-tu-ons financières (banques et assurances) : Les répondants devaient choisir 3 phrases parmi 4 pour définir le terme Big data : "data that is semi- structured or unstructured" (74%) "predic-ve analy-cs or modeling" (68%) "large volumes of data that can not be accommodated with tradi6onal rela6onal DBMS" (59%) social media data (27%)
Les 3 V de Gartner Introduit en 2001 par Doug Laney de Gartner : Volume Variété Côté structuré/non structuré des données n est qu un aspect Vélocité Fait référence à la fréquence de changement des données Et donc à la durée pendant laquelle ces données restent per-nentes Nécessite donc des technologies qui peuvent agréger très rapidement ces données pour en permenre l analyse dans un délais court On peut ajouter : Valeur ou la Véracité Qualité de ces données : Garbage in / garbage out! Défis important du Big data! Mais aussi importance existence d un business case!
Écosystème technologies Big data Pas de solu-on unique / diversité des analyses Stockage et traitement distribué de l informa-on Cloud, cluster de nœuds, Pas seulement Hadoop! GoogleFS, BigTables, MapReduce, Lot de technologies Big data NoSQL MongoDB, Cassandra, Entrepôts de données MPP (Massively Parallel Processing) Ex. : IBM Netezza, GreenPlum, Ver-ca, Solu-ons dites de «In memory compu-ng» Ex. : SAP HANA, Aussi de plus en plus présent dans couche analy-que de l écosystème Hadoop
Écosystème Hadoop Écosystème riche à plusieurs couches : Du stockage, traitement/intégra-on à l interroga-on et l analyse Traitement batch vs. temps réel
Big data use cases Source : Gartner, 2013
Big data use cases Source : Gartner, 2013
Big data use cases Pourquoi u-liser des technos big data? Diminu-on des coûts : Hadoop as a staging area 1TB de données : Hadoop ($500 à $2,000) vs. high end EDW ($20,000 à $200,000) Ne remplace pas les solu-ons BI/analyse en place mais les complémentent! Maintenant moyen d entreposer l EDW dans Hadoop Structura-on plus «agile» è Tester plusieurs modèles? Permenent de répondre à des besoins d analyse dans des temps plus courts ou qui ne pouvaient être adressés par les technologies actuelles 2x moins de temps = 2 fois plus de nœuds! Mais nécessité de bien définir un business case réaliste! Sinon risque important d errance et d avoir du mal à jus-fier in fine un projet Big data
Défis Big data Si les aspects stockage, intégra-on et interroga-on peuvent toujours progresser, déjà des solu-ons intéressantes qui existent et peuvent être u-lisées D autant plus qu elles se couplent aux engins BI déjà en place! Néanmoins, ces technos ne sont pas la solu6on miracle à tous les maux! Les données non structurées pour être analysées doivent être structurées même si cela ne se fait un peu qu au dernier moment et de façon moins figée! Image, vidéo, textes bruts,... imposent que ces technos doivent disposer de capacités d intégra-on, d interroga-on et d analyse appropriées/spécifiques/spécialisées Elles sont pour l heure non adressées par ces technologies!
Retour sur l étude de Gartner Source : Gartner, 2013
Défis Big data Si les aspects stockage, intégra-on et interroga-on peuvent toujours progresser, déjà des solu-ons intéressantes qui existent et peuvent être u-lisées D autant plus qu elles se couplent aux engins BI déjà en place! Néanmoins, ces technos ne sont pas la solu6on miracle à tous les maux! Les données non structurées pour être analysées doivent être structurées même si cela ne se fait un peu qu au dernier moment et de façon moins figée! Image, vidéo, textes bruts,... imposent que ces technos doivent disposer de capacités d intégra-on, d interroga-on et d analyse appropriées/spécifiques/spécialisées Elles sont pour l heure non adressées par ces technologies! De plus, l analyse passant par la visualisa-on des informa-ons, comment visualiser/interagir avec ces grandes masses d informa-on?
Défis de visualisa-on du Big data Source : hnps://www.flickr.com/photos/jurvetson/916142/
Défis de visualisa-on du Big data Source : hnp://www.flickr.com/photos/marc_smith/6879238126/
Défis de visualisa-on du Big data Source : hnp://www.keywebmetrics.com/2013/07/big- data- visualiza-ons/
Défis de visualisa-on du Big data Source : hnp://www.nsf.gov/news/news_images.jsp?cntn_id=125855&org=nsf/
Défis de visualisa-on du Big data Source : hnp://www.keywebmetrics.com/2013/07/big- data- visualiza-ons/
Défis de visualisa-on du Big data Source : hnp://www.psmag.com/naviga-on/nature- and- technology/geography- beer- 78105/
Défis de visualisa-on du Big data Source : hnp://m.theatlan-cci-es.com/neighborhoods /2014/04/map- all- places- us- where- nobody- lives/ 8910/
Défis de visualisa-on du Big data Source : Spa-aly-cs
La carte Un médium de communica-on intui-f Tout le monde la comprend, se situe et en appréhende les rela-ons entre en-tés (proximité, densité, forme, intensité, ) Permet de croiser/superposer différentes informa-ons et de faire les liens entre les couches de données Naviga-on intui-ve au sein de l informa-on (cf. Google Maps/Earth) Un médium assez universel 80 % of all data stored in corporate databases has a spa-al component [Franklin 1992]
Prochaine étape : la donnée géo? Source : Gartner, 2013
Composante géospa-ale Composante riche : S exprime à l aide de primi-ves simples : Vecteur : points, lignes, polygones (et volumes en 3D) Raster : données d imagerie (pixel) mais aussi grid, point clouds Complexe et poten-ellement volumineuse Lignes ou polygones avec dizaines de milliers de points Dé-ent une séman-que implicite Forme, orienta-on, rela-ons spa-ales, Nécessite des fonc-ons/opérateurs spéciaux pour l analyser mais largement sous- es-mée vs. le temps Alors que fondamentale à la prise de décision pleinement éclairée! Encore plus riche si on croise temps et espace (suivi spa-o- temporel de phénomènes, mise en exergue de patrons qui se répètent dans le temps et l espace, )
Vers des solu-ons Geo Big Data Ins-ller/intégrer de façon cohérente la composante spa-ale et ses opérateurs d interroga-on/analyse dans le «mille- feuille Big data» Stockage Intégra-on Traitement Interroga-on Analyse Fouille/explora-on Rendre la composante spa-ale aussi simple à manipuler, traiter et interroger que n importe quel type abstrait de données usuel (nombre, date, )
Vers des solu-ons Geo Big Data Certaines solu-ons commencent à apparaître au niveau stockage et accès/interroga-on en mode batch Spa-al Hadoop HadoopGIS GIS Tools for Hadoop (ESRI) Spa-al Hive Hive SP Pigeon (basé sur Pig) GeoMesa (basé sur Accumulo) Un commencement seulement Très embryonnaire pour bon nombre, prototypes de R&D Bien loin encore de l analyse en temps quasi- réel
Vers des solu-ons Geo Big Data De nouvelles méthodes et techniques de visualisa-on cartographique restent à inventer Capables d afficher et de naviguer dans ces grands volumes de données, de façon fluide et en temps réel Pour ne pas entraver le processus de pensée d un analyste Capables de supporter la Vélocité qu impose le Big data rapidité des changements et impacts qu ils peuvent avoir sur les données (rela-ons) Avec comme support un simple navigateur web
Autres défis Géo & Big data Nouvelles méthodes d analyse de données Qualité des données Sécurité des données Aspect confiden-alité, respect de la vie privée et responsabilité vis- à- vis de la donnée Disposer d exper-se Forma-on de la relève
MERCI Pour me contacter : Thierry.Badard @scg.ulaval.ca Tél. : 418 656-7116 Skype : tbadard Twi#er : @tbadard LinkedIn : h#p://ca.linkedin.com/in/thierrybadard