Technologie, méthode et applications du Big Data. PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR FRANÇOYS LABONTÉ, DIRECTEUR GÉNÉRAL LE 20 MAI 2015 Principal partenaire financier WWW.CRIM.CA
TABLE DES MATIÈRES Mise en contexte, définitions et concepts La gouvernance des données (Dominic Jaar, KPMG) Les technologies du Big Data (Tom Landry, CRIM) Pause Les applications du Big Data La mise en œuvre d un projet Big Data Discussions / Questions 2
MISE EN CONTEXTE, DÉFINITIONS ET CONCEPTS
POURQUOI LE BIG DATA MAINTENANT? 4
ÉVOLUTION DES CAPACITÉS DE CALCUL 5
POURQUOI LE BIG DATA MAINTENANT? 6
L OPPORTUNITÉ DU BIG DATA Big Data Adoption in 2013 Shows Substance Behind the Hype Gartner sept. 2013 Hadoop's Momentum Is Unstoppable The Forrester Wave Q1 2014 Spending on big data technologies and services will grow by 30% in 2014, surpassing $14 billion IDC Growth rate 6 times higher that the general IT market (5%) (2 100G$) in 2014 7
L INTELLIGENCE D AFFAIRES (BI) ET LE BIG DATA Big Data vs. Business Intelligence People have recently become aware of the world-changing power of data to make and remake industries. People see the potential and they want to use the tools that unlock it, but a short look at any of the current BI tools shows just how impossible that is. BI was designed for IT and CIOs, if you want to use it you need to be trained. But as society at large moves towards a data-driven approach to, well, everything, a much larger audience for data tools is emerging: a whole new type of customer, non-technical, and a much larger market that traditional BI tools just can t reach. Applied Data Labs (www.applieddatalabs.com ) 8
DE QUOI PARLE-T-ON? ABONDANCE BIG DATA Lorsque le traitement et l utilisation des données dépassent les capacités des technologies courantes en raison de leur : Volume Variété et variabilité Vélocité Selon IDC, le Big Data est une nouvelle génération de technologies et d architectures conçues pour extraire de la valeur, de façon rentable, à partir d un volume considérable de données très variées en permettant leur capture et leur exploration à grande vitesse. S inscrit dans le contexte des grandes tendances actuelles : Mobilité, Social, Nuage, Technologies vertes. 9
ABONDANCE: VOLUME Megabyte Gigabyte Terabyte Petabyte Exabyte Zettabyte Yottabyte Brontobyte Geopbyte 10
ABONDANCE: VARIÉTÉ ET VARIABILITÉ Variabilité de formats et d interprétation dans le temps Transactions Documents d affaires Courriels Messageries Contrats Appels Réseaux sociaux Surveillance Expérimentations scientifiques Appareils mobiles Documents gouvernementaux MÉTADONNÉES Objets Senseurs GPS 11
ABONDANCE: VÉLOCITÉ Données créées plus rapidement. Arrivent plus rapidement aux organisations. Doivent être traitées plus vite, de plus en plus en temps réel. Décision rapide sur les données que l on désire garder. Pression pour convertir rapidement les données en décision d affaires. Les résultats livrés sont consommés plus rapidement. 12
QUELS AVANTAGES VEUT-ON EN TIRER? INTELLIGENCE DES DONNÉES Il y a des défis liés spécifiquement à l abondance de données, mais on peut profiter des développements sans que nos données se qualifient comme «Big Data». On désire un arsenal d approches et de technologies pour mettre à contribution les contenus disponibles. Il faut pouvoir prendre de meilleures décisions, plus rapidement. La valeur extraite des données pour en faire de l information utile et de la connaissance devient un facteur de différentiation. C est l intelligence de données qui importe; elle s appuie beaucoup sur le traitement sémantique. 13
LA MODE DU BIG DATA? De Gartner: 14
LA MODE DU BIG DATA? Volume Depuis des années la communauté scientifique traite de larges jeux de données (vidéos, imagerie satellite, corpus de texte). Variété Depuis des années la communauté scientifique traite des données multimodales (texte, images, audio, vidéo, vecteurs, 3D). Vélocité Depuis des années la communauté scientifique traite des données en continue (surveillance, voix, mouvement). Et aussi Visualisation, Valeur, Véracité 15
LES TECHNOLOGIES DU BIG DATA Offrent de nouvelles possibilités pour résoudre plus simplement des problématiques complexes Hadoop et autres technologies similaires: Ressources de calcul (quasi) illimitées Pas de préoccupation de mise à l échelle NoSQL et autres technologies similaires : Plus nécessaire de connaître à l avance les relations entre tous les éléments d une base de données Possibilité de combiner «à la demande» diverses sources d information hétérogènes Traitement dynamique des données (flux): On ne fait plus nécessairement du traitement en lot Possibilité de développer des systèmes adaptifs et réactifs Émergence des applications «Machine-to-Machine» / objets connectés / «Internet of Things» Centres de données et infonuagique Simplification de la gestion des données et du stockage des documents. Technologies prometteuses mais qui n offrent pas encore de solutions simples, stables et matures. 16
EN RÉSUMÉ https://www.youtube.com/watch?v=7d1cq_loizanuméro 17
LA GOUVERNANCE DES DONNÉES DOMINIC JAAR, KPMG
LES TECHNOLOGIES DU BIG DATA TOM LANDRY, CRIM
LES APPLICATIONS DU BIG DATA
LES APPLICATIONS DU BIG DATA (1 / 4) Cibler et mieux comprendre les clients Engins de recommandations Modèles prédictifs pour la publicité et les offres de produits ciblés Rétention de la clientèle Influenceurs dans les réseaux sociaux Optimiser et mieux comprendre les processus d affaires Gestion de la chaîne d approvisionnement Gestion des risques Science et recherche Astrophysique Physique et chimie Sciences de la vie Science des matériaux Environnement 21
LES APPLICATIONS DU BIG DATA (2 / 4) Monitoring des signes vitaux et améliorations de la performance physique personnelle Senseurs personnels («wearables») Soins de santé, médecine publique Génomique Médecine personnalisée Épidémiologie Diagnostic Études cliniques Performance sportive Programme d entraînement Performance individuelle et d équipe 22
LES APPLICATIONS DU BIG DATA (3 / 4) Maintenance et optimisation de la performance de machines Diagnostic Maintenance préventive Ajustement des conditions d opération Autonomie accrue La loi, l ordre et la sécurité publique Contre-terrorisme Activités criminelles Détection de fraude Cyber-attaques 23
LES APPLICATIONS DU BIG DATA (4 / 4) Ville intelligente et transport intelligent Optimisation des déplacements Domotique Réseau d alimentation en énergie intelligents («smart grid») Science des matériaux Environnement Finances Courtage à haute-fréquence Valorisation des actifs «non-traditionnels» Modèles prédictifs Analyse des «sentiments» Identification de courtiers délinquants Solutions bancaires personnalisées 24
LES TECHNOLOGIES PÉRIPHÉRIQUES Mobilité «Machine to Machine» (M2M) Internet of Things (IoT) L infonuagique et les data center «Machine Learning» et «Deep Learning» Robotique Réseaux de communications Capacités de calcul La génération et le stockage de données non-structurées 25
LES APPLICATIONS DU BIG DATA EN RÉSUMÉ Services financiers Gestion de risques Détection de fraudes Connaissances clients Santé et Sciences de la vie Alerte précoce d épidémie Médecine personnalisée Médecine à distance Vie privée Assistance personnalisée Accessibilité à tous Transport Contrôle de la circulation Information personnalisée Impact des conditions sur la logistique Transactions Gouvernements Services à la population personnalisés Détection de fraudes Documents d affaires Courriels Messageries Contrats Appels Documents gouvernementaux MÉTADONNÉE S Réseaux sociaux Appareils mobiles Objets Surveillance Expérimentations scientifiques Senseurs Utilités publiques Gestion intelligente de consommation Impact des conditions climatiques Environnement Amélioration de la conception de produits Analyse d impacts environnementaux GPS TIC Cybersécurité TIC vertes Services adaptés à la clientèle Commerce Connaissances clients Promotion en temps réel Optimisation des chaînes d approvisionnement et des opérations Défense et sécurité Détection de menaces Gestion de catastrophe 26
LES ÉCONOMISTES ET LE BIG DATA (1/2) «Economics in the Age of Big Data», Liran Einav & Jonathan Levin, Science, 7 Nov. 2014, vol. 346, issue 6210 (Department of Economics, Stanford University) La croissance fulgurante de la quantité de données amassées sur les activités sociales et économiques aura un impact profond sur la recherche dans le domaine de l économie La croissance de l analyse économique empirique («empirical economics») Les données Souvent disponibles en temps réel Portent sur des activités qui souvent n étaient pas mesurées auparavant Moins structurées Trouver comment organiser et réduire la dimensionnalité de grands jeux de données non-structurées devient un défi incontournable 27
LES ÉCONOMISTES ET LE BIG DATA (2/2) Le passage d études basées sur des enquêtes gouvernementales, relativement de petite taille ou sur des données administratives restreintes vers des études avec une couverture complète ou quasicomplète des populations étudiées Une collaboration accrue avec le secteur privé Plusieurs entreprises accumulent et traitent régulièrement une grande quantité de données sur leurs processus d affaires et leurs clients Ces mêmes données peuvent potentiellement être utilisées pour des projets de recherche en économie Les défis liés aux ententes commerciales et à la nature privée des données Les approches d analyse d économétrie «traditionnelles» vs. les approches informatiques de «machine learning»: relations cause-effet vs. similarité avec un modèle prédictif Une contribution importante des économiste pour développer des modèles simplifiés expliquant de grandes quantités de données complexes 28
L AVENIR DU BIG DATA EN ÉCONOMIE (1/2) «Emerging practices and perspectives on Big Data analysis in economics: Bigger and better or more of the same?», Linett Taylor, Ralph Schroeder & Eric Meyer, Big Data & Society, July- December 2014: 1-10 (University of Amsterdam, Oxford Internet Institute ) Est-ce que l accès aux données les plus pertinentes sera démocratisé ou si seulement une classe de «privilégiés» auront accès à ces données? Est-ce que les compétences statistiques et informatiques des économistes leur permettront de participer aux développement des nouvelles méthodologies et approches d analyse du Big Data? Est-ce que la façon de présenter et publier les résultats devra changer compte tenu d un accès plus limité aux données, combiné à une reproductibilité limitée ou nulle? 29
L AVENIR DU BIG DATA EN ÉCONOMIE (2/2) Technologie de rupture? Acceptation limitée en économie, mais émergence d une nouvelle discipline d analyse complémentaire, avec ses propres normes et méthodologies? Un sous-domaine de spécialisation? Dans tous les cas, un stimulus pour développer de nouvelles façons de réfléchir et d aborder des problèmes complexes 30
LA MISE EN ŒUVRE D UN PROJET BIG DATA
DONNÉES MASSIVES - DE LA DÉFINITION À LA VALEUR Définition (plus technologique) Volume Les V Variété Vélocité Lorsque le traitement et l utilisation des données dépassent les capacités des technologies courantes LE DÉFI D AFFAIRES Le défi consiste à extraire, de façon rentable, de la valeur de l avalanche de données très variées qui nous envahissent. Au-delà des caractéristiques propres au traitement d un volume gigantesque de données, c est l intelligence de données (Smart data) qui nous permettra de trouver les informations critiques pour l organisation et d aider à prendre de meilleures décisions, plus rapidement. 32
OÙ TROUVER LA VALEUR Utilisation de techno de données massives (par ordre selon IDC-2013) - Analyse de données opérationnelles - Analyse du comportement en ligne de clients - Transaction de ventes - Innovation de services - Données de machines et d appareils - Activités autre qu analytique Motivation (par ordre selon Gartner-2013) - Amélioration de l expérience client - Efficacité des processus - Nouveaux produits et modèles d affaires - Marketing plus ciblé - Réduction des coûts - Amélioration de gestion du risque - Monétisation du contenu - Conformité à la règlementation - Amélioration de la sécurité Optimisation-Contrôle-Innovation Compréhension de l existant Feuille de route d affaires intelligente 33
ÉCOSYSTÈME DE DONNÉES MASSIVES Données Infrastructures Architectures Données massives Expertises Processus Organisation 34
DONNÉES Transactions Logs Commerce de détail Appareils senseurs Éléments à considérer Courriels documents Réseaux sociaux Documents manuels Données publiques Données géospatiales Images Vidéo Audio IdesO Manufacturier- Ress. Nat. Santé - Données noires - Sélection initiale ou tout garder - ETL ou ELT - Intégrer à l architecture globale de données Prédominance actuelle - Données internes et principalement transactionnelles Évolution - Intégration de l externe et variété de contenus 35
INFRASTRUCTURES ET ARCHITECTURES Collecte et préparation de données Enrichissement, métadonnées et Stockage Analytique, forage, apprentissage, inférence, fusion, statistiques, heuristique Visualisation Aide à la décision Implantation en fonction des cas d utilisation visés Prédominance actuelle - 60 % utilise écosystème Hadoop orienté en lot (batch) - Expérimentation BD en-mémoire, orientée colonne, NoSQL - Première initiative plus petite échelle Évolution - Plus de cas en temps réel évolution Hadoop 2 - Visualisation interactive et évolutive - Intégration à l architecture de l entreprise - Partie de ce que IDC appelle 3 rd Platform (Cloud, Mobility, Big Data, Social Business) - ELT pour conserver les données brutes 36
TECHNOLOGIES LIÉES AUX DONNÉES Source : IDC Beaucoup de développement autour d Hadoop sous la fondation Apache par des firmes comme Google, Facebook, Amazon, Yahoo, Cloudera. Grand intérêt du traitement parallèle distribué et de la migration du traitement vers les données. Aussi des développements importants liés au traitement en temps réel. Beaucoup de fournisseurs ont sorti la peinture «Big Data». 37
DES SOLUTIONS 38
ANALYTIQUE INFRASTRUCTURES ET ARCHITECTURES L approche prospective apporte plus de valeur mais est par contre plus complexe Retrospective Understanding Prospective Inspiré de Gartner 39
DES SOLUTIONS 40
EXPERTISES Équipe idéale (centre d excellence) : Science des données Analytique avancée / apprentissage-machine Visualisation et interaction Analyse d affaires Gouvernance et qualité des données Gestion de produit Gouvernance des données Architecture et développement informatique Compréhension des besoins d affaires et de l environnement opérationnel (données, processus, technologies) Partage de connaissance essentiel pour obtenir l appui de la direction, réaliser des projets interfonctionnels et utiliser les résultats pour les décisions Planifier la mise en place, l expérimentation mais prévoyez aussi l exploitation 41
PROCESSUS Gestion, gouvernance et administration (plus d autonomie aux utilisateurs) Processus de mesure des retombées, de la valeur Processus de gestion de données Ajuster le processus de décision Sécurité Confidentialité L an dernier, des chercheurs américains ont «piraté» une banque de données génétiques et réussi à identifier 5 % de ses participants, malgré les promesses d anonymat. La Presse, 16 mars 2014 42
ORGANISATION Développer une stratégie de gestion de données massives (idéalement pour l ensemble de l organisation) Impliquer la direction dans la promotion de l initiative Organiser un soutien direct lié aux affaires Changer le processus de décision (de l intuition à la gestion éclairée) Briser les silos au niveau des données et des processus d affaires Favoriser les équipes interfonctionnelles Regrouper la bonne combinaison interne-externe Traditional Information Management Requirements based Top-down design Defining "truth" Integration and reuse Technology consolidation Data warehouses and content management Competence centers Better decisions Enterprisewide Information Management Big Data Style Opportunity oriented Bottom-up experimentation Establishing "trust" Immediate use Tool proliferation "World of Hadoop" Hackathons Better business Domain focus (marketing and ops, among others) Comparison of Traditional Information Management and the New Big Data Style Gartner 43
MISE EN PLACE Défis principaux Comment extraire de la valeur Définir une stratégie Obtenir l expertise Intégrer plus de sources variées Gérer la gouvernance et les risques (sécurité, confidentialité, qualité) Financement Compréhension et leadership dans l organisation 44
PIÈGES À ÉVITER A wealth of information creates a poverty of attention and a need to allocate that attention efficiently among the over abundance of information sources that might consume it. Herbert Simons: Designing organization to an information-rich World; 1 Pas assez planifié Trop planifier Faible engagement Penser que ce sera facile à implanter Minimiser les enjeux de gestion du changement 45
CONSTATS Les données massives offrent un grand potentiel encore sous-exploité Comme plusieurs changements de fond, il faut s attendre à un long voyage Il faut établir une vision ambitieuse et réaliser un premier pas modeste mais démontrant une valeur mesurable Il n y a pas d approche unique ( one size fits all ); elle doit être adaptée aux cas ciblés La question n est pas To Big or not too Big, ce qui compte c est la dimension d intelligence de données ( Smart Data ) pour apporter de la valeur mesurable à l organisation Au-delà de la technologie, ce sont encore les défis humains qui vont prédominer et déterminer le succès ou l échec des initiatives 46
LE CRIM ET LE BIG DATA Continuer le développement de l expertise en analytique avancée en s appuyant sur les technologies Big Data Conserver l accent sur les données non-structurées (audio, vidéo, images, texte, etc.) Miser sur les interactions humain-machine, les architectures avancées et les tests logiciels Développer des connaissances empiriques pour accompagner les organisations Aborder de façon différente pour les problèmes complexes Pour le CRIM, il est préférable de parler de SMART DATA Rarement des cas réellement larges (>8-10 TB) Résoudre plusieurs problèmes de taille moyenne, mise à l échelle par/pour les clients Nous visons le 5 ème V, la valeur Pas simple! Approche multidisciplinaire (scientifique, affaires, gouvernance, produits, logiciel, etc.) Attention au hype et idées préconçues Vision ambitieuse nécessaire, réaliser des premiers pas modestes et concrets 47
DES CAS D'UTILISATION CONCRETS Objectifs du projet Développer une expertise en méga-données (analytique, interaction, visualisation) Consolider nos composantes d analytique avancée Démontrer via des cas d utilisation concrets et une vitrine technologique interactive Établir de nouvelles collaborations, alignées avec la stratégie du CRIM Cas d utilisation Détection de mots-clés dans des vidéos de maintenance sous-marine (~300 hres à traiter, vocabulaire spécialisé en biologie et navigation) Fusion avec données géo-spatiales dans les zones d'exploration (positions mots-clés et du rover, imagerie satellite, sonars, etc.) Enrichissement du corpus et production d ontologies via des banques de ressources Web (requêtes via Traitement Automatique des Langues Naturelles) Exploration des données via interactions naturelles et interfaces de visualisation avancées (sortir de la page web: WebGL, Oculus, NUI) Finance Surveillance Internet des Objets 48
PLATEFORME DE DÉMONSTRATION (EN DÉVELOPPEMENT) 49
QUESTIONS DISCUSSIONS
WWW.CRIM.CA Françoys Labonté Directeur général CRIM Centre de recherche informatique de Montréal Francoys.labonte@crim.ca Suivez-nous Dialoguez avec nous Suivez-nous #CRIM_ca wwwcrimca Le CRIM est un centre de recherche appliquée en TI qui développe, en mode collaboratif avec ses clients et partenaires, des technologies innovatrices et du savoir-faire de pointe, et les transfère aux entreprises et aux organismes québécois afin de les rendre plus productifs et plus compétitifs localement et mondialement. Le CRIM dispose de quatre équipes de recherche en TI de calibre mondial qui œuvrent principalement dans les domaines des interactions et interfaces personne-système, de l analytique avancée et de la science et technologie du logiciel. Détenteur d une certification ISO 9001:2008, son action s inscrit dans les politiques et stratégies pilotées par le ministère de l'économie, de l'innovation et des Exportations (MEIE), son principal partenaire financier. Principal partenaire financier Tous droits réservés 2015 CRIM. 405, avenue Ogilvy, bureau 101, Montréal (Québec) H3N 1M3/514 840-1234/1 877 840-2746