Big Data SRS Day 2012 Membres du groupe : Mickaël CORINUS Thomas DEREY Jérémie MARGUERIE William TÉCHER Nicolas VIC Coaché par : Ali FAWAZ Etienne CAPGRAS 1
Sommaire 1 2 Présentation du Big Data État des lieux 3 Analyse de risques 4 Remerciements 5 Annexes 2
Big Data, qu est-ce que c est? Des problématiques vieilles de 30 ans Problématiques assez anciennes qui remontent aux années 80 Marketing personnalisé (one-to-one), marketing bancaire, évolution du secteur des télécoms Augmentation des volumes d informations Constante augmentation du volume de données stocké...et des besoins émergents Nouveaux types d exploitation des données Utilisation des données clients accumulées de plus en plus nombreuses ; Utilisation des ressources des réseaux sociaux de plus en plus variées ; Etc. 3
Un peu plus que du Data Mining Volume, Vitesse, Variété : les composantes du Big Data Volume Volume de données de plus en plus vertigineux ; Entre quelques dizaines de téraoctets et plusieurs péta-octets en un seul jeu de données. Vitesse Fréquence à laquelle les données sont générées, capturées et partagées ; Traitement, analyse et restitution à l'utilisateur, parfois, en temps réel. Variété Nouvelles données multi structurelles et expansion des types de données ; Capteurs d'informations aussi bien dans les trains, les automobiles ou les avions. 4
L analyse : le point clé du Big Data Très nombreux, les objectifs du Big Data sont aussi les suivants : Mise en évidence des informations utiles de l'entreprise ; Analyse des données utiles, souvent automatisée (Vitesse) ; Restitution efficace des résultats d analyse (Vitesse). Mais l analyse permet avant tout de : mieux connaître sa clientèle ; optimiser son marketing ; détecter et prévenir des fraudes ; analyser son image sur les réseaux sociaux et la valoriser ; ou encore, d optimiser ses processus. Tous secteurs confondus, les entreprises réfléchissent à tirer un avantage de leurs gisements de données et les enjeux sont nombreux. 5
Des enjeux majeurs et des risques connus Enjeux Accroître la capacité à supporter sa propre activité Gagner en productivité Maitriser les données non structurées Risques Risque transverse Non-conformité Perte de disponibilité Perte de confidentialité Mais surtout, innover par rapport à la concurrence Les enjeux soulevés par le Big Data n'ont pas tardé à trouver des cas d'usage concrets. 6
Quelques exemples de cas d usage Marketing personnalisé Analyse de logs Objectifs : Se concentrer sur le client et déceler les offres qui lui conviendraient le plus. Source des données : Réseaux sociaux Surveillance Objectifs : Faciliter l identification de menaces ou d anomalies et permettre ainsi de lutter contre la fraude. Permet aussi d'analyser des données critiques. Sources des données : Logs Moteurs de recherches Objectif : Rassemblement et analyse rapide de toutes les données disponibles. Sources des données : Caméras, bases de données, Objectifs : Effectuer des recherches sur plus de ressources plus rapidement et avec des résultats plus pertinents. Sources des données : Sites web 7
Sommaire 1 2 3 Présentation du Big Data État des lieux Analyse de risques 4 Remerciements 5 Annexes 8
Panorama des cas d usage Quels secteurs d activités s intéressent au Big Data? Services Publics Banque Opportunistes Précurseurs Santé Analyse des compteurs Gestion des équipements Sanctuarisation des données anciennes Médias numériques Analyse des dossiers médicaux Analyse génomique BIG DATA Ciblage publicitaire en temps réel Analyse de sites Web Marketing Marché financier Télécom Analyse de tendance Ciblage publicitaire Gestion des risques et des fraudes Analyse des clients 9 Traitement détaillé Monétisation des profils clients
Un secteur qui intéresse du monde et des premiers déploiements... Fournisseurs Utilisateurs Les géants du Web, Google et Yahoo!, investissent massivement dans son évolution et son exploitation! 10
Les solutions et technologies existantes...s appuyant sur des technologies telles que Hadoop : une histoire vieille de dix ans o En 2001, Google développe ce qui inspira les composants phares d'hadoop MapReduce, Google Big Table et Google File System. o Yahoo! a initié et conduit le projet Hadoop d'apache et le promeut activement En 2009, le géant crée une filiale dédiée à Hadoop : Hortonworks, concurrent direct du leader Cloudera. 11
Les solutions et technologies existantes...s appuyant sur des technologies telles que Les composantes de l'écosystème Hadoop Hadoop consiste en deux points : Hadoop MapReduce ; Hadoop Distributed File System (HDFS). Initialement pensé comme un clone du MapReduce de Google, Hadoop est : Évolutif : utilise plus de ressources (ordinateur), selon les besoins, de manière transparente ; Rentable : optimise les coûts via une meilleure utilisation des ressources présentes ; Souple : répond à la caractéristique de Variété des données du Big Data (3V) ; Résilient : ne perd pas d'informations et poursuit le traitement si un nœud tombe en panne. L'écosystème Hadoop est au centre du l'univers du Big Data, au côté des bases de données NoSQL. 12
Les solutions et technologies existantes...s appuyant sur des technologies telles que NoSQL NoSQL ou les bases de données non relationnelles NoSQL («Not Only SQL») est une technologie relative aux bases de données non relationnelles L idée sous-jacente est d avoir des bases plus adaptées au besoin réel de l application. L'offre se développe de façon exponentielle au printemps 2009 avec le Cloud Computing et le Web 2.0 Bien que les SGBD non relationnels soient plus anciens que les SGBD relationnels NoSQL englobe de nombreuses technologies de bases de données : les bases Clé-Valeur ; les bases Colonnes ; ou encore, les bases Documents. Toutefois, NoSQL et Hadoop ne sont pas les seules technologies qui font évoluer le Big Data. 13
Les solutions et technologies existantes...et nombreuses technologies émergentes. Qui suivent les principes de NoSQL : Qui s'associent à Hadoop et aux algorithmes de MapReduce : Qui s'intéressent au traitement en langage naturel (textes, voix ou images) : Qui restituent les données visuellement : Or, ces technologies sont à l usage des métiers ; usages qui restent à cerner. 14
Comment approcher le Big Data Quelles sont les questions que doivent se poser les métiers? Questions Exemples de travaux à réaliser De quelles informations avons-nous besoin pour innover et être compétitif? Identifier les opportunités de business offertes par les gisements de données S inspirer des initiatives innovantes du secteur Quelles sont les données sous- et inexploitées à notre disposition? Connaître les sources de données à la disposition de l entreprise Savoir interpréter les données brutes Sommes-nous prêts à «extraire» l information utile de nos données? Disposer des compétences pour analyser les données (ressources rares) Cadrer les transformations organisationnelles, éthiques, légales associées Sommes-nous capable de gérer les nouveaux risques de sécurité? Les impacts autour de la donnée augmentent, la sécurité autour peut avoir besoin d être augmenté. L utilisation de Cloud peut être une solution autant qu un problème. Les clés du Big Data Oser de nouvelles sources de données Transformer l information brute en information utile (Data Analyst) 15
Les nouveaux problèmes de sécurité De nombreuses problématiques sont soulevées Qui accède à mes données? Qu en est-il de leur disponibilité? Quels risques portent sur l intégrité de mes données dans les systèmes distribués? Comment contrôler ces données pour rester maître de son SI? Peut-on toujours répondre aux réglementations sur les données? Quels sont les réglementations de la CNIL sur la mise en corrélation de données? Les solutions Big Data d aujourd hui ne risquent-elles pas de disparaitre sur le court terme? Sommes-nous prêt à accueillir le Big Data sans danger? Une analyse de risque s impose pour comprendre les enjeux pour le RSSI. 16
Sommaire 1 Présentation du Big Data 2 3 4 État des lieux Analyse de risques Remerciements 5 Annexes 17
Des risques à évaluer sur la chaîne de traitement et en transverse Acquisition Risques transverses Stockage Traitement Restitution Risques de nonconformité Risques de perte de confidentialité Risques de disponibilité 18
Risques transverses Quels sont les risques nouveaux amenés par le Big Data? Acquisition Stockage Traitement Restitution Risques transverses 19
Risques transverses Scénarios de risque Origine Scénario Impact Migration des applications vers un système BigData Solutions jeunes et peu matures... modification des applications dépendantes des données... dépendance à cette solution unique (difficile de revenir en arrière)... disparition de l entreprise porteuse de la solution utilisée... perte d intérêt d une communauté opensource envers le développement de la solution utilisée... support commercial de faible qualité... bogue logiciel Augmentation du coût du changement Dépendance à une seule solution MCO de la solution problématique
Risques transverses Dû à dépendance de la DSI envers une solution jeune Origine Scénario Impact Les solutions de Big Data sont jeunes et leur maturité n est pas encore atteinte. Les problématiques de support et de pérennité des solutions sont en outre à considérer. Disparition de l entreprise porteuse d une solution. Perte d intérêt d une communauté open-source envers le développement d une solution. Support commercial de faible qualité. MCO plus coûteux : bug bloquant, manque d aide du support, disparition de l entreprise/la communauté supportant la solution. Manque de compétences sur le marché du travail faute de maturité de la solution. Contre-mesure Complexité Réduction des risques Choisir des solutions supportées par des entreprises solides Choisir un «standard de fait du marché» Faible Faible Moyenne Moyenne
Risques liés aux modes d'intégration Intégration interne ou externe Différents types d intégration Interne : toute la plateforme est contrôlée par l entreprise Externe : plateforme mutualisée ou service Cloud Risques de l intégration externe Origine Scénario Impact Peu de contrôle sur la plateforme utilisée Juridiction liée à l entreprise gérant la plateforme L entreprise fait faillite et la plateforme disparait... Piratage de la plateforme utilisée... Je ne maîtrise pas la localisation de mes données alors que je ne dois pas les transférer dans un autre pays... Le siège social de l entreprise est basé dans un autre pays, ce dernier demande l accès à mes données, bien que stockées en France L entreprise fait faillite et je ne peux plus ni accéder à mes données ni effectuer mes traitements Perte de données Perte d intégrité Perte de confidentialité Condamnation Amende Perte de données et des systèmes d analyse
Risques de non-conformité Peut-on toujours être conforme aux réglementations? Acquisition Stockage Traitement Restitution Risques de nonconformité 23
Risques de non-conformité Scénarios de risque Origine Scénario Impact Collecte de données publiques/privées Limite temporelle de conservation des données personnelles Mise à disposition de l'utilisateur de ses données personnelles collectées Cloisonnement de certaines données... enregistrements personnels mêlés à ceux publiques... impossibilité d'enregistrer la date de collecte des données... impossibilité de rechercher les enregistrements par leurs métadonnées... difficulté de trouver la totalité des informations pour un utilisateur précis... stockage des données sensibles sur la même infrastructure que les données non sensibles Condamnation Amende Perte d image Condamnation Amende Perte d image Condamnation Amende Perte d image Non-conformité avec la norme ciblée Fuite de données sensibles
Risques de non-conformité Dû à l incapacité de rectifier/modifier les données Origine Scénario Impact Le possesseur d une base de donnée doit à mettre à disposition des utilisateurs du service la capacité de : connaître les informations récoltées à son propos, les faire rectifier et les faire supprimer. Certaines données récoltées, utilisant des formats complexes, doivent être modifiées pour répondre aux éxigences légales. Suite à un contrôle de la CNIL : Condamnation Amende Perte d image pour l entreprise, due à la publication du jugement. Contre-mesure Complexité Réduction des risques Supprimer un document tout entier (ex : Google supprime une page de son index) Faible Importante Anonymiser les données récoltées Moyenne Moyenne
Risques de perte de confidentialité Pouvons-nous toujours assurer la sécurité de nos données? Acquisition Stockage Traitement Restitution Risques de perte de confidentialité 26
Risques de perte de confidentialité Scénarios de risque Origine Scénario Impact Attaque menant à la perte d'information Mauvaise gestion des droits de l'infrastructure de stockage Fuite d informations... tentative de vol d'informations Perte d image... vol d'informations par un utilisateur interne Fuite d informations Manque de compétences technique sur l'infrastructure de stockage... options de configuration nécessaires non ajoutées Fuite d informations 27
Risques de perte de confidentialité Dû à une mauvaise gestion des habilitations du logiciel Origine Scénario Impact Base de stockage mal sécurisée à cause d un manque de compétences technique Certaines options de configuration nécessaires n ont pas été ajoutées car la technologie n est pas encore maîtrisée par le SI Fuite d informations, risque exacerbé par l émergence du Big Data Contre-mesure Complexité Réduction des risques Audit Moyenne Importante Suivi de guide de sécurisation Faible Moyenne 28
Risque de disponibilité Que ce passe t-il si des données sont inaccessibles? Perdues? Acquisition Stockage Traitement Restitution Risques de disponibilité 29
Risque de disponibilité Scénarios de risque Origine Scénario Impact Absence de politique de sauvegarde... données stratégiques pour l entreprise perdues Perte de données Panne matérielle indisponibilité des données ou du système Données inaccessibles 30
Risque de non disponibilité Pannes matérielles Origine Scénario Suite à une panne matérielle sur un équipement réseau non ou mal redondé, une partie des serveurs de stockage sont inaccessibles. Suite à une panne matérielle sur l un des serveurs de stockage (mémoire vive défectueuse, CPU en surchauffe, coupure électrique), les données stockées ne peuvent plus être accédées. Impact Indisponibilité des données (ex : partitionnement du cluster en deux) Il faut pouvoir travailler malgré l indisponibilité de la moitié des données. Contre-mesure Complexité Réduction des risques Redondance du réseau Moyenne Importante Automatic failover Faible Importante
Un plan d action global Obligations légales Anonymisation des données qui n'ont pas d'autorisation de la CNIL. Filtrage a priori des données collectées si cela n'est pas possible. Prendre en compte la date de collecte pour répondre aux dates limites de conservations. Offrir des moyens de rectification et de suppression des informations personnelles aux personnes fichées, quitte à supprimer un document tout entier. Sécurité des données Séparation logique du stockage Instaurer une séparation logique des données sensibles, par une gestion des droits d'accès. Politique de sauvegarde des données. Utilisation des systèmes de failover. Réseau entièrement redondé pour une disponibilité maximale. Problèmes transverses Utiliser des solutions techniques dont le support sur plusieurs années est assuré. 32
Synthèse de l analyse de risques Ce qu il faut retenir De nouveaux risques Mais des technologies les réduisant existent De nombreux leviers classiques existent pour les limiter L externalisation apporte des problèmes mais ils ne sont pas nouveaux Des solutions jeunes, mais éprouvées Moins de maturité que les solutions classiques Mais des déploiement à grande échelle montrant leur fiabilité Un déploiement et une intégration à réfléchir en amont Appréhender l enjeu des données personnelles Déployer une solution pérenne et assurer la montée en compétence des équipes d exploitation 33
Avez-vous des questions? 34
Merci
Sommaire 1 Présentation du Big Data 2 État des lieux 3 4 5 Analyse de risques Remerciements Annexes 36
Remerciements Nos remerciements vont à Ali FAWAZ, notre coach, et Etienne CAPGRAS, notre second coach à Solucom. Nous remercions également les différents partis qui auront accepté des entretiens précieux avec nous : Luc MANIGOT, Sinequa, Directeur des opérations ; Idris BOUCHEHAIT, Microstrategy, Marketing Manager ; Laurent LEE A SIOE, Microstrategy, Manager Avant-Vente ; Henri-François CHADEISSON, Microstrategy, Ingénieur Avant-Vente. 37
Sommaire 1 Présentation du Big Data 2 État des lieux 3 Analyse de risques 4 5 Remerciements Annexes 38
Annexes Solucom Solucom est un cabinet de conseil en management et système d information. Les clients de Solucom sont dans le top 200 des grandes entreprises et administrations. Pour eux, Solucom est capable de mobiliser et de conjuguer les compétences de près de 1000 collaborateurs. Sa mission? Porter l innovation au cœur des métiers, cibler et piloter les transformations créatrices de valeur, faire du système d information un véritable actif au service de la stratégie de l entreprise. Solucom est coté sur NYSE Euronext et a obtenu la qualification entreprise innovante décernée par OSEO innovation. Pour en savoir plus, venez découvrir http://www.solucominsight.fr, le magazine en ligne de Solucom. 39
Annexes EPITA Créée il y a 25 ans, l EPITA est l école d ingénieurs qui forme celles et ceux qui conçoivent, développent et font progresser les technologies de l information et de la communication (TIC), au cœur des changements du 21ème siècle. 40
Annexes Hadoop Distributed File System Système de fichiers distribués où les blocs d information sont répartis et répliqués sur les différents nœuds. 41
Annexes MapReduce Répartit les traitements sur chacun des serveurs, parallélisant massivement les traitements, avant de récupérer les résultats. 42
Annexes Risques transverses Dû à une dépendance des autres applications à une solution technologique unique. Origine Scénario Impact En l absence d un langage de requête intermédiaire, comparable au SQL pour les bases de données, l'hétérogénéité des systèmes Big Data entraîne une dépendance du SI envers une unique solution. Du fait de la forte singularité des systèmes Big Data (interface non compatibles), en cas de changement de technologie, il faut modifier toutes les applications en dépendant. Augmentation importante du coût du changement de technologie. On se retrouve prisonnier d une seule solution. Contre-mesure Complexité Réduction des risques Utiliser plusieurs technologies différentes Forte Faible 43
Annexes Risques de non-conformité Dû à la collecte d informations non déclarées à la CNIL Origine Scénario Impact La collecte de données à caractère personnel implique une obligation de déclaration de la collecte et des traitements sur ces données à la CNIL Dû à la nature des données non-structurées du Big Data, des informations personnelles et supplémentaires se sont mêlées dans les enregistrements Suite à un contrôle de la CNIL : Condamnation Amende Perte d image pour l entreprise, due à la publication du jugement. Contre-mesure Complexité Réduction des risques Filtrage a priori des données collectées Moyenne Moyenne Anonymiser les données Forte Importante
Annexes Risques de non-conformité Dû à la durée de conservation des données personnelles Origine Scénario 1 Scénario 2 Impact La CNIL impose une limite temporelle pour la conservation de données personnelles. Il est possible de garder les données plus longtemps si celles-ci sont anonymisées. La base de données NoSQL, ou Big Data utilisée, ne permet pas d'enregistrer la date d'insertion d'un document, donc pas de moyen de déterminer quand il doit être supprimées. Le système de stockage Big Data ne permet pas de rechercher les enregistrements par leurs date d'insertion, pour effacer les enregistrements. Suite à un contrôle de la CNIL : Condamnation Amende Perte d image pour l entreprise, due à la publication du jugement. Contre-mesure Complexité Réduction des risques Annoter les données Moyenne Moyenne
Annexes Risques de non-conformité Dû à un problème d attribution de responsabilité Origine Scénario Impact Afin de détecter les modifications anormales et de pouvoir attribuer les modifications d un système à leur responsable, tracer les actions d administration est primordial. En outre, certaines normes ou lois imposent de tracer les actions des administrateurs du système. Tracer les actions d un administrateur pour savoir qui a fait des modifications sur les infrastructures afin d assurer la confirmité avec la norme PCI-DSS. Amendes Rupture de contrat Condamnation Contre-mesure Complexité Réduction des risques Tracer les actions des administrateurs Faible Moyenne Stockage des logs sécurisé Moyenne Importante
Annexes Risques de non-conformité Dû à une incapacité à protéger les données conformément aux réglementations et standards Origine Scénario Impact Certaines normes imposent le cloisonnement de certaines données, c est par exemple le cas de PCI-DSS avec les numéros de cartes bleues. Les données sensibles à cloisonner sont stockées sur la même infrastructure de stockage que les données non sensibles. Des traitements utilisant ce stockage comme source peuvent accéder aux données sensibles. Non-conformité avec la norme ciblée, pouvant entraîner une ruptures de contrat, Fuite de données sensibles. Contre-mesure Complexité Réduction des risques Authentification et séparation logique Moyenne Moyenne Chiffrement Forte Importante Séparation physique Moyenne Importante
Annexes Risques de perte de confidentialité Dû à un accès non autorisé à des données confidentielles Origine Scénario Impact Base de stockage mal sécurisée à cause d une mauvaise gestion des droits. Un employé mécontent s empare d information, par un accès a une base de données, depuis l intérieur, puis revend ou diffuse des informations stratégiques pour l entreprise Fuite d information. Contre-mesure Complexité Réduction des risques Audit régulier des permissions Moyenne Importante Limitation des privilèges Moyenne Importante 48
Annexes Risques de non disponibilité Politique de sauvegarde Origine Scénario Impact La perte de donnée peut être un coup fatal pour une entreprise. Suite à une perte de donnée (attaque, problème technique, erreur de manipulation), des données stratégiques pour l entreprise ont été perdues. Perte de données Contre-mesure Complexité Réduction des risques Politique de sauvegarde Intégrée Incrémentale à base de méta-données Brute Forte Importante