BIG DATA Watcha
1 BIG DATA Chaque jour, nous générons 2,5 trillions d octets de données. A tel point que 90% des données dans le monde ont été créées au cours des deux dernières années seulement. Ces données proviennent de partout : de capteur utilisés pour collecter les informations climatiques, de messages sur les sites de médias sociaux, d images numériques et de vidéos publiées en ligne, d enregistrement transactionnels d achats en ligne et de signaux GPS de téléphone mobiles etc. Pour faire face à l explosion du volume de données, un nouveau domaine technologique a vu le jour : le BIG DATA. Inventées par les géants du web, ces solutions sont dessinées pour offrir un accès en temps réel à des bases de données géantes. Le BIG DATA vise à proposer une alternative aux solutions traditionnelles de base de données et d analyse (serveur SQL, plate-forme de Business Intelligence ) Les géants du Web comme Yahoo, Facebook, Google ont été les premiers à déployer ce type de technologies. Le BIG DATA englobe un ensemble de technologies et de pratiques destinées à stocker de très grandes masses de données et à les analyser rapidement.
2 Caractéristiques du BIG DATA Les caractéristiques majeures du BIG DATA sont résumées en trois lettres V : Volume, Vélocité, Variété. Volume : Les ensembles de données suffisamment grands pour nécessiter des superordinateurs mais dans les années 1990-2000, il est devenu possible d utiliser des logiciels standards pour analyser ou co-analyser des vastes ensembles de données. Le volume des données stockées est en pleine expansion : les données numériques créées dans le monde sont passées de 1,2 zettaoctets par an en 2010 à 1,8 zettaoctets en 2011, puis 2,8 zettaoctets en 2012 et s élèveront à 40 zettaoctets en 2020. A titre d exemple, en 2013, Twitter a généré 7 téraoctets de données chaque jour et Facebook 10 téraoctets. Les entreprises sont submergées de volumes de données croissants de tous types, qui se comptent en téraoctets, voire en pétaoctets Vélocité : La vélocité représente à la fois la fréquence à laquelle les données sont générées, capturées et partagées et mises à jour. Parfois, 2 minutes c est trop. Pour les processus chrono-sensibles tels que la détection de fraudes, des flux de données croissants doivent être analysés en quasi-temps réel. Par exemple : Scruter 5millions d événements commerciaux par jour afin d identifier les fraudes potentielles. Analyser en temps réel 500 millions d enregistrements détaillés d appels quotidiens. Variété : Le volume des BIG DATA met les data centers devant un réel défit : la variété des données. Le BIG DATA se présente sous la forme de données structurées ou non structurées (texte, données de capteurs, son, vidéo, données sur le parcours, fichiers journaux etc..). A titre d exemple : Utiliser les centaines de flux vidéo des caméras de surveillance pour contrôler les points d intérêt Tirer parti de la croissance de 80% du volume de données image, vidéos et documentaires pour améliorer la satisfaction client
3 Stockage Quand l une des couches du SI devient un facteur limitant lors du traitement de gros volumes de données, on peut comprendre qu il s agit de Big data. La couche stockage est l un des premiers facteurs limitant et les problématiques associées sont les suivantes : Performance : l augmentation du volume à traiter entraine une diminution des performances Linéarité : l outillage n étant pas adapté aux gros volumes de données le modèle de scalabilité n est pas linéaire, l ajout de stockage ne permettant pas d améliorer les performances Dynamisme : l allocation d espace est fixe avec une faible réactivité pour ajouter ou en retirer. Les solutions du marché reposent sur des implémentations propriétaires. Les solutions Big data reposent sur un stockage basé sur le modèle de fichier distribué : des nœuds de stockage sont répartis physiquement sur le réseau mais vus par les applications comme un seul volume de stockage logique. La solution Big data répond aux enjeux suivants, auparavant problématiques : Performance : les données sont réparties sur plusieurs nœuds de stockage et ceux-ci se distribuent intelligemment la donnée afin de diminuer le trafic réseau (les données semblables sur un même nœud) et faciliter des traitements distribués Linéarité : le modèle distribué permet d ajouter des nœuds de stockage sans limite et permet de retrouver une scalabilité linéaire Dynamisme : l ajout et la suppression de nœud de calcul peuvent se faire simplement et apportent une résilience (via la réplication automatique des données). Si un nœud de stockage tombe, le service est assuré sans arrêt et sans perte de données. On s approche d une perte de données «RPO» et d un temps de reprise «RTO» nulle.
4 Les avantages du Big data Le Big data définit l utilisation de données définit l utilisation de technologies et de méthodes pour analyser des ensembles de données. Il s agit de déceler et de rendre exploitables certaines tendances de marché, ou des comportements de consommateurs. Le Big data est mis à profit par les professionnels du marketing pour affiner leur ciblage et analyser toutes les facettes du comportement du consommateur. Les données issues de leurs achats sur internet ou en magasin, leurs préférences sur les réseaux sociaux et leurs historiques de navigation. Dans une même entreprise, plusieurs départements peuvent être concernés par la mise en place et l'utilisation du Big Data : informatique, commercial, marketing... Les services marketing font le plus appel au Big Data. Ils sont considérés comme précurseurs dans la mise en place de nouvelles stratégies. A travers ces services, le Big Data répond à plusieurs enjeux pour l'entreprise : Améliorer l'expérience client, Mieux comprendre les comportements des prospects et des clients, Anticiper les besoins et adapter les campagnes marketing. La mise en place de nouveaux processus liés au Big Data peut aussi permettre l'amélioration de la chaîne logistique, des mécanismes de décision et un avantage concurrentiel significatif. Des avantages pour le marketing de l'entreprise : Améliorer l'efficacité des campagnes publicitaires, qu'elles soient en ligne ou non, Affiner le ciblage des prospects et des clients, Analyser le comportement des prospects et des clients à 360 : achats en magasin et en ligne, habitudes de navigation sur internet, préférences renseignées sur les réseaux sociaux... Analyser les données Le flux important de données et d'informations peut présenter un risque pour l'entreprise, en noyant les objectifs dans le volume. Pour éviter ce risque, le client ou le prospect doit être placé au centre de l'analyse : en quoi les données peuvent-elles permettre d'améliorer son expérience d'achat? De quelles informations a-ton besoin pour adapter le produit ou le service à ses attentes ou à son comportement? Le projet Big Data d'une entreprise peut être développé autour de plusieurs axes : Concentrer l'effort sur le client et sur le résultat visé, Utiliser les données pour renforcer sa compétitivité, Mêler l'analyse statistique et l'analyse prédictive pour affiner les résultats.
5 Les inconvénients du Big data Néanmoins le Big DATA présente de nombreux risques d'atteinte à la vie privée et aux droits fondamentaux Le respect de la vie privée est encadré, de façon toute relative, par la loi «informatique et libertés» de 1995. Elle dit notamment que les données personnelles doivent être collectées dans un but bien précis, explicite et surtout légitime. Elle stipule que la durée de conservation des données ne doit pas excéder l atteinte de cet objectif. Elle dit notamment que les données personnelles doivent être collectées dans un but bien précis, explicite et surtout légitime. Elle stipule que la durée de conservation des données ne doit pas excéder l atteinte de cet objectif. Par ailleurs, l individu, l internaute, bénéficie également du droit d être informé de la collecte des données le concernant. Faille de sécurité informatique : dans un monde de plus en plus interconnecté et lié à l Internet, la sécurité en ligne devient cruciale, pour la protection de la vie privée, mais aussi pour l'économie (ex : en cas de problème grave, des risques existent de perte de confiance, concernant la sécurité des processus d achat en ligne par exemple ; ils pourraient avoir des conséquences économiques importantes). Déshumanisation : dans ce que Bruce Schneier dénomme «l âge d or de la surveillance», la plupart des individus peuvent se sentir déshumanisés et ils ne peuvent plus protéger les données personnelles ou non qui les concernent, et qui sont collectées, analysées et vendues à leur insu. Alors qu'il devient difficile de se passer de carte bleue, de smartphone ou de consultation de l'internet, ils peuvent avoir le sentiment de ne pas pouvoir échapper à une surveillance constante où à des pressions visant à les faire consommer, voter, etc.
6 Des Cyberattaques en constante augmentation Les perspectives de croissance du secteur sécurité informatique sont importantes tant les menaces se font pressantes. En effet, le vol de données aurait augmenté de 78% en 2014 comparé à l année précédente. Plus d un milliard de données a été dérobé. Les opérations de hacking d acquisition de données ont, elles, augmenté de 49%. Tous les deux ans, le cabinet de conseil PricewaterhouseCoopers (PwC) réalise une étude sur les menaces informatiques pesant sur les entreprises. La dernière a révélé que les cyberattaques contre les sociétés ont augmenté de 38% dans le monde et de 51% en France, soit l équivalent de 21 incidents par jour. Avec le Big Data, trois nouveaux types de risques apparaissent. Ils peuvent être liés à l acquisition de données, à la réglementation, et à la vie de la donnée. Cependant, la mise en place, dès la conception d un projet, des grandes briques de sécurisation permet de réduire fortement ces risques. Big Data ou pas, les process d authentification, de contrôle d accès, d audit et de cryptage, sont des éléments incontournables de la sécurité de tout système.