BIG DATA Veille technologique Malek Hamouda Nina Lachia Léo Valette Commanditaire : Thomas Milon Encadré: Philippe Vismara 1
2 Introduction Historique des bases de données : méthodes de stockage et d analyse 1960 1970 1980 1985 2000 2012 Organisation classique en fichier Premier SGBD 2 ème génération des SGBD: Les systèmes relationnels 3 ème génération des SGBD: Les systèmes orientés objets. Entrepôt de données Explosion du volume de données Méthodes d analyses statistiques classiques 1 er méthode d analyse chimiométrique multivariée : Exploratoires (ACP,AFCM) Régression(PCR, PLS) Fouille de données. Méthodes pas assez puissante pour traiter et analyser toutes ces données
3 Introduction Volume Vitesse Variété à Big Data Ensemble de données trop volumineuses et variées pour être stockées ettraitées avec des outils classiques de gestion de base de données. Problèmatique: Comment stocker et analyser ces données?
4 Introduction Qui est concerné par le Big Data q Web, internet et objet communicant : e-journaux, réseaux sociaux, e- commerce, stockage de document, RFID, réseaux de capteurs q Sciences : génomique, astronomie, climatologie q Données commerciales, personnelles, publiques. (Historique de transaction dans une chaine de supermarchés, Dossier médicaux, Open data ) Fournisseurs de solutions Leader du web Le secteur scientifique Les grands acteurs de logiciel et système d entreprises
5 Plan Formes de stockage des données Méthode de traitement Conclusion et perspectives
Modèle classique : BD relationnelle 6 I. Quelles formes de stockage? Interrogation par requête SQL Techniquement impossible sur du big data Modèle NoSQL (not only SQL)
Le modèle NoSQL I. Quelles formes de stockage? Base du NoSQL : structure «clé-valeur» distribuée 7 Clé Malek Valeur Etudiante Léo 23 Nina Bruno France Enseignant Clé Nina Valeur agrotic Malek Léo Tunisie Etudiant Simplifier les BD : Supprimer les relations entre tables Transférer l intelligence des requêtes SQL vers l applicatif qui interroge la BD Pouvoir répartir la BD sur plusieurs serveurs
I. Quelles formes de stockage? 8 Base de donnée clé-valeur AVANTAGES Stocker un grand nombre de données et de nature variée Effectuer des requêtes rapides Augmentation de la capacité de calcul et de stockage en ajoutant de nouveaux serveurs INCONVENIENTS Pas de requêtes complexes Transactionnel limité (atomicité, cohérence, isolation, durabilité) Apprendre une nouvelle approche de technologie de base de données
9 I. Quelles formes de stockage? Les différents types de NoSQL
I. Quelles formes de stockage? 10 Les différents types de NoSQL APPLICATIONS : Données semi-persistantes cache, pour conserver les sessions d'un site web stockage pour des files d'attentes, accumuler des événements bruts en vue d'en agréger des statistiques EXEMPLES : Memcached CouchBase Redis
Les types de NoSQL BigTable et dérivés Clé (ID message) Valeur (destinataire) 11 I. Quelles formes de stockage? Tag temps (heure envoie) APPLICATIONS : BD de tous les produits Google (Gmail, Reader, gmaps, Earth, blogger, youtube, ) sur Bigtable BD de Twitter sur Cassandra BD de Facebook sur HBase
12 Les types de NoSQL BD orientées documents I. Quelles formes de stockage? Clé (id document) Doc001 Valeur (information structurée de manière hiérarchique type XML,JSON) {promo: agrotic2012, groupe : Malek, Nina, Leo, travail : veille techno, date : 19/12/2012, body:, } APPLICATIONS : Accélérateur de particules du CERN, banque Barclays sur MongoDB Ubuntu One et la banque suisse sur CouchDB Mozilla, AOL sur Riak
Les types de NoSQL BD orientées graphes Clé Valeur 3 {Statut: étudiante, Etat: souriante } 13 I. Quelles formes de stockage? Bruno Id: 1 Statut : enseignant 103 {label: enseigne à } Nina Id: 103 label : enseigne à Id: 2 Statut : étudiante Id: 203 label : est amie avec Malek Id: 3 Statut : étudiante État : souriante APPLICATIONS : Deutsche Telekom et Viadeo sur NEO4J
14 Plan Formes de stockage des données Méthode de traitement Conclusion et perspectives
15 II. Méthode de traitement Une Nouvelle façon d interroger les données Architecture traditionnelle Architecture BigData Division en clusters à Une méthode de programmation d analyses en parallèle à Grande quantité de données, traitement à grande vitesse Source: http://static.slidesharecdn.com/
16 II. Méthode de traitement Le principe en exemple Compter le nombre de lettres contenus dans un fichier Fichier source (Base de données NoSQL) Splitting Découpage en blocs Mapping Fonction d analyse parallèle Shuffling Tri Reducing Agrégation des informations Résultat A, 3 B, 1 C, 3 D, 2 à Répartition du travail à Efficace sur des tera octets de données
17 II. Méthode de traitement Source: http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=bigdata1-111109113624-phpapp02&stripped_title=big-data-par-mfglabs&username=benjamingans
18 II. Méthode de traitement Projet Apache Open Source
19 II. Méthode de traitement PARALLELISATION DES PROCESSUS Volume de donnée Vitesse de traitement augmentée Les traitements en temps réel Quelques exemples Publicité Transactions financières Gérer des flux de données énormes en temps réel
Conclusion: 20 Principes: Travail en parallèle et structuration simplifiée de la donnée. Le Big Data ne s applique que dans des cas particuliers, pour des besoins particuliers. A quand un BigDat Agricole?
21 Autres informations: Conférence à Paris (Défense)au CNIT le 3 et 4 avril 2013 sur le BIG DATA. 1 er master en France, ouvre en 2013 à Telecom Paris Tech sur BIG DATA : gestion et analyse des données massives.
22
23 Risques: Protection des données à caractères personnelle: Mot de passe, liberté de circulation,géolocalisation des personnes à partir des smartphones (photos et les publications). De contrôle permanent de la pars des autorités.
Bibliographie (articles scientifique, conférences, livres, cours ) 24 Conférence du 20/21 mars 2012 sur les Big Data à la Cité universitaire à Paris http://www.digora.com/blog/big-data-connaissez-vous-hadoop/ http://123opendata.com/blog/le-lexique/#ixzz2fohd8rrn (lexique de l Open Data) http://www.telecom-paristech.fr/big-data-dossier-presse.html#c9999 http://www.telecom-paristech.fr/formation-continue/les-entretiens-detelecom-paristech/dec-2012-big-data-big-value/avis-experts.html#c10129 http://nosql.mypopescu.com/post/9621746531/a-definition-of-big-data http://france.emc.com/microsites/bigdata/index.htm http://eric.univ-lyon2.fr/~jdarmont/docs/old/sise-bd.pdf Journal : O Reilly, article Big Data Now. Edition 2012. Big Data Spectrum, Connect Architecture, Infosis. Big Data et Open source, une convergence inévitable, Mars 2012 Stéphane Fermier.
25 II. Nouveau mode de traitement des flux de données «Stream Processing». Utilité: permet d effectuer plus facilement et plus rapidement le calcul parallèle. Pourquoi? : Les données en entrée sont trop rapide pour les stocker dans leur intégralités La réponse doit être immédiate. (en temps réel) Quelques exemples.
Annexes 26
Annexes 27