Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia



Documents pareils
Panorama des solutions analytiques existantes

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Big Data Concepts et mise en oeuvre de Hadoop

Vos experts Big Data. Le Big Data dans la pratique

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Cartographie des solutions BigData

Labs Hadoop Février 2013

Fouillez facilement dans votre système Big Data. Olivier TAVARD

BIG DATA en Sciences et Industries de l Environnement

Une nouvelle génération de serveur

Les technologies du Big Data

Les journées SQL Server 2013

Hadoop, les clés du succès

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Programmation parallèle et distribuée

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Ricco Rakotomalala R.R. Université Lyon 2

Chapitre 10 Mettre en œuvre un cluster Hadoop

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Anticiper et prédire les sinistres avec une approche Big Data

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

HADOOP ET SON ÉCOSYSTÈME

Programmation parallèle et distribuée

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Cassandra et Spark pour gérer la musique On-line

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

JASMINe. Outils de gestion et supervision d'infrastructure intergicielle.

Introduction à MapReduce/Hadoop et Spark

Bases de données documentaires et distribuées Cours NFE04

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Introduction Big Data

Virtualisation. du poste de travail Windows 7 et 8. avec Windows Server 2012

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

BIG DATA : comment étendre et gérer la connaissance client? François Nguyen SFR Directeur SI décisionnel & Mkt relationnel GP

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

Guide de Tarification. Introduction Licence FD Entreprise Forfaits clé en main SaaS SaaS Dédié SaaS Partagé. Page 2 Page 3 Page 4 Page 5 Page 8

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Le nouveau visage de la Dataviz dans MicroStrategy 10

SpagoBI: la seule suite décisionnelle 100% open source, complète et flexible

Performances Veille. Système d Information. Semaine 25 du 18 au 24 juin Numéro 228

Mise en place d'un cluster

Tables Rondes Le «Big Data»

Offre formation Big Data Analytics

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

M2 GL UE DOC «In memory analytics»


agile Datacenter vert Le monde naissant des datacenters de nouvelle génération ICAR-2013

votre partenaire informatique pour un développement durable Les réalités de la virtualisation des postes de travail

Big Data Jean-Michel Franco

Location Analytics. Astrid GLADYS Thierry BABELAERE Pierre TEYSSENDIER. SIG 2013 Conférence Francophone 2 & 3 Octobre Versailles Atelier Technique

Le cloud computing au service des applications cartographiques à haute disponibilité

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Comment booster vos applications SAP Hana avec SQLSCRIPT

Cloud Privé / Public / Hybrid. Romain QUINAT vente-privee.com

Efficience énergétique du SI par l écoconception des logiciels - projet Code Vert

Comment la gestion de l identité numérique peutelle résoudre les cinq failles de sécurité d Hadoop?

Open Data. Enjeux et perspectives dans les télécommunications

Titre : La BI vue par l intégrateur Orange

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Les Smart Grids, filière stratégique pour les Alpes-Maritimes

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

Amazon Elastic MapReduce (Amazon EMR)

1 LE L S S ERV R EURS Si 5

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Programme TechDay Romandie

Gestion de clusters de calcul avec Rocks

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Programmation parallèle et distribuée (Master 1 Info )

Cloud Computing. Introduction. ! Explosion du nombre et du volume de données

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

Retour d exprience sur le cluster du CDS

JOnAS 5 Enterprise OSGi javaee compliant

Votre département informatique externalisé

Cahier des charges de mise en concurrence. Virtualisation des serveurs. I. Contexte. II. Objectifs

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Solution de sauvegarde pour flotte nomade

Technologies en rafale Un atelier de type GGT à la RN

Architectures d implémentation de Click&DECiDE NSI

Protégez-vous du vol de données en renforçant la sécurité de vos procédures d identification lors des connexions distantes

hurence Big Data get its magical power CEO & CTO

Catalogue Formation «Vanilla»

Service Cloud Recherche

Les quatre piliers d une solution de gestion des Big Data

Vision prospective et obstacles à surmonter pour les assureurs

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Catalogue des stages Ercom 2013

BI Haute performance. Jean-François Vannier Responsable Infrastructures Décisionnelles, Bull

BIG DATA PLATFORM FOR RESEARCH AND INNOVATION TERALAB


POM Monitoring V4.0. Release Note fonctionnelle

Transcription:

Projet Xdata Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Mutualisation des données XData = Cross Data En croisant des données d origine diverses, on peut générer de nouveaux usages et de nouvelles opportunités Faire la démonstration de cette idée Jeux de données Usages Plateforme Méthodes

Eléments Usages Jeux de données Plateforme Protection Données Personnelles

Thèmes généraux Mouvement des individus Densité Déplacements Consommation de services par les individus et les entreprises Echelle de temps Heure/Jour/Semaine/Mois/Année Echelle d espace Pays/Région/Departement/Commune/Quartier

Démarche Chainage avant Identifier des jeux de données, puis trouver des usages Chainage arrière Identifier des usages et en déduire les jeux de données Profiter de cette approche double pour enrichir notre liste d usage et notre liste de jeux de données

Type d usages et d applications Catégories d usages Usages internes pour les participants Usages externes (Clients à identifier) Catégories d usages Applications Analyses Dataviz

Plateforme technique Une plateforme pour Partager les données Partager des composants Plateforme matérielle Parallélisme Plateforme logicielle Environnement Hadoop, bases de données Dataviz, analyse, prédiction

Plateforme commerciale La plateforme XData peut être la préfiguration d une place marché de mutualisation de données et de technologies associées Partage de données Partage d outils de traitement de données Modèles économiques de mutualisation

Protection des données Un élément clé du projet Voir défis et difficultés personnelles Conflit classique open data vs. protection vie privée Prise en compte à l initiation du projet Méthodologie et stratégie d anonymisation Consultation de la CNIL

Présentation des partenaires Cinequant Data Publica EDF R&D ESRI Hurence INRIA (Indes, Privatics & Zenith) Telecom ParisTech WebDB La Poste, Dides Orange Veolia, Veri

Ouverture XData est un projet ouvert Nous invitons des partenaires à nous rejoindre pour apporter expertise, technologie et données

Infrastructure Applications actuelles UI Analyse des données en OLAP UI Analyse des migrations entre départements Etc. Distribution Hadoop + Storm + Elastic Search Outils de restitution Outils de sécurité un système d'exploitation CentOS version 64 bits 12 à 16 cœurs CPU 72 à 96 Gigas de RAM par serveur 2 x 2 To de disque SATA par serveur en DAS Un accès Internet montant et descendant important Idéalement une connectique réseau de 10 gigabits / seconde Outils de l écosystème HDFS Installation Administration PIG, Mahout et les outils disponibles de la distribution (Hive/Impala, HBase) Map Reduce Monitoring Access Rights + Kerberos Apache Servers applicatifs Kibana Elastic Search UI Serveurs Kerberos Authentification Gestion des clés de sessions cryptées) Hadoop + ES cluster + Storm: 4 nœuds de gestion + 20 workers Hadoop / Storm / ES + 4 machines edge (4 cœurs, 32G RAM, 2 teras SATA)

Jeux de données Grands groupes EDF La Poste Orange Veolia Réseaux sociaux (Telecom ParisTech) Open Data (Data Publica)

Applications témoin Objectif : Aider à sortir des données Valider le processus avec la CNIL Produire des candidats d usage Applications Zones de chalandise Consommation quartier Tourisme Fragilité des quartiers Pression immobilière

Le Défi de la Protection des données Personnelles Certains principes peuvent paraitre contradictoires: Recommandation CNIL: la minimisation des données collectées (seules les données nécessaires au fonctionnement du service doivent être recueillies) L idée de l Open Data est à l opposé : recueillir le maximum de données, puis voir éventuellement ce qu on peut en faire après.

Premiers résultats Premiers jeux de données Maitrise du processus protection des données privées Première version de la plateforme Premières applications Début d ouverture à de nouveaux partenaires

Premier Bilan Bonnes surprises Un gros consortium assez agile On arrive rapidement à faire des premiers démonstrateurs Mauvaises surprises Faire sortir des données est un exercice long et compliqué Le problème protection des données personnelles est un problème complexe

Objectifs deuxième phase Plus de données Démonstration anonymisation Nouvelle version de la plateforme Technique et business Nouveaux usages Analyses, Dataviz, Applications Plateforme ouverte