BIG DATA PLATFORM FOR RESEARCH AND INNOVATION TERALAB



Documents pareils
Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Hadoop, les clés du succès

Big Data Concepts et mise en oeuvre de Hadoop

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Application Form/ Formulaire de demande

Anticiper et prédire les sinistres avec une approche Big Data

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Evolution des SI à l heure du Cloud

Panorama des solutions analytiques existantes

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Labs Hadoop Février 2013

BIG DATA en Sciences et Industries de l Environnement

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Notice Technique / Technical Manual

Lean approach on production lines Oct 9, 2014

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

HADOOP ET SON ÉCOSYSTÈME

Provide supervision and mentorship, on an ongoing basis, to staff and student interns.

Les journées SQL Server 2013

Thales Services, des systèmes d information plus sûrs, plus intelligents

I RENALA. Research and Education Network for Academic and Learning Activities. The Madagascar NREN

WEB page builder and server for SCADA applications usable from a WEB navigator

Le nouveau visage de la Dataviz dans MicroStrategy 10

BNP Paribas Personal Finance

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

Offre formation Big Data Analytics

Language requirement: Bilingual non-mandatory - Level 222/222. Chosen candidate will be required to undertake second language training.

Exemple PLS avec SAS

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Mémo

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

Plateforme Technologique Innovante. Innovation Center for equipment& materials

The impacts of m-payment on financial services Novembre 2011

THE OUAGADOUGOU RECOMMENDATIONS INTERNET INFRASTRUCTURE FOR AN AFRICAN DIGITAL ECONOMY 5-7 MARCH 2012

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

Mise en place d un système de cabotage maritime au sud ouest de l Ocean Indien. 10 Septembre 2012

XtremWeb-HEP Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

ERA-Net Call Smart Cities. CREM, Martigny, 4 décembre 2014 Andreas Eckmanns, Responsable de la recherche, Office Fédéral de l énergie OFEN

Tom Pertsekos. Sécurité applicative Web : gare aux fraudes et aux pirates!

BIG Data et R: opportunités et perspectives

Paxton. ins Net2 desktop reader USB

Frequently Asked Questions

Relions les hommes à l entreprise Linking people to companies

Nouveautés printemps 2013

De la réalité virtuelle à l analyse de données

Afin de valider votre inscription merci de bien veiller à :

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

SMALL CITY COMMERCE (EL PEQUEÑO COMERCIO DE LAS PEQUEÑAS CIUDADES)

Editing and managing Systems engineering processes at Snecma

HAUTE DISPONIBILITÉ DE MACHINE VIRTUELLE AVEC HYPER-V 2012 R2 PARTIE CONFIGURATION OPENVPN SUR PFSENSE

INSTRUMENTS DE MESURE SOFTWARE. Management software for remote and/or local monitoring networks

Les mésocentres HPC àportée de clic des utilisateurs industriels

François Louesse Comment rédiger un bon projet de R&D européen? Bien choisir son programme

Face Recognition Performance: Man vs. Machine

Instructions Mozilla Thunderbird Page 1

Improving the breakdown of the Central Credit Register data by category of enterprises

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

SERVEUR DÉDIÉ DOCUMENTATION

Comment valoriser votre patrimoine de données?

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

LADIES IN MOBILITY. LIVE TWEET Innovative City

UN PEU DE VOTRE CŒUR EST TOUJOURS À LYON... A PIECE OF YOUR HEART IS FOREVER IN LYON...

Cloud Computing: de la technologie à l usage final. Patrick CRASSON Oracle Thomas RULMONT WDC/CloudSphere Thibault van der Auwermeulen Expopolis

en SCÈNE RATIONAL Rational Démonstration SDP : automatisation de la chaîne de développement Samira BATAOUCHE sbataouche@fr.ibm.com

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Guide d'installation rapide TFM-560X YO.13

APX et VCE, Modèle d industrialisation de l intégration et du déploiement. Olivier BERNARD, VCE

Projet de réorganisation des activités de T-Systems France

Francoise Lee.

AVOB sélectionné par Ovum

Containers : Outils magiques pour les Devops? OpenNebula et son écosystème pour une infrastructure cloud agile

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

The space to start! Managed by

COMPUTING. Jeudi 23 juin CLOUD COMPUTING I PRESENTATION

Archived Content. Contenu archivé

How to Login to Career Page

.Réinventons l innovation.

ADHEFILM : tronçonnage. ADHEFILM : cutting off. ADHECAL : fabrication. ADHECAL : manufacturing.

EN UNE PAGE PLAN STRATÉGIQUE

UNIVERSITE LYON 3 (JEAN MOULIN) Référence GALAXIE : 4140

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

Journées Big Data à l ENSAI Big Data: les challenges, les défis

RAPID Prenez le contrôle sur vos données

Les marchés Security La méthode The markets The approach

Academic Project. B2- Web Development. Resit Project. Version 1.0 Last update: 24/05/2013 Use: Students Author: Samuel CUELLA

VERS L EXCELLENCE DANS LA FORMATION PROGRAMME D APPUI A LA QUALITE AMELIORATION SUPERIEUR DE LA QUALITE DE L ENSEIGNEMENT TITRE DU PROJET

Forthcoming Database

Jean-Philippe VIOLET Solutions Architect

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

Introduction à MapReduce/Hadoop et Spark

Transcription:

BIG DATA PLATFORM FOR RESEARCH AND INNOVATION TERALAB Présentation

Vocation Encourager l exploitation massive des données Une plateforme dédiée à la recherche / innovation / enseignement projets de recherche innovation, Enseignement, dont soutien formation continue en dehors de toute exploitation commerciale. Dan un cadre De projet collaboratif Ou bilatéral Financée par le PIA (5,7M ) 2012 : appel à projet PIA remporté par l IMT et le GENES, en partenariat avec l INSEE Fin 2013 : validation du volet financier par la caisses des dépôts et consignation Pour une durée de 5 ans (T0 janvier 2014) La plateforme a été ouverte en avril 2014 8-9 octobre 2014 l 2

Composantes de l offre 4 briques pour faciliter le passage à l acte Infrastructure technique - Hébergement souverain - compartiments sécurisés et dédiés - Double environnement : distribués et in memory Ecosystème embarqué - Les solutions standrds du marché, - Les solutions de start up innovantes Accompagnement - Technique prise en main - Scientifique - Ecosystème Corpus de données à disposition - Etalab - Crawling.. -.

Niveau de sécurité Infrastructure : Sécurité A la base de la conception de la plateforme L activité de recherche / innovation induit une acceptation juridique du risque, cependant Teralab met en œuvre tous les niveaux de sécurité industrielle, déclinée en deux niveaux : Teralab Sécurité industrielle Sécurité renforcée du CASD Une garantie d hébergement physique en France métropolitaine

Infrastructure : Sécurité A la base de la conception de la plateforme Espaces de travail cloisonnés (VLAN) Switch réseau configurés pour constituer des VLAN isolés pour chaque cluster Protège des incursions / perturbations extérieures 2 niveaux de firewall En amont de la plateforme : le seul à avoir une IP publique En amont de chaque cluster, personnalisable (sur demande) Tout accès nécessite un compte utilisateur (login /mot de passe) Droit d administrateur pour le partenaire lui permettant de personnaliser son dispositif de protection (authentification par clé par exemple) TERALAB Edge node (SSH) Internet Public @ FW DAS DAS DAS DAS DAS DAS Service node (https) FW Workspace (dedicated private network) Admin (SSH/Https) Private @ Le niveau de sécurité peut être ajusté en fonction des besoins d échange de données du partenaire (objets connectés par exemple) FW Datacenters localisés en France métropolitaine, avec 5 niveaux de sécurités physiques

Infrastructure : Sécurité CASD : un dispositif unique Equipement permettant d assurant la sécurité de données très sensibles Authentification forte par biométrie Prévient physiquement et logiquement tout évasion de fichier de données Un boitier autonome et dédié à l accès Lecteur biométrique Lecteur de carte à puce Ecran et boutons de paramétrage sur site Connecteur RJ45 Connecteur VGA Connecteurs USB La SD-Box.

Infrastructure : Puissance de calcul Scalabilité horizontale et verticale Secur. indust. Calcul distribué,. hadoop as a service Ensemble de machine multicoeur TeraMemory 4To RAM 240 cores 50To hot storage (extensible) exemples de configuration de cluster en production Hadoop vcpu RAM (GB) Storage (GB) CDH5.0 21 148 3512 CDH5.0 13 68 1944 CDH5.0 69 404 14744 HW 13 68 3512 Data provisionnning SQL / No sql / hadoop Configurations à très fort ratio mémoire / cœur - Memory upgradable from 4 to 24 TeraByte - 240 cores (8 Modules x2 Xeon/module x15cores/xeon) - 8000 specint - Net storage (DAS - Raid5): - current TeraLab: 50TB / Max : 800TB 8-9 octobre 2014 l 7

Infrastructure : briques logicielles Une large bibliothèque préinstallée / une personnalisation par vos soins Stockage et calcul distribué analytique Calcul distribué in memory Bureau déporté Monitoring Linux : CentOS 6.4 Hadoop : Cloudera Full CDH5 ou HW2 (dont web Hue, ClouderaMgr,) Python 2.7 : Canopy (Scikit-learn installable), R, Dataiku, Pentaho (partie libre) Spark, Flink (ex stratosphère) VNC Ganglia Les briques installées sont - open source - briques innovantes de start up (ex dataiku) a des fins de promotion Les gestionnaires de projets hébergés ont un compte administrateur et peuvent installer toute brique logicielle pour lesquelles ils disposent d une licence

SECURE Infrastructure : briques logicielles Exemple de configuration Users Edge nodes Cluster WORKSPACE (project, team ) Roles (applis, admin. actions) Groups (files) Linux server unix Create, start, stop, resize, operate HDFS, unix Edge node: The Edge Node is a system intended to be used as a Gateway. It is not a real part of the Cluster but all client library are installed on, thus allowing full access to the cluster from this system. Service node: System hosting most of helper services (Hue, Ganglia, Cloudera Manager, Ambari...). Name nodes: Two Namenodes acting as active/passive High Availability configuration. Data nodes: The workhorses of the cluster. Provide storage and compute resources. Firewall: A pfsense Firewall controlling all cluster access. Hadoop Environment Administration User operation Applications Database Parallelisation Engine File system Cluster OS Import/Export Others Environment Hadoop: Cloudera 4.6 + Cloudera 5 TeraLab mgr (cluster), Nagios (alerts), Ganglia (monitoring) Hue, ssh Oozie, Pig, Hive, Impala, Mahout Dataiku, Opendatasoft HBase (columnar) Yarn, MapReduce, Stratosphere Spark HDFS CentOS 6.4 (incl. python 2.6.6) Others linux distributions Flume, Hive Metastore Mgr, Sqoop Any imported Linux tool (may run on the cluster or on its edge node)

Accompagnement Une équipe dédiée Sur le volet technique Assistance à la prise en main de l infrastructure : conseils et aide opérationnelle Hotline avec des tickets incidents en ligne Sur le volet scientifique Une directrice scientifique dédiée au projet, avec une très forte expérience opérationnelle Un lien direct avec les équipes de recherche Mines et Telecom (dont laboratoires de machine learning Sur le volet économique Une orientation si besoin au sein de l écosystème économique Big Data : acteurs du marché, financements potentiels, start up sur des activités connexes 8-9 octobre 2014 l 10

Teralab écosysteme 4 chaires dans le périmètre Mines Telecom directement en lien avec le Big Data Machine Learning for Big Data Valeur et politique des informations personnelles réseaux sociaux Pilote Stéphan Clémençon Claire Levallois Barthes Christine Balagué Partenaires BNP Parisbas, Criteo, PSA, Safran Groupe Imprimerie Nationale, BNP Paribas et Dassault Système, avec l aide de la CNIL la Poste, Pages Jaunes Groupe et Danone E commerce Talel Abdessalem Partenaires

Teralab écosysteme De nombreux laboratoires dédié à la santé Télecom Bretagne - L UMR 1101 INSERM LaTIM - L UMR 3192 CNRS Lab-STICC MOM et inter-pôle HAAL - Départ. Optique, LUSSI - SFR 148 ScInBioS (Sciences et Ingénierie en Biologie Santé); - Le Labex COMINLabs en Bretagne - Le Labex national CAMI Télécom ParisTech - l UMR 5141 CNRS LTCI - L IFR 49 Imagerie Neurofonctionnelle; - Départ. TSI, SES Télécom Bretagne & Télécom ParisTech - Infrastructure «France Life Imaging» (via LaTIM & LTCI), - TIC et Santé Montpellier - WHIST Lab Télécom SudParis - UMR 5157 CNRS SAMOVAR - UMR 8145 CNRS MAP5 - Départ. EPH (Electronique & Physique) Télécom Ecole de Management - UCOTIC (Usages collectifs des TIC)

Modalité d accès S adapter à toutes les circonstances Les 6 premiers Sponsors POCs BILATERAUX Analyse de conversations, de documents non structurés, d images Identification d applications métiers pour valoriser la base de brevets ICANIC Innovation sur les données du groupe : Telecom, Bâtiment, Chantiers, Construction Innovation sur les données postales : par ex traitement de l enveloppe et suivi du pli Analyse prédictive, recherche sémantique, pour nouveaux services d information Croisements données : mobilités professionnelles, compétences, formations, PROJETS R&D COLLABORATIFS CHALLENGES BIG DATA CAP DIGITAL ENSEIGNEMENT PROJETS BOOTSTRAP *document de travail du 06/11/2014

Examples of on going projects on Teralab Project Short description Project description Speedata D4D Square Predict Normatis Project Speed Data is a decision-making platform in SaaS mode D4D Data for Development Senegal is an innovation challenge open on ICT Big Data for the purposes of societal development in Senegal. Square Predict is Big Data SaaS platform for insurance industry. The NormAtis project is on the use of multimodal data with Web information extraction, data integration, and mobility data management. The cost-effective, scalable, real-time (less than a minute) platform will be able to process volumes of data larger than a terabyte. The processed data will essentially be non-structured and come from both the online and offline worlds (web traffic measurements, weather, offline sales, economic or financial statistics, logistic data flows etc.). The objective of the Challenge is to achieve maximum involvement from local and regional stakeholders. Anonymous data, extracted from the mobile network in Senegal are available, as well as data on the amount of daily sunshine. 5 priority subject matters have been defined (health, agriculture, transport/urban planning, energy, national statistics). The challenge also wishes to contribute to a more technical objective, by rewarding the best advances in the algorithms of anonymisation, datamining, display and cross-referencing of data. The project includes a privacy expert and three R&D laboratories (LIPN, LIPADE and LARIS), the objective is to make predictions using classic insurance data mixed with data available on the Internet (social networks, semantic web, open data... ). Here are some issues that could solve Square Predict : Real-time estimation of the impact, including financial, damage caused by a climatic event of great magnitude. Predicting future fire / water damage based on available public data ( block by block or street by street, address or address). Detecting the occurrence of global events through analysis of weak signals. Norm - Atis is an ANR (national research agency) R&D project. This project aims to organize and structure the industrialization of automatic data collection on mobility; consolidate and analyze this mobility on a larger scale at the national level and European level by a pre-normative approach; promote the use of tools for better collective and individual transportation system; contribute to a predictive real time information about transportation.

Teralab écosysteme Projets déjà hébergés Ecosystème Pure R&D Machine Learning project (?) SickitLearn project (?) Project description Actors involved Big Data Researcher: A.Gramfort, S.Clemencon, Collaborati ve R&D Teaching Speedata - Decision-making platform in SaaS mode D4D Data for Development Senegal - innovation challenge open on ICT Big Data for the purposes of societal development in Senegal. Square Predict - Big Data SaaS platform for insurance industry. Normatis - Use of multimodal data with Web information extraction, data integration, and mobility data management. Yearly project (?) Lab work project (?) Others (?) Large industrial groups, SMEs, R&D Labs: Lecturer and researcher, students of big data masters: Industrial Proof of Concept Proof of Concept Médéric Fraud Detection for the french leader of private health insurance Proof of Concept Pôle Emploi (French Employment Office) Matching of jobs offers/profile/specific training to improve unemployed people market reinsertion Large industrial groups with business/big data challenges:

Teralab écosysteme Gouvernemental.. Plateforme référencée dans le cadre du plan Big Data (Plan nouvelle France Industrielle ) 8-9 octobre 2014 l 16

Vos projets de recherche sont les bienvenus Denis.oblin@mines-telecom.fr 0671627492 16/07/2015 17