Journées Big Data à l ENSAI Big Data: les challenges, les défis



Documents pareils
FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Le Mastère Spécialisé Big Data de Télécom ParisTech

BIG DATA : GESTION ET ANALYSE DES DONNÉES MASSIVES (BGD) Mastère Spécialisé. Appréhendez les challenges économiques et juridiques du Big Data

Introduction Big Data

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Panorama des solutions analytiques existantes

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

À PROPOS DE TALEND...

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

AXIAD Conseil pour décider en toute intelligence

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Le potentiel et les défis du Big Data. Mardi 2 et Mercredi 3 Juillet 2013

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Titre : La BI vue par l intégrateur Orange

TRAVAUX DE RECHERCHE DANS LE

Comment valoriser votre patrimoine de données?

SMU MEDITERRANEAN. SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002)

Assemblée générale Aristote

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Offres de stages 2011/2012

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

GT Big Data. Saison Bruno Prévost (Safran), Marc Demerlé (GDF SUEZ) CRiP Thématique Mise en œuvre du Big Data 16/12/14

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

Objectifs pédagogiques de l enseignement «Métiers»

BIG DATA en Sciences et Industries de l Environnement

Travailler avec les télécommunications

Workshop Big Data Valère DUSSAUX (GCS-D-SISIF) Bruno PREVOST (SAFRAN) Point d avancement

Technologies de la Recherche et standards du Web: Quel impact sur l Innovation?

Prenez en main. votre avenir! BTS-DEES-MASTER

Entreprise et Big Data

Bases de données documentaires et distribuées Cours NFE04

Master Informatique Aix-Marseille Université

Institut. Master MIAGE. Master SIC. d Administration des Entreprises de Paris. Sorbonne Graduate Business school

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

BIG DATA et DONNéES SEO

Cartographie des solutions BigData

Le BigData, aussi par et pour les PMEs

55, rue du Faubourg Montmartre Paris +33 (0)

Big Data On Line Analytics

Présentation de la majeure ISN. ESILV - 18 avril 2013

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Labs Hadoop Février 2013

VIPE CNAM 6 mars Frank Meyer Orange Labs / IMT / UCE / CRM-DA / PROF

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

Bases de données documentaires et distribuées Cours NFE04

Programmation parallèle et distribuée (Master 1 Info )

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

IBM Software Big Data. Plateforme IBM Big Data

Spécialité IAD. Master de Sciences et technologie de l UPMC. Mention informatique. Partenaires : ENST, ENSTA. Responsables : T. Artières, C.

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL


accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

Open Data. François Bancilhon twitter.com/fbancilhon Printemps de la recherche EDF R&D 28/9/12

Les datas = le fuel du 21ième sicècle

Open Data. Enjeux et perspectives dans les télécommunications

La Chaire Accenture Strategic Business Analytics de l ESSEC

FORMATIONS EN INFORMATIQUE DES ORGANISATIONS. Informatique Economie Statistiques Gestion.

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

Kick Off SCC 2015 Comment faire de votre infrastructure de stockage une source d économie? Vers de nouveaux horizons

DATA ANALYTICS Des données aux connaissances et à la création de valeur

Comment le "big data" impacte le domaine de l'intelligence Economique?

Architecte de Services Informatiques

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

Catalogue des stages Ercom 2013

Vos experts Big Data. Le Big Data dans la pratique

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Stratégie Télécom ParisTech

DiFiQ. Diplôme Finance Quantitative. Une formation en partenariat. Ensae Dauphine Bärchen

«Les projets collaboratifs pour les nuls»

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Diplôme Fédéral de Web Project Manager

Les technologies du Big Data

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

BIG DATA : comment étendre et gérer la connaissance client? François Nguyen SFR Directeur SI décisionnel & Mkt relationnel GP

LE MEILLEUR DES SOLUTIONS COLLABORATIVE OPEN SOURCE. et pas que la GED

Les Ressources Humaines à l heure du Big Data : progrès, perspectives et limites CORNERSTONE WHITEPAPER

Surmonter les 5 défis opérationnels du Big Data

DEVELOPPER SON BUSINESS AVEC LE CLOUD

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Document réalisé par Khadidjatou BAMBA

Transcription:

Journées Big Data à l ENSAI Big Data: les challenges, les défis Stéphan Clémençon Télécom ParisTech November 22, 2013 Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 1 / 22

Agenda Contexte et opportunités Challenges scientifiques et collaborations industrielles Le défi de la formation Qelques actions en cours et à venir Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 2 / 22

Big Data - Le contexte Une accumulation de données massives dans de nombreux domaines: Biologie/Médecine (génomique, métabolomique, essais cliniques, imagerie, etc. Grande distribution, marketing (CRM), e-commerce Moteurs de recherche internet (contenu multimedia) Réseaux sociaux (Facebook, Tweeter,...) Banque/Finance (risque de marché/liquidité, accès au crédit) Sécurité (ex: biométrie, vidéosurveillance) Administrations (Santé Publique, Douanes) Risques opérationnels Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 3 / 22

Big Data - Le contexte Un déluge de données qui rend inopérant: les outils basiques de stockage de données gestion de base de données (MySQL) le prétraitement reposant sur l expertise humaine indexation, analyse sémantique modélisation intelligence décisionnelle Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 4 / 22

Big Data - Le contexte Une multitude de briques technologiques et de services disponibles pour: La parallélisation massive (Velocity) Le calcul distribué (Volume) La gestion de données sans schéma prédéfini (Variety) parmi lesquels: Le modèle de programmation MapReduce: calculs parallélisés/distribuées Framework Hadoop NoSQL: SGBD Cassandra, MongoDB, bases de données orientées graphe, moteur de recherche Elasticsearch, etc. Clouds: infrastructures, plate-formes, logiciels as a Service promus par Google, Amazon, Facebook, etc. Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 5 / 22

Big Data - Les opportunités Des avancées spectaculaires pour la collecte et le stockage (distribué) des données la recherche automatique d objets, de contenu le partage de données peu structurées Le Big Data: un moteur pour la technologie, la science, l économie Moteurs de recherche, moteurs de recommandation Maintenance prédictive Marketing viral à travers les réseaux sociaux Détection des fraudes Médecine individualisée Publicité en ligne (retargeting) Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 6 / 22

Big Data - Les opportunités Ubiquité De nombreux secteurs d activité sont concernés: (e-) Commerce CRM Santé Défense, renseignement (e.g. cybersécurité, biométrie) Banque/Finance Transports intelligents etc. Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 7 / 22

Big Data - Les besoins Talents Selon l Institut McKinsey Global, d ici à 2018 aux USA: 300 000 architectes Big Data 140 000-190 000 recrutements de data scientists 1, 5 million de cadres/techniciens avec des connaissances générales dans ce domaine La perle rare pour les grands groupes: le Chief-Data-O cer Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 8 / 22

Big Data - Recherche Afin d exploiter les données (prédiction, interpétation), développer des technologies mathématiques permettant de résoudre les problèmes computationnels liés: aux contraintes du quasi-temps réel! apprentissage automatique séquentiel ( on-line ) 6= batch, par renforcement au caractère distribué des données/ressources! apprentissage automatique distribué à la volumétrie des données! impact des techniques de sondages sur la performance des algorithmes Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 9 / 22

Big Data - Recherche Des techniques de visualisation, représentation de données complexes Graphes (évolutifs) - clustering, graph-mining Image, audio, video - filtrage, compression Données textuelles (e.g. page web, tweet) Domaines Probabilité, Statistique Machine-Learning Optimisation Traitement du signal et de l image Analyse Harmonique Computationnelle analyse sémantique etc. Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 10 / 22

Formations Data Science : un bref tour d horizon En France Masters disciplinaires: informatique ou maths appliquées A l international Stanford University (Stanford Center for Professional Development): Data Mining and Applications Graduate Certificate en 3 ans (12 000 $ env.), avec Sony, Cisco Columbia Institute for Data Sciences and Engineering, Chicago Northwestern University (MS program in Predictive Analytics), North Carolina State University (MS in Analytics avec SAS), UC San Diego (certificate program in data mining), etc. Secteur privé: SAS, EMC (GreenPlum), IBM (Netezza), Cloudera, etc. Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 11 / 22

Big Data : le défi de la formation Compétences en maths/info Analyse sémantique Sécurité des données Systèmes répartis, parallélisation massive, clouds Analyse des réseaux sociaux, graph-mining Visualisation, iterface homme-machine Ranking, moteurs de recommandation/recherche Machine-learning distribué, en ligne, passage à l échelle Compétences en droit/économie Propriété des données personnelles Création de valeur, économie de l internet Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 12 / 22

Big Data Le phénomène Big Data appelle de nouvelles o res de formation pose de nouveaux problèmes scientifiques/technologiques/juridiques Répondre à ces besoins requiert une collaboration étroite avec le monde de l industrie et des services une mutualisation des moyens/forces Big Data, big value? Les Entretiens de Télécom ParisTech 5-6 déc 2012 Cahier de Veille de la Fondation et Séminaire Managing data in an hyperconnected world Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 13 / 22

Actions dans le domaine de la formation Mastère Spécialisé Big Data - ouvert en sept. 2013 30 stagiaires Multidisciplinarité: données, sécurité, visualisation, maths appliquées, droit, économie/business Recrutement: niveau M2 Projets Fil Rouge tutorés par des professionnels (e.g. Capgemini, GdF Suez, EDF, Xebia, start-ups de l incubateur de TPT), séminaires (Thalès, McKinsey, etc.) Comité de perfectionnement: EADS, Thalès, IBM, Google, Critéo, Liligo, Safran, SAS, Capgemini Objectif: un savoir-faire opérationnel Stage et thèse professionnelle 6 mois Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 14 / 22

d apprentissage! statistique! aux! 3 ème!!et!4 ème! trimestres,! la! promotion! ne! sera! pas! mélangée! à! d autres! élèves! pour! plus! d efficacité! pédagogique.! Chaque! professeur! précisera! les! modalités! d évaluation! de! son! cours.! Au! delà! des! enseignements,! des! séminaires!seront!organisés!lors!desquels!des!professionnels!issus!de!secteurs!d activité! variés! viendront! expliquer! leur! vision! des! enjeux/challenges! du! Big! Data,! et! des! «!projets! fil! rouge!»! proposés! par! des! entreprises! seront! menés! en! groupe! par! les! stagiaires!du!ms.!!! La formation - Enseignements Planning(! La!prérentrée!s effectuera!le!27!septembre!!! A! B! C!! A1! A2! B1! B2!! P1! Concepts! Fondamentaux!de!la! Sécurité!(30H,!3ECTS)! INF721! P2! L Ecosystème!du!Big! Data!(20H,!3ECTS)! SES721!! Statistique!(30H,!3ECTS)! MDI!220! Visualisation! d Information!(30H,! 3ECTS)! INF229! P3! Systèmes!Répartis!(60H,!5ECTS)! INF346! P4! MachineXLearning!Avancé!(60H,!5ECTS)! INFMDI341! Bases!de!Données! (30H,!3ECTS)! INF225! Economie!de! l Internet!et!des! Données!Personnelles! (20H,!3ECTS)! SES720! Bases!de!Données!Avancées!(60H,!5ECTS)! INF345! MachineXLearning!(60H,!5ECTS)! MDI!343! Données!du!Web!(60H,!5ECTS)! INF344! Projet!Fil!Rouge! INFMDI780! Projet!Fil!Rouge! INFMDI780! Projet!Fil!Rouge! INFMDI780!!! Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 15 / 22

La formation - Projets Fil Rouge 7 mois travail en groupe (par ex. 4 à 5 stagiaires, aux compétences complémentaires) vise à explorer un thème du Big Data à plusieurs facettes e.g. infrastructure, analyse, exploitation, mise en production, droit, business model recherches bibliographiques, étapes de modélisation, développement et expérimentation projets proposés et tutorés par des professionnels suivi hebdomadaire assuré par des enseignants-chercheurs Infrastructure Hadoop sur un cluster propriétaire, utilisation d AWS Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 16 / 22

Actions dans le domaine de la formation Certificat Data Science - prévu au printemps 2014 Cible: professionnels en situation d emploi 24 jours de présentiel A développer: plateforme d e-learning Formation Continue Stages ciblés Ex: machine-learning, valorisation des données personnelles, l écosystème Big Data Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 17 / 22

Actions dans le domaine de la recherche Certificat Data Science - prévu au printemps 2014 Cible: professionnels en situation d emploi 24 jours de présentiel A développer: plateforme d e-learning Formation Continue Stages ciblés Ex: machine-learning, valorisation des données personnelles, l écosystème Big Data Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 18 / 22

Actions dans le domaine de la recherche Partenariats avec l industrie Chaires industrielles: Réseaux sociaux - Télecom Ecole de Management Valeurs et politiques des informations personnelles - Télecom ParisTech, Télecom Sud Paris & Télecom Ecole de Management Machine-Learning & Big Data - Télecom ParisTech Big Data for e-commerce - Télecom ParisTech Contrats bilatéraux (e.g. EADS, Orange, StreamWide) Journée Big Data ParisTech-Thalès le 8/11/2013 Partenaires académiques IMT: Mines (Bio-info), TSP, Télecom Ecole de Management Au sein de ParisTech: X (CMAP), ENPC (Cermics), ENSAE (Crest) Saclay: Université Paris Orsay (LRI), ENS Cachan (CMLA), CEA, INRIA Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 19 / 22

Une plateforme IMT/GENES pour la recherche et l enseignement Projets de recherche et de transfert technologique À l exclusion de toute activité commerciale Equipe support Hébergement souverain 24/7 2 Compartiments Batch/ Temps réel -sécurisé -ultra-sécurisé (technologie CASD) 1 Institut Mines-Télécom

BADAP : Créer de la valeur par la recherche et l innovation sur l analytique Big Data Plateforme BIG DATA dédiée à la recherche et l innovation, exploitée en mode SAAS/PAAS: Outils et services pour les analystes de données Statistiques (Ex: R-Evolution), généralistes (Ex: Python), mining (Ex: Knime), graphiques (Ex: Dataviz) Corpus de données structurées ou non Anonymes publiques collectées (ex. Common crawl, Million songs, Openstreetmap,...) Publiées ouvertes au public -«Open Data» (ex. Etalab, ) Privées rendues anonymes (ex. fournies par industriels pour challenges) Outils d accès et services de gestion de l infrastructure Ex. Portail d accès, interface utilisateurs, outils collaboratifs, animation de communauté Infrastructure matérielle et logicielle à l état de l art Compartiment en batch ou temps réel ( mémoire vive de plusieurs téraoctets) Capacité stockage de données «utiles» en centaines de téraoctets Compartiments à accès restreint et ultra-sécurisés Plateforme ouverte aux projets de recherche, à l exclusion de toute activité commerciale Financements de projets R&I bootstrap inclus au budget Institut Mines-Télécom

Au service des projets Les hommes Chercheurs, experts de domaines variés (analyse de données, éthique, sécurité.), entreprises rassemblés autour de la plateforme au sein de projets, de comités de pilotage, Prestataires et partenaires qui contribuent à la conception et la mise en œuvre de la plateforme Equipe dédiée aux attentes Big Data des utilisateurs Veille technologique pour suivre un domaine très dynamique Souplesse pour répondre à la diversité des besoins de la recherche Construction d un environnement convivial Les caractéristiques de la plateforme Capacité à traiter des larges volumes de données en batch Mais aussi une orientation au traitement temps réel, pour supporter: l analyse interactive de données L intégration de flux de données Grâce à des caractéristiques dédiées, notamment le serveur 4TO de RAM des outils /technologies innovantes: Parstream, Storm Un environnement souverain Contrôle intégral de la plateforme et notamment de l hébergement Une mise en œuvre incrémentale pour ajuster au mieux avec les utilisateurs les paramètres de la plateforme (catalogue d outils et de données, ressources de calcul ) Pour saisir les évolutions continues dans le domaine Pour permettre aux utilisateurs de faire évoluer leur cahier des charges au gré de leur montée en puissance dans le domaine Institut Mines-Télécom

Calendrier 2013 2014 2015 2016 2017 2018 Mise en place incrémentale Opération Projets Pilotes 1 : CAP, NORM-ATIS, Accelerate. Mise en place incrémentale 2 tranches Projets D amorçage [t0, t0+14m] : 2/3 de la plateforme [t0+14, t0+24m] : +1/3 de la plateforme Projets Pilotes 2 : CP3PO?,WATER M?.. Priorité sur le choix des outils - besoin FUI, des KIC projets,itea pilotes, HORIZON et d amorçage 2020, - comité scientifique Phase A pas de facturation aux projets Phase B & C Facturation : couverture des frais d opération 4 21/11/2013 Institut Mines-Télécom