Journées Big Data à l ENSAI Big Data: les challenges, les défis Stéphan Clémençon Télécom ParisTech November 22, 2013 Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 1 / 22
Agenda Contexte et opportunités Challenges scientifiques et collaborations industrielles Le défi de la formation Qelques actions en cours et à venir Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 2 / 22
Big Data - Le contexte Une accumulation de données massives dans de nombreux domaines: Biologie/Médecine (génomique, métabolomique, essais cliniques, imagerie, etc. Grande distribution, marketing (CRM), e-commerce Moteurs de recherche internet (contenu multimedia) Réseaux sociaux (Facebook, Tweeter,...) Banque/Finance (risque de marché/liquidité, accès au crédit) Sécurité (ex: biométrie, vidéosurveillance) Administrations (Santé Publique, Douanes) Risques opérationnels Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 3 / 22
Big Data - Le contexte Un déluge de données qui rend inopérant: les outils basiques de stockage de données gestion de base de données (MySQL) le prétraitement reposant sur l expertise humaine indexation, analyse sémantique modélisation intelligence décisionnelle Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 4 / 22
Big Data - Le contexte Une multitude de briques technologiques et de services disponibles pour: La parallélisation massive (Velocity) Le calcul distribué (Volume) La gestion de données sans schéma prédéfini (Variety) parmi lesquels: Le modèle de programmation MapReduce: calculs parallélisés/distribuées Framework Hadoop NoSQL: SGBD Cassandra, MongoDB, bases de données orientées graphe, moteur de recherche Elasticsearch, etc. Clouds: infrastructures, plate-formes, logiciels as a Service promus par Google, Amazon, Facebook, etc. Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 5 / 22
Big Data - Les opportunités Des avancées spectaculaires pour la collecte et le stockage (distribué) des données la recherche automatique d objets, de contenu le partage de données peu structurées Le Big Data: un moteur pour la technologie, la science, l économie Moteurs de recherche, moteurs de recommandation Maintenance prédictive Marketing viral à travers les réseaux sociaux Détection des fraudes Médecine individualisée Publicité en ligne (retargeting) Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 6 / 22
Big Data - Les opportunités Ubiquité De nombreux secteurs d activité sont concernés: (e-) Commerce CRM Santé Défense, renseignement (e.g. cybersécurité, biométrie) Banque/Finance Transports intelligents etc. Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 7 / 22
Big Data - Les besoins Talents Selon l Institut McKinsey Global, d ici à 2018 aux USA: 300 000 architectes Big Data 140 000-190 000 recrutements de data scientists 1, 5 million de cadres/techniciens avec des connaissances générales dans ce domaine La perle rare pour les grands groupes: le Chief-Data-O cer Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 8 / 22
Big Data - Recherche Afin d exploiter les données (prédiction, interpétation), développer des technologies mathématiques permettant de résoudre les problèmes computationnels liés: aux contraintes du quasi-temps réel! apprentissage automatique séquentiel ( on-line ) 6= batch, par renforcement au caractère distribué des données/ressources! apprentissage automatique distribué à la volumétrie des données! impact des techniques de sondages sur la performance des algorithmes Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 9 / 22
Big Data - Recherche Des techniques de visualisation, représentation de données complexes Graphes (évolutifs) - clustering, graph-mining Image, audio, video - filtrage, compression Données textuelles (e.g. page web, tweet) Domaines Probabilité, Statistique Machine-Learning Optimisation Traitement du signal et de l image Analyse Harmonique Computationnelle analyse sémantique etc. Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 10 / 22
Formations Data Science : un bref tour d horizon En France Masters disciplinaires: informatique ou maths appliquées A l international Stanford University (Stanford Center for Professional Development): Data Mining and Applications Graduate Certificate en 3 ans (12 000 $ env.), avec Sony, Cisco Columbia Institute for Data Sciences and Engineering, Chicago Northwestern University (MS program in Predictive Analytics), North Carolina State University (MS in Analytics avec SAS), UC San Diego (certificate program in data mining), etc. Secteur privé: SAS, EMC (GreenPlum), IBM (Netezza), Cloudera, etc. Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 11 / 22
Big Data : le défi de la formation Compétences en maths/info Analyse sémantique Sécurité des données Systèmes répartis, parallélisation massive, clouds Analyse des réseaux sociaux, graph-mining Visualisation, iterface homme-machine Ranking, moteurs de recommandation/recherche Machine-learning distribué, en ligne, passage à l échelle Compétences en droit/économie Propriété des données personnelles Création de valeur, économie de l internet Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 12 / 22
Big Data Le phénomène Big Data appelle de nouvelles o res de formation pose de nouveaux problèmes scientifiques/technologiques/juridiques Répondre à ces besoins requiert une collaboration étroite avec le monde de l industrie et des services une mutualisation des moyens/forces Big Data, big value? Les Entretiens de Télécom ParisTech 5-6 déc 2012 Cahier de Veille de la Fondation et Séminaire Managing data in an hyperconnected world Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 13 / 22
Actions dans le domaine de la formation Mastère Spécialisé Big Data - ouvert en sept. 2013 30 stagiaires Multidisciplinarité: données, sécurité, visualisation, maths appliquées, droit, économie/business Recrutement: niveau M2 Projets Fil Rouge tutorés par des professionnels (e.g. Capgemini, GdF Suez, EDF, Xebia, start-ups de l incubateur de TPT), séminaires (Thalès, McKinsey, etc.) Comité de perfectionnement: EADS, Thalès, IBM, Google, Critéo, Liligo, Safran, SAS, Capgemini Objectif: un savoir-faire opérationnel Stage et thèse professionnelle 6 mois Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 14 / 22
d apprentissage! statistique! aux! 3 ème!!et!4 ème! trimestres,! la! promotion! ne! sera! pas! mélangée! à! d autres! élèves! pour! plus! d efficacité! pédagogique.! Chaque! professeur! précisera! les! modalités! d évaluation! de! son! cours.! Au! delà! des! enseignements,! des! séminaires!seront!organisés!lors!desquels!des!professionnels!issus!de!secteurs!d activité! variés! viendront! expliquer! leur! vision! des! enjeux/challenges! du! Big! Data,! et! des! «!projets! fil! rouge!»! proposés! par! des! entreprises! seront! menés! en! groupe! par! les! stagiaires!du!ms.!!! La formation - Enseignements Planning(! La!prérentrée!s effectuera!le!27!septembre!!! A! B! C!! A1! A2! B1! B2!! P1! Concepts! Fondamentaux!de!la! Sécurité!(30H,!3ECTS)! INF721! P2! L Ecosystème!du!Big! Data!(20H,!3ECTS)! SES721!! Statistique!(30H,!3ECTS)! MDI!220! Visualisation! d Information!(30H,! 3ECTS)! INF229! P3! Systèmes!Répartis!(60H,!5ECTS)! INF346! P4! MachineXLearning!Avancé!(60H,!5ECTS)! INFMDI341! Bases!de!Données! (30H,!3ECTS)! INF225! Economie!de! l Internet!et!des! Données!Personnelles! (20H,!3ECTS)! SES720! Bases!de!Données!Avancées!(60H,!5ECTS)! INF345! MachineXLearning!(60H,!5ECTS)! MDI!343! Données!du!Web!(60H,!5ECTS)! INF344! Projet!Fil!Rouge! INFMDI780! Projet!Fil!Rouge! INFMDI780! Projet!Fil!Rouge! INFMDI780!!! Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 15 / 22
La formation - Projets Fil Rouge 7 mois travail en groupe (par ex. 4 à 5 stagiaires, aux compétences complémentaires) vise à explorer un thème du Big Data à plusieurs facettes e.g. infrastructure, analyse, exploitation, mise en production, droit, business model recherches bibliographiques, étapes de modélisation, développement et expérimentation projets proposés et tutorés par des professionnels suivi hebdomadaire assuré par des enseignants-chercheurs Infrastructure Hadoop sur un cluster propriétaire, utilisation d AWS Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 16 / 22
Actions dans le domaine de la formation Certificat Data Science - prévu au printemps 2014 Cible: professionnels en situation d emploi 24 jours de présentiel A développer: plateforme d e-learning Formation Continue Stages ciblés Ex: machine-learning, valorisation des données personnelles, l écosystème Big Data Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 17 / 22
Actions dans le domaine de la recherche Certificat Data Science - prévu au printemps 2014 Cible: professionnels en situation d emploi 24 jours de présentiel A développer: plateforme d e-learning Formation Continue Stages ciblés Ex: machine-learning, valorisation des données personnelles, l écosystème Big Data Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 18 / 22
Actions dans le domaine de la recherche Partenariats avec l industrie Chaires industrielles: Réseaux sociaux - Télecom Ecole de Management Valeurs et politiques des informations personnelles - Télecom ParisTech, Télecom Sud Paris & Télecom Ecole de Management Machine-Learning & Big Data - Télecom ParisTech Big Data for e-commerce - Télecom ParisTech Contrats bilatéraux (e.g. EADS, Orange, StreamWide) Journée Big Data ParisTech-Thalès le 8/11/2013 Partenaires académiques IMT: Mines (Bio-info), TSP, Télecom Ecole de Management Au sein de ParisTech: X (CMAP), ENPC (Cermics), ENSAE (Crest) Saclay: Université Paris Orsay (LRI), ENS Cachan (CMLA), CEA, INRIA Stéphan Clémençon (Télécom ParisTech) Big Data November 22, 2013 19 / 22
Une plateforme IMT/GENES pour la recherche et l enseignement Projets de recherche et de transfert technologique À l exclusion de toute activité commerciale Equipe support Hébergement souverain 24/7 2 Compartiments Batch/ Temps réel -sécurisé -ultra-sécurisé (technologie CASD) 1 Institut Mines-Télécom
BADAP : Créer de la valeur par la recherche et l innovation sur l analytique Big Data Plateforme BIG DATA dédiée à la recherche et l innovation, exploitée en mode SAAS/PAAS: Outils et services pour les analystes de données Statistiques (Ex: R-Evolution), généralistes (Ex: Python), mining (Ex: Knime), graphiques (Ex: Dataviz) Corpus de données structurées ou non Anonymes publiques collectées (ex. Common crawl, Million songs, Openstreetmap,...) Publiées ouvertes au public -«Open Data» (ex. Etalab, ) Privées rendues anonymes (ex. fournies par industriels pour challenges) Outils d accès et services de gestion de l infrastructure Ex. Portail d accès, interface utilisateurs, outils collaboratifs, animation de communauté Infrastructure matérielle et logicielle à l état de l art Compartiment en batch ou temps réel ( mémoire vive de plusieurs téraoctets) Capacité stockage de données «utiles» en centaines de téraoctets Compartiments à accès restreint et ultra-sécurisés Plateforme ouverte aux projets de recherche, à l exclusion de toute activité commerciale Financements de projets R&I bootstrap inclus au budget Institut Mines-Télécom
Au service des projets Les hommes Chercheurs, experts de domaines variés (analyse de données, éthique, sécurité.), entreprises rassemblés autour de la plateforme au sein de projets, de comités de pilotage, Prestataires et partenaires qui contribuent à la conception et la mise en œuvre de la plateforme Equipe dédiée aux attentes Big Data des utilisateurs Veille technologique pour suivre un domaine très dynamique Souplesse pour répondre à la diversité des besoins de la recherche Construction d un environnement convivial Les caractéristiques de la plateforme Capacité à traiter des larges volumes de données en batch Mais aussi une orientation au traitement temps réel, pour supporter: l analyse interactive de données L intégration de flux de données Grâce à des caractéristiques dédiées, notamment le serveur 4TO de RAM des outils /technologies innovantes: Parstream, Storm Un environnement souverain Contrôle intégral de la plateforme et notamment de l hébergement Une mise en œuvre incrémentale pour ajuster au mieux avec les utilisateurs les paramètres de la plateforme (catalogue d outils et de données, ressources de calcul ) Pour saisir les évolutions continues dans le domaine Pour permettre aux utilisateurs de faire évoluer leur cahier des charges au gré de leur montée en puissance dans le domaine Institut Mines-Télécom
Calendrier 2013 2014 2015 2016 2017 2018 Mise en place incrémentale Opération Projets Pilotes 1 : CAP, NORM-ATIS, Accelerate. Mise en place incrémentale 2 tranches Projets D amorçage [t0, t0+14m] : 2/3 de la plateforme [t0+14, t0+24m] : +1/3 de la plateforme Projets Pilotes 2 : CP3PO?,WATER M?.. Priorité sur le choix des outils - besoin FUI, des KIC projets,itea pilotes, HORIZON et d amorçage 2020, - comité scientifique Phase A pas de facturation aux projets Phase B & C Facturation : couverture des frais d opération 4 21/11/2013 Institut Mines-Télécom