CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe)
CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat a pour ambition de permettre, à toute personne souhaitant valoriser la manne de données mise actuellement à sa disposition, d accroître son champ de connaissances, d acquérir un véritable savoir faire opérationnel et une très bonne maîtrise des techniques d analyse de données et des outils informatiques nécessaires. Avec ce certificat, l Ensae-Ensai Formation Continue (Cepe) a pour ambition de permettre aux professionnels de mieux appréhender ce nouveau métier avec une formation certifiante unique, animée par des experts dans leur domaine.
POUrQUOi CrÉer Un CertifiCat de data scientist? Les technologies de traitement de données massives sont depuis peu disponibles pour toutes les entreprises, que ce soit sous forme de services Cloud, de plates-formes open source ou de solutions proposées par les éditeurs de logiciels propriétaires. Mais, les compétences pour valoriser cette manne de données manquent. La demande de data scientists est croissante et l'écart entre la demande et l offre se creuse. En effet, le data scientist doit posséder des compétences multiples, à savoir la maîtrise des techniques statistiques et de l analyse des données, un goût pour les technologies et les outils informatiques des bases de données et éventuellement un savoir-faire métier dans le domaine d application des données étudiées. L Ensae-Ensai Formation Continue (Cepe), organisme de formation continue du Genes, est idéalement placé pour rassembler ces disciplines et fournir aux entreprises la recherche et les compétences professionnelles pour réussir à acquérir l ensemble de ces compétences. Une filière «Data Science» a été créée à l Ensae ParisTech en septembre 2013 et un Master International «Big Data» ouvre à l Ensai en septembre 2014. Alors qu un statisticien pose des questions précises et cherche à mettre en évidence des effets déjà identifiés, la tâche d un data scientist est plus créative. Il lui est demandé aussi d imaginer de nouveaux usages des données, par le croisement de sources multiples, par leur accumulation et par la mise en œuvre de nouvelles techniques. Alors qu un statisticien analyse des échantillons constitués de données structurées, le data scientist manipule des quantités massives de données souvent hétérogènes, non structurées et non nettoyées. l Ensae-Ensai Formation Continue a décidé de créer une formation certifiante, dispensée par les meilleurs spécialistes, qui s adresse spécifiquement aux professionnels. Cette formation de data scientist se donne comme objectif d appréhender une multitude de méthodes et de pratiques, permettant d aborder un large spectre d analyse dans divers champs. Elle s adresse à toutes les personnes qui souhaitent acquérir une culture solide dans ce domaine, en interaction avec des professionnels éclairés, tous praticiens expérimentés ou enseignants-chercheurs de renom. Les stagiaires du «Certificat de data scientist» abordent l état des questions actuelles, les méthodes et les résultats dans différents domaines d intervention. Ils développeront la capacité à commanditer et réaliser des analyses en Big Data en utilisant une méthodologie pertinente, à en apprécier la qualité et la portée. La formation est composée de plusieurs modules. Pour obtenir le Certificat, le stagiaire doit réussir le test qui clôture le cycle de formation. Pour permettre une meilleure acquisition des connaissances au travers de nombreux exercices pratiques, les sessions sont limitées à 12 participants. Aux méthodes traditionnelles d analyse statistique, il ajoute les techniques de data mining et de machine learning, qui cherchent à prédire des comportements futurs sur la base de données connues. L importance des volumes de données rend essentielle la compétence technique sur les outils informatiques permettant de les traiter. C est pourquoi, CertifiCat de data scientist
PrOGraMMe Le programme se construit autour de trois socles : Statistiques pour les grandes volumétries et grandes dimensions Outils d analyse Outils informatiques de traitement Comprendre les enjeux des Big Data, les techniques spécifiques et les outils Les Big Data s imposent comme une évolution majeure de l exploitation des données au sein des organisations, à la fois sur les plans métiers, fonctionnels et technologiques. Au travers d une présentation des concepts fondamentaux, d exemples et de cas concrets, ce module introduit l importance des enjeux des Big Data et du métier de data scientist. Définitions, origines et enjeux des Big Data Panorama des applications des Big Data et des opportunités qu elles offrent aux entreprises et aux administrations Spécificité des méthodes statistiques, des outils informatiques et des techniques propres aux Big Data Le métier de «data scientist» Intervenant : Hervé Mignot Méthodes de régressions avancées 2 jours Au travers de nombreux exemples et cas concrets, cette formation permet d'en savoir plus sur la relation entre plusieurs variables indépendantes ou prédictives et une variable dépendante ou de critère. Rappel de régression, analyse des résidus, choix de variables Régression sous contraintes : régression ridge et régression Lasso Régression non paramétrique : estimateur à noyaux, splines et méthodes itératives Intervenant : Éric Matzner-Lober 1 jour Mettre en œuvre et utiliser les outils informatiques des Big Data L objectif de ces trois jours est d acquérir les connaissances pour mettre en œuvre les outils informatiques essentiels des Big Data. Ce module comprend des exercices pour acquérir des bases pratiques. L utilisation des capacités du cloud computing pour construire une grille haute performance est présentée. Les dernières orientations et évolutions technologiques sont introduites. Distribution du stockage et des calculs : MapReduce et ses déclinaisons (Hadoop, Pig, Hive ), alternatives à MapReduce (Spark) Gestion de données plus évolutives et moins structurées que les données habituelles : bases NoSQL, orientées colonnes Les outils des Big Data temps réel Utilisation d une puissance informatique importante à la demande : le cloud computing Exercices tout au long des trois jours sur une plateforme Big Data, et séance de travaux pratiques Intervenant : Hervé Mignot 3 jours Visualisation des données 1 jour r Naviguer dans les données de façon plus aisée, pouvoir accéder aux informations synthétiques mais aussi aux données de détail, tels sont les objectifs de cette journée. Présentation de techniques d'exploration de données par la visualisation en R Comment présenter les données de manière efficace Les outils spécialisés de visualisation : D3.js, Gephi, représentation filmée avec animate Introduction au développement d'application web de type mashup (combinant des données issues de source hétérogènes) Intervenant : Martial Krawier Salle de formation
droits d inscription (Prix net non soumis à la tva) Formation complète (12 jours) : 5 500 Coût d une journée de formation : 500 renseignements & inscriptions Téléphone : 01 75 60 34 00 Courriel : conseil@lecepe.fr Ensae-Ensai Formation Continue (Cepe) 60 rue Etienne Dolet - 92240 Malakoff www.lecepe.fr Machine learning 1 jour Manipulations de gros volumes 2 jours Au cours de cette journée, les stagiaires apprennent à comprendre ce qu'est le Machine learning, la nature des problèmes qu'il permet de données (avec R) Les notions traitées dans cette session sont : de résoudre, mettent en œuvre les principaux algorithmes sur des données réelles, analysent leurs résultats, et comparent leurs performances. Connexion aux bases de données (Hadoop, Oracle...) Packages et outils Traitements et calculs dans R, cas des larges jeux de données Introduction. Qu'est ce que le "machine learning"? Intégration de R aux Big Data (Hadoop, bases NoSQL) Pourquoi ce domaine est-il en plein essor? Quels sont Calcul Haute Performance et Parallèle avec R ses principaux domaines d'applications? Quels sont les problèmes qu'il permet de traiter? Comment évaluer Intervenant : Martial Krawier les performances d'un algorithme d'apprentissage? Présentation des Support Vector Machines (SVM), et plus généralement des méthodes à noyaux Méthodes d'agrégation : boosting, bagging, Atelier de mise en œuvre Big Data 1 jour forêts aléatoires Le Genes possède les outils informatiques pour gérer de gros volumes de données, et en particulier une technologie de protection des Intervenante : Magalie Fromont-Renoir données confidentielles. Au cours de cette journée, les stagiaires mettront en œuvre : Analyse statistique sur des gros volumes de données L objectif de cette formation est d apprendre des techniques d analyse exploratoire des données servant à résumer les informations sur les données ou à déterminer des liens entre les points. Données globales et sous-échantillonnage Clustering Intervenant : Éric Matzner-Lober 1 jour Les connaissances acquises pour traiter un problème réel, en combinant les outils informatiques et statistiques Intervenants : enseignants des différents modules CertifiCatiOn Le processus de certification est organisé en deux phases : le suivi des modules obligatoires dans leur intégralité, et la réussite du test de certification. Ce parcours se déroule sur quatre mois à raison de trois jours par mois. Ces deux phases validées, le participant se voit décerner un «Certificat de data scientist du Genes». Indépendamment du Certificat, les modules peuvent être suivis à l unité, sous réserve de places disponibles. L équipe pédagogique de l Ensae-Ensai Formation Continue (Cepe) peut construire avec vous un dispositif souple et efficace de formation en vous proposant des formations complémentaires présentes au catalogue.
les intervenants Martial Krawier : Martial Krawier conçoit, réalise et gère, depuis plus de quinze ans, des applications orientées traitement de données et calcul pour des compagnies média et des banques d'investissement. Il met notamment en place des environnements de calcul : clusters HPC, grid computing (jusqu'à 10 000 serveurs) et les traitements statistiques et numériques nécessaires pour traiter en parallèle des opérations complexes comme de la gestion de risque sur des portefeuilles ou de l'aide à la décision. Eric Matzner-Lober : Professeur de Statistique à l'université de Rennes 2 et membre affilié au laboratoire National de Los Alamos, Eric Matzner-Lober a rédigé plusieurs livres sur R et les méthodes de régression. Il participe activement à des programmes de recherche en interaction avec des entreprises comme dans le project Smart Electric Lyon. Magalie Fromont-Renoir : Docteur en mathématiques de l'université Paris XI Orsay, Magalie Fromont-Renoir est Maître de conférences à l'université Rennes 2. Elle enseigne les probabilités, la statistique inférentielle en particulier les tests statistiques, la pratique de la statistique avec R, les méthodes de bootstrap et l'apprentissage statistique. Hervé Mignot : Docteur en informatique de l université Paris-Sud Orsay, Hervé Mignot travaille depuis près de 20 ans en utilisant des données pour traiter des problèmes réels par les techniques statistiques et de data mining. Après une expérience de 10 ans dans une société éditrice de technologies d analyse prédictive, il a rejoint le cabinet de conseil Equancy en tant qu associé. Dans les projets qu il y mène pour ses clients, il fait quotidiennement appel à toutes les technologies de traitement de données, de data mining, de statistiques et des Big Data. ensae-ensai formation COntinUe (CePe) Une Offre diversifiée et adaptée L Ensae-Ensai Formation Continue (Cepe) est le centre de formation continue du Genes, Groupe des écoles nationales d'économie et statistique. Son objectif principal est de délivrer des formations exigeantes et de qualité via des contenus scientifiques innovants et des formateurs de premier plan, toujours experts dans leur domaine d intervention. L Ensae-Ensai Formation Continue (Cepe) entretient des liens étroits avec les autres établissements du Genes : l Ensae Paris Tech à Malakoff, l Ensai à Rennes et le Crest, mais également avec d autres institutions : le Centre d accès sécurisé aux données (CASD), la cellule de coopération internationale et d appui aux écoles de statistique étrangères (CAPESA), Datastorm - la filiale destinée à porter les actions de valorisation de la recherche du Groupe, et l unité mixte de recherche GRECSTA. Chaque année, ses domaines d intervention se diversifient afin de répondre au mieux aux préoccupations du marché, à l évolution de l économie et aux besoins des entreprises. Ainsi, de nouvelles formations sont désormais proposées sur les techniques statistiques appliquées à la finance, au marketing quantitatif mais également en prospective, intelligence économique et techniques de communication à l oral et à l écrit et en évaluation des politiques publiques. ensae-ensai formation COntinUe (Cepe) en QUelQUes Chiffres Plus de 50 ans d'expérience, 17 500 heures stagiaires par an, 40 % de l'activité consacré à des formations sur mesure, une centaine de formateurs. Formation continue (Cepe) 60 rue Étienne Dolet - 92240 Malakoff Téléphone : 01 75 60 34 00 - Fax : 01 75 60 35 31 - Mél : conseil@lecepe.fr www.lecepe.fr GENES Groupe des Écoles Nationales d Économie et de Statistique ENSAE CREST