Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Documents pareils
Formation continue. Ensae-Ensai Formation Continue (Cepe)

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Panorama des solutions analytiques existantes

BIG DATA : GESTION ET ANALYSE DES DONNÉES MASSIVES (BGD) Mastère Spécialisé. Appréhendez les challenges économiques et juridiques du Big Data

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

La problématique de la formation et du recrutement des analystes. mars 2012

Introduction au Data-Mining

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Journées Big Data à l ENSAI Big Data: les challenges, les défis

DiFiQ. Diplôme Finance Quantitative. Une formation en partenariat. Ensae Dauphine Bärchen

Méthodes d apprentissage statistique «Machine Learning»

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

UNIVERSITÉ MOHAMMED VI POLYTECHNIQUE MASTERE SPÉCIALISÉ MILEO

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Les technologies du Big Data

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

L INRIA, institut français des STIC. (en Île-de-France) 24 septembre 2009

Introduction au datamining

LE SYNDICAT DE L INNOVATION BIG BIG DATA, UNE RÉVOLUTION TECHNOLOGIQUE OU CULTURELLE? DATA DAY

Apprentissage Automatique

Introduction Big Data

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Introduction au Data-Mining

Compte rendu de la journée CNIL : Vie privée 2020

TRAVAUX DE RECHERCHE DANS LE

Agenda de la présentation

Statistiques et traitement des données

Programmation parallèle et distribuée

BIG DATA et DONNéES SEO

Emploi du temps prévisionnel

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Comment le "big data" impacte le domaine de l'intelligence Economique?

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

La formation p. 2. Les doctorants témoignent p. 3. Le programme 2010 p. 5. Comment candidater? p. 6. Le label Docteur pour l entreprise p.

Public. Débouchés. Les atouts du Master PIC. Statistiques des débouchés 22 % 16 % 10 % 14 % 38 % Entreprise Start-up Thèse.

Le Master Mathématiques et Applications


Exécuter l Innovation,

Coup de Projecteur sur les Réseaux de Neurones

ANNEXES. Evaluation de la formation à Polytech Lille Département GIS. Enseignements les plus utiles. Enseignements à renforcer

Décembre 2013 CHAIRES DES ÉCOLES DE PARISTECH

CMI ECONOMIE, FINANCE QUANTITATIVE ET STATISTIQUES - PARCOURS FORMATION EN APPRENTISSAGE

Technologies de la Recherche et standards du Web: Quel impact sur l Innovation?

Enjeux mathématiques et Statistiques du Big Data

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

4.2 Unités d enseignement du M1

La formation. La session Comment candidater? Le label Docteur pour l entreprise

Sommaire. AXA et Polytechnique s offrent une chaire de data science orientée assurance Silicon.Fr - 02/07/2015

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

A L ORIGINE DE CENTRALE CASABLANCA : L ENGAGEMENT DE CENTRALESUPELEC PARIS AU MAROC ET EN AFRIQUE

Titre : La BI vue par l intégrateur Orange

La rencontre du Big Data et du Cloud

Tout au long de votre cursus Quel métier futur? Dans quel secteur d activité? En fonction de vos goûts et aptitudes et du «niveau d emploi» dans ce

Big Data et Graphes : Quelques pistes de recherche

Entreprise et Big Data

Le Mastère Spécialisé Big Data de Télécom ParisTech

55, rue du Faubourg Montmartre Paris +33 (0)

T o u s d r o i t s r é s e r v é s O S I s o f t, L L C. SÉMINAIRES RÉGIONAUX

Débouchés professionnels

ISFA INSTITUT DE SCIENCE FINANCIÈRE ET D ASSURANCES GRANDE ÉCOLE D ACTUARIAT ET DE GESTION DES RISQUES

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining -

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

Dernière mise à jour le 11/09/15 1

Business Intelligence avec Excel, Power BI et Office 365

pprentissage MASTER Formation initiale, formation continue et formation en apprentissage INGÉNIERIE ÉCONOMIQUE ET FINANCIÈRE

Big Graph Data Forum Teratec 2013

DUT Statistique et Traitement Informatique des Données (S.T.I.D.)

Intelligence Economique - Business Intelligence

Conférence ActuariaCnam EFAB CNAM site : Mardi 09 avril h30-12h45

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Pourquoi l apprentissage?

Les Entrepôts de Données

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

La Chaire Accenture Strategic Business Analytics de l ESSEC

Dell Software International Limited City Gate Park Mahon Cork Ireland

Open Data. François Bancilhon twitter.com/fbancilhon Printemps de la recherche EDF R&D 28/9/12

' () ) * +, $0! *-"-*- - "!3'' *2 /3- '!.1*- /-3! -.!' "/*3!./!1./*.-*-2/ 2!'--'! *!'-2"!3'' * /3- '!.1*-/-3! -*."!.

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

BIG DATA en Sciences et Industries de l Environnement

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Modélisation aléatoire en fiabilité des logiciels

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Prior to joining L'Oréal, he spent 11 years working for various Pharmaceutical companies.

Institut. Master MIAGE. Master SIC. d Administration des Entreprises de Paris. Sorbonne Graduate Business school

ADVANCED MANAGEMENT PROGRAMME

Le potentiel et les défis du Big Data. Mardi 2 et Mercredi 3 Juillet 2013

SMU MEDITERRANEAN. SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002)

Hippolyte d Albis est Chercheur associé à la Chaire Transitions Démographiques, Transitions Économiques.

Hervé Couturier EVP, SAP Technology Development

Financement et régulation des pensions

Spécificités, Applications et Outils

Spécialité IAD. Master de Sciences et technologie de l UPMC. Mention informatique. Partenaires : ENST, ENSTA. Responsables : T. Artières, C.

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Transcription:

Formation Actuaire Data Scientist Programme au 24 octobre 2014

A. Eléments logiciels et programmation Python 24h Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques pertinentes et à la manipulation de différents formats de données - Initiation à la programmation Python Programmation objet, classes, héritage Bibliothèque des méthodes statistiques usuelles - Eléments logiciels pour grandes bases de données Hardware, performance machine et gestion de mémoire - Efficacité d'un algorithme Complexité, accès mémoire, ordres de grandeur - Ecosystème des données massives Principaux acteurs, révolution numérique, volumétrie - Gestion des bases de données SQL Modèle relationnel, stockage, indexation, transaction - SQL vs NoSQL - Cas concret de récolte de données web Crawling web, tweets Intervenants : Xavier Dupré Ingénieur recherche et développement sénior, manager pour le moteur Bing, Microsoft Phd en informatique sur la reconnaissance de formes et diplômé de l ENSAE Enseignant en informatique : C++, Python à l ENSAE Programmation avec le langage Python, Edition Ellipses http://www.xavierdupre.fr/ Vincent Bernardi Cofondateur de Kameleoon Phd Informatique Diplômé ENS Lyon

B. Datamining et programmation R 18h Objectif : Présenter les outils classiques d'exploration de données, sous un angle essentiellement descriptif. Ces cours permettront une remise à niveau en R, en rappelant, durant les premières heures, les bases de la programmation en R. - Manipuler des données sous R: données continues, facteurs (recodification), dates, heures - Bases de la programmation avancée en R - analyse en composantes principales - analyse factorielle Intervenants : Arthur Charpentier PhD de statistique, membre agrégé de l'institut des Actuaires, ENSAE- ParisTech Professeur à l'uqam et Maitre de Conférences à l'université de Rennes 1 Computational Actuarial Science with R, CRC Press Actuariat avec R, CRAN, avec Christophe Dutang Mathématiques de l'assurance Non- Vie, tomes 1 et 2, Economica, avec Michel Denuit http://freakonometrics.hypotheses.org/ Stéphane Tufféry PhD de statistique, Responsable du service statistique du groupe Crédit Mutuel- CIC, enseignant à l Université Rennes 1, l Ensai et IMA à Angers Étude de cas en statistique décisionnelle, Éditions Technip, 2009. Data Mining et Statistique Décisionnelle, 4e édition, Editions Technip, 2012 Data Mining and Statistics for Decision Making, John Wiley & Sons, 2011. http://data.mining.free.fr/

C. Algorithmique en machine learning et participation Kaggle 24h Objectif : Approche par mise en situation via la participation à un concours Kaggle. Présentation des différentes phases : exploration, sélection/transformation des données, algorithmes d apprentissage, visualisation - Etude de cas - Exploration/ Sélection / Transformation / Nettoyage des données - Principaux algorithmes de Machine Learning (contexte de Classification) o k- NN o Régression Logistique o SVM o Forêts aléatoires o Réseaux de Neurones o Boosting o Bagging - Procédures de validation / sélection de modèle - Visualisation - Retour d expérience et analyse des résultats Intervenants : Xavier Conort ENSAE, membre de l institut des actuaires Datascientist pour Datarobot http://www.datarobot.com/ Jérémie Jakubowicz MdC Chaire CNRS à Télécom SudParis, PhD Maths appliquées ENS Cachan Responsable du cours «Outils pour l analyse des données massives» à l ENSAE. http://www- public.it- sudparis.eu/~jakubowi/

D. Fondements théoriques de l apprentissage statistique 24h Objectif : Ce module vise a présenter les fondements mathématiques des algorithmes de Machine Learning qui auront précédemment été utilisés en pratique. Les limites théoriques des modèles seront présentées et les problématiques de sur- apprentissage étudiées en détail. Une bonne compréhension des résultats fondamentaux assurant l efficacité des algorithmes est nécessaire, dès lors que l on cherche à les utiliser ou les généraliser en dehors du cadre de validation théorique de leur utilisation. - Théorie de la décision Perte, risque, risque empirique - Modèle statistique pour la classification binaire Approches génératives vs. discriminantes - Machine Learning Méthodes paramétriques, perceptron, partitionnement Critères de performances Régression et classification : régression linéaire et logistique. Convexification du risque, boosting et SVM. Noyaux. Problème de l overfitting : régularisation L2, L1, opérateurs proximaux. Sparsité et relaxation convexe. - Cross- validation, erreur de généralisation - Entrainement de modèles sur données massives : algorithmes de gradient stochastique Intervenants : Romuald Elie Professeur à l Université de Marne la Vallée & professeur associé à l ENSAE PhD de mathématiques, membre associé de l'institut des Actuaires, Diplomé de Columbia University, ENSAE- ParisTech Responsable du cours Méthodes statistiques pour données massives et applications à l Ecole Nationale des Ponts et Chaussés https://www.ceremade.dauphine.fr/~elie/elie.html Stéphane Gaïffas Professeur chargé de cours à l Ecole Polytechnique PhD de Statistiques, Université Paris 7 Responsable des cours Machine learning, High dimension and Big Data à l Université Paris 6 et Apprentissage statistique à l Ecole Polytechnique http://www.cmap.polytechnique.fr/~gaiffas/

E. Machine Learning distribué et applications 12h Objectif : Pour passer à l échelle, les algorithmes de Machine Learning vus dans les cours précédents doivent être repensés. Un cadre efficace est celui des algorithmes distribués où on utilise plusieurs entités de calculs pour mener à bien l objectif initial. L objectif de ce cours sera de présenter différents exemples d algorithmes de Machine Learning distribués. Algorithmes distribués : généralités Le cas de Map- Reduce Applications en Machine Learning Intervenant : Jérémie Jakubowicz MdC Chaire CNRS à Télécom SudParis, PhD Maths appliquées ENS Cachan Responsable du cours «Outils pour l analyse des données massives» à l ENSAE. http://www- public.it- sudparis.eu/~jakubowi/

F. Extraction, utilisation et visualisation des données 12h Objectif : Sensibilisation aux questions éthiques, aux contraintes juridiques européennes et au rôle de la CNIL. Présentation des principales méthodes de visualisation des données complexes. - Environnement légal et rôle de la CNIL - Anonymisation des données - Protection des données personnelles, enjeux économiques - Visualisation des données Réseaux théorie des graphs Gephi Représentation de données complexes Intervenants : Martin Grandjean Fondateur du projet Pegasus Data Porte- Parole d Humanistica Doctorant FNS en Histoire Contemporaine à l UNIL Fabrice Rossi Professeur Université Paris 1 PhD de statistiques, Diplômé de l ENS Expériences de conseil en datamining et machine learning Enseignement en apprentissage Statistique et Analyse de données à Paris 1 et Paris 6 http://apiacoa.org/index.en.html

G. Etudes de cas 40h Liste des sujets abordés et interlocuteurs pressentis. - Anonymisation et métadonnées Yves- Alexandre de Montjoye MIT Media Lab - Visualisation de données Martin Grandjean Fondation du projet Pegasus Data Porte- Parole d Humanistica - Cartographie et GPS Vincent Gauthier MdC Télécom SudParis - Traitement des images Nicolas Limare Cofondateur de IPOL à l ENS Cachan - Cybersécurité Denis Attal Responsable cybersécurité chez Thales - Linguistique et traitement de textes Christine Balagué Titulaire de la Chaire Réseaux Sociaux à Télécom Ecole de Management Vice- Présidente du Conseil National du Numérique - Vente d assurance en ligne - Enchère web Nicolas Grislain CEO de AlephD - Health monitoring Tsirizo Rabenoro - Calcul du capital économique en grande dimension Laurent Devineau Actuaire Responsable du pôle R&D du cabinet d actuariat conseil Milliman

- Parallélisation massive pour la simulation Monte Carlo - Détection de fraude à l URSAFF Patrice Bertail Professeur de Statistiques Paris X et ENSAE - Indicateurs économiques et financiers Christophe Geissler Actuaire Fondateur d Advestis Directeur scientifique de QUINTEN - Investissement séquentiel en gestion de portefeuille Jean Yves Audibert Capital Fund Management - Applications en Génomique Pierre Neuvial Chercheur CNRS en Génomique - Réseaux de neurone & e- commerce Vincent Bernardi Cofondateur de Kameleoon - Applications en Marketing Baptiste Beaume Project Director for Strategic Transformation at COVEA Blog bigdatafrance - Valorisation des données Florian Douetteau Fondateur de Dataiku

Calendrier Prévisionnel Semaine Lundi AM 3h Lundi PM1 2h Lundi PM2 2h Mardi AM Mardi PM1 2h Mardi PM2 2h 16 Mars Cases Python Python R R Cases 13 Avril Algo Python Python Algo R R 4 Mai Algo Python Python R R Cases 15 Juin Python Algo Algo Cases R R 14 Septembre Python Algo Algo Cases Cases Data 5 Octobre Python Algo Algo Algo Stat Stat 16 Novembre Python Data Data Cases Stat Stat 7 Décembre Data Hadoop Hadoop Cases Stat Stat 18 Janvier Data Hadoop Hadoop Cases Stat Stat 15 Février Cases Hadoop Hadoop Cases Stat Stat 21 Mars Cases Cases Cases Cases Stat Stat 18 Avril Soutenances Soutenances Soutenances Soutenances Soutenances Soutenances