Simon Lacoste-Julien Chercheur CR Équipe-Projet SIERRA, INRIA - École Normale Supérieure

Documents pareils

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

Exemple PLS avec SAS

Eléments de statistique

Application Form/ Formulaire de demande

Les défis statistiques du Big Data

Forthcoming Database

Introduction au Data-Mining

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Face Recognition Performance: Man vs. Machine

Integrated Music Education: Challenges for Teaching and Teacher Training Presentation of a Book Project

Instructions Mozilla Thunderbird Page 1

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

DOCUMENTATION - FRANCAIS... 2

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

PARIS ROISSY CHARLES DE GAULLE

Lesson Plan Physical Descriptions. belle vieille grande petite grosse laide mignonne jolie. beau vieux grand petit gros laid mignon

Gestion des prestations Volontaire

DOCUMENTATION - FRANCAIS... 2

Principe de symétrisation pour la construction d un test adaptatif

Data issues in species monitoring: where are the traps?

POLICY: FREE MILK PROGRAM CODE: CS-4

Dans une agence de location immobilière...

Les Portfolios et Moodle Petit inventaire

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

EN UNE PAGE PLAN STRATÉGIQUE

APPENDIX 6 BONUS RING FORMAT

Contents Windows

3615 SELFIE. HOW-TO / GUIDE D'UTILISATION

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Exercices sur SQL server 2000

Improving the breakdown of the Central Credit Register data by category of enterprises

1.The pronouns me, te, nous, and vous are object pronouns.

Les datas = le fuel du 21ième sicècle

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

Editing and managing Systems engineering processes at Snecma

Township of Russell: Recreation Master Plan Canton de Russell: Plan directeur de loisirs

CLOUD COMPUTING et Relation Client/Fournisseur Une Révolution culturelle?

La rencontre du Big Data et du Cloud

WEB page builder and server for SCADA applications usable from a WEB navigator

Philippe Lemerle Big Data Secteur public. Copyright 2015, Oracle and/or its affiliates. All rights reserved.

Tammy: Something exceptional happened today. I met somebody legendary. Tex: Qui as-tu rencontré? Tex: Who did you meet?

Stakeholder Feedback Form January 2013 Recirculation

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

The assessment of professional/vocational skills Le bilan de compétences professionnelles

Yes, you Can. Travailler, oui c est possible! Work!

The UNITECH Advantage. Copyright UNITECH International Society All rights reserved. Page 1

L évaluation de la qualité d un dispositif d apprentissage en ligne. Quelles traces mobiliser? Comment les interpréter?

LE FORMAT DES RAPPORTS DU PERSONNEL DES COMMISSIONS DE DISTRICT D AMENAGEMENT FORMAT OF DISTRICT PLANNING COMMISSION STAFF REPORTS

France SMS+ MT Premium Description

If you understand the roles nouns (and their accompanying baggage) play in a sentence...

I>~I.J 4j1.bJ1UlJ ~..;W:i 1U

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

BIG Data et R: opportunités et perspectives

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

setting the scene: 11dec 14 perspectives on global data and computing e-infrastructure challenges mark asch MENESR/DGRI/SSRI - France

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

«Rénovation des curricula de l enseignement supérieur - Kazakhstan»

MSO MASTER SCIENCES DES ORGANISATIONS GRADUATE SCHOOL OF PARIS- DAUPHINE. Département Master Sciences des Organisations de l'université Paris-Dauphine

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

ONTARIO Court File Number. Form 17E: Trial Management Conference Brief. Date of trial management conference. Name of party filing this brief

Contrôle d'accès Access control. Notice technique / Technical Manual

Bourses d excellence pour les masters orientés vers la recherche

Tex: The book of which I'm the author is an historical novel.

MODERN LANGUAGES DEPARTMENT

Grandes tendances et leurs impacts sur l acquisition de produits et services TI.

La solution idéale de personnalisation interactive sur internet

Informatique / Computer Science

Ne cherchez plus, soyez informés! Robert van Kommer

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

Lean approach on production lines Oct 9, 2014

Guide d'installation rapide TFM-560X YO.13

Provincial Mathematics Assessment at Grade 3 French Immersion. Sample Assessment

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

Big Data et Statistique Publique

Z-Axis Compliance Device Compliance en z

SOCIAL INTELLIGENCE BUSINESS RESULTS

Programming Server-Side Web Applications with Object-Oriented PHP NC Group Syllabus. Duration: 75 hours 1-2-2

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT

SAN07 IBM Social Media Analytics:

THE EVOLUTION OF CONTENT CONSUMPTION ON MOBILE AND TABLETS

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

et Active Directory Ajout, modification et suppression de comptes, extraction d adresses pour les listes de diffusion

BNP Paribas Personal Finance

CEST POUR MIEUX PLACER MES PDF

accidents and repairs:

BILAN du projet PEPS 1 EOLIN (Eolien LMI INSA)

Modélisation géostatistique des débits le long des cours d eau.

Outils d'analyse de la sécurité des réseaux. HADJALI Anis VESA Vlad

Compte-rendu technique complet et détaillé des cookies

La physique médicale au service du patient: le rôle de l agence internationale de l énergie atomique

Transcription:

Simon Lacoste-Julien Chercheur CR Équipe-Projet SIERRA, INRIA - École Normale Supérieure

Mot tendance pour décrire *beaucoup* de données! Buzz: Google Trends search terms volume Obama announces Big Data initiative

Mot tendance pour décrire *beaucoup* de données! nous vivons à l ère de l information accumulation de données dans tous les domaines: internet biologie: génome humain, séquençage d ADN physique: Large Hadron Collider, 10 20 octets/jour par senseurs appareils d enregistrement: senseurs, portables, interactions sur internet,... défis en informatique: stockage, recouvrement, calcul distribué... 3V s: volume, vélocité, variété donner un sens aux données: apprentissage automatique

Nous voulons utiliser les données pour: faire des prédictions, détecter des failles, résoudre des problèmes... Science derrière tout cela: apprentissage automatique / statistiques computationnelles Autres termes en pratique: data mining, business analytics, pattern recognition,...

Question centrale selon Tom Mitchell: Comment construire des systèmes informatiques qui s améliorent avec l expérience, et quelles sont les lois fondamentales qui gouvernent tous les processus d apprentissage automatique? Mélange d informatique et de statistiques CS: Comment construire des machines qui résolvent des problèmes, et quels problèmes sont intrinsèquement faisables / infaisables? Statistiques: Que peut-il être déduit à partir de données et un ensemble d hypothèses de modélisation? -> comment un ordinateur peut-il apprendre à partir de données?

informatique + statistique / math. appliquées vs statistiques traditionnelles: analyse de données en grande dimension modèles complexes / structurées sensible aussi à l efficacité des algorithmes (aspect computationnel)

Traditional programming: zebra program tiger input output tiger Machine learning: zebra learning program program training data input output chosen program / model

learn a predictive model possible models a = w 0 + w 1 * F a a learning program F training data F Choose w 0, w 1 to minimize sum of squared errors

Learning law #1: Occam s razor and overfitting

linear model: a = w 0 + w 1 *F

quadratic model: a = w 0 + w 1 *F+w 2 *F 2

cubic model (degree 3)

degree 10

degree 15 overfitting!

Between two models / hypotheses which explain as well the data, choose the simplest one In Machine Learning: we usually need to tradeoff between training error model complexity can be formalized precisely in statistics (biasvariance tradeoff, etc.)

Grand biais Petite variance sousapprentissage Petit biais Grande variance surapprentissage Erreur de prédiction Erreur de test Erreur d entraînement petite grande Complexité du model

tiger zebra training data? decision boundary

groupe 1 groupe 2

Hype: With enough data, we can solve everything with no assumptions! Theory: No Free Lunch Theorem! If we do not make assumptions about the data, all learning methods do as bad on average on unseen data as a random prediction! consequence: need some assumptions for example, that time series vary smoothly

Problème avec données en grandes dimensions: explosion combinatoire de possibilités (exponentiel en d) Exemple: classification d images entrées: 16x16 pixels binaires (d=16 2 =256) sortie: {-1,1} [2 classes] nombre d entrées possible: 2 256 ~ 10 77 vs. nombre d images sur Facebook: ~10 12 => impossible d apprendre la fonction de classification sans supposition!

We can discover meaningless random patterns if we look through too many possibilities Bonferroni s principle ; exemplified by Birthday Paradox NSA example: say we consider suspicious when a pair of (unrelated) people stayed at least twice in the same hotel on the same day suppose 10 9 people tracked during 1000 days each person stays in a hotel 1% of the time (1 day out of 100) each hotel holds 100 people (so need 10 5 hotels) -> if everyone behaves randomly (i.e. no terrorist), can we still detect something suspicious? Probability that a specific pair of people visit same hotel on same day is 10-9 ; probability this happens twice is thus 10-18 (tiny),... but there are many possible pairs => Expected number of suspicious pairs is actually about 250,000! example taken from Rajamaran et al., Mining of Massive Datasets

Il faut bien connaître ses statistiques en plus de l informatique pour faire du sens du Big Data! -> métier de «Data-Scientifique»

http://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/ar/1 http://abonnes.lemonde.fr/economie/article/2014/04/08/un-metier-sexydatascientifique_4397951_3234.html?xtmc=data_scientist&xtcr=1

spam classification (Google) machine translation (not pretty, but functional ) speech recognition (used in your smart phone) self-driving cars (again Google)

Demo from Microsoft Chief Research Officer at Microsoft Research Asia meeting in Oct 2012 http://phys.org/news/2012-11-microsoft-applause-tone-preserving-video.html

révolution du Big Data: disponibilités de données + avancées dans les outils computationnels et statistiques = opportunités pour résoudre de nouveaux problèmes! apprentissage automatique domaine en pleine croissance... par contre domaine extrêmement multidisciplinaire: combine informatique, maths appliquées, statistiques `success stories dans les domaines des sciences et technologies

from Larry Wasserman s blog: http://normaldeviate.wordpress.com/2012/06/12/statistics-versus-machine-learning-5-2/ Statistics Machine Learning Estimation Learning Classifier Hypothesis Data point Example/Instance Regression Supervised Learning Classification Supervised Learning Covariate Feature Response Label and of course: Statisticians use R. Machine Learners use Matlab.

http://www.di.ens.fr/~slacoste/teaching/apprentissage-fall2014/ Vendredi 8h30-12h30 - Salle Henri Cartan premier cours: 26 sept. co-enseigné par: Simon Lacoste-Julien Francis Bach chargé de TD: Rémi Lajugie Équipe-Projet SIERRA, INRIA / ENS

comme porte d entrée pour le master MVA de l ENS Cachan! pour comprendre la base de l analyse de données de grande dimension soit pour continuer en recherche en statistiques, traitement du signal, apprentissage, etc. soit pour avoir la base théorique pour poursuivre en industrie (croissance des rôles de data scientists) soit par curiosité! Concepts utilisés dans plusieurs domaines où traitent des données...

6 ECTS Note déterminée à 60% par l'examen et 40% par un TP à rendre Normalement: cours magistral de 8h30 à 10h20 une pause d'environ 20 minutes TD de 10h40 à 12h30 -> apportez votre portable! Nos mails de contact se trouvent sur nos sites webs!