Apprentissage Statistique et Données Massives



Documents pareils
Panorama des solutions analytiques existantes

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Fouille de données massives avec Hadoop

BIG DATA en Sciences et Industries de l Environnement

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Anticiper et prédire les sinistres avec une approche Big Data

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

M2 GL UE DOC «In memory analytics»


Les technologies du Big Data

Introduction au Data-Mining

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Hébergement MMI SEMESTRE 4

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data Concepts et mise en oeuvre de Hadoop

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

Big Data, un nouveau paradigme et de nouveaux challenges

Cartographie des solutions BigData

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Offre formation Big Data Analytics

Programmation parallèle et distribuée

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Programmation parallèle et distribuée (Master 1 Info )


Introduction à MapReduce/Hadoop et Spark

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Big Data et Prévisions. Philippe Picard, le 24 juin Page 1

Bases de données documentaires et distribuées Cours NFE04

Enjeux mathématiques et Statistiques du Big Data

4 Exemples de problèmes MapReduce incrémentaux

Programmation parallèle et distribuée

Surmonter les 5 défis opérationnels du Big Data

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Ricco Rakotomalala R.R. Université Lyon 2

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Open-cloud, où en est-on?

Le BigData, aussi par et pour les PMEs

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Application de K-means à la définition du nombre de VM optimal dans un cloud

Ne cherchez plus, soyez informés! Robert van Kommer

HADOOP ET SON ÉCOSYSTÈME

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Introduction Big Data

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Cloud et SOA La présence du Cloud révolutionne-t-elle l approche SOA?

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Les dessous du cloud

Tour d horizon de l apprentissage statistique. from Machine Learning to Big Data Analytics

Windows Azure. Principales fonctions

Cloud Computing & PHP

Breizhcamp - Cloud - Ruby

BIG Data et R: opportunités et perspectives

Introduction au Data-Mining

Les journées SQL Server 2013

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Big Data Jean-Michel Franco

Labs Hadoop Février 2013

Informatisation du Système d Information

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Pourquoi R devient incontournable en recherche, enseignement et développement

Cloud Computing dans le secteur de l Assurance

Cassandra et Spark pour gérer la musique On-line

Les entreprises de 2020 seront dirigées par les Data Scientists

Big Data Analytics - Retour vers le Futur 3; De Statisticien à Data Scientist

Les quatre piliers d une solution de gestion des Big Data

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Big Data On Line Analytics

Séminaire Partenaires Esri France 7-8 juin Paris Cloud Computing Stratégie Esri

Machine Learning 9:HSMBKA=\WU\YX: Big Data et machine learning. Manuel du data scientist. InfoPro

Chapitre 4: Introduction au Cloud computing

Cloud Computing. Introduction. ! Explosion du nombre et du volume de données

Projet d'infrastructure de stockage mutualisée

Hadoop, les clés du succès

Introduction au Massive Data

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Business IT. Evolutions du schéma de distribution depuis 1990

hurence Big Data get its magical power CEO & CTO

Conserver les Big Data, source de valeur pour demain

Big Data - Retour vers le Futur 3; De Statisticien à Data Scientist

Etude des outils du Cloud Computing

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Journées Big Data à l ENSAI Big Data: les challenges, les défis

Veille Technologique. Cloud Computing

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Qu est-ce que le «cloud computing»?

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

IBM BigInsights for Apache Hadoop

Le nouveau visage de la Dataviz dans MicroStrategy 10

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Transcription:

Apprentissage Statistique et Données Massives Philippe Besse Université de Toulouse INSA Dpt GMM Institut de Mathématiques ESP UMR CNRS 5219

Introduction Technologies des donne es massives Motivations, objectifs Enjeux des donne es massives Nouvelle Science? Big Data Croissance exponentielle du Volume Varie te, Ve locite Valorisation et analyse (ML) Passage a l e chelle Volume Me thodes d apprentissage vs. Nouvelles technologies Point de vue pe dagogique De Statisticien a Data Scientist Quelles compe tences? Quelques Exemples Trajectoires GPS Apprentissage et donne es massives

Motivations, objectifs Enjeux des données massives Nouvelle Science? Domaines et objectifs très variés E-commerce : recommandations et Réseaux sociaux Publique : administrations, santé et (open data) Recherche Météo, Biologie, Astronomie... Industrie : défaillance, fraudes, maintenance... Réellement massives? Seuils technologiques (RAM, Disque) Préparation (munging) des données (Python-pandas) Données distribuées : Hadoop distributed file system Ferme de données

Motivations, objectifs Enjeux des données massives Nouvelle Science? Réalité ou confusion? Aspects sociétaux et Datafication du quotidien big data vs. big brother (NSA) Information / prévision de comportement moyen / individuel Assurances et asymétrie d information Segmentation vs. mutualisation des risques

Motivations, objectifs Enjeux des données massives Nouvelle Science? Question La Science des données est-elle une Nouvelle Science? Volume et nouveaux paradigmes 1990s MO Data Mining & Expérimentation 2000s GO Bioinformatique & Parcimonie (p >> n) 2010s TO Science des données & Optimisation Nouveau terme d erreur Erreur d approximation vs. d estimation (biais / variance) Erreur d optimisation Contrainte de ressources (temps, RAM, nb processeurs) Taille échantillon vs. temps d exécution & mémoire Méthodes disponibles pour données distribuées

Motivations, objectifs Enjeux des données massives Nouvelle Science? Nouveaux modèles économiques Eldorado de la pub en ligne (advertising) Cloud computing : SaaS, IaaS, PaaS, DaaS, ITaaS... Marges sur matériels et logiciels (open source) Amazon (WS), Microsoft (Azure), Google cloud, IBM (Analytics),... Python et Enthought, Continuum analytics Spark (Databricks), H20 (Oxdata), RHadoop (Revolution Analytics Microsoft)

Motivations, objectifs Enjeux des données massives Nouvelle Science? Nouvelles Méthodes stat ou ML? Hadoop et MapReduce pour paralléliser Retour vers le futur (SVD, k-means, logistique, RF...) Obligation de collaborer entre Maths, Info Michael Jordan (SFdS 13/10/2015) GDR MADICS du CNRS (juin 2015) Nouveaux problèmes d optimisation Optimisation convexe et parcimonie (Candes & Tao, 2010) Gradient stochastique (données distribuées ou en flux) Librairies d algorithmes parallélisés

Motivations, objectifs Enjeux des données massives Nouvelle Science? En résumé Exemple d Amazon Web Service Machine Learning Utiliser une technologie d apprentissage-machine puissante sans avoir besoin de maîtriser les algorithmes et techniques de l apprentissage-machine (sic!) Cloud mais qu avec modèle linéaire ou logistic Pénalisation Lasso, Ridge, mais... manuelle Science des données Nouveau packaging Nouveaux enjeux Explosion de nouvelles technologies Problèmes d optimisation

HDFS & Hadoop MapReduce pour les nuls Logiciels Hadoop Environnement : Google puis Apache Hadoop Distributed File System (HDFS) Données hétérogènes distribuées Distribution : Cloudera, Hortonworks, Oracle, IBM... Parallélisation : Map Reduce

HDFS & Hadoop MapReduce pour les nuls Logiciels Hadoop Distributed File System (HDFS)

HDFS & Hadoop MapReduce pour les nuls Logiciels Classification par centres mobiles ( k-means) Définition d une distance euclidienne (ou non : PAM) Algorithme de Forgy Initialisation des k centres Itération des étapes MapReduce Map : Affectation de chaque individu (valeur) au centre (clef) le plus proche Reduce : Calcul des centres des individus de même clef Mise à jour des centres Problème : accès disques à chaque itération Solution actuelle : Spark (Resilient Distributed Dataset)

HDFS & Hadoop MapReduce pour les nuls Logiciels Logiciels de Statistique & Hadoop (Scikit Learn), Knime, Weka... Bibliothèques R : bigmemory, parallel, snow... RHadoop (Revolution Analytics) Bibliothèque Java d apprentissage (Apache) : Hadoop & Après Hive, pig... Spark Zaharia et al. (2012) Scala, Java, Python (pyspark), (SparkR) & MLlib,

HDFS & Hadoop MapReduce pour les nuls Logiciels Méthodes échelonnables (scalable) RHadoop : k-means, régression, régression logistique... MLlib de Spark : k-means, SVD, NMF (ALS), régression linéaire et logistique avec pénalisations, SVM linéaires, classifieur bayésien naïf, Arbre, Forêt Aléatoire, Boosting Finalement peu de méthodes Mais passage direct à l échelle volume

HDFS & Hadoop MapReduce pour les nuls Logiciels Implémentations des forêts aléatoires Python (scikit-learn) équivalente à R (randomforest) ntree, mtry MLlib de Spark maxdepth, mininstancespernode featuresubsetstrategy subsamplingrate maxbins (32) < n maxmemoryinmb, usenodeidcache, checkpointdir, checkpointinterval

Big Data et signal faible Quelle méthode technologie? Conclusion Données massives et information Compenser un signal faible (sismique inverse) Représentativité Fiasco de Google flu trend Exhaustivité et mesure d audience (Médiamétrie) Philippe Tassi (SFdS 13/10/2015) Qualité des variables (features) Million Song Dataset : benchmark de Databricks Base UCI Crédit : Databricks Année observée vs. prédite

Big Data et signal faible Quelle méthode technologie? Conclusion Méthode Technologie Critéo (advertising) : régression logistique et group lasso Tinyclues (profilage) : factorisation non négative CDiscount (catégorisation) : régressions logistiques Deepki (bâtiments) : random forest et boosting Airbus (essais en vol) : archivage Hadoop (Oracle) IRT Saint-Exupéry (images satellites) : boosting (Spark)

Big Data et signal faible Quelle méthode technologie? Conclusion Conclusion Platform as a service Amazon WS : +50% par an Software as a Service : Watson, AWS ML, tensor flow... Hadoop Spark MLlib Domaines en développement pérenne, d autres pas... Gartner Hype Cycle : Trough of Disillusionment of ML Sélection naturelle des technologies