Apprentissage statistique et Big Data, focus sur l algorithme online-em

Documents pareils
Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Méthodes de Simulation

MCMC et approximations en champ moyen pour les modèles de Markov

Modélisation du comportement habituel de la personne en smarthome

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE

Apprentissage Automatique

Introduction au Data-Mining

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Introduction au Data-Mining

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Modélisation aléatoire en fiabilité des logiciels

Arbres binaires de décision

Anticiper et prédire les sinistres avec une approche Big Data

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Resolution limit in community detection

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Classification non supervisée

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Introduction au datamining

Big Data et Graphes : Quelques pistes de recherche

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Contrôle stochastique d allocation de ressources dans le «cloud computing»

Big Data et Graphes : Quelques pistes de recherche

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Texte Agrégation limitée par diffusion interne

PROBABILITES ET STATISTIQUE I&II

Coup de Projecteur sur les Réseaux de Neurones

Chapitre 2 Le problème de l unicité des solutions

Echantillonnage Non uniforme

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

Application Form/ Formulaire de demande

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Eléments de statistique

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Object Removal by Exemplar-Based Inpainting

Théorie des Jeux Et ses Applications

La rencontre du Big Data et du Cloud

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

BIG Data et R: opportunités et perspectives

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Agrégation des portefeuilles de contrats d assurance vie

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Quantification Scalaire et Prédictive

ANALYSE STATISTIQUE PRÉDICTIVE

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Moments des variables aléatoires réelles

Programmes des classes préparatoires aux Grandes Ecoles

Data issues in species monitoring: where are the traps?

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Simulation de variables aléatoires

Projet de Traitement du Signal Segmentation d images SAR

Espérance conditionnelle

Économétrie, causalité et analyse des politiques

Processus aléatoires avec application en finance

TABLE DES MATIERES. C Exercices complémentaires 42

Enjeux mathématiques et Statistiques du Big Data

Soutenance de stage Laboratoire des Signaux et Systèmes

Exemple PLS avec SAS

Principe de symétrisation pour la construction d un test adaptatif

La classification automatique de données quantitatives

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Prédiction et Big data

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Rappels sur les suites - Algorithme

Les datas = le fuel du 21ième sicècle

Apprentissage Statistique

Méthodes d apprentissage statistique «Machine Learning»

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

Once the installation is complete, you can delete the temporary Zip files..

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Laboratoire 4 Développement d un système intelligent

Monitoring elderly People by Means of Cameras

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

CarrotAge, un logiciel pour la fouille de données agricoles

4.2 Unités d enseignement du M1

Pourquoi l apprentissage?

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Apprentissage statistique dans les graphes et les réseaux sociaux

Raisonnement probabiliste

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

FaceBook aime les Maths!

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Instructions Mozilla Thunderbird Page 1

EXCEL EXPERIENCE DAY 2015

Les défis statistiques du Big Data

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

Transcription:

Apprentissage statistique et Big Data, focus sur l algorithme online-em Olivier Cappé Laboratoire Traitement et Communication de l Information CNRS, Télécom ParisTech, 75013 Paris 8 octobre 2013 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 1 / 34

Apprentissage statistique 1 Apprentissage statistique 2 Big Data 3 Online EM 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 2 / 34

Apprentissage statistique L apprentissage automatique Apprentissage automatique (machine learning) Apprendre à effectuer des tâches à partir d exemples De façon supervisée Avec des exemples de données et de résultats souhaités Classification De façon non supervisée Avec uniquement des exemples de données Clustering De façon séquentielle En traitant un flux de données de façon causale Prédiction séquentielle Par extension, problèmes dont le traitement présente des analogies avec ce qui précède Régression en grande dimension 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 3 / 34

Apprentissage statistique Quelques idées sur l apprentissage statistique Je m intéresse aux approches statistiques de l apprentissage 1 Comme en statistique usuelle j utilise un modèle probabiliste des données par exemple, Y = f(x)β + ɛ, avec ɛ aléatoire 2 Mais ce qui m intéresse c est prédire classifier reconstruire plus qu estimer prédire Y par f(x ) ˆβ pour un nouvel x plus que ˆβ en lui même 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 4 / 34

Apprentissage statistique Quelques idées sur l apprentissage statistique... 3 D autant plus que je crois que le modèle utilisé est instrumental (probablement faux) on doit avoir Y = F(x) + ɛ, avec F assez compliquée 4 De ce fait, j ai intérêt à faire croître la complexité du modèle avec le nombre de données disponibles si j observe Y 1,..., Y n, j utilise plutôt le modèle Y i = k n j=1 f j (x i )β j + ɛ i, où k n avec n 5 Le choix / sélection de modèle est crucial choisir ˆk n pour que ˆk n j=1 f j (x ) ˆβ j soit le plus proche de Y 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 5 / 34

Apprentissage statistique Quelques idées sur l apprentissage statistique...... 6 L optimisation est un outil central ˆβ = argmin Y xβ 2 plutôt que ˆβ = (x T x) 1 x T Y β de façon à penser à argmin Y xβ 2 β: β 1 λ qu il va falloir résoudre numériquement... 7 Comme les modèles sont faux j ai intérêt à les combiner J estime ˆβ 1,..., ˆβ k séparément dans les modèles Y = f 1 (x)β 1 + ɛ,..., Y = f k (x)β k + ɛ, j utilise l ensemble {f 1 (x ) ˆβ 1,..., f k (x ) ˆβ k } pour prédire Y 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 6 / 34

Apprentissage statistique Quelques idées sur l apprentissage statistique......... 8 L approche bayésienne permet de retrouver beaucoup des méthodes précédentes (k n n, β 1 λ, {f 1 (x ) ˆβ 1,..., f k (x ) ˆβ k }) ainsi que certaines de leurs variantes J imagine que β (voire k) est une variable aléatoire 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 7 / 34

Big Data 1 Apprentissage statistique 2 Big Data Quelques idées générales Quelques idées de modélisation 3 Online EM 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 8 / 34

Big Data Il est trop tard pour s interroger sur l opportunité du Big Data... Néanmoins son potentiel reste assez largement spéculatif Suffisamment grand pour espérer répondre à des questions complexes 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 9 / 34

Big Data Quelques idées générales Un phénomène qui impacte aussi la science Big Data Web, réseaux sociaux, commerce en ligne, systèmes d information d entreprise... mais aussi Sciences du vivant, sciences du climat, physique des particules, sciences humaines,... 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 10 / 34

Big Data Quelques idées générales Vers une science des données? Expérience JEM-EUSO Capteur de 2.10 5 pixels / 2.5µs pour détecter une centaine de particules de très haute énergie par jour (source Balázs Kégl, LAL/LRI) détecteur obtenu par des méthodes d apprentissage statistique (boosting) à partir de données préliminaires et de simulations 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 11 / 34

Big Data Quelques idées générales Une demande très forte sur l enseignement Qui mêle des compétences en mathématiques appliquées (statistiques, optimisation) et en informatique L exemple du Master spécialisé Big Data à Télécom ParisTech (Stephan Clémençon) 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 12 / 34

Modélisation et Big Data Big Data Quelques idées générales Il est nécessaire (et utile) de modéliser le Big Data If you cannot solve the proposed problem, try to solve first some related problem. Could you imagine a more accessible related problem? George Pólya, How to Solve It (1945) 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 13 / 34

Grand n, grand p Big Data Quelques idées de modélisation Plus de données mais aussi plus de statistiques! 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 14 / 34

Grand n, grand p Big Data Quelques idées de modélisation On imagine une séquence d expériences dans lesquelles les nombres d observations et de variables explicatives augmentent simultanément VARIABLES p VARIABLES p OBSERVATIONS n OBSERVATIONS n... Pour modéliser certaines situations (expérience Microarray en génomique), il est possible de considérer aussi des cas où p > n 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 15 / 34

Big Data Quelques idées de modélisation Lois de Zipf Rare n est pas synonyme d inintéressant Comment échantillonner les données? Peut on construire (avec une complexité acceptable) des résumés exhaustifs des données? 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 16 / 34

Contrôle du taux de faux positifs Q: olivier cappe big data Big Data Quelques idées de modélisation Q: olivier cappe big data toulouse 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 17 / 34

Big Data Quelques idées de modélisation Compromis performance / robustesse / calcul Le volume de données nécessite de réduire la complexité des traitements Idées : Algorithmes sous optimaux, utilisation de résumés des données... Régression sous-échantillonnée en observations et en prédicteurs Régressions marginales Le calcul n est plus une abstraction Contraintes : structure des ressources de calcul, accès aux données Algorithmes online, distribués 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 18 / 34

Online EM 1 Apprentissage statistique 2 Big Data 3 Online EM L algorithme EM L algorithme online EM Applications Références 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 19 / 34

Online EM Modèles à données latentes L algorithme EM Un modèle à données latentes est un modèle statistique étendu {p θ (x, y)} θ Θ où seul Y peut être observé Les estimés θ n du paramètre ne peuvent dépendre que des observations Y 1,..., Y n Le modèle {f θ (y)} θ Θ est défini par marginalisation : f θ (y) = p θ (x, y)dx Les données {Y t } t 1 sont supposées indépendantes et distribuées sous la loi marginale π (et π / {f θ } θ Θ ) 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 20 / 34

Online EM L algorithme EM Exemple : Modèle de mélange Densité de mélange f(y) = m α i f i (y) 2 0 i=1 2 Interprétation en terme de données latentes P(X t = i) = α i Y t X t = i f i (y) 4 0.5 0 0.5 1 1 0 1 Souvent utilisé pour réaliser une version probabiliste du clustering (traitement de la parole, du langage naturel... ) 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 21 / 34

Online EM L algorithme EM L algorithme EM usuel vise à déterminer numériquement l estimateur du maximum de vraisemblance θ n = arg max θ n log f θ (Y t ) t=1 Expectation-Maximisation (Dempster, Laird & Rubin, 1977) A l étape k, étant donné l estimé courant θ k n du paramètre Etape E Calculer q n,θ k n (θ) = n E θ k n [log p θ (X t, Y t ) Y t ] t=1 Etape M Mettre à jour l estimé du paramètre θ k+1 n = arg max θ Θ q n,θ k n (θ) 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 22 / 34

Principe Online EM L algorithme EM 1 C est un algorithme MM (maximisation d un minorant) de par l inégalité de Jensen Figure: La quantité intermédiaire de l EM minore localement la log-vraisemblance 2 Qui ne peut s arrêter qu en un point stationnaire de la log-vraisemblance (du fait de la relation dite de Fisher) 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 23 / 34

Online EM L algorithme EM L algorithme EM n a pas un comportement satisfaisant lorsque n est grand 4 2 10 3 observations 3 u 2 2 0 Le coût de calcul (et de stockage) de l algorithme EM (pour un nombre 4 fixé d itération) est proportionnel à n 3 2 pour un résultat qui ne s améliore 1 pas quand n 0 u 2 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 20 10 3 observations 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Batch EM iterations 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 24 / 34

Online EM L algorithme online EM Algorithme online EM [C & Moulines, 2009 2011] Pour remédier à ces défauts, on cherche une variante de l algorithme EM qui à chaque nouvelle observation Y n, met à jour l estimé θ n avec un coût de calcul (et de stockage) fixe par observation peut être interrompue à tout moment (et n a pas besoin de connaître au préalable le nombre d observations) est robuste vis à vis de contraintes d accès au données se comporte comme le maximum de vraisemblance lorsque n est grand (mesuré via un TLC) 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 25 / 34

Online EM L algorithme online EM Ingrédient 1. Modèle de la famille exponentielle Pour que la récursion de l EM soit explicite on doit supposer Un modèle de la famille exponentielle p θ (x, y) = exp (s(x, y)ψ(θ) A(θ)) où s(x, y) est une statistique exhaustive pour la loi p θ pour lequel le maximum de vraisemblance est explicite S θ(s) = arg max θ Sψ(θ) A(θ) 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 26 / 34

Online EM L algorithme online EM Ingrédient 1. EM dans la famille exponentielle La k-ème itération de l algorithme EM Etape E Etape M S k+1 n = 1 n θ k+1 n n E θ k n [s(x t, Y t ) Y t ] t=1 = θ ( S k+1 n ) peut être décrite uniquement via la statistique exhaustive S k+1 n = 1 n n E θ(s k n ) [s(x t, Y t ) Y t ] t=1 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 27 / 34

Online EM L algorithme online EM Ingrédient 2. L algorithme EM limite En faisant tendre n vers l infini on obtient Version limite de l algorithme EM Mise à jour de la statistique exhaustive ) S k = E π (E θ(s k 1 ) [s(x 1, Y 1 ) Y 1 ] Mise à jour du paramètre θ k = θ {E π (E θ k 1 [s(x 1, Y 1 ) Y 1 ])} Avec les même arguments que pour l algorithme EM, on montre que 1 la divergence de Kullback-Leibler D(π f θ k) décroît de façon monotone avec k 2 θ k converge vers {θ : θ D(π f θ ) = 0} 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 28 / 34

Online EM L algorithme online EM Ingrédient 3. L approximation stochastique On recherche les solutions de ) E π (E θ(s) [s(x 1, Y 1 ) Y 1 ] S = 0 En voyant E θ(s) [s(x n, Y n ) Y n ] comme une observation bruitée de ) E π (E θ(s) [s(x 1, Y 1 ) Y 1 ], on reconnaît un cas d utilisation de l approximation stochastique (ou algorithme de Robbins-Monro) : ( ) S n = S n 1 + γ n E θ(sn 1 ) [s(x n, Y n ) Y n ] S n 1 où (γ n ) est une séquence de pas décroissants 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 29 / 34

L algorithme Online EM L algorithme online EM Online EM Etape E via l approximation stochastique S n = (1 γ n )S n 1 + γ n E θn 1 [s(x n, Y n ) Y n ] Etape M θ n = θ(s n ) 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 30 / 34

Online EM Applications Natural language processing Online EM for Unsupervised Models, Percy Liang & Dan Klein, NAACL Conference, 2009 Context Text processing using word representation ( 10k words) from large document corpora ( 100k documents) Tasks Tagging, classification, alignment (variant of mixture or HMM with multinomial observations) In this application, the use of mini-batch blocking was found useful: Apply the proposed algorithm considering Y mk+1, Y mk+2... Y m(k+1) as one observation (with m of the order of a few k documents) 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 31 / 34

Online EM Applications Large-scale probabilistic sequence alignment Streaming fragment assignment for real-time analysis of sequencing experiments, Adam Roberts & Lior Pachter, Nature, 2013 Context High-throughput sequencing experiments in biology Task Learn parameters of probabilistic models for sequence alignments (finite-valued sequences with insertion/deletion/substitution probabilities) from 10M sequence fragments (reads) with 10k target sequences (transcripts) Note that the actual goal is the retrospective probabilistic sequence assignment (E-step) Use a single pass of online EM through all the data, followed by a few more batch EM steps 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 32 / 34

Online EM Références Roberts, A. & Pachter, L. (2013). Streaming fragment assignment for real-time analysis of sequencing experiments. Nature. Cappé, O. (2011). Online EM algorithm for hidden Markov models. J. Comput. Graph. Statist. Cappé, O. (2011). Online Expectation-Maximisation. In Mixtures, Wiley. Rohde, D. & Cappé, O. (2011). Online maximum-likelihood estimation for latent factor models. IEEE Statistical Signal Processing Workshop. Liang, P. & Klein, D. (2009). Online EM for Unsupervised Models. NAACL Conference. Cappé, O. & Moulines, E. (2009). On-line expectation-maximization algorithm for latent data models. J. Roy. Statist. Soc. B. Sato, M. & Ishii, S. (2000). On-line EM algorithm for the normalized Gaussian network. Neural Computation. Sato, M. (2000). Convergence of on-line EM algorithm. International Conference on Neural Information Processing. Neal, R. M. & Hinton, G. E. (1999). A view of the EM algorithm that justifies incremental, sparse, and other variants. In Learning in graphical models, MIT Press. Titterington, D. M. (1984). Recursive parameter estimation using incomplete data. J. Roy. Statist. Soc. B. 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 33 / 34

F I N 1 Apprentissage statistique 2 Big Data Quelques idées générales Quelques idées de modélisation 3 Online EM L algorithme EM L algorithme online EM Applications Références Merci de votre attention 0. Cappé (LTCI) Journée de rencontre BIG DATA 8 octobre 2013 34 / 34