PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF. Ianis Lallemand, 21 janvier 2013



Documents pareils
RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Forthcoming Database

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

ANGULAR JS AVEC GDE GOOGLE

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Exemple PLS avec SAS

Application Form/ Formulaire de demande

How to Login to Career Page

Editing and managing Systems engineering processes at Snecma

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

1.The pronouns me, te, nous, and vous are object pronouns.

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

VTP. LAN Switching and Wireless Chapitre 4

ETABLISSEMENT D ENSEIGNEMENT OU ORGANISME DE FORMATION / UNIVERSITY OR COLLEGE:

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

Practice Direction. Class Proceedings

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

Panorama des bonnes pratiques de reporting «corruption»

Frequently Asked Questions

ADHEFILM : tronçonnage. ADHEFILM : cutting off. ADHECAL : fabrication. ADHECAL : manufacturing.

UNIVERSITE DE YAOUNDE II

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Instructions Mozilla Thunderbird Page 1

CONVENTION DE STAGE TYPE STANDART TRAINING CONTRACT

Une méthode d apprentissage pour la composition de services web

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Media Pack. À propos de nous. Statistiques par mois. Pourquoi préférer IT Job Board? Références

HP Formation Description de cours

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

CETTE FOIS CEST DIFFERENT PDF

Big Data et Graphes : Quelques pistes de recherche

Monitoring elderly People by Means of Cameras

Big Data et Graphes : Quelques pistes de recherche

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

«Rénovation des curricula de l enseignement supérieur - Kazakhstan»

The UNITECH Advantage. Copyright UNITECH International Society All rights reserved. Page 1

Monitoring des classes de neige des calottes polaires par Envisat

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications

SOS! Parent Teens Acculturation Conflict in Immigrant Families

BNP Paribas Personal Finance

valentin labelstar office Made-to-measure label design. Conception des étiquettes sur mesure. Quality. Tradition. Innovation DRUCKSYSTEME

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

Integrated Music Education: Challenges for Teaching and Teacher Training Presentation of a Book Project

Package Contents. System Requirements. Before You Begin

Exercices sur SQL server 2000

INTERNATIONAL CONSULTANT & SUPPLIERS TO THE WINE & SPIRITS TRADE

AVIS DE COURSE. Nom de la compétition : CHALLENGE FINN OUEST TOUR 3 Dates complètes : 14, 15 et 16 mai 2015 Lieu : Saint Pierre Quiberon

SERVEUR DÉDIÉ DOCUMENTATION

0 h(s)ds et h [t = 1 [t, [ h, t IR +. Φ L 2 (IR + ) Φ sur U par

Bill 69 Projet de loi 69

LE FORMAT DES RAPPORTS DU PERSONNEL DES COMMISSIONS DE DISTRICT D AMENAGEMENT FORMAT OF DISTRICT PLANNING COMMISSION STAFF REPORTS

La solution idéale de personnalisation interactive sur internet

BILL 203 PROJET DE LOI 203

Agile&:&de&quoi&s agit0il&?&

L industrie pharmaceutique et la grippe aviaire

Solvabilité II et rentabilité ajustée au risque des produits en assurance-vie

affichage en français Nom de l'employeur *: Lions Village of Greater Edmonton Society

Contents Windows

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Improving the breakdown of the Central Credit Register data by category of enterprises

Edna Ekhivalak Elias Commissioner of Nunavut Commissaire du Nunavut

Les méthodes Agiles Introduction. Intervenant : Tremeur Balbous tremeur@agilegardener.com 04/09/2008

Discours du Ministre Tassarajen Pillay Chedumbrum. Ministre des Technologies de l'information et de la Communication (TIC) Worshop on Dot.

OUTIL DE TRAVAIL COLLABORATIF

Tex: The book of which I'm the author is an historical novel.

HUAWEI TECHNOLOGIES CO., LTD. channelroad. A better way. Together.

Améliorations du schéma de nuage et de EDKF dans AROME/MésoNH

Dan Bar-On. Dialog as a means of dealing with conflicts Le dialogue comme modèle pour surmonter les conflits

PeTEX Plateforme pour e-learning et expérimentation télémétrique

INVESTMENT REGULATIONS R In force October 1, RÈGLEMENT SUR LES INVESTISSEMENTS R En vigueur le 1 er octobre 2001

Mon Service Public - Case study and Mapping to SAML/Liberty specifications. Gaël Gourmelen - France Telecom 23/04/2007

Public and European Business Law - Droit public et européen des affaires. Master I Law Level

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

AUDIT COMMITTEE: TERMS OF REFERENCE

Cedric Dumoulin (C) The Java EE 7 Tutorial

Évaluation de la mise en oeuvre des recommandations issues des audits effectués à l Université Nationale du Bénin par la Banque mondiale et l UNESCO

Un système KYC robuste et sa valeur ajoutée commerciale

Les Portfolios et Moodle Petit inventaire

SHAREPOINT PORTAL SERVER 2013

Scénarios économiques en assurance

Stakeholder Feedback Form January 2013 Recirculation

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Appointment or Deployment of Alternates Regulations. Règlement sur la nomination ou la mutation de remplaçants CONSOLIDATION CODIFICATION

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

OWASP Open Web Application Security Project. Jean-Marc Robert Génie logiciel et des TI

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

Project 1 Experimenting with Simple Network Management Tools. ping, traceout, and Wireshark (formerly Ethereal)

France SMS+ MT Premium Description

A.E.C. GESTION DES APPLICATIONS TECHNOLOGIE DE L'INFORMATION LEA.BW

Plan. Department of Informatics

Cours Bases de données 2ème année IUT

Mise en place d un système de cabotage maritime au sud ouest de l Ocean Indien. 10 Septembre 2012

Transcription:

PRÉSENTATION TRAVAIL EN COURS - APPRENTISSAGE INTERACTIF Ianis Lallemand, 21 janvier 2013

APPRENTISSAGE INTERACTIF definition Contours encore assez flous dans le champ de l apprentissage automatique. Néanmoins, intérêt récent : e.g. Workshop on Analysis and Design of Algorithms for Interactive Machine Learning (NIPS 2009)

APPRENTISSAGE INTERACTIF definition (workshop nips) "The traditional role of the human operator in machine learning problems is that of a batch labeler, whose work is done before the learning even begins. However, there is an important class of problems in which the human is interacting directly with the learning algorithm as it learns. Canonical problem scenarios which fall into this space include active learning, interactive clustering, query by selection, learning to rank, and others. Such problems are characterized by three main factors: 1. the algorithm requires input from the human during training, in the form of labels, feedback, parameter guidance, etc. 2. the user cannot express an explicit loss function to optimize, either because it is impractical to label a large training set or because they can only express implicit preferences. 3. the stopping criterion is performance that s "good enough" in the eyes of the user.

APPRENTISSAGE INTERACTIF definition (workshop nips) "The traditional role of the human operator in machine learning problems is that of a batch labeler, whose work is done before the learning even begins. However, there is an important class of problems in which the human is interacting directly with the learning algorithm as it learns. Canonical problem scenarios which fall into this space include active learning, interactive clustering, query by selection, learning to rank, and others. Such problems are characterized by three main factors: 1. the algorithm requires input from the human during training, in the form of labels, feedback, parameter guidance, etc. 2. the user cannot express an explicit loss function to optimize, either because it is impractical to label a large training set or because they can only express implicit preferences. 3. the stopping criterion is performance that s "good enough " in the eyes of the user.

APPRENTISSAGE INTERACTIF definition (workshop nips) "The traditional role of the human operator in machine learning problems is that of a batch labeler, whose work is done before the learning even begins. However, there is an important class of problems in which the human is interacting directly with the learning algorithm as it learns. Canonical problem scenarios which fall into this space include active learning, interactive clustering, query by selection, learning to rank, and others. Such problems are characterized by three main factors: 1. the algorithm requires input from the human during training, in the form of labels, feedback, parameter guidance, etc. 2. the user cannot express an explicit loss function to optimize, either because it is impractical to label a large training set or because they can only express implicit preferences. 3. the stopping criterion is performance that s "good enough" in the eyes of the user.

CONTEXTE : CRÉATION MUSICALE ET ARTISTIQUE spécificités Contraintes imposées par l utilisation de techniques d apprentissage automatique dans un contexte musical ou artistique : 1. souvent (très) peu d exemples d apprentissage disponibles. 2. difficulté de formuler le problème comme un problème d optimisation : la qualité des résultats peut-être relative à l utilisateur (installation interactive), au contexte ou au style (génération automatique de musique), etc. 3. le contexte (données d entrées, attentes sur résultats, etc) peut varier en cours d apprentissage : difficulté de séparer la phase d apprentissage du fonctionnement «normal» du système.

APPRENTISSAGE PAR RENFORCEMENT intérêts 1. Apprentissage de la politique («comportement») du système simultanément à son fonctionnement «normal». 2. Cadre théorique formulable indépendament du modèle implémentant la politique. inconvénients 1. Convergence souvent très lente (très grand nombre d itérations nécessaires). 2. Dans la formulation standard (MDP, Markov Decision Process), récompenses attribuées par l environnement : besoin d un modèle de récompenses environnementales, intégré de manière fixe.

«FAÇONNEMENT» définition W. B. Knox and P. Stone, Interactively Shaping Agents via Human Reinforcement: the TAMER Framework, Proceedings of the fifth international conference on Knowledge capture (K-CAP 09). we define shaping as interactively training an agent through signals of positive and negative reinforcement (...), scalar signal of approval or disapproval

«FAÇONNEMENT» définition formelle Un agent reçoit une séquence de description d états de l environnement (s 1, s 2,...). L agent peut choisir une action a i parmi plusieurs actions. Un «entraîneur» humain observe l agent : cet entraîneur a la compréhension d un critère de performance (quantitatif ou subjectif). L entraîneur évalue la qualité du comportement récent : renforcement positif ou négatif de paires état-action (s, a) récentes, en accord avec la «vraie» politique à apprendre. remarque Analogue à une formulation MDP\R. MDP sans explicitation de la fonction de récompenses environnementales.

TAMER cadre tamer tamer : Training an Agent Manually via Evaluative Reinforcement algorithme général

TAMER crédit Attribution ou prédiction du renforcement sur une séquence de plusieurs paires état-action : mécanisme de fenêtrage, pondération. passé temps minimum de réaction de l entraîneur

TRAVAIL EN COURS modèle d environnement Oracle des facteurs (Factor Oracle) probabilisé. quantité à renforcer Renforcement des probabilités de transition. crédit Via densité de probabilité Gamma et étalonnage. prédiction du renforcement Modèle linéaire. «renforcement précédent de la transition» x «crédit attribué à transition» renforcement Calculé par descente de gradient.

IMPLÉMENTATION algorithme Tamer (Java) Oracle des Facteurs (Java) représentation Construction de représentations symboliques à partir de données audio par k-moyennes (Java, weka) Construction de représentations symboliques à partir de séquences MIDI (gestion de la polyphonie, cf. Assayag et al.) (Java) interfaces Pour données audio segmentées via CataRT (Max, mxj) Pour séquences MIDI (Max for Live, mxj) évaluation «Niveau 0»

TRAVAIL À RÉALISER (COURT TERME) données midi Implémentation d exemples musicaux réels (MIDI). Apprentissage interactif de la représentation musicale adéquate en fonction des attentes de l utilisateur (pitch, rythme, etc) : plusieurs Oracles en parallèle. données audio Abandon de l approche de quantification a priori par k-moyennes. Approche «Oracle Audio» : transitions entre trames similaires vs. quantification a priori. Segmentation interactive : plusieurs oracles audio en parallèle avec des seuils de similarité différents. Application / évaluation possible de la mesure de similarité présentée à SMC 2012.