Comment les robots construisent leur monde

Documents pareils
Epreuve Commune de TIPE : Partie D

Curative healthcare demand Self-protection and Self-insurance

La rentabilité des investissements

Apprendre sans école. Vivre sans capitalisme. Villes en transition. Entretien avec Enric Duran. Relocaliser l'alimentation n'est pas chose facile!

2. Quelle est la valeur de la prime de l option américaine correspondante? Utilisez pour cela la technique dite de remontée de l arbre.

Présentation de la plateforme IDS Prelude

ELECTRICITE. Chapitre 13 Régimes transitoires des circuits RC et RL. Analyse des signaux et des circuits électriques. Michel Piou

CSMA e Colloque National en Calcul des Structures Mai 2013

Texte Ruine d une compagnie d assurance

Chapitre 2 L investissement. . Les principales caractéristiques de l investissement

Programmation, organisation et optimisation de son processus Achat (Ref : M64) Découvrez le programme

MATHEMATIQUES FINANCIERES

Caractéristiques des signaux électriques

Finance 1 Université d Evry Val d Essonne. Séance 2. Philippe PRIAULET

Recueil d'exercices de logique séquentielle

MAISON DE LA RATP 54, quai de la Râpée -189, rue de Bercy Paris. M Gare de Lyon. M Gare de Lyon

Bloc 1 : La stabilité, une question d équilibre

TB 352 TB 352. Entrée 1. Entrée 2

VA(1+r) = C 1. VA = C 1 v 1

TD/TP : Taux d un emprunt (méthode de Newton)

Florence Jusot, Myriam Khlat, Thierry Rochereau, Catherine Sermet*

Le guide du parraina

Les nouvelles orientations politiques du budget 2015 du Gouvernement prévoient

Sommaire de la séquence 12

Ned s Expat L assurance des Néerlandais en France

À L OUEST DU PARC Promoteurs, architectes et habitants réunis pour travailler. page 4

l énergie et le changement

EVALUATION DE LA FPL PAR LES APPRENANTS: CAS DU MASTER IDS

Les circuits électriques en régime transitoire

Exemples de résolutions d équations différentielles

Le mode de fonctionnement des régimes en annuités. Secrétariat général du Conseil d orientation des retraites

Groupe International Fiduciaire. pour l Expertise comptable et le Commissariat aux comptes

Oscillations forcées en régime sinusoïdal.

7. Droit fiscal. Calendrier Actualité fiscale 7.2 Contrôle et contentieux fiscal 7.3 Détermination du résultat fiscal.

FONCTIONS EXPONENTIELLES - FONCTIONS LOGARITHMES. lim e x = 0 et. x y

Les soutiens publics à l exportation

Coaching - accompagnement personnalisé (Ref : MEF29) Accompagner les agents et les cadres dans le développement de leur potentiel OBJECTIFS

Copules et dépendances : application pratique à la détermination du besoin en fonds propres d un assureur non vie

OBJECTIFS LES PLUS DE LA FORMATION

CERES logiciel de gestion commerciale pour négociants en vin

CARACTERISTIQUES STATIQUES D'UN SYSTEME

Sommaire G-apps : Smart fun for your smartphone!

Risque associé au contrat d assurance-vie pour la compagnie d assurance. par Christophe BERTHELOT, Mireille BOSSY et Nathalie PISTRE

CHAPITRE I : Cinématique du point matériel

Séquence 2. Pourcentages. Sommaire

Rappels théoriques. -TP- Modulations digitales ASK - FSK. Première partie 1 INTRODUCTION

Documentation Technique de Référence Chapitre 8 Trames types Article

Université Technique de Sofia, Filière Francophone d Informatique Notes de cours de Réseaux Informatiques, G. Naydenov Maitre de conférence, PhD

Files d attente (1) F. Sur - ENSMN. Introduction. 1 Introduction. Vocabulaire Caractéristiques Notations de Kendall Loi de Little.

Mathématiques financières. Peter Tankov

Comment utiliser une banque en France. c 2014 Fabian M. Suchanek

dysfonctionnement dans la continuité du réseau piétonnier DIAGNOSTIC

Un modèle de projection pour des contrats de retraite dans le cadre de l ORSA

Le mécanisme du multiplicateur (dit "multiplicateur keynésien") revisité

Les solutions solides et les diagrammes d équilibre binaires. sssp1. sssp1 ssss1 ssss2 ssss3 sssp2

Exemple de Plan d Assurance Qualité Projet PAQP simplifié

au Point Info Famille

Thème : Electricité Fiche 5 : Dipôle RC et dipôle RL

Guide de correction TD 6

Bénévole pour quoi? N 20 - Sommaire. N 20 - Déc 08. v d s. f bénévoles désormais, et on s'arrête là pour l'instant.

3 POLITIQUE D'ÉPARGNE

Programme GénieArts Î.-P.-É GénieArts

CHAPITRE 13. EXERCICES a) 20,32 ± 0,055 b) 97,75 ± 0,4535 c) 1953,125 ± 23, ±0,36π cm 3

COURS GESTION FINANCIERE A COURT TERME SEANCE 3 PLANS DE TRESORERIE. François LONGIN

Annuités. I Définition : II Capitalisation : ( Valeur acquise par une suite d annuités constantes ) V n = a t

«COMBATTRE LES BLEUS» Ce que signifie le programme social des Conservateurs pour les femmes

Chapitre 9. Contrôle des risques immobiliers et marchés financiers

Développement de site web dynaùique Dot.NET

GESTION DU RÉSULTAT : MESURE ET DÉMESURE 1 2 ème version révisée, août 2003

Juin

Dans le lit du Géant Toboggan

Sélection de portefeuilles et prédictibilité des rendements via la durée de l avantage concurrentiel 1

Estimation des matrices de trafics

Formation Administrateur Server 2008 (Ref : IN4) Tout ce qu'il faut savoir sur Server 2008 OBJECTIFS LES PLUS DE LA FORMATION

Réseau de coachs. Vous êtes formés dans les métiers du sport et/ou de la préparation physique (Brevet d état, Licence, Master STAPS)

Le Songe d une nuit d été

A. RENSEIGNEMENTS GÉNÉRAUX. (Adresse civique) 3. Veuillez remplir l'annexe relative aux Sociétés en commandites assurées à la partie E.

C est signé mars 2015 Mutuelle soumise au livre II du Code de la Mutualité - SIREN N DOC 007 B-06-18/02/2015

NUMERISATION ET TRANSMISSION DE L INFORMATION

F 2 = - T p K F T = - T p K 0 - K 0

Tu le fais! n om. Le j ournal des EEDF de la région Midi- Pyrénées Juillet Numéro 8 π

TRAVAUX PRATIQUES N 5 INSTALLATION ELECTRIQUE DE LA CAGE D'ESCALIER DU BATIMENT A

TVA et Systèmes d Information. Retour d expérience d entreprise. A3F - 26 mars 2015 Hélène Percie du Sert COFELY INEO

Une union pour les employeurs de l' conomie sociale. - grande Conférence sociale - les positionnements et propositions de l usgeres

THÈSE. Pour l obtention du grade de Docteur de l Université de Paris I Panthéon-Sorbonne Discipline : Sciences Économiques

Intégration de Net2 avec un système d alarme intrusion

Les ressources du PC

Impact du vieillissement démographique sur l impôt prélevé sur les retraits des régimes privés de retraite

Initiation à la virologie Chapitre IV : Diagnostic viral

Froid industriel : production et application (Ref : 3494) Procédés thermodynamiques, systèmes et applications OBJECTIFS LES PLUS DE LA FORMATION

Filtrage optimal. par Mohamed NAJIM Professeur à l École nationale supérieure d électronique et de radioélectricité de Bordeaux (ENSERB)

DEMANDE DE GARANTIE FINANCIÈRE ET PACK RCP

Découverte Sociale et Patrimoniale

Vous vous installez en france? Société Générale vous accompagne (1)

Base de données bibliographique. p p. 33. valorisation économique de l'eau potable. energétique et municipales. p.13 - fédérale de.

MIDI F-35. Canal MIDI 1 Mélodie Canal MIDI 2 Basse Canal MIDI 10 Batterie MIDI IN. Réception du canal MIDI = 1 Reproduit la mélodie.

S euls les flux de fonds (dépenses et recettes) définis s ent l investissement.

Sciences Industrielles pour l Ingénieur

PREMIÈRE PARTIE LIQUIDITÉ ET MICROSTRUCTURE. La Liquidité - De la Microstructure à la Gestion du Risque de Liquidité

Transcription:

Phoo ECAL / Milo Kllr, Dsign : ECAL / Singal Mösch Francis Chabloz Commn ls robos consruisn lur mond par Frédéric Kaplan Pirr-Yvs Oudyr Pourrai-on apprndr à un robo l nom ds objs qui l nourn? N suffirai-il pas d l programmr pour qu il associ ls caracérisiqus ds imags qu il prçoi avc ds séquncs sonors pariculièrs? La form arrondi d un ball avc l son du mo «ball». Un gamm d coulurs pariculièr associé au mo «roug». Pu-êr qu n accumulan ls xmpls, l robo finirai par prédir ls conxs dans lsqulls chacun d cs mos s appliqun? Es-c aussi simpl qu cla d apprndr à parlr? Tlls éain ls qusions qu nous posions n 1999 avan d débur un longu séri d xpérincs dsinés à xplorr la manièr don un machin pouvai apprndr ss prmirs mos. Tous ls mains, nous prnions un dmi-hur pour monrr au robo ds objs d coulur d forms différns. Nous changions d nvironnmn chaqu jour (piècs rès éclairés, zon sombrs) d manièr à c qu l robo puiss prcvoir chaqu obj dans ls condiions ls plus variés possibl. Nous avions uilisé un sysèm d apprnissag simpl fficac : l apprnissag par p r o o y p s. Pour prédir l mo associé à un nouvll siuaion, l robo n comp a r a i l s c a r a c é r i s- iqus à clls rnconrés dans l passé choisissai l mo qui avai éé uilisé dans la siuaion la plus similair (voir ncadré 1). L robo a pu par c méhod maîrisr l usag d un dizain d mos associés à ds objs facilmn disinguabls par lur coulur lur form. Ls prformancs obnus dans cs condiions éain saisfaisans (nr 70% 80% d réussi) mais lls dvnai rapidmn médiocrs siô qu nous nions d inroduir ds objs supplémnairs. L approch n éai pas généralisabl. Un analys plus fin d la bas d xmpls qui connai ous ls informaions (imags sons) qu l robo avai accumulés duran cs xpérincs fu rich d nsignmns. Dans un crain nombr d cs xmpls, 1

1 / Commn un robo pu-il apprndr? Tou un nsmbl d chniqus prmn aujourd hui à un machin d apprndr à fair ds prédicions à parir d xmpls. Par xmpl, on pu donnr qulqus imags d balls d chaiss associés aux éiqus «ball» «chais», la machin pu nsui dvinr, quand on lui donn un nouvll imag qu ll n a jamais vu, si c s un ball ou un chais. La âch d prédicion pu êr aussi mporll : par xmpl, la machin obsrv un crain nombr d rajcoirs d un ball qu on lanc d divrss manièrs, nsui s capabl d prédir où c ball va arrir dès ls prmièrs millisconds d un nouvau lancé. Il s possibl d résumr cs différns conxs d prédicion n disan qu la machin ssai d apprndr à chaqu fois à fair corrspondr ls poins d un spac A (.g. imags ou débu d rajcoir) à ds poins dans un spac B (.g. éiqus ou fin d rajcoir), à parir d un nombr limié d xmpls. C formulaion corrspond à c qu on appll n mahémaiqus l problèm d la régrssion, c s-à-dir l ssai d rconsrucion d un foncion dans son nsmbl à parir d qulqus poins. L idé s souvn d présupposr crains propriéés d c foncion à rconsruir, par xmpl qu ll pu êr rprésné par un polynôm où un combinaison linéair d angns, d chrchr dans c sous-nsmbl paramérabl d foncions candidas qulls son clls qui approximn l miux ls poins donnés n xmpl. Il xis ou un arsnal d ouils pour rprésnr cs foncions candidas : résaux d nurons, résaux bayésins, chains d markov,. Il xis égalmn un approch alrnaiv pour résoudr l problèm d l apprnissag, qu l on appll non-paramériqu, qui bin qu plus simpl s monr souvn ou aussi fficac : c s l apprnissag par prooyps. Il s agi dans c cas pour la machin d gardr n mémoir ls xmpls qu ll a obnu, chaqu xmpl éan un associaion nr un poin d l spac A un poin d l spac B. Quand ll a un prédicion à fair, éan donné par xmpl un imag a, alors la machin uilis un msur d similarié pour calculr quls son ls imags d sa bas d xmpls qui son ls plus prochs. La prédicion fourni s donc dans c cas un éiqu qui s calculé n combinan ls éiqus ds xmpls ls plus prochs (par xmpl par un vo à la majorié). Qull qu soi la méhod d apprnissag uilisé, ll impos oujours ds conrains, ou biais d apprnissag, sur la form d la foncion rconsrui : un méhod donné n pu jamais approximr ous ls foncions avc précision fficacié. Aurmn di, pour un méhod donné, crains foncions sron facils à dvinr, d aurs difficils voir impossibls. En our, chaqu méhod uilis ds biais différns, donc c qui s facil pour l un pu êr difficil pour l aur vic vrsa. uilisés dans ls siuaions d rrurs, l obj qui éai l suj d l inracion n apparaissai ou simplmn pas dans l champ d vision d la machin. Il s agissai par xmpl d siuaions où quand nous disions l mo «ball», l robo rgardai n fai aillurs. Il mémorisai ainsi un grand nombr d xpérincs dans lsqulls c mo smblai êr associé à la moqu, au apis ou à un ombr sur l sol. Difficil d apprndr dans cs condiions. C qui limiai ls prformancs du robo, c qui l mpêchai d apprndr à bin à parlr, c n éai pas an ls chniqus d apprnissag auomaiqu (voir ncadré 1). Si on donnai à l algorihm d apprnissag ds donnés pré-formaés, c s-à-dir qu on lui donnai manullmn ls bonns imags associés aux bons sons, il s débrouillai pluô bin. L facur limian résidai pluô dans ls difficulés à fair qu l robo s concnr sur la mêm chos qu l xpérimnaur quand c drnir prononçai un mo : l anion d l homm d la machin n éai pas paragé L anion s c capacié qu on la plupar ds animaux d s concnrr sélcivmn sur crains aspcs d un siuaion à l xclusion ds aurs. Lorsqu nous marchons, lorsqu nous monons un scalir, lorsqu nous scaladons un monagn, nous prêons anion à crains aspcs d nor mond prcpif, mais pas à d aurs. L compormn anionnl pu donc s inrprér dans l conx d un acion moivé, dirigé vrs un bu. Dans nor xmpl, rin n poussai l robo à s inérssr à la ball qu nous lui présnions. Nous aurions pu bin sûr lui programmr un «décur d ball» un compormn d rchrch associé aux caracérisiqus visulls corrspondans. Dans c cas il aurai éé facil d lui apprndr un mo pour c obj. Mais l problèm s srai 2

rposé à l idniqu pour un nouvl obj. Commn un robo pourrai-il apprndr à rconnaîr ls caracérisiqus d un obj qu il n connaîrai pas à l avanc? Commn frions-nous pour dirigr son anion vrs c obj? Imaginons un salon dans lqul s rouv un abl, quar chaiss, un canapé, un abour, un scréair un bibliohèqu mural (voir ls illusraions d Jakob von Uxküll, Monds animaux mond humain, Dnoël, 1965). Au plafond il y a un luminair. Quar assis son posés sur la abl. Un chin dans c salon voi ls choss q u l q u p u d i ff é- rmmn. Pour lui il y a ls objs sur lsquls il pu monr pour s rposr : l canapé ls chaiss, mais sans dou pas l abour. C drnir, comm l scréair la bibliohèqu, fai par i d s o b s a c l s, élémns qui n son associés à aucun acion pariculièr si c n s cll d gênr ls déplacmns. Imaginons mainnan l mêm salon vu par un mouch. Pour c insc, sul la lumièr pu-êr l rs d nourriur dans ls assis consiun ds élémns significaifs. C qu nous rconnaissons dans ls objs, c son ls acions ponills qui lur son associés. Pour la mêm raison dévloppr d nouvaux savoir-fair rvin à élargir sa prcpion. L mond d crains inscs rs simpl parc qu lurs différns moyns d acions n évolun pas. Au conrair, l mond du jun nfan humain n css d s complxifir au fur à msur qu il apprnd à inragir avc son nvironnmn. En qulqu mois à pin, l nfan apprnd à conrôlr son corps, à manipulr ds objs, à échangr avc ss prochs pour dvnir un êr auonom capabl d inracions complxs an physiqus qu socials. Duran cs mois d innss aciviés, s mn n plac ls capaciés qui sron à la bas d l apprnissag ds prmirs mos au débu d la scond anné. Si anion, prcpion savoir-fair son si inimmn liés, la soluion pour conduir un robo à porr son anion sur d nouvaux objs n srai-ll pas d l amnr à découvrir d nouvaux savoir-fair? Srai-il possibl d dor l robo d un form d curiosié qui l poussrai à xplorr ds siuaions qu il n connaî pas ncor? Avan ou chos, il convin d précisr c qu srai un «savoir-fair» pour un robo? Un robo pu apprndr à anicipr ls conséquncs prcpivs d cs acions. L mêm yp d algorihm qu cux mployés pour associr ls caracérisiqus d un imag à un son pu alors êr uilisé. A parir d la mémorisaion ds xpérincs passés, la machin p u p r é d i r l s conséquncs fuurs d un acion nrpris. C capacié d anicipaion s à la bas ds savoir fair ponils qu il pourra dévloppr (voir ncadré 1). Qull acion l robo choisira--il? La plupar ds robos sélcionnn ls acions qu ils von ffcur à parir d un sysèm d valurs défini par ss programmurs. C sysèm d valurs défini c qu la machin chrch à obnir c qu ll chrch à évir. Il pu par xmpl s agir d rchrchr ds simulaions acils d la par d son propriéair ou ou simplmn ds signs d sa présnc (son d la voix, décion d son visag). A l invrs ds chocs rop imporans puvn êr associés à ds valurs négaivs. Cs princips dérminn ou l compormn d la machin, son souvn implémnés sous la form d un sysèm d récompnss posiivs ou négaivs qu ll va nr d opimisr. Typiqumn, cll-ci va au dépar ssayr ds acions ou ds combinaisons d acions au hasard, progrssivmn par «ssairrur» va sélcionnr clls qui maximisn ls récompnss posiivs minimisn ls récompnss négaivs. Ls acions sélcionnés puvn êr alors aléaoirmn modifiés ou combinés pour formr d nouvlls sraégis qui son à lur our évalués par l robo. Ainsi, au fur à msur d ss xpérincs, chaqu robo pu consruir ds sraégis proprs pour saisfair cs bsoins arificils définis par son créaur. Dans la plupar ds xpérincs d roboiqu acull, cs siuaions rchrchés son oujours «xériurs» au robo. Dans cs con- 3

conséqunc prédi y conséqunc réll y conx snsorimour Prédicion M = y - y réroacion d l rrur Méaprdicion mam classificaion ds siuaions calcul du progrès progrès n prédicion andu conx snsorimour L sysèm d moivaion s composé d dux moduls: un prédicur un méaprédicur diions, un fois ls objcifs ains (rsr près ds humains, n pas d cognr conr ls murs) l robo n a pas d raison d coninur à évolur. C s pour nr d palir à c limi qu nous avons commncé à réfléchir à la manièr d dor l robo d un sysèm d moivaion «inrinsèqu». L idé srai d équipr l robo d un sysèm d valurs qui n srai pas lié à ds âchs spécifiqus, définis à l avanc, mais qui l poussrai vrs ds «siuaions d apprnissag» : un form d curiosié. C sysèm l conduirai à xplorr ls opporuniés d son nvironnmn à découvrir ds siuaions lui prman d dévloppr d nouvlls compéncs. Pour décrir l foncionnmn d un l s y s è m n o u s pouvons considérr qu il s consiué d dux moduls. L prmir modul implémn un sysèm d prédicion M qui a p p r n d l s conséquncs prcpivs d un acion nrpris dans un conx snsoril mour donné. L scond sysèm s u n «m a - prdicur» mam qui apprnd à prédir ls rrurs fais par l prédicur M. En d aurs rms, c scond sysèm modélis l prmir associ à chaqu siuaions rconrés un nivau d difficulé prédiciv. Pour calculr l progrès andu dans chaqu région, un algorihm découp d manièr incrémnal l spac d siuaions possibls n group d siuaions similairs D façon à dor l robo d un form d curiosié, nous avons associé à cs prédicurs un sysèm d valurs qui l inci à évir ls siuaions rop familièrs ls siuaions rop difficils à prédir, pour privilégir ls siuaions où l progrès n apprnissag n maximal. Il n s agi donc pas d choisir ls siuaions pour lsqulls l rrur n prédicion s minimal, ni clls pour lsqulls ll s maximal, mais cll pour lsqulls l rrur diminu maximalmn. Il suffi pour cla d calculr la dérivé local d la courb d rrur prédi par mam corrspondan à divrss siuaions aignabls à parir d un éa snsorimour donné, d choisir un acion qui va conduir à la siuaion don la dérivé corrspondan s la plus négaiv. Dans c calcul, il s imporan d comparr l rrur obnu dans ds siuaions similairs. Pour cla, l sysèm d prédicion d mam uilis un algorihm qui découp d manièr incrémnal l spac ds siuaions possibls n group d siuaions similairs. Pour chaqu group il in à jour un rlvé d l évoluion ds rrurs n prédicion, c qui prm d lur aribur un valur. En our, d manièr à n pas rsr bloqur dans ds siuaions pariculièrs alors qu ponillmn d aurs siuaions inérssans son disponibls, ds acions aléaoirs son choisis 4

2 / Commn un séqunc d dévloppmn s organis--ll? Nous pouvons illusrr l foncionnmn du sysèm d curiosié arificill sur un xmpl absrai. Imaginons un nvironnmn dans lqul il xis quar yps d aciviés snsorimorics pour l robo, qu l on appll conxs snsorimours (.g. shoor dans un ball, foncr rbondir dans ls murs, courir après l cha, dormir). Si l on forçai l robo à s concnrr sur chacun d cs aciviés séparémn, on pourrai msurr l évoluion d son rrur n prédicion dans chacun d cs conxs. Ls courbs corrspondans son rprésnés dans la figur (A). On s aprçoi qu il y a un siuaion (1) dans laqull l rrur rs oujours élvé n diminu pas, possiblmn parc qu c siuaion s rop compliqué pour son sysèm d apprnissag, un aur (4) dans laqull ll s oujours bass n chang pas, dux siuaions (2 3) pour lsqulls l rrur s hau au dépar, mais diminu nsui à ds ryhms différns. En praiqu, l robo s placé dans un nvironnmn où cs différns aciviés son possibls, mais il n connaî rin ds courbs d apprnissag corrspondans ni mêm l fai qu il y a quar yps d conxs spécifiqus. Dans c cas, on doi obsrvr d abord, un phas d xploraion n grand pari aléaoir qui prm au robo d un par d s aprcvoir qu il y a ds yps d siuaions différns d aur par d s fair un idé iniial d l inérê n rm d apprnissag d chacun d cs siuaions. On doi alors obsrvr l compormn illusré par l graphiqu (B). L robo évi d s rouvr dans ls siuaions 1 4 car ll n prmn pas d progrès n apprnissag. Il ls xplor cpndan d mps n mps par hasard, c qui lui prm d vérifir qu lls rsn pu inérssans. A l invrs, il va s concnrr d abord sur la siuaion 3 qui s cll pour laqull ss prédicions s améliorn l plus vi iniialmn. Après un prmièr périod, la siuaion 3 s mairisé prédicibl : l robo s m alors sponanémn à xplorr la siuaion 2 qui à c sad d son dévloppmn lui procur l plus d progrès n apprnissag. régulièrmn. Typiqumn, l robo choisi 70 pourcn du mps ls siuaions qu il jug lui apporr un progrès n apprnissag maximal 30 pourcn du mps il ffcu un acion aléaoir. Cla lui prm d mr à jour son évaluaion ds différns siuaions, noammn d n découvrir d nouvlls corrspondan à ds diminuions maximals d l rrur n prédicion. Cs siuaions son applés ds «nichs d progrès». Ls nichs d progrès n son pas ds propriéés inrinsèqus d l nvironnmn. Ells résuln d la rlaion nr la srucur physiqu du robo, ls biais d ss mécanisms d apprnissag, ss inracions passés, l nvironnmn pariculir dans lqul il s placé. Un fois découvr xploié, un nich d progrès disparaî au fur à msur qu la siuaion à laqull ll corrspond dévin plus prédicibl. Ainsi, un rajcoir dévloppmnal, c s-à-dir un séqunc d éaps dans lsqulls l robo s focalis L robo conrôl ss mouvmns grâc à ds signaux sinusoidaux. sur ds aciviés d complxié croissan, s form sans qu ll ai éé pré-programmés par l concpur. L foncionnmn d un l sysèm s illusré sur un xmpl absrai dans l ncadré 2. L archicur qu nous vnons d décrir s génériqu dans la msur où ll pu êr appliqué à n impor qul spac d snsurs d mours qu un robo pu xplorr, par définiion n s pas spécifiqu d un âch pariculièr. Considérons un prmir xmpl dans lqul l robo conrôl l mouvmn d cs différns mours n appliquan ds signaux sinusoïdaux. Pour chaqu mour, il fix la périod, la phas l ampliud du signal. Son sysèm d prédicion n d prédir ls ffs d cs différns jux d paramèrs sur la manièr don l imag capé par sa caméra s modifié, c qui rflè indircmn l mouvmn d son bus (pour lqul il n a pas d capur). A chaqu iéraion d l algorihm, l 5

robo choisi la valur du prochain jux d paramèrs à ssayr d façon à maximisr la réducion d l rrur n prédicion, sauf dans 30 pourcn ds cas où comm on l a xpliqué plus hau il choisi ds paramèrs aléaoirs. Lorsqu nous débuons un xpérinc d c gnr, l robo xplor au hasard différns jux d paramèrs pndan ls prmièrs minus. Il agi ss bras ss jambs d manièr désordonné. La majur pari d cs mouvmns a un ff rès facilmn prédicibl : l robo n boug quasimn pas. L robo malgré son agiaion rs immobil. L rrur n prédicion rs minimal : cs siuaions n son pas inérssans pour l robo. Par hasard, au bou d un dizain d minus un mouvmn amèn n général l robo a ffcur un légr déplacmn. Il découvr par xmpl qu un crain combinaison d paramèrs résul n un légr rcul. C siuaion nouvll résul d abord n un augmnaion d l rrur n prédicion puis, au fur à msur qu l robo a d nouvlls occasions d ffcur ds mouvmns similairs, c rrur commnc à baissr : l robo a découvr un «nich d progrès». Dans l hur qui sui, l robo va xplorr ls différns manièrs d rculr. Au cours d c xploraion, il s probabl qu il découvr qu crains légèrs modificaions d paramèrs conduisn à ffcur c qu un obsrvaur xériur appllrai ds mouvmns d roaion : un nouvl nsmbl d «nichs d progrès» qu l robo pourra xploir quand ls compéncs liés à la march n arrièr auron éé pour l ssnil maîrisés. Il fau n général plus d rois hurs pour qu l robo découvr plusiurs nsmbls d paramèrs lui prman d marchr n avan, n arrièr, laéralmn ou d ournr sur lui-mêm. A aucun momn, il n a comm objcif d apprndr à marchr. Guidé par la maximisaion d la réducion d l rrur n prédicion, il dévlopp pouran ds compéncs vrsails pour la locomoion. C s d aillurs l caracèr non spécifiqu d l archicur qui prm c vrsailié. Un robo moivé pour s rapprochr d un obj n aurai par xmpl sans dou pas appris à rculr ou à ournr sur lui-mêm. L fai qu la march n arrièr s soi révélé dans c rajcoir plus facil à découvrir qu ls aurs n éai pas facil à prévoir. Ean donnés la srucur physiqu d c robo l yp d sol sur lqul il éai placé, ls mouvmns d rcul on éé la prmièr nich découvr. Pour savoir si c nich consiu un «aracur» récurn pour c yp d rajcoir il fau mr n plac un programm d xpérincs sysémaiqu smblabl à clui qu nous allons présnr dans l cadr d l xpérinc qui sui. Dans un scond séri d xpérincs, l robo s placé dans un nvironnmn où plusiurs yps d objs son présns. Un obj pu êr mordu. Un obj pu-êr poussé. Il y a égalmn un aur robo qui imi ls sons qu ém l prmir robo quand clui-ci ls produi dans sa dircion. L robo L robo s placé sur un apis d évil qui propos divrs opporuniés d apprnissag 6

obj. La découvr d cs associaions a liu qulqus hurs plus ard. L a p r o d u c i o n sonor, xploré dans un prmir mps au mêm ir qu ls mouvmns du corps, s rapidmn abandonné au profi d l inracion avc ls objs qui donn ds résulas plus immédias n rm d réducion d rrur. En ff, lors ds inracions sonors, l son émis par l robo s déformé lors d l imiaion par l aur robo. C ff s dérminis mais plus difficil à prédir, du moins dans un prmir mps. C n s qu un fois l inracion avc ls objs maîrisés qu l robo commnc à rémr ds sons. Il s consacr alors prsqu xclusivmn à c modalié. L dévloppmn du robo s auo-organis n plusiurs phass Chaqu xpérinc donn liu à un rajcoir uniqu. Mais conrôl ls paramèrs d un crain nombr un mêm yp d d primiivs morics qui lui prmn un srucuraion s rrouv dans la majorié larg évnail d mouvmns. Il prçoi ls d nr lls : l robo xplor d abord ls conséquncs d cs mouvmns visullmn, d manièr sonor n uilisan ss progrssivmn sur ls siuaions ls plus achs ls plus simpls pour s concnrr capurs d disanc. difficil n rms d prédicion. Un rajcoir pariculièr n s pas nièrmn dérminé par ls algorihms qui conrôln l robo. Ell n s pas non plus la conséqunc dirc ds opporuniés présns dans l nvironnmn. Ell résul d l inracion nr un sysèm d apprnissag génériqu, un corps roboiqu pariculir un nvironnmn srucuré. Grâc à c approch, nous avons la possibilié d éudir l rôl rspcif d chacun d cs facurs srucuran dans l organisaion d un séqunc dévloppmnal. Comm pour la découvr d la march, l robo xplor c spac avc comm uniqu objcif d maximisr la réducion d l rrur n prédicion. Chaqu xpérinc dur ici un dizain d hurs s caracéris par un srucur rmarquabl. Après un prmièr phas d xploraion aléaoir, l robo commnc à ffcur d manièr sysémaiqu ds séris d acions répéés (frappr, mord), puis dans un scond mps il découvr ls zons d l nvironnmn (objs frappabls, objs mordabl) qui corrspondn à ds progrès n apprnissag. A c sad cpndan, l robo n fai pas d associaion sysémaiqu nr un zon connan un obj l acion qui lui corrspond. Il frapp l obj à mordr, mord l obj à frappr. Du poin d vu d l apprnissag il s plus inérssan d associr la bonn acion au bon Cs dux xpérincs monrn commn ds dynamiqus génériqus d apprnissag puvn conduir un robo à découvrir la maîris d son corps, ls objs présns dans son nvironnmn proch à s ngagr vrs d prmièrs forms d inracions réciproqus. Ls compéncs pour 7

3 / L acion srucuran L organisaion ds séquncs dévloppmnals qu nous avons décris présn un similarié inérssan avc la formaion ds compéncs snsorimorics chz l jun nfan. Prnons l xmpl canoniqu d l nfan qui fai la découvr du «schéma» snsorimour corrspondan à l acion d frappr un obj sur un abl. La plupar ds objs solids fon un brui lorsqu ils ouchn la abl. L nfan pu xplorr la similarié la variabilié ds réponss d cs objs «frappabls». Il découvr dans c xploraion qu un crain nombr d objs (par xmpl un œuf) s cassn lorsqu on ls frapp d la mêm manièr. L acion d frappr s ainsi à la bas d la disincion nr ls objs «frappabls» ls objs «cassabls». D façon similair, l robo d nor xpérinc caégoris cs xpérincs n foncion ds réponss snsorills provoqués par crains acions dans crains conxs. (illusraion www.psych.ubc.ca) prcvoir agir qu l robo dévlopp d c façon son adapés à sa morphologi aux nvironnmns auxquls il a éé confronés. C s l robo qui choisi vrs quoi il ourn son anion n foncion d ss xpérincs passés. Il s acur d son propr dévloppmn consrui ainsi un srucuraion d son nvironnmn qui lui s propr. Mais c srucuraion qu l robo dévlopp d manièr auonom n a qu pu d chanc d corrspondr à c qu nous considérons d ordinair comm éan ls objs d nor mond. En pariculir, il s formn improbabl qu l robo ai pu dévloppr sul ls concps qu nous voulions iniialmn lui apprndr, comm clui d un ball, qu il suffis simplmn mainnan d ls «éiqur» avc ds mos d nor langu. Pour l robo, il y a dux srucuraions indépndans : cll qu il a dévloppé sul cll qui pu lui êr proposé d l xériur sous la form d mos d la langu. Ds passrlls son pu-r possibls nr cs dux monds. Au fil ds inracions, l mo «ball» pourrai ainsi êr associé à plusiurs srucurs prcpivs différns. L robo pourra alors chrchr c qu cs srucurs on n commun. Mais il s égalmn nvisagabl qu ls différns morphologiqus nr ls robos ls homms limin d ou façon la possibilié qu ds machins dévloppn crains concps imporans d nos langus. «Un lion pourrai parlr, nous n pourrions l comprndr» écrivai Wignsin. Enr l mond ds robos clui l mond ds homms, il y aura pu-êr ds passrlls linguisiqus. Mais lur nombr lur largur rsn ncor inconnus. C qu il nous fau rnir c s l rôl d l inrvnan humain dans cs procssus. Fac à un robo qui s acur d son propr dévloppmn, il n pu qu organisr ls opporuniés d apprnissag qu la machin s amné à rnconrr. Il s agi pour lui d crér ds «nichs d progrès» pour la machin. C s ainsi qu il pu dans un crain msur guidr l dévloppmn d la machin. C s n c sns qu il s un médiaur, un passur du mond roboiqu vrs clui ds homms. La qusion du langag nous a condui à la qusion d l anion puis à la qusion du savoir-fair d l anicipaion, puis à la qusion ds moivaions inrinsèqus. Au fur à msur qu ls robos progrssn ou s hurn à ds difficulés inandus, nor compréhnsion ds phénomèns qu ils nn d approchr évolu. Ainsi il n s agi pas simplmn d consruir ds machins «plus inlligns», il s agi aussi d miux comprndr c qu «inllign» vu dir n consruisan ds machins. La démarch chnologiqu qui nous a guidé suggèr n ff ds hypohèss ponillmn nouvlls sur la manièr don ls nfans apprnnn n pariculir sur l rôl du corps, ds biais d apprnissag ds moivaions inrinsèqus dans c procssus. Ls rchrchs aculls n nuroscincs porn un anion ou pariculièr sur la manièr don l crvau rai la nouvaué ls signaux d rrur n prédicion. Ls rchrchs n psychologi comparé 8

insisn sur l imporanc possibl d la moivaion pour xpliqur ls différncs d apprnissag nr ls grands sings ls homms. La roboiqu pu jour un rôl prinn dans c déba dpuis qulqus annés ls iniiaivs mulidisciplinairs s muliplin, à l imag d la séri d conférnc Epignic Roboics. Dans c approch, il n s agi par d imir l homm n ou poin. C s au conrair n éudian l rôl srucuran ds conrains physiqus algorihmiqus d la machin sur ss proprs rajcoirs d dévloppmn, qu l on pu n rour consruir ds xplicaions prinns sur l influnc d facurs comparabls dans l dévloppmn du jun nfan. En prman un démarch xpérimnal d un gnr nouvau, la roboiqu ouvr la voi à un millur compréhnsion d l ariculaion nr conrains spécifiqus mécanisms généraux d apprnissag. Ell invi ainsi à rpnsr différmmn ls paradigms d l inné d l acquis à consruir d nouvlls noions, un nouvau vocabulair, pour éclairr l xraordinair capacié qu on ls nfans à apprndr. Pour n savoir plus Oudyr, P-Y and Kaplan, F. (2006) Discovring communicaion, Conncion Scinc, 18 (2) : 189-206 Kaplan, F. (2005) Ls machins apprivoisés, Vuibr, Paris, Franc Oudyr, P-Y (2006) Slf-organizaion in h voluion of spch, Oxford Univrsiy Prss, Oxford, UK. Pirr-Yvs Oudyr : www.csl.sony.fr/~py Frdric Kaplan : www.fkaplan.com Un vrsion modifié d c aricl s apparu dans l numéro 348 du magazin Pour La Scinc (Ocobr 2006) 9