Introduction à la robotique cognitive - cours Cogmaster

Introduction à la robotique cognitive - cours Cogmaster Raja Chatila Institut des Systèmes Intelligents et de Robotique (ISIR) UPMC/CNRS R. Chatila 1

Le robot, paradigme de l IA... Initialement, l Intelligence Artificielle est: A. Turing J. McCarthy Un ensemble de programmes informatiques qui résolvent des problèmes habituellement résolus par des processus mentaux de haut niveau chez les humains Mais le robot est une machine Matérialisée (embodied, encorporée ); agissant dans un milieu qui est le monde réel, elle est mise en situation (situated). Robot : agent rationnel délibératif et réactif. Fonctions inter-agissantes et intégrées. 2

Le robot: principales capacités cognitives 3

Le robot: principales capacités cognitives Percevoir/représenter/ Apprendre l espace, les situations, les humains 3

Le robot: principales capacités cognitives Percevoir/représenter/ Apprendre l espace, les situations, les humains Se déplacer et agir: Le mouvement 3

Le robot: principales capacités cognitives Percevoir/représenter/ Apprendre l espace, les situations, les humains Se déplacer et agir: Le mouvement Anticiper décider réagir 3

Le robot: principales capacités cognitives Percevoir/représenter/ Apprendre l espace, les situations, les humains Communiquer Interagir Se déplacer et agir: Le mouvement Anticiper décider réagir 3

Le robot: principales capacités cognitives Percevoir/représenter/ Apprendre l espace, les situations, les humains Apprendre de nouvelles capacités Communiquer Interagir Se déplacer et agir: Le mouvement Anticiper décider réagir 3

La perception est imprécise et incertaine Vert: ultrasons Rouge: Laser Bleu: trajectoire odométrique Odométrie Stéréo Trajectoire réelle Laser 3D - Carte d élevation 4

Questions R. Chatila Comment le robot représente-t-il son environnement de manière cohérente et comment s'y localise-t-il? Comment planifie-t-il son propre mouvement, tout en étant réactif aux évolutions de l'environnement? Comment prend-il ses décisions et élabore-t-il des plans d'action, en particulier dans un monde incertain et partiellement connu? Comment peut-il interagir d'autres agents ou des humains? Comment apprend-il à améliorer ses actions? Et enfin, comment toutes ces fonctions peuventelles être organisées dans une architecture globale permettant un fonctionnement cohérent? 5

Cartographie et localisation simultanées: incertitudes R 0 6

Cartographie et localisation simultanées: incertitudes O 1 O 2 O 3 observation R 0 6

Cartographie et localisation simultanées: incertitudes O 1 O 2 O 3 observation R 0 déplacement R 1 6

Cartographie et localisation simultanées: incertitudes O 4 O 1 O 2 O 3 observation R 0 déplacement R 1 6

Cartographie et localisation simultanées: incertitudes O 4 O 4 O 1 O 2 O 3 O 1 O 2 O 3 R 0 R 1 R 0 R 1 7

Outil fondamental: le filtre Bayésien x = état: robot + éléments de l environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation Kalman Particulaire Markov 8

Outil fondamental: le filtre Bayésien Posteriori x = état: robot + éléments de l environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation Kalman Particulaire Markov 8

Outil fondamental: le filtre Bayésien Posteriori Vraisemblance de la mesure zt si robot à xt x = état: robot + éléments de l environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation Kalman Particulaire Markov 8

Outil fondamental: le filtre Bayésien Posteriori Vraisemblance de la mesure zt si robot à xt Priori: Distribution de probabilité de xt si le robot était à xt-1 et qu il a effectué l action ut-1 x = état: robot + éléments de l environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation Kalman Particulaire Markov 8

Outil fondamental: le filtre Bayésien Posteriori Vraisemblance de la mesure zt si robot à xt Priori: Distribution de probabilité de xt si le robot était à xt-1 et qu il a effectué l action ut-1 Distribution de probabilité de xt-1 (itération précédente) x = état: robot + éléments de l environnement (amers) t = temps, (k: instants discrets) z = mesure u = commande η = normalisation Kalman Particulaire Markov 8

Exemple Laser 2D Approximations linéaires EKF 9

Exemple: Stéréo 10

Example: SLAM à partir d images aériennes (uniquement) 11

Perception: apprentissage et classification A partir d exemples, d observations: apprentissage supervisé. l environnement (ou le tuteur) fournit un nombre suffisant de couples entrée/sortie (pas toujours possible). Apprentissage de distributions de probabilités. Classique. Les problèmes sont liés aux modèles et à la complexité Apprentissage par renforcement R. Chatila 12

Classification par apprentissage supervisé Choix d attributs caractéristiques pour chaque cellule: Densité des points Différence de l élévation et variance Orientation moyenne de la normale et variance Classification supervisée bayésienne 4 classes: obstacle, accidenté, plat, inconnu Elaboration des associations Classes-Attributs pour construire les P(A Ci) à partir d exemples. P (A C i ) Utilisation en ligne P (C i A) = P (A C i)p (C i ) P (A) P (A) = X i P (A C i )P (C i ) 13

Modèle de terrain Plat Accidenté Obstacle Inconnu Image stéréo Classification Reprojection dans l image 14

Apprentissage de représentations sensori-motrices LEARNED SYMBOLS (Memory) Value (Reinforcement learning) LEARNED SKILLS (Memory) Associative memory: Learned sensori-motor representations Object Representations Composed Action synthesis Sensing Proprioception Actuation Environment R. Chatila 15

Génération du mouvement: plusieurs stratégies local: Potentiel Evaluation de mouvement local Easy terrains Suivi de chemin Stratégie de navigation R. Chatila 16

Planification du Mouvement

Raisonnement géométrique dans l espace des configurations du robot Espace des configurations. Topologie en général différente de celle de l espace réel. Recherche probabiliste pour structurer l espace des configurations C = S 1 x S 1

Formalisation de la prise de décision R. Chatila Notion d état et de transition d état par l action Contexte déterministe: logique des prédicats. Production d un plan Contexte incertain: <S, A,T, R, Ω, O > Indéterminisme de l action. Transition probabiliste entre états T: SxA S (distribution de probabilités). Processus markovien. Production d une politique maximisant une utilité. Si état S inconnu (probabilité de se trouver dans un état donné): Processus markovien partiellement observable. O: SxA π(ω). R: S A R : récompenses associées aux états et/ou aux actions Si probabilités de transition inconnues: apprentissage par renforcement. 19

Exemple observation état x 1 action u 3 état x 2 observation actions u 1, u 2 récompense récompense 20

Action a Processus markovien Monde: T(s,a,s ) Etat s Politique optimale AGENT: π a π*(s) = argmax a s' T(s, a, s )U(s ) R. Chatila T(s, a, s ) = Probabilité d atteindre un état s à partir de l état s U(s ) = Utilité de l état s. 21

Observabilité partielle MDP: Etat connu après exécution d une action POMDP:Estimation bayésienne de l état Observation o Monde: s s T(s,a,s ), O(s,a,o) Estimation b b b π: b a Action a R. Chatila 22

Mécanisme de décision Problème d optimisation séquentiel Principe d optimalité de Bellman. Maximiser l utilité U(s) qui s écrit comme fonction d un état et de la transition vers ses voisins: U i+1 (s) ß R(s) + γ max a s (T(s, a, s ) U i (s )) R. Chatila 23

Apprentissage par renforcement (RL) Q(s,a) = R(s) + γ s T(s,a,s )max a Q(s,a ) Environnement t+1 t st+1 st Action at R. Chatila rt+1 rt Actions non déterministes 24

Objectif de l apprentissage Apprendre l utilité d une politique U π (s) : Somme des récompenses espérées pour cette politique. Politique maximisant l utilité. U (s) =E " 1 X t=0 t R(s t ), s 0 = s Combiner: Exploitation: maximise la récompense globale dans l état d estimation actuel des utilités. Exploration: pour éviter l application systématique de politiques sousoptimales. Tirage aléatoire d une action pour explorer d autres voies. # R. Chatila 25

Interaction et coopération Evaluation de la situation Coopération La perspective de l autre 26

Le robot délibératif et réactif Intégrer dans un seul système Les capacités d anticipation et de décision au long terme La prise en compte de l incertain dans la perception, l action et l évolution du monde Les capacités d apprentissage Les capacités de réaction et d adaptation à l environnement immédiat R. Chatila 28

Architecture Planification/Action Modèle BDI Planification (états, temps, ressources) symbolique Supervision réactive Modules fonctionnels ( numérique ) Coopération et redondance R. Chatila Architecture hybride 3 couches Représentations symboliques Raisonnement logique 29 Calcul numérique

Décisions simples Modularité Module. Modèle formel: automate à états finis T T S S T T S T S T S T R. Chatila T 30

Architecture cognitive conceptuelle

Remarques de conclusions Compatibilité de la représentation avec la tâche Obligation du sens : le monde doit faire sens pour permettre l action Compatibilité de la décision et de l action avec la dynamique de l environnement et de la tâche (et non pas la rapidité) La nécessité de l auto-référence (conscience de soi) par rapport à l extérieur? R. Chatila 32