RECONNAISSANCE DE LA MAIN POUR LES INTERFACES GESTUELLES



Documents pareils
Laboratoire 4 Développement d un système intelligent

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

Une vue d ensemble de la reconnaissance de gestes

Monitoring elderly People by Means of Cameras

Pourquoi l apprentissage?

Projet de Traitement du Signal Segmentation d images SAR

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

modélisation solide et dessin technique

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Cisco Advanced Video Monitoring System

Intérêts et limites de la vidéo-surveillance intelligente pour la Sécurité Globale

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Traitement numérique de l'image. Raphaël Isdant

SIG ET ANALYSE EXPLORATOIRE

NC 06 Norme comptable relative aux Immobilisations incorporelles

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

LibreOffice Calc : introduction aux tableaux croisés dynamiques

Reconnaissance de gestes : approches 2D & 3D

Géométrie discrète Chapitre V

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur

Ré-ordonnancement adaptatif de messages dans un réseau ad hoc de véhicules

Fête de la science Initiation au traitement des images

Technique de compression des images médicales 4D

Catégories de format d'optimisation

Clients et agents Symantec NetBackup 7

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Étude de données multisources par simulation de capteurs et clustering collaboratif

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Cinq conseils pour tirer le meilleur parti de Google Analytics

L apprentissage automatique

IBM Software Big Data. Plateforme IBM Big Data

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Introduction au Data-Mining

DA MOTA Anthony - Comparaison de technologies : PhoneGap VS Cordova

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

PHPWEBSITE -Tutoriel image

Bienvenue sur Lab-Windows Il n'y a de vents favorables que pour ceux qui ont un cap

Algorithmes d'apprentissage

NOTIONS DE PROBABILITÉS

Traitement bas-niveau

TEXT MINING von 7

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1


Mathématiques et leurs interactions. Mathématiques et leurs interactions. Mathématiques et leurs interactions. Mathématiques et leurs interactions

Laboratoire d Automatique et Productique Université de Batna, Algérie

Organiser des séquences pédagogiques différenciées. Exemples produits en stage Besançon, Juillet 2002.

Formula Negator, Outil de négation de formule.

Nouveau Web Client marquant, Cumulus Video Cloud, optimisations de la base de données, et plus..

Création d'un site dynamique en PHP avec Dreamweaver et MySQL

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Axis IP-Surveillance. Solutions de vidéo sur IP professionnelles pour la sécurité, la vidéosurveillance et le contrôle à distance

Tablette. Quelques applications à installer sur sa

CURRICULUM VITAE. Informations Personnelles

LE PROBLEME DU PLUS COURT CHEMIN

Tune Sweeper Manuel de l'utilisateur

Leica Application Suite

MS PROJECT Prise en main. Date: Mars Anère MSI. 12, rue Chabanais PARIS E mail : jcrussier@anere.com Site :

Acronis Backup & Recovery 10 Advanced Server Virtual Edition. Guide de démarrage rapide

Logiciel SCRATCH FICHE 02

Algorithmique avec Algobox

Chapitre 22 Optimisation pour diffusion à l'écran, pour le web

Christophe SANNIER

REALISER UN SITE INTERNET AVEC IZISPOT SOMMAIRE

données en connaissance et en actions?

Guide de l'utilisateur : Surveillance MédiaSource Analytique

2. Activités et Modèles de développement en Génie Logiciel

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

SQL Server 2014 Administration d'une base de données transactionnelle avec SQL Server Management Studio

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

MANUEL ACHAT à DISTANCE

Manuel de l utilisateur de Samsung Auto Backup

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

En synthèse. HVR pour garantir les échanges sensibles de l'entreprise

Détection et suivi d'objets dans une séquence d'images par contours actifs

PRINCIPE MICROSCOPIE CONFOCALE

Transférer et enregistrer les photos sur l'ordinateur

Introduction au datamining

Vidéosurveillance. Lien :

Livrable 2.1 Rapport d analyse et de restructuration de code monothread des modules P, T, Q et F de l encodage MPEG-4 AVC

DÉCOUVERTE DE CAPTURE ONE

Systèmes d'alarme intrusion AMAX Simple et fiables

R-ICP : une nouvelle approche d appariement 3D orientée régions pour la reconnaissance faciale

OBJET : Mise en œuvre du décret n du 26 octobre 2004 relatif à l'exécution des marchés publics par carte d'achat.

Prédiction de couverture de champ radioélectrique pour les réseaux radiomobiles : L apport du Système d Information Géographique ArcInfo 8

Analyse Sémantique de Nuages de Points 3D et d Images dans les Milieux Urbains

Classification Automatique de messages : une approche hybride

Interactions geste-musique par vision artificielle Gesture-music interactions by artificial vision

Réussir et traiter ses photos sous UV avec Photoshop

Présentation de GnuCash

GHOST SPECIAL EDITION Guide d'installation et d'utilisation

Gérer ses impressions en ligne


Logiciel de gestion de données

ANALYSE DE RISQUE AVEC LA MÉTHODE MEHARI Eric Papet Co-Fondateur SSII DEV1.0 Architecte Logiciel & Sécurité Lead Auditor ISO 27001

Seafile, pour simplifier l'accès à ses fichiers, les partager et les synchroniser

JUPITER /20/27/61m. Contact NF, 50mA à 24v max. avec R50 Ohms en série

Vérification audiovisuelle de l identité

CRÉER UNE BASE DE DONNÉES AVEC OPEN OFFICE BASE

Transcription:

RECONNAISSANCE DE LA MAIN POUR LES INTERFACES GESTUELLES Sébastien Marcel Olivier Bernier Daniel Collobert France Telecom - CNET DTL / DLI / TNT 2 avenue Pierre Marzin 22307 Lannion FRANCE Les interfaces gestuelles basées sur l'image sont la voie la plus naturelle pour la construction des interfaces homme-machine du futur, mais ce sont aussi les plus difficiles à concevoir. Nous proposons d'utiliser un modèle de réseau de neurones pour reconnaître une posture de la main dans une image. Les gestes de la main sont segmentés en utilisant une discrétisation de l'espace corporel basée sur l'emplacement du visage et sur les proportions anthropométriques du corps. 1. INTRODUCTION LISTEN est un système temps-réel de suivi de personnes [2]. Dans ce système, les visages sont détectés par un réseau de neurones dans des zones de teinte chair. Nous présentons une extension de LISTEN utilisant la reconnaissance des postures de la main pour exécuter une commande. Pour faciliter la de l'intention de l'utilisateur d'exécuter une commande, des "fenêtres actives" sont définies dans l'espace corporel. Ainsi, lorsqu'une zone de teinte chair entre dans une "fenêtre active", des réseaux de neurones, associés respectivement à chacune des postures que l'on souhaite détecter, sont déclenchés. 2. LE TRAITEMENT DE L'IMAGE Nous définissons un blob comme un objet statistique de composantes spatiales (x,y) et colorimétriques (Y,U,V). Les pixels appartenant à un blob sont ceux qui ont des propriétés spatiales et colorimétriques similaires aux composantes du blob [8][4]. L'image est filtrée à l'aide d'une table de teinte chair (Figure 1), puis un algorithme d'expansion calcule des zones de pixels de teinte chair connexes. Les zones qui sont en mouvement servent à initialiser la construction des blobs (Figure 2). Figure 1. Image filtrée Figure 2. Blobs

3. UN ESPACE CORPOREL BASE SUR LE VISAGE L'espace corporel centré sur le visage est défini à partir d'une "discrétisation de l'espace pour l'emplacement des mains" [5] et du visage détecté par LISTEN. Figure 3. L'espace corporel centré sur le visage Figure 4. Un modèle anthropométrique du corps L'espace corporel centré sur le visage (Figure 3) est construit en utilisant un modèle anthropométrique exprimé en fonction de la hauteur totale du corps (Figure 4) et rapporté à la hauteur du visage détecté par LISTEN. Dans nos séquences, prises en champ large, les visages et les mains sont de petite taille. La reconnaissance des postures devient alors une tâche difficile. 4. LE MODELE DE RESEAU DE NEURONES Les réseaux de neurones, tels les modèles discriminants [6] ou les cartes de Kohonen [1], ont été précédemment appliqués à la reconnaissance des postures de la main. Dans ce travail, nous proposons d'utiliser un modèle déjà appliqué à la de visage : le modèle génératif contraint (CGM) [3] (Figure 5). Figure 5. Le modèle génératif contraint Figure 6. Distance de reconstruction Le but de l'apprentissage génératif contraint est de se rapprocher le plus possible de la probabilité de distribution de l'ensemble des données que l'on cherche à apprendre.

Pour cela, un réseau de neurones non-linéaire à compression est entraîné avec des exemples, mais aussi avec des contre-exemples. Chaque exemple de main est reconstruit à l'identique et chaque contre-exemple est contraint à être reconstruit comme une moyenne du voisinage de l'exemple le plus proche. Pour chaque posture, la classification est faite en mesurant la distance entre l'entrée présentée et la sortie obtenue (Figure 6). 5. EXPERIMENTATIONS 5.1. RESULTATS SUR NOTRE BASE D'IMAGES Un petit nombre de postures de la main a été sélectionné (A, B, C, Cinq, Pointe et V). Pour chacune d'elle, nous avons construit une base de plusieurs milliers d'exemples sur des fonds uniformes et complexes divers. Les tailles des fenêtres des postures sont : 20x20 pour A, 18x30 pour B, 18x20 pour C et Cinq, et 18x30 pour Pointe et V (Figure 7). Pour rechercher une posture, les images sont explorées à différentes échelles, des fenêtres sont testées à différentes positions par un CGM qui donne la probabilité d'avoir une posture de la main. Figure 7. Exemples de notre base de test Une partie de la base a été utilisée pour l'apprentissage (environ 80%) et le reste pour les tests. Même si les images sur fonds complexes sont plus difficiles à apprendre, le CGM permet d'obtenir un taux de raisonnable sans trop dégrader le taux de fausses alarmes (Table 1 et 2). Table 1 : Résultats moyens sur notre base de test avec fonds uniformes A,B,C,V 241 93,8 % 1 / 11 100 A à V 382 93,4 % 1 / 12 000 Table 2 : Résultats moyens sur notre base de test avec fonds complexes A,B,C,V 165 74,8 % 1 / 18 900 A à V 277 76,1 % 1 / 14 100 Le taux de est essentiel pour permettre au système d'avoir de bonnes performances, il doit être faible en comparaison du nombre de tests réalisés pour une image. Le taux de sur des images diverses ne contenant pas de mains est d'environ 1 fausse alarme pour 27800 tests.

5.2. RESULTATS SUR UNE BASE D'IMAGES D'EVALUATION Le CGM a également été testé sur la base de Jochen Triesch [7]. Cette base d'évaluation contient des images 128x128 en niveaux de gris de 10 signes de la main exécutés par 24 personnes sur des fonds uniformes (clairs et sombres) et sur des fonds complexes. Nous avons testé les postures A, B, C et V (Figure 8). Figure 8. Exemples de la base de Jochen Triesch Les tests effectués sur la base d'évaluation donnent des résultats comparables en s (Table 3) et en (Table 4) à ceux obtenus sur nos bases de tests. Nous pensons pouvoir améliorer ces résultats en ajoutant de nouvelles données ou en combinant les réseaux entre eux. Table 3 : Résultats moyens sur la base de Jochen Triesch avec fonds uniformes A,B,C,V 191 93,7 % 1 / 25 600 Table 4 : Résultats moyens sur la base de Jochen Triesch avec fonds complexes A,B,C,V 96 84,4 % 1 / 15 900 5.3. EXPERIMENTATIONS EN TEMPS REEL La des postures de la main a été intégrée dans une version mono-utilisateur de LISTEN. Ce système suit les blobs différents du visage dans l'espace corporel. Dans cet espace, des zones appelées fenêtres actives, sont définies a priori pour détecter l'intention de l'utilisateur d'exécuter une commande et restreindre l'espace de recherche. Figure 9. Exemples de de postures de la main dans les blobs

Ainsi, lorsqu'un blob entre dans une fenêtre active les détecteurs de postures sont déclenchés. Actuellement, il n'y a pas de stratégie dans le choix des détecteurs à utiliser, ils sont tous mis à contribution. Le réseau de neurones qui produit la meilleure, détermine la posture réalisée par l'utilisateur. Malgré l'utilisation systématique de tous les détecteurs, le système reste utilisable en temps réel. 6. CONCLUSION Nous venons d'intégrer la des postures de la main et l'espace corporel centré sur le visage dans un système mono-utilisateur basé sur LISTEN. Cette application constitue un premier pas vers les interfaces gestuelles basées sur l'image. Nous travaillons actuellement sur l'intégration à ce système d'un noyau de reconnaissance des gestes dynamiques de la main, basé sur l'analyse du mouvement des blobs. REFERENCES [1] Boehm, K. and Broll, W. and Sokolewicz, M., Dynamic Gesture Recognition Using Neural Networks: A Fundament for Advanced Interaction Construction. SPIE, Conference Electronic Imaging Science and Technology (1994). [2] Collobert, M., Feraud, R., Le Tourneur G., Bernier, O., Viallet, J.E., Mahieux, Y. and Collobert, D. LISTEN: A System for Locating and Tracking Individual Speakers. 2nd Int. Conf. on Automatic Face and Gesture (1996), 283-288. [3] Feraud, R. PCA, Neural Networks and Estimation for Face Detection. NATO ASI, Face Recognition: from Theory to Applications (1997), 424-432. [4] Kauth, R.J. and Pentland, A and Thomas, G.S. Blob: an unsupervised clustering approach to spatial preprocessing of multispectral scanner imagery. 11 th Int. Symposium on Remote Sensing of the Environment, Ann Arbor, MI, (1997). [5] McNeill, D. Hand and Mind: What gestures reveal about thought. Chicago Press (1992). [6] Murakami, K. and Taguchi, H. Gesture recognition using Recurrent Neural Networks. CHI'91, 237-242. [7] Triesch, J. and Malsburg, C. Robust Classification of Hand against Complex Backgrounds. 2nd Int. Conf. on Automatic Face and Gesture (1996), 170-175. [8] Wren, C. and Azarbayejani, A. and Darrell, T. and Pentland, A. Pfinder: Real-Time Tracking of the Human Boby. IEEE Transactions on Pattern Analysis and Machine Intelligence (1997), vol 19, n 7, pp780-785.