FUSION DE DONNÉES AUDIOVISUELLES POUR L INTERACTION HOMME/ROBOT



Documents pareils
Apprentissage Automatique

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Vérification audiovisuelle de l identité

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Utilisation des Points d Intérêts Couleurs pour le Suivi d Objets

Transmission d informations sur le réseau électrique

Rapport : Base de données. Anthony Larcher 1

N SIMON Anne-Catherine


Relever les défis des véhicules autonomes

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

DESCRIPTEURS NIVEAU A2 du Cadre européen commun de référence pour les langues

Texte Agrégation limitée par diffusion interne

The Grid 2: Manuel d utilisation

Prénom : J explore l orientation et l organisation spatiale. Date de retour :

Interactions sonores et vocales dans l habitat

Relation entre deux variables : estimation de la corrélation linéaire

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Laboratoire 4 Développement d un système intelligent

Robotique, intelligence arti ficielle et artistique les 14 et 15 octobre à Toulouse

Marketing. en 12 étapes clés. Une introduction au Marketing Automation Comment délivrer le bon contenu au bon moment à son interlocuteur

Projet de Master en Informatique: Web WriteIt!

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Découverte de Microsoft Office 2010 et de Microsoft Exchange Server 2010

Comment sélectionner des sommets, des arêtes et des faces avec Blender?

Reconnaissance de gestes : approches 2D & 3D

1 Comment faire un document Open Office /writer de façon intelligente?

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Network musical jammin

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Utilisation de l ingénierie des modèles pour la conception collaborative de produits mécaniques

Cours 1 : Qu est-ce que la programmation?

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

OUTILS DE GESTION ET D EVALUATION AU POSTE : Collecte/réparation/vente d électroménager. Assistant(e) secrétaire commercial(e)

I/ CONSEILS PRATIQUES

L apprentissage automatique

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

ES Enterprise Solutions

DéSIT Démarche d ingénierie pour les Systèmes d Information Transport ambiants, sécurisés et personnalisables

Extraction d informations stratégiques par Analyse en Composantes Principales

isrs 7 Améliorer la performance Sécurité, Environnement et Opérationnelle

ELECTIONS. Mode d Emploi

[FORMAT AGRANDI DE LA POLITIQUE D ACCESSIBILITÉ POUR LES PERSONNES HANDICAPÉES]

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

L E C O U T E P r i n c i p e s, t e c h n i q u e s e t a t t i t u d e s

Contributions à la reconnaissance robuste de la parole

Réaliser une démonstration ShoreTel

Ekoconstruct / Catalogue ek construct

Dafoe Présentation de la plate-forme UIMA

NON-LINEARITE ET RESEAUX NEURONAUX

Introduction aux concepts d ez Publish

Écrire à la main ou à l ordinateur Telle est la question!

Introduction au Data-Mining

Fiche de synthèse sur la PNL (Programmation Neurolinguistique)

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI SYNALTIC 24 RUE DE L EGLISE VINCENNES

LIVRE BLANC COMMUNICATIONS MARKETING ET CRM

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Principe de symétrisation pour la construction d un test adaptatif

µrv : Realité Virtuelle

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI ALTIC & SYNOTIS - TRAINING CENTER 24 RUE DE L EGLISE VINCENNES

Rencontrer des personnes en situation de handicap

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Conception des systèmes répartis

Reconnaissance automatique de la parole à l aide de colonies de fourmis

Et comment ça fonctionne?

S'intégrer à l'école maternelle: indicateurs affectifs et linguistiques pour des enfants allophones en classe ordinaire

Notice d utilisation

Thèmes et situations : Renseignements et orientation. Fiche pédagogique

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1

Rapport - Robot humanoïde NAO

données en connaissance et en actions?

Optimisez vos processus informatiques, maximisez le taux de rendement de vos actifs et améliorez les niveaux de service

LES LANGUES EN DANGER : UN DÉFI POUR LES TECHNOLOGIES DE LA LANGUE

Cours Informatique de base INF-B Alphabétisation

ESPACE MEDIA LANGUES

L OPTIMISATION DU MARKETING GRÂCE À PIVOTAL CRM

SOLUTION POUR CENTRE D'APPEL

Gestion des s par ELO

White Paper - Livre Blanc

1 Introduction et installation

Introduction au Data-Mining

EIP 2012 Projet Livepad. Documentation technique 1.5

Brochure produit interactive ::

Système de Gestion Informatisée des. Exploitations Agricoles Irriguées avec Contrôle de l Eau

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

L infonuagique démystifiée LE CLOUD REVIENT SUR TERRE. Par Félix Martineau, M. Sc.

Optimisation Web. Extra N

MIEUX CONNAÎTRE LES HANDICAPS, ADAPTER SON COMPORTEMENT

Formation. Module WEB 4.1. Support de cours

ACADÉMIE DE NANTES UNIVERSITÉ DU MAINE THÈSE. présentée à l Université du Maine pour obtenir le diplôme de DOCTORAT

Mélanges CRAPEL n 32

UE11 Phonétique appliquée

Gymnastique Rythmique HELP DESK

Transcription:

FUSION DE DONNÉES AUDIOVISUELLES POUR L INTERACTION HOMME/ROBOT Brice BURGER Directeurs de thèse : Isabelle FERRANÉ et Frédéric LERASLE Laboratoires d accueil : LAAS-CNRS, 7, avenue du Colonel Roche, F-31077 Toulouse, France IRIT, 118 route de Narbonne, F-31077 Toulouse, France Établissement d inscription : Université de Toulouse ; UPS 118 route de Narbonne, F-31077 Toulouse, France Résumé Le but de cette thèse est de fusionner deux sources d informations (reconnaissance de geste et de parole) dont peut disposer un robot afin de compléter et/ou confirmer les données qu un seul canal aurait pu fournir, et ce, en vue d une interaction avancée entre Homme et robot. Dans un premier temps, nous proposons un traqueur visuel multi-cibles chargé du suivi en 3D de la tête et des deux mains, ainsi qu un système embarqué de reconnaissance et d interprétation de la parole. Dans un second temps, nous nous intéressons à la reconnaissance de gestes, puis à la fusion des données issues des deux canaux. Mots-clés Suivi 3D de membres corporels, Reconnaissance et interprétation de la parole, Reconnaissance de geste, Fusion de données pour l interaction multimodale 1 INTRODUCTION Les personnes à mobilité réduites (personnes âgées, handicapés moteurs) nécessitent souvent une aide à la personne, régulière et poussée. La robotique aide déjà ces personnes via certaines applications de la domotique et autres fauteuils roulants équipés, mais peut aller bien plus loin. Dans ce contexte, les robots mobiles autonomes, dit compagnons, équipés pour la navigation en environnement intérieur ainsi que pour la manipulation d objets, sont une voie de recherche prometteuse. De tels robots doivent pouvoir interagir avec leur environnement et notamment avec des êtres humains. Les principaux moyens de communication de l Homme étant la parole et le geste, il faudra qu un robot compagnon soit capable d acquérir et d interpréter l information ainsi transmise. D un point de vue scientifique, la fusion de données audio-visuelles prend tout son sens dans un tel contexte. En effet, ces deux canaux (audio et vidéo) donnent des informations qui peuvent se révéler, suivant le cas, complémentaires ou redondantes. Dans le premier cas, il s agit de déterminer les informations incomplètes d un canal grâce à celles de l autre (comme dans le cas d ordres du type viens vers moi ou donne-moi cet objet qui nécessitent la perception de l Homme ou celui d un geste). Dans le second cas, il s agit plutôt de renforcer l information et de rendre le système plus robuste. Dans ce but, nous avons développé un traqueur multi-cible chargé du suivi visuel 3D de la tête et des deux mains dont les résultats permettent la reconnaissance de divers gestes. bburger@laas.fr, burger@irit.fr

Il sera présenté dans la section 2. Un module de reconnaissance et d interprétation de la parole continue a également été mis sur pied et sa description constituera la section 3. Enfin, une fusion tardive de ces deux canaux d informations est effectuée. Elle fera l objet de notre section 4. La section 5 résume notre contribution et présente une ouverture sur les travaux futurs. 2 PERCEPTION VISUELLE DE L UTILISATEUR PAR LE ROBOT 2.1 SUIVI 3D DE LA TÊTE ET DES DEUX MAINS La principale composante de notre système de perception visuelle de l utilisateur est le suivi 3D de la tête et des deux mains. Les filtres particulaires, offrent l un des plus puissants outils pour le suivi multi-cible [9], en particulier grâce à leur simplicité, leur souplesse dans la modélisation du système, et la facilité de fusion de différents types de mesures. Deux types de suivi d objets multiples (M OT ) peuvent être envisagés. Le premier, largement utilisé dans la communauté vision, modélise les cibles sous la forme d un unique état en les concaténant [7], tandis que le second utilise des filtres distribués (un pour chaque cible). Le principal inconvénient de la centralisation est le nombre de particules, qui augmente exponentiellement avec la dimension de l espace des vecteurs d états. L approche distribuée, que nous avons choisie, souffre des erreurs de fusion et d étiquetage des cibles suivies lorsque les cibles subissent une occlusion partielle ou complète. Afin de limiter ces erreurs, nous avons développé un M OT interactivement distribué (IDM OT ) reposant sur [9]. Rappelons que le filtrage particulaire vise à approximer récursivement la densité de probabilité p(x i t z 1:t ) du vecteur d état x i t pour la cible i au temps t connaissant l ensemble de mesures z 1:t. Une somme pondérée p(x i t z 1:t ) N n=1 ω i,n t δ(x i t x i,n t ), N n=1 ω i,n t = 1, est calculée, avec δ(.) la fonction de Dirac, afin d exprimer le choix d une particule x i,n t avec la probabilité, ou poids, ω i,n t. Dans notre cas, quand deux particules x i,n t et x j,n t, pour les cibles i et j, sont trop éloignés l une de l autre pour interagir (i.e. si leur distance euclidienne dépasse un seuil prédéfini), notre approche considère plusieurs filtres indépendants. Quand au contraire elles sont proches, des fonctions d inertie et de répulsion magnétique [3] influencent leurs vraisemblances afin de limiter les erreurs précédemment décrites. Notre filtre particulaire IDM OT suit ce principe, mais est étendu suivant trois voies. Premièrement, la stratégie habituelle de CONDENSATION [5] est remplacée par ICONDENSA- TION [6] dont la fonction d importance q(.) permet la réinitialisation automatique du filtre après échec ou occultation temporaire de la cible. Le principe consiste à échantillonner les particules non plus uniquement suivant la dynamique p(x t x t 1 ), mais également suivant des détections visuelles π(.), telles que q(x i,n t x i,n t 1, zi t) = απ(x i,n t zt) i + (1 α)p(x i t x i,n t 1 ), avecα [0; 1]. (1) Deuxièmement, le filtre particulaire IDM OT, initialement prévu pour le suivi d objets ou de personnes dans une image est ici étendu à l estimation des positions et formes en 3D de multiples parties déformables du corps d une unique personne. Enfin, notre troisième extension porte sur la fusion de données. En effet, fusionner des informations 2D et 3D, acquises via le flux vidéo stéréo d une paire de caméras, permet de bénéficier à la fois des approches fondées sur la reconstruction et sur l apparence. Le but de notre approche IDMOT, nommée IIDMOT, est de projeter dans l image, tout au long du flux vidéo, une sphère et deux ellipsoïdes déformables (resp. pour la tête et

les deux mains), par le biais de l estimation de leur position 3D X = (X, Y, Z), ainsi que de l orientation Θ = (θ x, θ y, θ z ) et de la taille de leurs axes 1 Σ = (σ x, σ y, σ z ) pour les ellipsoïdes. Chaque vecteur d état x i t est défini par ces paramètres. Étant donné la difficulté à caractériser l évolution temporelle des mouvements 3D d un homme, nous supposons que chaque entrée du vecteur d état évolue indépendamment des autres suivant une marche aléatoire, c est-à-dire p(x i t x i t 1 ) = N (xi t x i t 1, Λ), où N (. µ, Λ) est une distribution Gaussienne 3D de moyenne µ et de covariance Λ déterminée a priori. Notre méthode de suivi est détaillée dans [3]. 2.2 VALIDATION Le module de suivi de geste précédemment décrit a été intégré dans l architecture des robots du LAAS sous la forme d un module Genom [2], nommé GEST. Ce module a ainsi pu être intégré à Jido, un robot notamment équipé d un bras à six degrés de liberté, de caméras stéréo montées sur une plateforme pan-tilt en haut d un mât, d un système de micro sans fil, ainsi que de deux scanners (voir figure 2). Cela nous a permis d acquérir une base de données de séquences d images stéréo afin de régler les différents paramètres de notre traqueur et d établir ses performances. La figure 1 montre les morceaux choisis d une séquence impliquant des occultations et des sorties de champ de vue. Sur chaque image, les cercles et ellipses montrent la projection des particules les plus probables. On voit que notre stratégie IIDM OT permet la réinitialisation et aide à la réinitialisation après la perte d une cible. Des évaluations quantitatives ont également pu être réalisées sur de telles séquences. Ces résultats sont détaillés dans [3]. Fig. 1 Scénario impliquant des occlusions et des sorties de champ de vue, suivi effectué par le module GEST 2.3 RECONNAISSANCE DE GESTES À partir des résultats du suivi 3D de la tête et des deux mains, il devient possible d apprendre puis de reconnaître des gestes effectués par un homme devant le robot. Les gestes que nous cherchons à reconnaître sont de deux types : les gestes déictiques (désignation d une localisation ou d un objet en le montrant du doigt) et les gestes symboliques (comme les gestes de salut, par exemple). Dans notre application, huit gestes sont modélisés de manière classique par des modèles de Markov cachés (MMCs). Parmi ces gestes, cinq sont déictiques et trois symboliques. Comme observations, nous utilisons un ensemble de données sur les deux mains exprimées par rapport à la tête. Des évaluations préliminaires sur une base de données provenant d un système commerciale de capture de mouvement montrent que notre système de reconnaissance de geste donne des taux de l ordre de 91% de sensibilité et 92% sélectivité. Des évaluations complémentaires effectuées sur des données issues de notre traqueur multi-cible IIDM OT sont en cours. 1 afin de tenir compte de l orientation de la main en 3D

3 COMPRÉHENSION DU LANGAGE Une communication naturelle entre une personne et un robot compagnon exige bien sûr de reconnaître dans un premier temps les paroles prononcées par l utilisateur, mais aussi dans un second temps, de comprendre leur signification et de détecter, s il y a lieu, un manque d information ou la possibilité d un geste accompagnant. L information (emplacement d un objet ou d un lieu, emplacement d une personne et autre informations pouvant nécessiter un geste complémentaire) marquée comme manquante pourra ainsi être complétée au moment de la fusion de donnée. C est le rôle du module Genom RECO qui a été intégré (entre autre) au robot Jido. Des développements importants étant actuellement en cours, seules les grandes lignes du module et des résultats préliminaires sont présentés ici. 3.1 RECONNAISSANCE DE LA PAROLE Tab. 1 Exemple de requêtes actuellement interprétées par le robot Début d interaction et présentation au robot Bonjour robot X, je m appelle Paul Ordres de mouvement basique Tourne à gauche Ordres plus avancés impliquant un geste déictique Viens ici Requête de guidage dans l environnement humain Emmène-moi à la salle robotique Interaction avec échange d objet Donne-moi cette bouteille Accord / désaccord / remerciement Oui / Non / Merci Notre système de reconnaissance de la parole doit pouvoir traiter un flot de parole (phrases prononcées en français) continue, ou même spontanée. Afin de satisfaire les exigences de notre plateforme robotique (ressources mémoire et processeur limitée et partagée avec d autres modules, quasi temps réel obligatoire, nombre d actions exécutables par le robot limité), nous avons choisi d utiliser un moteur de reconnaissance, nommé Julian (une version du logiciel libre Julius développé par le Continuous Speech Recognition Consortium [1]) et basé sur une grammaire. Comme tout moteur de reconnaissance, il nécessite différentes ressources linguistiques : Un ensemble de modèles acoustiques des phonèmes de la langue française (39 modèles) et un lexique (246 mots et 428 prononciations correspondant à la séquence de phonème formant ces mots) généré à partir de la base de données lexicale française BDLEX [8] Un ensemble de grammaires (description de phrases formées à partir des mots du lexique) spécifiquement construites autour des tâches qu il est possible de faire effectuer au robot. Des exemples de phrases type sont présentées dans le tableau 1. Cet ensemble compte 2334 phrases différentes. Les modèles acoustiques proviennent de travaux précédents sur la transcription de la parole sur grand vocabulaire (campagne d évaluation ESTER [4]). Ils sont basés sur des MMCs, composés de 3 états avec 32 Gaussiennes par état, et ont été appris en utilisant la boite à outils HTK sur 31 heures d émissions enregistrées sur les radios françaises. Notons que les résultats présentés dans cette section ont été calculés en utilisant ces phonèmes, qui ne sont pas adaptés à notre contexte. D autres évaluations utilisant des phonèmes que nous avons adaptés à nos données, mais aussi contenant des modèles de mots clefs ( stop, oui, non, etc) et d hésitations pour plus de spontanéité et un meilleur taux de reconnaissance, sont en cours. 3.2 INTERPRÉTATION DE LA PAROLE La seconde partie du module de traitement de la parole utilise les sorties de la partie dédiée à la reconnaissance afin d en extraire les unités sémantiques significatives, puis de construire une interprétation compréhensible par la machine. L interpréteur est basé sur un lexique sémantique spécifiquement conçu qui associe des mots clefs à leur interprétation dans

le contexte d une tâche. Certains mots sont liés aux actions qu il est possible d effectuer, tandis que d autres sont liés aux objets, aux attributs d objet comme la couleur, la taille ou l emplacement, ou encore aux paramètres de configuration de robot (vitesse, rotation, distance). Enfin, l ensemble des données sémantiques, récoltées à partir d une phrase reconnue, sont fusionnées en une interprétation globale conforme à l un de nos 31 modèles d interprétation. À partir du lexique disponible à l heure actuelle, 328 interprétations différentes peuvent être générées. Chaque interprétation obtenue peut alors être envoyée au superviseur. 3.3 VALIDATION Afin d évaluer les performances de notre système, une liste de 50 phrases interprétables par le module et liées aux différentes tâches décrites dans le tableau 1 a été élaborée. Cette série de phrases a été prononcée 32 fois, nous permettant ainsi d acquérir une base de données de 1600 phrases. Quatorze locuteurs différents ont été impliqués dans ces expériences. Sur l ensemble de cette base de données, notre module de traitement de la parole a réussi à fournir au superviseur une interprétation correcte pour près de 75% des phrases. D importants développements étant en cours, comme nous l avons précisé plus haut, nous ne publierons ici que ces résultats préliminaires. 4 FUSION DE DONNÉES AUDIO-VISUELLES Une phrase du type Met la bouteille sur la table est assez précise sur la désignation et la localisation de l objet sur lequel agir et du but de l action à fournir par le robot. Le module RECO est alors capable d en extraire une interprétation complète et satisfaisante pour le superviseur (POSER( OBJET=bouteille, LOCALISATION=sur la table )). Mais dans le cas de phrases incluant des déictiques, comme Pose la bouteille là-bas, les informations fournies par la parole ne sont pas suffisantes. Notre interpréteur marquera alors certains champs de l interprétation comme «à remplir» (POSER( OBJET=bouteille, LOCALISATION=geste de désignation )). C est ici qu intervient le module Genom F USION, chargé de la fusion des données audio-visuelles. La première mission de ce module est de compléter, dans une stratégie de fusion tardive, les ordres incomplets fournis par le module RECO avec des informations visuelles, notamment celles issues du module GEST. Ainsi, un ordre nécessitant un geste de désignation sera complété par les coordonnées, dans l espace de navigation du robot, de l objet ou du lieu pointé en extrayant une droite tête-main désignante et en calculant son intersection avec un plan de l environnement. De la même manière, un ordre nécessitant un référant, comme Viens sur ma gauche, pourra être complété à partir de la position de l homme extraite par le module GEST. Sa seconde mission est de combiner les scores de la reconnaissance de gestes et ceux de la reconnaissance de parole afin de renforcer la validité de ces résultats. Ce travail est actuellement en cours. 5 CONCLUSION ET PERSPECTIVES Dans cet article, nous avons présenté une base de travail pour permettre une interaction Homme-Robot basée sur l aide mutuelle entre la parole et la vision. Dans ce cadre, trois modules, entièrement intégrés à notre plateforme robotique, ont été présentés, suivis de quelques résultats fournis par une étape d évaluation quantitative. Ce travail a permis de mener à leurs termes plusieurs expérimentations montrant la pertinence de notre approche basée sur la complémentarité des communications verbales et non verbales dans le cadre d une interaction naturelle entre l Homme et le robot. Un exemple est donné par la figure 2, un autre est disponible dans [3].

Fig. 2 De gauche à droite et de haut en bas : un scénario montrant la complémentarité de la parole et de la vision dans le contexte de l interaction H/R (vue d ensemble -image principale-, résultats du module GEST -images incrustées-, la reconnaissance et l interprétation de la parole étaient assurées par le module RECO) Comme précisé tout au long de ce document, différentes améliorations sont en cours ou restent à initier. Elles concernent tant l amélioration des performances du suivi visuel et de la reconnaissance de parole que la mise en place effective de la reconnaissance de geste et de la fusion de données redondantes. Le travail pourra ensuite se poursuivre en étudiant d autre méthodes de fusion. Références [1] T. Kawahara A. Lee et K. Shikano. «Julius an open source real-time large vocabulary recognition engine». Dans European Conference on Speech Communication and Technology (EU- ROSPEECH), pages 1691 1694, 2001. [2] R. Alami, R. Chatila, S. Fleury et F. Ingrand. «An Architecture for Autonomy». International Journal of Robotic Research (IJRR 98), 17(4) :315 337, 1998. [3] B. Burger, I. Ferrané et F. Lerasle. «Multimodal Interaction Abilities for a Robot Companion». Dans Int. Conf. on Computer Vision Systems (ICVS 08), Santorini, To appear, 2008. [4] S. Galliano, E. Geoffrois, D. Mostefa, K. Choukri, J.F. Bonastre et G. Gravier. «The ESTER phase II evaluation campaign for the rich transcription of french broadcast news». Dans Interspeech/Eurospeech, Lisbon, September 2005. [5] M. Isard et A. Blake. «CONDENSATION Conditional Density Propagation For Visual Tracking». Int. Journal on Computer Vision (IJCV 98), 29(1) :5 28, 1998. [6] M. Isard et A. Blake. «I-CONDENSATION : Unifying Low-level and High-level Tracking in a Stochastic Framework». Dans European Conf. on Computer Vision (ECCV 98), pages 893 908, 1998. [7] M. Isard et A. Blake. «BraMBLe : a Bayesian Multiple Blob Tracker». Dans Int. Conf. on Computer Vision, pages 34 41, Vancouver, 2001. [8] G. Pérennou et M. de Calmès. «MHATLex : Lexical Resources for Modelling the French Pronunciation». Dans Int. Conf. on Language Resources and Evaluations, pages 257 264, Athens, June 2000. [9] Q. Wei, D. Schonfeld et M. Mohamed. «Real-time Interactively Distributed Multi-Object Tracking using a Magnetic-inertia Potential Model». Dans Int. Conf. on Computer Vision (ICCV 05), pages 535 540, Beijing, October 2005.