Real-time approach for model-free hybrid 2D tracking

Dimension: px
Commencer à balayer dès la page:

Download "Real-time approach for model-free hybrid 2D tracking"

Transcription

1 Suivi emps-réel d obje plan: approche hybride conour/exure Real-ime approach for model-free hybrid 2D racking M.Pressigou 1 E.Marchand 1 1 Lagadic, IRISA/INRIA Rennes IRISA, Campus de Beaulieu, Rennes Muriel.Pressigou@irisa.fr ou Éric.Marchand@irisa.fr Résumé Le suivi emps-réel d un obje dans une séquence d images rese un problème sensible quand il s agi d obenir des résulas précis e de prendre en compe d occulaions. La méhode décrie dans ce aricle perme un suivi plus efficace d objes planaires sans uiliser de marqueurs spécifiques. Elle se base sur la fusion d informaions visuelles e sur l esimaion d une ransformaion 2D. Les paramères de cee ransformaion son esimés par une minimisaion iéraive d un crière hybride qui inègre à la fois des informaions sur la exure e sur le conour de l obje suivi. L algorihme es alors plus robuse e perme d achever un suivi correc quand l uilisaion d un seul ype d informaion n aurai pas suffi à obenir un résula saisfaisan. Ce suivi hybride a éé développé pour des objes don le conour peu ḙre modélisé par des lignes mais aussi par une B-Spline. Dans ce dernier cas, l implémenaion es réalisée en uilisan les NURBS pour diminuer foremen le emps de calcul. L efficacié de ce suivi a éé esée sur des séquences d images ainsi que lors d expériences d asservissemen visuel avec une caméra embarquée sur un robo. Mos Clef Fusion d informaions, suivi conour/exure, suivi robuse, NURBS. Absrac The robusness and accuracy are major issues in real-ime racking. This paper describes a reliable racking for markerless objecs based on he fusion of mulimodal visual cues and on he esimaion of a 2D ransformaion. The parameers of his ransformaion are esimaed using nonlinear minimizaion of a unique crierion ha inegraes informaion on boh exure and conour of he racked objec. The proposed racker is hen more robus and succeeds in condiions where mehods based on a single cue fail. The racker can deal wih polygonal shaped objecs bu also wih hose which can be modeled by a B-spline. In he laer case, NURBS are used o reduce ime processing. The efficiency and he robusness of he proposed mehod are esed on image sequences as well as during image-based servoing conrol experimens. Keywords Mulimodal racking, edge and correlaion-based racking, robus racking, NURBS. 1 Inroducion L élaboraion d algorihmes de suivi en emps-réel d objes dans des séquences d images es une problémaique majeure pour de nombreuses applicaions liées à la vision par ordinaeur, la roboique, l asservissemen visuel, ec. Un processus fiable d exracion puis de suivi spaio-emporel de l informaion visuelle es en effe une des clés du succès, ou de l échec, de elles applicaions. Il apparaî d aure par primordial pour inroduire les echniques de suivi dans un large évenail d applicaions, de pouvoir appréhender des scènes naurelles, c es-à-dire, sans marqueurs, avec des objes polyédriques ou non, e des condiions d illuminaion variables,... Différenes echniques exisen pour parvenir à ce objecif. Schémaiquemen elles peuven êre divisées en deux grandes familles: celles basées sur le conour e celles basées sur la exure de l obje. La première approche consise esseniellemen à suivre des primiives dans l espace image ou 3D comme des primiives géomériques (poins, lignes, cercles,... ), le conour de l obje, la projecion des conours d un obje 3D, ec. La dernière uilise un crière de corrélaion lié à l informaion donnée par les niveaux de gris du moif de l obje ou d aures informaions présenes dans ce moif (couleur,... ). Le suivi basé conour repose sur les fors gradien spaiaux délimian le conour de l obje ou ceraines primiives géomériques présenes dans un moif (poins, lignes, disances, splines,... ). En ce qui concerne le suivi dans l espace de l image (suivi 2D), cee approche consise à décrire l obje à suivre à l aide de primiives

2 géomériques comme des poins pariculiers [21, 29], des angles, des conours [3, 4], des segmens de droies [5, 15] ou des ellipses [31], ec. Les conours acifs ou snakes son égalemen basés sur de els gradiens e peuven êre égalemen uilisés pour déerminer une forme complexe [4]. La connaissance d un modèle 3D de l obje à suivre [1, 11] ransforme le problème de suivi de conour en un problème de calcul de pose. Les principaux avanages d une elle approche son la robusesse e la performance améliorées par l inroducion d informaions 3D sur la scène. la gesion de données erronées dans le processus de suivi. Cependan, ces ravaux ne seron pas déaillés puisque les primiives géomériques considérées dans ce aricle son uniquemen celles exraies dans l image, la connaissance du modèle 3D de l obje éan une conraine que nous avons voulu évier dans ces ravaux. Les echniques de suivi basé conour son rès efficaces pour des applicaions nécessian un suivi rapide mais son cependan rès sensibles aux environnemens exurés qui son une cause d échec fréquene. Les approches précédenes reposen esseniellemen sur une analyse des gradiens d inensié dans les images. Quand la scène es rop complexe (par exemple quand l environnemen es rop exuré ou si les conours de l obje son difficilemen déecables), il es nécessaire d uiliser d aures méhodes. Une soluion es alors de considérer direcemen le signal lumineux dans les images e d effecuer direcemen la mise en correspondance 2D sur une parie de l image sans passer par une phase d exracion de primiives. Les problèmes de suivi reposan sur l apparence ( emplae-based maching ) ou d esimaion du mouvemen apparen renren dans cee caégorie. L objecif de els algorihmes es d esimer un ensemble de paramères qui décriven au mieux la ransformaion ou le mouvemen de la parie de l image considérée en opimisan un cerain crière de corrélaion. La recherche exhausive de la ransformaion qui minimise ce crière n es pas une soluion efficace. Il exise des echniques de minimisaion capables de résoudre ce problème en prenan en compe des modèles de ransformaions assez complexes (comme des mouvemens affines ou homographiques par exemple). Dans [14], les aueurs on proposé une approche basée sur ce principe en considèran la variaion des paramères du modèle de mouvemen comme une foncion linéaire des différences d inensié dans l image. Ils définissen une marice Jacobienne qui lie les variaions des paramères de la ransformaion aux variaions de l inensié lumineuse. Des exensions de cee approche on éé proposées. Dans [19], la pseudo-inverse de cee marice es apprise lors d une phase hors-ligne e [2, 7, 19] esimen une homographie alors que dans [14] le modèle du mouvemen es affine. En oure, [2] reprend cee formulaion en uilisan une minimisaion du second ordre basée sur l algèbre de Lie pour accélérer le processus de minimisaion en annulan les ermes du second ordre. Le emplae uilisé comme référence peu êre mis à jour [24, 25] ou non [14] pour accélérer le suivi. Il fau noer que ces méhodes son éroiemen liées aux algorihmes classiques d esimaion du mouvemen [26]. De elles méhodes de suivi son rapides e robuses quand la exure de l obje se prêe bien à une elle analyse mais manque parfois de précision. Ces deux ypes d approches présenen des avanages e des inconvéniens complémenaires. Pour développer des algorihmes robuses aux données aberranes, e donc à des poenielles occulaions, il es inéressan de prendre en compe des informaions visuelles liées à ces deux méhodes. Elles peuven êre exploiées séqueniellemen de manière à combiner robusesse e précision comme dans [1, 9, 22]. Dans ce cas, l esimaion du mouvemen es cependan principalemen uilisée pour obenir un meilleur recalage sur les conours (e assurer ainsi une plus grande robusesse du suivi). L idée es ici d uiliser en même emps les deux approches pour effecuer simulanémen l esimaion de mouvemen e le suivi de l obje e ainsi mieux exploier les avanages de chacun. D aures approches se basen sur un cadre probabilise. Dans [28], les aueurs uilisen une méhode basée exure pour rouver la projecion dans l image du conour d un modèle 3D. Le calcul de la posiion la plus probable d élémens exurés du conour remplace alors la déecion sandard basée sur les gradiens. Des méhodes de suivi classiques exploian un seul ype de primiives visuelles, comme l algorihme CONDEN- SATION, on éé éendues au suivi de primiives de naures diverses [18]. La fusion de primiives visuelles 2D a égalemen éé éudiée dans [2] e appliquée pour des applicaions d asservissemen visuel. Néanmoins, ce ravail n es pas direcemen lié à la fusion d informaion basée conour ou exure comme c es le cas dans ce aricle. La méhode présenée ici inègre simulanémen les deux approches. Puisque chacun des suivis peu êre vu comme un problème d opimisaion, nore objecif es de définir un veceur d éa unique qui permee de décrire aussi bien l apparence du moif de l obje que la posiion de ses conours. En considéran ce veceur d éa, il es possible d esimer les paramères d une ransformaion 2D qui minimise l erreur enre le moif couran de l obje regroupan différens ypes d informaions visuelles e celui qui conien les valeurs de référence associées. L algorihme de suivi hybride fusionne l esimaion de mouvemen de poins de conours e de poins de exure dans un unique processus de minimisaion. Puisque les données son évenuellemen bruiées, il es nécessaire d effecuer une minimisaion robuse. Pour ce faire, l inroducion de M-esimaeurs perme d obenir une implémenaion de ype IRLS (Ieraively Re-weighed Leas Squares). Une approche similaire a éé proposée par [23]. Dans ce dernier ravail, l algorihme de suivi basé exure es celui décri dans [19] où le Jacobien es appris andis que le nôre es proche de celui présené dans [14] où es uilisée une formulaion analyique du Jacobien. Dans [23], les poins de conours e de exure son classifiés selon les valeurs propres de la marice d auocorrélaion du

3 signal. Les conours fors son alors marqués comme poins de conour e, par conséquence, les poins resans classés comme poins de exure n apporen que peu d informaion puisqu ils appariennen à des régions de gradiens assez lisses. L opimisaion d un crière hybride a égalemen éé uilisée dans [3] dans le cadre du calcul de pose e de la réalié augmenée. Les conribuions apporées par les ravaux présenés dans ce aricle son la reformulaion de suivis classiques, l un basé sur les primiives géomériques définies par les conours de l obje, l aure basé sur son apparence, de façon à les réunifier dans un même cadre. Cee généralisaion perme la fusion des deux suivis de manière assez direce e les résulas monren l inérê d une elle fusion. La méhode de suivi hybride que nous avons developpée es présenée dans la secion 2. Le cadre général du suivi basé sur une esimaion d une ransformaion 2D es développé dans la secion 2.1 e deux méhodes de suivis, l une basée conour e l aure basée exure son respecivemen décries dans les secions 2.2 e 2.3. La secion 2.4 présene la fusion de ces deux suivis donnan un nouvel algorihme efficace. Pour finir, les résulas de la secion 3 illusren le comporemen de cee nouvelle méhode sur des séquences d images réelles mais aussi lors d une expérience d asservissemen visuel. 2 Suivi basé sur l esimaion d une ransformaion 2D 2.1 Esimaion d une ransformaion 2D Cadre général. La ransformaion 2D qui relie la projecion de l obje enre l image I 1 e l image I es elle que si x µ = (x µ, y µ ) T es un poin de I apparenan à la projecion de l obje e x µ 1 son correspondan dans I 1, alors : x µ = Ψ µ (x µ 1 ) (1) où Ψ µ es la ransformaion 2D décrie par M paramères. Classiquemen, le modèle de la ransformaion uilisé es un modèle affine ou une homographie. Bien que les deux cas aien éé éudiés, seule l homographie es considérée ici puisque c es un cas plus général. On a en coordonnées homogènes : x h = µ µ 1 µ 2 µ 3 µ 4 µ 5 x h 1 (2) µ 6 µ 7 µ 8 Par conséquen, les paramères à esimer son : µ = ( µ, µ 1, µ 2, µ 3, µ 4, µ 5, µ 6, µ 7, µ 8 ) T (3) Il n es pas requis de choisir une représenaion spécifique de l homographie qui es définie à un faceur près puisque la méhode proposée es invariane à ce faceur d échelle. Soi m µ le veceur colonne de dimension N qui conien la valeur des primiives dans l image esimée à parir des paramères de la ransformaion 2D µ: m µ = (m 1 µ,..., m N µ ) T.Dans la suie, m i µ sera soi les niveaux de gris I (x i µ ) observés aux poins xi µ dans I [14], soi une disance enre un poin de l image e une primiive géomérique 2D, mais la méhode peu êre élargie à d aures primiives. Sa valeur de référence dans I es noée m µ e sa valeur courane dans I calculée à parir de la ransformaion esimée µ es représenée par m µ. L idée de base es d esimer la ransformaion 2D qui vérifie (1). Ceci es réalisé en minimisan l erreur enre la valeur courane m µ e la valeur m µ observée dans l image courane I : µ = argmin µ m µ m µ 2 (4) Lorsque cee erreur es minimisée, les primiives esimées corresponden aux observaions e la ransformaion 2D esimée à la ransformaion 2D réelle. La coninuié du mouvemen garani que µ = µ 1 +δµ. Le problème es alors d esimer les valeurs δµ qui minimisen l erreur e définie par: e = m µ 1 +δµ m µ 2. Une minimisaion iéraive basée sur une approximaion du premier ordre minimise l erreur e par : δµ = λj + m µ e (5) λ es le faceur scalaire qui perme d assurer une décroissance exponenielle de l erreur, J mµ es la marice Jacobienne de m par rappor aux paramères courans de la ransformaion 2D. C es une marice N M conenan les N marices Jacobiennes J m i µ de chaque primiive visuelle m i µ : avec J mµ = (J m 1 µ,..., J m N µ ) T (6) J m i µ = mi µ µ (7) Pour que le suivi se fasse le plus rapidemen possible, la marice Jacobienne peu êre approximée par celle calculée à la première iéraion du processus de minimisaion. Seule une convergence locale peu alors êre obenue. Cependan, comme le déplacemen de la caméra enre deux images es supposé faible, c es une soluion efficace. Il sera vu dans la secion des résulas que cee approximaion rese valable pour des mouvemens imporans. Esimaion robuse. Dans une séquence vidéo, les données son bruiées ou des occulaions peuven avoir lieu. Puisque le processus de minimisaion es sensible à de elles erreurs, des M-esimaeurs son inroduis dans (5) pour éliminer les données erronées: δµ = λ(dj mµ ) + De (8)

4 où D es une marice diagonale N N elle que: D = diag(w 1,..., w N ) (9) Les N poids w i reflèen la confiance que l on a en chaque primiives visuelles m i µ [16] e son en général donnés par : w i = ψ(δ i/σ) δ i /σ (1) avec ψ(u) = ρ(u) m µ (ψ es la foncion d influence) e δ i le résidu normalisé donné par δ i = i Med( ) (où M ed( ) es la déviaion sandard des données correces). De nombreuses foncions d influence son uilisées dans la liéraure. Nous avons reenu la foncion de Tukey car elle rejee complèemen les données aberranes. L approche décrie jusque-là es valable pour n impore quelle primiive visuelle m à parir du momen où la marice Jacobienne associée J m es disponible. Ce cadre général es appliqué dans les deux paragraphes suivans, d abord pour des primiives basées conour puis pour des primiives basées exure. Pour chacun des suivis, le choix des primiives e de la marice Jacobienne es donné. La reformulaion de ces deux suivis de base, assez classiques, peu êre inhabiuelle au leceur mais elle es nécessaire pour faire ressorir le cadre général e permere la fusion des deux algorihmes de manière assez direce. 2.2 Esimaion d une ransformaion 2D basée conour Dans ce aricle, le suivi basé conour se base sur le suivi de poins siués sur des fors gradiens délimian le conour de l obje ou de moifs dans l image. Nous appelons par la suie ces poins les poins de conour. Les poins de conours son suivis le long de la normale au conour [6] (voir Figure 1). Les résulas obenus par un el suivi peuven êre uilisés direcemen pour esimer une ransformaion 2D en minimisan une disance poin-à-poin [13]. Cependan, il n y a pas de mise en correspondance possible enre les poins de conour de I 1 e ceux obenus après un el processus de suivi bas-niveau dans I. Le problème de mise en correspondance peu êre résolu en remplaçan la minimisaion d une disance poin-à-poin par une minimisaion d une disance poin-à-conour. La ransformaion 2D esimée es alors elle que: ( µ = argmin d Cµ, x i ) µ 2 (11) i où C µ = Ψ µ (C µ 1 ) es le conour esimé à parir des paramères courans de la ransformaion 2D µ, i.e. le conour défini par les poins x i µ = Ψ µ (x i µ 1 ) avec xµ i apparenan au conour C 1 µ 1 esimé dans l image précédene. x i son les poins obenus par le processus ( ) de suivi bas-niveau dans I (voir Figure 1) e d C, x es la noaion uilisée pour la disance orhogonale enre le conour C e le poin x. Le crière (11) signifie que la ransformaion 2D es correcemen esimée si le conour couran esimé avec les paramères courans µ repose sur les poins de conour exrais( dans l image courane. En se rapporan à (4), m µ = d Cµ, x) i e mµ = d ( Cµ, ) xi qui es évidemmen égal à zéro puisque x i se rouven sur le conour C µ qui représene le conour de l obje dans l image I. C µ n a donc jamais besoin d êre calculé. Cµ à différenes éapes du processus de minimisaion x x µ 1 C µ 1 FIG. 1 Processus de suivi le long de la normale au conour Le calcul de m µ dépend du modèle de conour uilisé. Il es déaillé dans les deux paragraphes suivans pour le cas d une ligne puis d une B-Spline. La forme analyique de J mµ n es pas déaillée enièremen par manque de place. Elle es obenue dans chacun des cas en considéran que m µ peu s exprimer comme une foncion des paramères ɛ j du conour. Ces dernières variables dépenden de µ e des paramères iniiaux du conour. On dérive alors la forme analyique de la marice Jacobienne comme il sui : J m i µ = j C µ m i µ ɛ j (12) ɛ j µ Suivi basé conour pour un conour polygonal. Le conour de l obje es dans ce cas-ci modelisé par un ensemble de lignes l j. Dans I, le conour couran es défini par l j µ elles que : l j µ.x hi µ = (13) avec x hi µ = (x i µ, yµ i, 1) T les poins de conours en coordonnées homogènes e l j µ = (a j µ, b j µ, c j µ ) T les paramères normalisés des droies esimés à parir des paramères courans de la ransformaion 2D. La disance m µ es donnée par : ( = d l j µ, x i ) = l j µ.x hi (14) m i µ Les coefficiens a j µ, b j µ e c j µ son des variables dépendan de µ. La forme analyique de la marice Jacobienne peu êre donc calculée à parir de (13) en uilisan (1) e (12). Suivi basé conour pour un conour défini par une B- spline. Pour un el conour, les poins de conour x i µ reposen sur une courbe C µ (s) = (x µ (s), y µ (s)) T définie par : { xµ (s) = j C µ (s) : αj µ N j (s) y µ (s) = (15) j βj µ N j (s)

5 Q j µ = (α j µ, βµ j ) T son les poins de conrôle de la courbe e N j (s) son les foncions de base de la B- Spline [4]. Ces foncions dépenden de paramères (degré, nombre d inervalles,... ) qui son consans dans le emps dans le cadre de l approche présenée ici. La disance enre un poin e la B-Spline es remplacée par la disance enre ce poin e la angene à la B-Spline. Cee angene es obenue par : { x C µ µ (s) = j (s) : αj µ N j (s) y µ (s) = j βj µ N j (s) (16) Le problème de minimisaion es alors similaire au cas polygonal puisque c es encore une disance enre un poin e une droie qui es uilisée, la différence éan qu il y a dans ce cas-ci auan de lignes que de poins. Cependan, il rese un problème à résoudre. Comme les B-Splines ne son pas invarianes à des ransformaions perspecives (i.e. les poins de conrôle courans ne peuven pas êre obenus direcemen à parir de ceux de la première image e des paramères courans de la ransformaions 2D), les poins de conrôle courans son calculés par une esimaion aux moindres carrés rès coûeuse. Pour réduire le emps de calcul, le cadre décri pour un conour délimié par une B-Spline a éé implémené en uilisan les NURBS (Non Uniform Raionnal B-Spline) [27] qui son elles invarianes à de elles ransformaions. La courbe C µ (s) = (x µ (s), y µ (s)) T es alors définie par : j x µ (s) = αj µ w j µ N j(s) j C µ (s) : wj µ N j(s) j y µ (s) = βj µ w j µ N j(s) (17) j wj µ N j(s) où Q j µ = (α j µ, βµ j ) T son les poins de conrôle e N j (s) son les foncions de base de la courbe. wµ j es un poids associé au poin de conrôle Q j µ. Il peu êre inerprêé comme la roisième coordonnée homogène de ce poin de conrôle, ce qui perme de raier facilemen les homographies [27]. Le suivi basé conour a éé presqu enièremen déaillé pour deux ypes de primiives géomériques qui couvren une large gamme de srucures planaires. Pour renforcer la robusesse du suivi basé conour par rappor aux variaions du mouvemen, lors du processus bas-niveau de suivi de poins de conour, l inervalle de recherche le long de la normale au conour croî quand le déplacemen de l obje dans l image augmene e décroî quand celui-ci diminue. Le résula obenu par un el algorihme es robuse aux changemens globaux d illuminaion e es précis quand l obje suivi n es pas exuré. Cependan, il nécessie une bonne iniialisaion e es sensible à un environnemen exuré e aux déplacemens imporans. 2.3 Esimaion d une ransformaion 2D basée apparence Le moif suivi es un sous-échanillonnage des niveaux de gris de la projecion de l obje dans l image. La valeur de référence de ce sous-échanillon dans I es représenée par le veceur m µ mais n es pas mesurable direcemen dans l image. L hypohèse faible d illuminaion consane donne m µ = m µ 1 mais cee méhode enraîne généralemen une dérive du moif. Par conséquen, c es l hypohèse fore d illuminaion consane qui es uilisée ici, donnan m µ = m µ = m µ où m µ es le moif souséchanilloné dans la première image. La ransformaion 2D à esimer es alors : µ = argmin I µ µ Iµ }{{} }{{} m µ m µ 2 (18) où I µ = (I (x 1 µ ),..., I (x N µ )) T conien les niveaux de gris courans sous-échanillonnés dans I aux poins x j µ = Ψ µ (x j µ ). I 1 µ conien les niveaux de gris souséchanillonnés dans la première image aux poins x j µ. Les poins x j son appelés les poins de exure. La marice Jacobienne de m j µ es [14] : J m j µ = I (x j µ ) = I (Ψ µ (x j µ )) Ψ j T µ (xµ ) 1 µ 1 µ (19) où I (x) es le gradien spaial de I au poin x. On obien facilemen Ψ µ (x j µ )/ µ 1 (voir [14] pour la dérivaion complèe e une simplificaion du emps de calcul). L esimaion de la ransformaion 2D basée exure présenée dans ce aricle es proche de [7] dans le sens où c es une homographie qui es esimée en minimisan aux moindres carrés la différence enre les moifs iniial e le couran. Cependan, la marice jacobienne n es pas la même: dans [7], le dernier erme de l homographie es fixé à 1 e la dérivaion se fai par rappor aux coordonnées homogènes du poin e non par rappor aux coordonnées dans l image. De plus, la méhode présenée dans ce paragraphe a éé modifiée pour inégrer des résulas bien connus dans le domaine de l esimaion du mouvemen. Premièremen, dans ce genre de suivi, le souséchanillonnage iniial es souven un sous-échanillonnage régulier. Or, cerains poins du moif apporen plus d informaions que d aures comme expliqué dans [29]. Les valeurs propres de la marice d auocorrélaion du signal R associée à ces poins, définie par : ( ) I 2 R = x Ix I y Ix I y I 2 (2) y son élevées. De els poins son siués sur de fors gradiens spaiaux, ce qui enraîne une meilleure esimaion de la ransformaion 2D andis que des poins siués sur une surface pluô uniforme ne permeen pas une esimaion précise du mouvemen. Pour une bonne esimaion du mouvemen, il fau exraire ces poins d inérês sur la oalié de la projecion

6 du moif, en essayan de mainenir une disance minimimale enre les poins sélecionnés. Deuxièmen, l exploiaion de els poins dans le suivi implique quelques changemens dans le processus de minimisaion robuse. En effe, ces poins éan siués sur un for gradien spaial, un pei mouvemen de l obje dans l image peu impliquer une plus fore augmenaion du changemen d inensié pour cerains poins que pour d aures. Pour évier l éliminaion des poins les plus inéressans du moif par les M-esimaeurs, le veceur suivan e es uilisé à la place du veceur e comme veceur de résidu pour le calcul des poids: e = (..., I (x i µ ) I (x i µ ) I (x i,... ) T µ ) (21) Les résulas obenus avec un el suivi son robuses aux larges mouvemens dans l image e aux occulaions. L évoluion des paramères de la ransformaion 2D dans le emps es assez lisse, ceci éan dû au fai qu en général, la exure es assez bien réparie sur ou l obje. D un aure côé, les performances son dégradées si l obje n es pas bien exuré, la précision du suivi éan alors moins bonne. 2.4 Esimaion d une ransformaion 2D basée sur un crière hybride Comme il a éé di dans les paragraphes précédens, les résulas obenus avec le suivi basé conour e le suivi basé exure son de naures complémenaires avec chacun des propriéés inéressanes: efficacié e robusesse aux changemens globaux d illuminaion pour le premier, robusesse aux occulaions e rajecoire lisse pour le second. Nous avons formulé ces deux algorihmes dans un formalisme similaire pour pouvoir les fusionner de manière assez direce, pour obenir de meilleurs résulas en combinan les avanages des deux méhodes. L approche résulan de cee fusion es décri ci-dessous. Le cadre général a éé présené au débu de ce aricle indépendammen de la naure des primiives visuelles exploiées. Ceci perme de mélanger le suivi basé conour avec celui basé exure. S il y a N c poins de conour e N poins de exure, le veceur emplae m conenan les deux ensembles sera de aille N = N c + N : m µ = (m 1 µ,..., mnc µ, mnc+1 µ,..., mµ Nc+N ) T (22) où ( ) m i µ i N c es la disance poin-à-conour associée au ième poin de conour e ( ) m i µ es le niveau de gris i=n c+j observé au jème poin de exure. (5) peu alors êre appliquée pour esimer la ransformaion 2D en uilisan soi (12) s il s agi d un poin de conour, soi (19). Cependan, l erreur mesurée sur les poins de exure (une différence d inensié) éan d un ordre de grandeur plus imporan que celle mesurée sur les poins de conour (une disance poin-à-conour), il es nécessaire d effecuer une normalisaion pour prendre en compe de façon équiable les informaions apporées par chaque ype de primiives. Celle-ci es inégrée dans le calcul des poids qui deviennen alors : w i = { w i max c(error) if i N c w i max (error) if i > N c (23) où max c (error) (resp. max (error)) es le maximum des valeurs absolues des disances poin-à-conour (resp. différences d inensiés) e w i es le poids calculé par les M-esimaeurs. De plus, il es possible de rajouer une mesure de confiance sur l inérê qui doi êre accordé à chaque primiive. Pour les deux ypes de primiives, un for gradien spaial éan une propriéé inéressane, les poids finaux son : w i = { w i.gradien(i) max c(error).max c(gradien) if i N c w i.gradien(i) max (error).max (gradien) if i > N c (24) où max c (gradien) (resp. max (gradien) ) représene le maximum des gradiens spaiaux observés en un poin de conour. (resp. poin de exure) e gradien(i) le gradien spaial observé au ième poin. Fusionner les deux algorihmes de base au lieu de les enchaîner appore des amélioraions essenielles. Les expériences nous on monré qu inclure les deux ypes d informaion non seulemen améliore l esimaion du mouvemen apparen mais élargi l ensemble des objes pouvan êre suivis. En oure, la robusesse aux mouvemens imporans es accrue. De plus, grâce à l inégraion des M-esimaeurs, le suivi hybride es capable de gérer l échec d un des deux suivis élemenaires (par exemple des effes de spécularié sur une parie de l obje pour le suivi basé apparence). Il es égalemen imporan de souligner que l échec ou les inconvéniens d un suivi élémenaire son dûs aux données observées insuffisanes voire inexaces, menan à un minimum local plus ou moins erroné. La combinaison de deux suivis se basan sur des données différenes perme de passer ces minima locaux pour arriver à la soluion qui correspond à un minimum correc pour les deux suivis. 3 Résulas expérimenaux Les deux sous-secions suivanes présenen les résulas obenus avec le suivi hybride sur des séquences d images où le conour de l obje es polygonal e les deux suivanes sur des séquences d images où le conour es modélisé par une NURBS. Les M-esimaeurs son uilisés pour chacune des expériences puisque le conenu de la séquence vidéo n es pas supposé connu. Ce suivi hybride a égalemen éé esé lors d expériences d asservissemen visuel 2D don un exemple clô cee secion résula. Les rois suivis décris dans ce aricle on éé esés. La même quanié de données es exploiée pour chacun

7 d enre eux: si 2n primiives son uilisées pour un suivi basé sur un seul ype d informaion, alors n primiives de chaque ype le son pour le suivi hybride. Un algorihme échoue si le conour esimé de l obje ne correspond absolumen pas au conour observé dans l image. Lorsque plusieurs algorihmes réussissen à suivre l obje, la comparaison se fai en calculan la différence enre le moif couran e le moif iniial (i.e. la différence donnée par I µ I µ ) pour chacun. Cee différence es calculée sur le moif en enier e pas seulemen sur le sous-échanillonnage uilisé évenuellemen pour l esimaion de la ransformaion 2D. Plus cee mesure es peie, plus l esimaion des paramères de la ransformaion 2D es exace. Si des occulaions on lieu, il fau noer que cee différence va augmener puisqu une parie du moif comparé es cachée. Cependan, si le suivi es correc, cee erreur va moner de manière similaire quelque soi l algorihme uilisé. Pour chaque expérience, au moins l un des deux suivis basé sur un seul ype d informaion échoue alors que le second réussi évenuellemen à suivre l obje. Par conre, en ce qui concerne le suivi hybride, il réussi dans chacun des cas e il donne une meilleure esimaion du mouvemen si l un des deux aures es correc. Les poins choisis pour l esimaion du mouvemen son donnés dans la première image du suivi par les poins vers (ou rouges si déecés comme ouliers dès la première image), sauf pour la deuxième expérience par manque de visibilié. La posiion de l obje es représenée par son conour en ver (esimé en appliquan le mouvemen couran au conour iniial) dans chaque image. 3.1 La séquence Café errasse la nui de Van Gogh Dans cee première séquence (48 images), les déplacemens iner-images son imporans. Ils peuven aeindre 14 pixels comme monré sur la Figure 3a. Les images iniiale e finale son données pour chacune des méhodes dans la Figure 2. Le suivi basé exure perd l obje rapidemen andis que celui basé conour donne d assez bons résulas. Cependan, les conours ne son pas oujours correcemen recalés sur ceux observés dans l image (voir un exemple sur la Figure 4). La seule approche donnan un suivi précis es la méhode basée sur le crière hybride. La Figure 3b présene la courbe de l évoluion de la différence enre le moif couran e le moif iniial pour chacune des méhodes. Les erreurs les plus peies son en général celles obenues en uilisan le suivi hybride don le comporemen es plus consan que le suivi basé conour. Pour cee séquence, 47 poins son uilisés pour chacun des algorihmes. Le suivi hybride ourne à une fréquence moyenne de 13 Hz. deplacemen maximal (pixel) FIG. 2 Séquence Van Gogh: suivi de conour polygonal. Images iniiale e finale pour: a) suivi basé exure, b) suivi basé conour, c) suivi hybride deplacemen maximal difference d inensie (moif comple) image a image b suivi hybride suivi conour suivi exure FIG. 3 Séquence Van Gogh: suivi de conour polygonal. a) Evoluion du maximum du mouvemen apparen enre deux images successives (en pixel). b) Différence d inensié enre le moif comple couran e le moif comple iniial pour: bleu) suivi basé exure, ver) suivi basé conour, rouge) suivi hybride FIG. 4 Séquence Van Gogh. Déail de la dernière image de la Figure 2b (sur le suivi basé conour): la ligne du côé gauche n es pas précisemen esimé (lignes veres). Le conour observé dans l image es dessiné en rouge. a b c

8 3.2 La séquence du apis de souris Dans cee séquence composée de 6 images, l environnemen es foremen exuré. Les images iniiale, inermédiaire e finale son données pour chacune des méhodes dans la Figure 6. Comme l on peu s y aendre dans une elle siuaion, le suivi basé conour échoue à cause des conours assez ambigüs. Celui basé exure e le suivi hybride réussissen à suivre l obje de manière idenique visuellemen. La courbe de l évoluion de la différence enre le moif couran e le moif iniial es donnée pour chacune des méhodes dans la Figure 5. Bien que le suivi basé exure repose exclusivemen sur la minimisaion d une différence d inensié, l erreur sur le moif en enier es plus faible lorsque le suivi hybride es uilisé, ce qui illusre bien l imporance e la complémenarié des informaions apporées par chaque ype de primiives. 34 poins son exploiés pour esimer la ransformaion 2D. Le suivi hybride ourne à une fréquence moyenne de 16 Hz. difference d inensie (moif comple) suivi hybride suivi conour suivi exure image FIG. 5 Séquence du apis de souris: suivi de conour polygonal. Différence enre le moif couran e le moif iniial pour: bleu) suivi basé exure, ver) suivi basé conour, rouge) suivi hybride des deux suivis de base. En effe, le suivi hybride réussi à suivre l obje alors que les deux aures échouen à cee âche. Les images iniiale e finale son données pour chacune des méhodes dans la Figure poins on éé uilisés dans cee expérience. FIG. 7 Séquence de la pomme: suivi de NURBS. Images iniiale e finale pour: a) suivi basé exure, b) suivi basé conour, c) suivi hybride a b c a FIG. 6 Séquence du apis de souris: suivi de conour polygonal. Images iniiale, inermédiaire e finale pour: a) suivi basé exure, b) suivi basé conour, c) suivi hybride 3.3 La séquence de la pomme L obje suivi dans cee séquence de plus de 14 images es une phoo de pomme. La difficulé de cee expérience es d obenir un conour précis malgré l arrière-plan exuré e l ombre de l image qui se confond facilemen avec l obje. Cee expérience illusre bien elle-aussi la complémenarié b c 3.4 La séquence de l image du vase Cee séquence de plus de 4 images compore des occulaions. Les images iniiale, inermédiaire e finale son données pour chacune des méhodes dans la Figure 8. Le suivi basé conour se perd lors de la seconde occulaion à cause de la exure présene e du conour de l obje occulan. Comme observé pour la deuxième séquence, bien que le suivi basé exure e le suivi hybride réussissen ous les deux à suivre l obje, ce dernier apparaî êre celui qui esime le mieux les paramères de la ransformaion 2D lorsque l on regarde les courbes de l évoluion de la différence enre le moif couran e le moif iniial donnée pour chacune des méhodes dans la Figure 9. Rappelons que les deux pics son dus aux occulaions. 44 poins son exploiés pour esimer la ransformaion 2D pour chacune des approches. Le suivi hybride ourne en moyenne à 15 Hz. 3.5 Expérience d asservissemen visuel Le suivi hybride présené dans ce aricle a éé inrodui avec succès dans plusieurs expériences d asservissemen visuel [12, 17]. Lors de ces expériences, les primiives

9 a b c FIG. 8 Séquence de l image du vase: suivi de NURBS. Images iniiale, inermédiaire e finale pour: a) suivi basé exure, b) suivi basé conour, c) suivi hybride difference d inensie (moif comple) suivi hybride suivi conour suivi exure image FIG. 9 Séquence de l image du vase: suivi de NURBS. Différence enre le moif couran e le moif iniial pour: bleu) suivi basé exure, ver) suivi basé conour, rouge) suivi hybride visuelles exploiées pour effecuer ces âches (différenes de celles uilisées pour l esimaion de la ransformaion 2D) éaien les momens image de l obje [8]. La Figure 1 présene un exemple de posiionnemen d une caméra par asservissemen visuel. La posiion désirée de l obje dans l image es acquise puis la caméra embarquée au bou du bras du robo à 6 degrés de liberé se déplace d une posiion iniiale jusqu à la posiion désirée de cee caméra en minimisan l erreur enre la posiion courane de l obje dans l image (recangle ver) e celle désirée (recangle rouge). Le processus de suivi de l obje es par conséquen une éape imporane dans la boucle d asservissemen visuel d auan plus que l uilisaion de momens d inerie comme primiives visuelles requier une esimaion précise du déplacemen iner-image. Comme cela es visible sur les images, des occulaions on lieu. Les données aberranes son représenées par des croix rouges, les poins de conour cachés par des croix bleues e les données esimées correces par des croix veres. La dernière image es celle obenue lorsque la caméra aein la posiion désirée. La Figure 11 présene les posiions désirée e finale de la caméra. La différence es assez faible, le posiionnemen de la caméra es effecué assez précisemen. FIG. 1 Expérience d asservissemen visuel. Recangle rouge: posiion désirée de l obje dans l image, recangle ver, sa posiion courane Axes x y z r x r y r z Pose désirée Pose finale FIG. 11 Expérience d asservissemen visuel. Posiions désirée e finale de la caméra en uilisan le suivi hybride ( x, y e z en mm, r x, r y e r z en degrés) 4 Conclusion Un algorihme fiable a éé présené dans ce aricle. Il uilise un emplae hybride de l obje à suivre qui regroupe les informaions les plus perinenes de son moif e d un sous-échanillonnage régulier de son conour. En fusionnan l esimaion de mouvemen apparen des poins de exure e de conour, l approche proposée perme un suivi précis d objes exurés, même dans un environnemen exuré. Elle es basée sur une minimisaion iéraive qui gère correcemen les données aberranes grâce à l inroducion de M-esimaeurs. Le processus de minimisaion es par conséquen robuse aux occulaions parielles e au brui. Différens cas on éé présenés dans la parie résula qui meen bien en avan la robusesse de l algorihme vis-àvis de la naure de la siuaion ou de l obje. Même si l informaion sur le mouvemen es esseniellemen fiable pour un seul ype de primiives, le suivi hybride perme de suivre correcemen des objes dans un environnemen exuré e cela assez rapidemen pour êre inséré dans des applicaions roboiques. La ransformaion 2D présenée dans ce aricle es valable uniquemen pour des objes plans. Il n exise pas de ransformaion 2D qui soi uilisable pour un mouvemen quelconque d un obje 3D quelconque. Par conséquen, pour gérer de els cas, nous nous inéressons mainenan au suivi hybride d un obje 3D en fusionnan un calcul de pose classique e l esimaion du mouvemen apparen. Un el algo-

10 rihme devrai êre plus robuse e moins bruié qu un algorihme de suivi 3D classique. Références [1] B. Bascle, P. Bouhemy, N. Deriche, and F. Meyer. Tracking complex primiives in an image sequence. In ICPR 94, pages , Jerusalem, Ocober [2] S. Benhimane and E. Malis. Real-ime image-based racking of planes using efficien second-order minimizaion. In IROS 4, Sendai, Japan, Ocober 24. [3] M.-O. Berger. How o rack efficienly piecewise curved conours wih a view o reconsrucing 3D objecs. In ICPR 94, pages 32 36, Jerusalem, Ocober [4] A. Blake and M. Isard. Acive Conours. Springer Verlag, April [5] S. Boukir, P. Bouhemy, F. Chaumee, and D. Juvin. A local mehod for conour maching and is parallel implemenaion. MVA 98, 1(5/6):321 33, April [6] P. Bouhemy. A maximum likelihood framework for deermining moving edges. PAMI 99, 11(5): , May [7] J. Buenaposada and L. Baumela. Real-ime racking and esimaion of plane pose. In ICPR 2, volume 2, pages 697 7, Québec, Canada, Augus 22. [8] F. Chaumee. Image momens: a general and useful se of feaures for visual servoing. ITR 4, 2(4): , Augus 24. [9] N. Chiba and T. Kanade. A racker for broken and closely-spaced lines. In ISPRS 98, pages , Hakodae, [1] A. Compor, E. Marchand, and F. Chaumee. Robus model-based racking for robo vision. In IROS 4, Sendai, Japan, sepember 24. [11] T. Drummond and R. Cipolla. Real-ime visual racking of complex srucures. PAMI 92, 27(7): , July 22. [12] B. Espiau, F. Chaumee, and P. Rives. A new approach o visual servoing in roboics. ITRA 92, 8(3): , June [13] A.W. Fizgibbon. Robus regisraion of 2d and 3d poin ses. IVC 3, 21(12-13): , December 23. [14] G. Hager and P. Belhumeur. Efficien region racking wih parameric models of geomery and illuminaion. PAMI 98, 2(1): , Ocober [15] G. Hager and K. Toyama. The XVision sysem: A general-purpose subsrae for porable real-ime vision applicaions. CVIU 98, 69(1):23 37, January [16] P.-J. Huber. Robus Saisics. Wiler, New York, [17] S. Huchinson, G. Hager, and P. Corke. A uorial on visual servo conrol. ITRA 96, 12(5):651 67, Ocober [18] M. Isard and A. Blake. Icondensaion: Unifying lowlevel and high-level racking in a sochasic framework. In ECCV 98, pages yy, [19] F. Jurie and M. Dhome. Hyperplane approximaion for emplae maching. PAMI 2, 24(7):996 1, July 22. [2] D. Kragic and H. Chrisensen. Cue inegraion for visual servoing. ITRA 1, 17(1):19 26, February 21. [21] B.D. Lucas and T. Kanade. An ieraive image regisraion echnique wih an applicaion o sereo vision. In IJCAI 81, pages , [22] E. Marchand, P. Bouhemy, F. Chaumee, and V. Moreau. Robus real-ime visual racking using a 2D-3D model-based approach. In ICCV 99, volume 1, pages , Kerkira, Greece, Sepember [23] L. Masson, F. Jurie, and M. Dhome. Conour/exure approach for visual racking. In SCIA 3, volume 2749 of Lecure Noes in Compuer Science, pages Springer, 23. [24] I. Mahews, T. Ishikawa, and S. Baker. The emplae updae problem. PAMI 4, 26(6):81 815, June 24. [25] H.T. Nguyen, M. Worring, and R. van den Boomgaard. Occlusion robus adapive emplae racking. In ICCV 1, volume 1, pages , 21. [26] J.-M. Odobez and P. Bouhemy. Robus muliresoluion esimaion of parameric moion models. JV- CIR 95, 6(4): , December [27] L. Piegl and W. Tiller. The NURBS book (2nd ed.). Springer-Verlag New York, Inc., [28] A. Shahrokni, T. Drummond, and P. Fua. Texure boundary deecion for real-ime racking. In ECCV 4, volume 2, pages , Prague, Czech Republic, May 24. [29] J. Shi and C. Tomasi. Good feaures o rack. In CVPR 94, pages 593 6, Seale, Washingon, June [3] L. Vacchei, V. Lepei, and P. Fua. Sable 3 d racking in real-ime using inegraed conex informaion. In CVPR 3, volume 2, pages , Madison, WI, June 23. [31] M. Vincze. Robus racking of ellipses a frame rae. Paern Recogniion, 34(2): , February 21.