Localisation de caméra par recalage 2D-3D Perception pour le Véhicule Intelligent (PVI 2014) Lundi 30 juin 2014 Dandi Pandi Paudel Cédric Demonceaux Le2i UMR CNRS 6306 Pascal Vasseur Litis EA 4108 In So Kweon Yunsu Bok Rcv Lab KAIST Corée du Sud David Hyunchul Shim Unmanned System Research Group KAIST Corée du Sud 1
Localisation de caméra par recalage 2D-3D! Contexte : Projet ANR-NRF DrAACaR! Positionnement du problème! Formulation! Cas synchrone! Cas asynchrone! Résultats Expérimentaux! Conclusion et perspectives 2
Projet (ANR-NRF) DrAACaR Driver Assistance by Asynchronous Camera Ring (2012-2015) Objectif : Développer des méthodes pour la perception 3D de l environnement direct et complet d un véhicule! Réseau de caméras (et laser) faible coût! Pas de synchronisation entre les capteurs! Pas de calibrage extrinsèque! En temps réel! Système peu coûteux! Flexible! Rapidité d acquisition 3
Projet (ANR-NRF) DrAACaR 3 approches proposées 2D/2D 3D/3D 3D/2D Intégration dans un démonstrateur 4
Recalage 2D-3D Objectif : localisation précise d une caméra dans un environnement 3D connu! Méthodes directes :! descripteur 3D des points, sensible aux conditions d illumination J. Knopp, J. Sivic, and T. Pajdla. Avoiding confusing features in place recognition. ECCV 2010. T. Sattler, B. Leibe, and L. Kobbelt. Fast image-based localization using direct 2d-to-3d matching. ICCV 2011.! méthodes basées modèles S. Christy and R. Horaud. Iterative pose computation from line correspondences. CVIU 1999. M. Tamaazousti, V. Gay-Bellile, S. N. Collette, S. Bourgeois, and M. Dhome. Nonlinear refinement of structure from motion reconstruction by taking advantage of a partial knowledge of the environment. CVPR 2011. L. Liu and I. Stamos. Automatic 3d to 2d registration for the photorealistic rendering of urban scenes. In Com- puter Vision and Pattern Recognition (CVPR), Conference on, 2005.! Méthodes indirectes : SFM+ICP M. Corsini, M. Dellepiane, F. Ganovelli, R. Gherardi, A. Fusiello, and R. Scopigno. Fully automatic registration of image sets on approximate geometry. IJCV2013. 5
Recalage 2D-3D! Mises en correspondance 2D-3D connues! PnP problème! Mises en correspondance 2D-3D inconnues! SFM+ICP?! Principe : Utiliser conjointement les informations 2D et les informations 3D pour localiser précisément une caméra en mouvement! Hypothèses :! Caméra calibrée,! Correspondance 2D-2D connues 6
Recalage 2D-3D o w RX+t X 1- (R I t) position absolue de la caméra R t X 2- (R I t ) déplacement de la caméra entre image 1 et image 2 x 1 Rx 2 +t o 1 o 2 R t x 2 Cas asynchrone : Pouvons nous estimer conjointement 1 et 2 sans correspondance 2D-3D? Cas synchrone : Pouvons nous localiser le capteur en tenant compte simultanément des points 2D et 3D? 7
Formulation du problème R t o w x 1 X RX+t X Rx 2 +t o 1 o 2 x 2 Données : X k, P k =1 p Points 3D Matrice de projection (caméra calibrée) x j 1 $ xj 2, j =1 n Points image en correspondance R t Inconnues : (j) 7! k Correspondance 2D-3D (R t) Position caméra 1 par rapport au nuage de points 3D (R 0 t 0 ) Déplacement entre caméra 1 et caméra 2 8
Formulation du problème o w RX+t X Contraintes : x j 1 = P (R, t, X (j)) R t X x j 2 = P (R0 R, R 0 t + t 0,X (j) ) x 1 Rx 2 +t x 2 (x j 1 )T [t 0 ] R 0 x j 2 =0 arg o 1 o 2 min q,t,q 0,t 0, R t Problème à résoudre : nx (k x j 1 P (R, t, X (j) ) k 2 + k x j 2 P (R 0 R, R 0 t + t 0,X (j) ) k 2 ) j=1 tel que (x j 1 )T [t 0 ] R 0 x j 2 =0 k q k=k q 0 k=1 9
Formulation du problème o w RX+t X Contraintes : x j 1 = P (R, t, X (j)) R t X x j 2 = P (R0 R, R 0 t + t 0,X (j) ) x 1 Rx 2 +t x 2 (x j 1 )T [t 0 ] R 0 x j 2 =0 arg o 1 o 2 min q,t,q 0,t 0, R t tel que (x j 1 )T [t 0 ] R 0 x j 2 =0 k q k=k q 0 k=1 Problème à résoudre : nx [ (x j 1 P (R, t, X (j) )) + (x j 2 P (R 0 R, R 0 t + t 0,X (j) ))] j=1 10
Cas synchrone Les données 3D et 2D sont obtenues en même temps ( ex : capteur RGB-D) (R I t) connus nx arg min (x j q 0,t 0 2 P (R 0 R, R 0 t + t 0,X (j) )), j=1 tel que (x j 1 )T [t 0 ] R 0 x j 2 =0 Algorithme (1) 1. Initialisation : 2. Estimation de R t par résolution d un PnP problème(*) arg min q 0,t 0 (j) = arg min k21 p k xj 1 P (R, t, X k ) k j =1 n nx (x j 2 P (R 0 R, R 0 t + t 0,X (j) )) j=1 3. Estimation de la pose par minimisation de (1) (*) D. Nister, A minimal solution to the generalised 3-point pose problem, CVPR 2004 11
Cas asynchrone (R I t) inconnus nx arg min [ (x j q,t,q 0,t 0 1 P (R, t, X (j) )) + (x j 2 P (R 0 R, R 0 t + t 0,X (j) ))], j=1 tel que (x j 1 )T [t 0 ] R 0 x j 2 =0 Algorithme : (1) 1. Initialisation : R,t,R,t estimés par géolocalisation et SFM 2. Alignement itératif des caméras jusqu à convergence : (j) = arg min k k21 p xj 1 P (R, t, X k ) k j =1 n nx arg min [ (x j 1 P (R, t, X (j) )) + (x j 2 P (R 0 R, R 0 t + t 0,X (j) ))] R,t j=1 3. Estimation de la pose par minimisation de (1) 12
Résultats expérimentaux! Données de synthèse! Données réelles :! Cas Synchrone! Séquences Kaist! Séquences Kitti! Cas Asynchrone! Kinect! Benchmark 13
Résultats expérimentaux! 400 points 3D générés aléatoirement projetés sur des images 256*256 bruitées.! Initialisation de R avec erreur de 2 à 4 degrés par angle et T de +- 5%! 100 tests sont effectués par niveaux de bruit 14
Résultats expérimentaux! Séquences KAIST! KAIST Dataset (a) (b) Fig. (a) Reconstruction de la carte (3.5 km) (b) Fermetures de boucles durant le déplacement 15
Résultats expérimentaux! KAIST Dataset (a) (b) Fig. (a) Reconstruciton autout de la fermeture 1 (b) Image en ce lieu 16
Résultats expérimentaux Bok After refinement Y. Bok (*) Notre méthode Fig. Rouge : première visite, blanc : seconde visite (*) Y. Bok, Y. Jeong, D-G Choi, I. S. Kweon, Capturing Village-level Heritages with a Hand-held Camera-Laser Fusion Sensor. IJCV 2011 17
Résultats expérimentaux Boucle Taille(m) Bok et al. (m) Notre méthode (m) 1 351.76 4.063 1.548 2 386.38 4.538 1.469 3 224.37 4.765 4.398 4 242.87 1.696 1.077 5 931.14 3.884 2.858 6 1496.47 7.182 6.381 7 546.05 5.502 2.115
Résultats expérimentaux : KITTI! KITTI Dataset
Résultats expérimentaux : KITTI! KITTI Dataset (a) (b) (c) Fig. Images stéréo(a-b), données 3D associées(c).
Résultats expérimentaux : KITTI Sq. N Nbre d images Estimation initiale Notre Méthode T(%) R(deg/m) T(%) R(deg/m) 3 801 1.6774 0.000432 1.6398 0.000216 5 2761 1.9147 0.000245 1.8679 0.000162 7 1101 2.3410 0.000231 1.5689 0.000192 8 4071 2.3122 0.000447 1.9799 0.000196 9 1591 1.7562 0.000270 1.5604 0.000197 Tab. Translation ( T ) and Rotation ( R) errors in Initial and Refined results for five different sequences
Résultats expérimentaux : KITTI Fig. Map built by our method (Initial Estimate and Refined Motion) vs. Ground Truth for the fifth sequence.
Résultats expérimentaux : cas asynchrone (a) Scène 3D, (b) paire d images
Résultats expérimentaux : cas asynchrone Table : Erreur des reconstructions sur le ballon. (Angle HH : 138.19, Circonférence : 68-70cm)
Résultats expérimentaux : cas asynchrone Fig. 3D scene from laser scanner (left) and 2D images (right)
Résultats expérimentaux : cas asynchrone Fig. Texture mapping
Résultats expérimentaux : cas asynchrone Fig. Bundle adjustment (left) vs. Out method (right)
Résultats expérimentaux : cas asynchrone 28
Résultats expérimentaux : cas asynchrone R t Erreur 3D Ajustement de faisceaux 0.0436 0.311 0.002 Notre méthode 0.002 0.0019 0.0015 Notre méthode + ajustement de faisceaux 0.0251 0.0172 0.002 29
Conclusion et perspective! Méthode tenant compte de l information 3D disponible de l environnement! Aucune mise en correspondance entre les informations 2D et 3D! Pas de critère photométrique! Multi-modal! Plus performant qu un ajustement de faisceaux sans connaissance a priori! Sensible à l initialisation! Dépend de la qualité du nuage de points 3D! Approche globale, optimale 30