Détection et mise en correspondance de points d intérêt pour la propagation de germes RAPPORT DE STAGE 2006-2007 Master 2 Recherche Spécialité Image, Information et Hypermédia par Guillaume GALES Directeur : Patrice Dalle Professeur d université UPS, Toulouse Rapporteur : Vincent Charvillat Maître de conférences INP, Toulouse Encadrants : Alain Crouzil Maître de conférences UPS, Toulouse Sylvie Chambon Post-doctorante ENST, Paris Institut de Recherche en Informatique de Toulouse UMR 5505
Remerciements Je remercie sincèrement Sylvie Chambon et Alain Crouzil de m avoir encadré. Leurs conseils et leur patience ont été très appréciés. Je tiens à remercier Patrice Dalle de m avoir permis de faire ce stage au sein de son équipe dont je remercie tous les membres, en particulier Benoît Bocquillon, Frédéric Courteille et Pierre Gurdjos pour leurs aides. Également merci à Anne-Marie pour sa gentillesse. Je remercie Adrien, Aurore, François, Julien, Lucille, Mathieu, Mika, Noura, Sylvain, Virginie, Zhiyi et bien sûr Manu (sinon, ils vont être fâchés). Merci et pardon à tous ceux que j ai oublié. iii
Résumé La mise en correspondance stéréoscopique est une étape importante dans un système de reconstructions 3D. De nombreux travaux portent sur ce thème. Les différentes méthodes proposées se divisent en deux catégories : les méthodes locales et les méthodes globales. L avantage de la première catégorie est la mise en œuvre simple et efficace pour des temps de calcul relativement faibles. Malheureusement, comme nous ne prenons pas en compte les images dans leur globalité, nous nous trouvons souvent dans des cas ambigus, ce qui entraîne de nombreuses erreurs d appariement. Les méthodes globales tentent de pallier cet inconvénient. Leur principe général consiste à minimiser une fonction de coût qui fait intervenir l ensemble des pixels des images. Parmi les méthodes globales, il existe des méthodes s appuyant sur des germes ou des points de contrôle qui correspondent à des points où la mise en correspondance est fiable. Ces germes sont utilisés pour conditionner la mise en correspondance globale. Le travail présenté dans ce rapport a consisté, dans un premier temps, à faire un état de l art sur la manière de détecter, de mettre en correspondance les points de contrôle et de les utiliser dans une mise en correspondance de pixels. Nous avons ensuite évalué les performances de deux détecteurs de points d intérêt très utilisés et de différentes techniques permettant d apparier ces points afin d étudier leur influence sur la qualité finale du résultat d une méthode de mise en correspondance par propagation de germes. v
Table des matières Introduction 1 I Mise en correspondance de pixels et détection de points d intérêt 9 1 État de l art 11 1.1 Introduction............................................ 11 1.2 Difficultés et contraintes..................................... 12 1.3 Méthodes locales......................................... 15 1.4 Méthodes globales........................................ 18 2 Détection de points d intérêt 21 2.1 Introduction............................................ 21 2.2 Détecteurs............................................. 22 2.3 Caractérisation et mise en correspondance........................... 28 3 Mise en correspondance par propagation de germes 29 3.1 Introduction............................................ 29 3.2 Sélection des germes....................................... 29 3.3 Mise en correspondance des germes............................... 30 3.4 Propagation............................................ 30 3.5 Synthèse des méthodes...................................... 30 3.6 Algorithme de Lhuillier..................................... 30 3.7 Algorithme de Wei........................................ 33 II Étude de la mise en correspondance par propagation de germes 35 4 Évaluation des détecteurs de points d intérêt pour la sélection de germes 37 4.1 Introduction............................................ 37 4.2 Critères.............................................. 37 4.3 Images testées........................................... 39 4.4 Répétabilité du détecteur de Harris............................... 39 4.5 Répétabilité du détecteur SIFT................................. 42 4.6 Synthèse des résultats obtenus................................. 42 vii
viii Table des matières 5 Évaluation de la mise en correspondance de points d intérêt 45 5.1 Introduction............................................ 45 5.2 Critères.............................................. 45 5.3 Mise en correspondance des points d intérêt avec ZNCC................... 46 5.4 Mise en correspondance des points d intérêt avec SMPD 2.................. 49 5.5 Mise en correspondance en utilisant les vecteurs descripteurs de SIFT........... 53 5.6 Synthèse des résultats obtenus................................. 53 6 Évaluation de la mise en correspondance par propagation 67 6.1 Introduction............................................ 67 6.2 Critères.............................................. 67 6.3 Résultats de la propagation................................... 68 6.4 Synthèse des résultats obtenus................................. 69 Conclusion 75 Bibliographie 76
Table des figures 1 Axes de la vision par ordinateur................................. 2 2 Robot mars rover......................................... 5 3 Acquisition des images...................................... 6 4 Modèle géométrique du capteur stéréoscopique binoculaire.................. 7 1.1 Exemple de carte de disparité.................................. 12 1.2 Disparité.............................................. 13 1.3 Problème des occultations..................................... 13 1.4 Problème des discontinuités de profondeur........................... 14 1.5 Géométrie épipolaire........................................ 14 1.6 Contrainte d unicité........................................ 15 1.7 Contrainte d ordre........................................ 16 1.8 Contrainte de symétrie...................................... 16 1.9 Exemple d ensembles de pixels.................................. 17 1.10 Principe des méthodes globales.................................. 20 2.1 Détecteur de Harris........................................ 23 2.2 Entropie.............................................. 26 2.3 Détecteur de SUSAN....................................... 27 3.1 Mise en correspondance à partir de points de contrôle..................... 31 4.1 Répétabilité moyenne du détecteur de Harris.......................... 41 4.2 Répétabilité moyenne du détecteur de Harris (taille de fenêtre variable) et de SIFT.... 43 5.1 Taux de rappel moyens pour Harris avec ZNCC........................ 47 5.2 Taux de rappel moyens pour Harris (union) avec ZNCC.................... 48 5.3 Taux de rappel moyens pour SIFT avec ZNCC......................... 49 5.4 Taux de rappel moyens pour Harris avec SMPD 2........................ 50 5.5 Taux de rappel moyens pour Harris (union) avec SMPD 2................... 51 5.6 Taux de rappel moyens pour SIFT avec SMPD 2........................ 52 5.7 Taux de rappel moyens pour SIFT avec descripteurs...................... 53 ix
Liste des tableaux 3.1 Méthodes de mise en correspondance par propagation de germes............... 31 4.1 Images testées........................................... 40 4.2 Répétabilité............................................ 44 5.1 Mise en correspondance des points d intérêt........................... 55 5.2 Mise en correspondance des points d intérêt (suite)....................... 56 5.3 Mise en correspondance des points d intérêt (suite)....................... 57 5.4 Mise en correspondance des points d intérêt (suite)....................... 58 5.5 Mise en correspondance des points d intérêt (suite)....................... 59 5.6 Mise en correspondance des points d intérêt (suite)....................... 60 5.7 Mise en correspondance des points d intérêt (suite)....................... 61 5.8 Mise en correspondance des points d intérêt (suite)....................... 62 5.9 Taux de rappel.......................................... 63 5.10 Taux de rappel (suite)....................................... 64 5.11 Taux d appariements corrects sur le nombre de points d intérêt détectés........... 65 5.12 Taux d appariements corrects sur le nombre de points d intérêt détectés (suite)....... 66 6.1 Densités des cartes de disparité.................................. 69 6.2 Résultats obtenus pour les couples d images testées...................... 70 6.3 Cartes de disparités obtenues................................... 71 6.4 Densités des cartes de disparité.................................. 71 6.5 Résultats obtenus pour les couples d images testées...................... 72 6.6 Cartes de disparités obtenues................................... 73 xi
Liste des Algorithmes 1.1 Algorithme de mise en correspondance locale.......................... 18 1.2 Algorithme de mise en correspondance globale......................... 19 3.1 Algorithme de propagation de Lhuillier et al........................... 32 3.2 Algorithme de Wei et al...................................... 34 xiii
Introduction Vision par ordinateur En 1950, le mathématicien A. Turing se demandait «Can machines think?». En 1956, l informaticien J. McCarthy organisait la première conférence sur l intelligence artificielle à Darmouth College. Cette nouvelle discipline a alors pour ambition de faire faire aux machines des raisonnements similaires à l intelligence humaine. Tout comme l homme, la machine doit être capable notamment, d entendre, de voir et d interpréter les données acquises. De là, sont nés de nouveaux axes de recherche, dont la vision par ordinateur. La vision par ordinateur peut aussi se diviser en différents domaines comme illustré sur la figure 1 : reconnaissance des formes, reconstruction 3D, analyse du mouvement, analyse de la couleur. Les applications sont nombreuses, celles citées ci-après le sont à titre d exemple. Elles ne constituent pas une liste exhaustive mais donnent une idée des objectifs de la vision par ordinateur. Les premières applications sont pour la robotique. Il faut permettre au robot de reconnaître des objets et, bien sûr, de se déplacer en évitant des obstacles. Par exemple, le robot mars rover 1 (cf. figure 2) de la National Aeronotics and Space Administration (NASA) possède deux caméras et reconstruit en 3D le terrain sur le lequel il se déplace afin de choisir le chemin le plus sûr (en évitant les obstacles) pour arriver à une destination prédéfinie. Les principales revues en vision par ordinateur sont : Pattern Recognition (PR); Image and Vision Computing (IVC) ; IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI); IEEE Transactions on Image Processing (T-IP) ; Computer Vision and Image Understranding (CVIU) ; International Journal of Computer Vision (IJCV) ; Machine Vision and Applications Journal (MVA). Les principales conférences de ce domaine sont : International Conference on Computer Vision (ICCV) ; European Conference on Computer Vision (ECCV); Computer Vision and Pattern Recognition (CVPR); Asian Conference on Computer Vision (ACCV); British Machine Vision Conference (BMVC). Dans ce rapport, nous allons nous intéresser plus particulièrement à la stéréovision binoculaire qui utilise deux images d une même scène. Nous allons traiter le problème de la mise en correspondance (appariement, matching) qui consiste à retrouver sur chaque image les primitives qui correspondent à une même entité de la scène. Cette étape de mise en correspondance s inscrit dans la chaîne de reconstruction comme indiqué sur la 1 mars.rover.nasa.gov/home/ 1
3 figure 1. Elle intervient après l étape de calibrage de la caméra qui consiste à retrouver les paramètres du capteur. Acquisition des images Pour l acquisition des images, on doit disposer d une scène, d une source lumineuse et d un capteur, cf. figure 3. Les images sont représentées par des matrices de pixels, chaque pixel possédant une valeur de niveau de gris (l intensité) codée généralement de 0 à 255. Pour les images couleur, le système le plus courant est RVB dans lequel on stocke les niveaux de Rouge, de Vert et de Bleu pour chaque pixel. Calibrage Le calibrage «classique» est l étape qui consiste à déterminer les paramètres suivants, cf. figure 4 : A g (respectivement A d ) est la matrice des paramètres extrinsèques gauche (respectivement droite) qui décrit la rotation et la translation entre le repère scène (X, Y,Z) et le repère caméra gauche (x g,y g,z g ) (respectivement le repère caméra droite (x d,y d,z d )); A g d est la matrice de déplacement entre le repère caméra gauche et le repère caméra droite ; C g (respectivement C d ) est la matrice des paramètres intrinsèques gauche (respectivement droite) qui décrit le passage du repère caméra gauche (x g,y g,z g ) (respectivement du repère caméra droite (x d,y d,z d )) au repère image gauche (u g,v g ) (respectivement au repère image droite (u d,v d )); M g (respectivement M d ) est la matrice des de projection perspective gauche (droite) qui décrit le passage du repère scène (X, Y,Z) au repère image gauche (u g,v g ) (respectivement au repère image droite (u d,v d )). Mise en correspondance La mise en correspondance stéréoscopique consiste à retrouver dans les images gauche et droite, les primitives homologues, c est-à-dire les primitives qui sont la projection de la même entité de la scène. Plus précisément, dans le cadre de ce travail, nous nous sommes intéressés à la mise en correspondance de pixels. Sur la figure 4, le point P se projette en p g dans l image gauche et p d dans l image droite. Les points p g et p d se correspondent et on dit qu ils sont homologues. Reconstruction Lorsque l on a calibré le capteur stéréoscopique on est capable de retrouver les coordonnées du point P par triangulation. Mise en correspondance par croissance de germes Dans le cadre de ce travail, nous nous intéressons à des méthodes de propagation à partir de germes (seeds). Ces méthodes partent d un appariement de germes initial fiable et propagent ces correspondances afin d obtenir une mise en correspondance la plus dense possible. Ces germes sont souvent associés à la notion de point d intérêt. On appelle point d intérêt un point qui possède des caractéristiques particulières qui permettent de le distinguer des autres points de l image, comme, par exemple, les coins. Une détection et une mise en correspondance de points d intérêt sont souvent utilisées pour estimer les paramètres de la relation géométrique qui peut lier deux images (estimation de la matrice fondamentale, d une homographie). Lorsque l on utilise une méthode de mise en correspondance à partir de germes, la fiabilité de la mise en correspondance de ces germes est capitale pour obtenir des résultats corrects lors de la propagation. Une
4 Introduction fois la liste des germes établie, on peut procéder à leur propagation. Cette propagation peut se faire selon la stratégie du «meilleur d abord». On commence par regarder au voisinage des couples de points dont la mise en correspondance est la plus fiable et on cherche les nouveaux couples les plus fiables. D autres méthodes, utilisant des fonctions de coût globales sont également utilisées. Un système stéréoscopique est aussi utilisé dans le projet ARGO (Università degli studi di Parma 2 en Italie) pour la conduite automatique (ou semi-automatique) de véhicules. Le système calcule à partir d images reçues par des caméras, la position relative du véhicule par rapport à la route, en extrait la géométrie et repère les obstacles (autres véhicules, piétons). La stéréovision est aussi utilisée dans les domaines de la cartographie, de la capture de mouvement 3D, des images satellites, médicales ou encore industrielles. Problématique Il existe différents opérateurs pour détecter les points d intérêt. Les objectifs de ce stage sont : établir un état de l art des détecteurs de points d intérêt, de leur mise en correspondance et de la manière d évaluer ces détecteurs ; étudier l influence des différents germes utilisés (détectés avec des opérateurs différents) sur les méthodes de propagation de germes. Organisation du rapport Dans la première partie de ce rapport, nous présentons différentes méthodes de mise en correspondance (dont la mise en correspondance à partir de germes) et de détection de points d intérêt. Dans la seconde partie nous évaluons différents détecteurs avec différents paramètres afin de déterminer lequel se prête le mieux à la propagation. 2 www.argo.ce.unipr.it
Fig. 2 Robot mars rover - Dans le but de se diriger, les rovers prennent une paire stéréoscopique d images, à partir de laquelle une carte du terrain en 3D est générée automatiquement. L accessibilité du terrain et la sûreté sont ensuite déterminées à partir de la hauteur et de la densité des roches ou des dénivelés et de la rugosité du terrain. Plusieurs chemins possibles sont considérés avant que le rover ne choisisse le chemin le plus court et le plus sûr vers une destination prédéfinie (photographie extraite de mars.rover.nasa.gov/home/). 5
Première partie Mise en correspondance de pixels et détection de points d intérêt 9
Chapitre 1 État de l art Sommaire 1.1 Introduction...................................... 11 1.2 Difficultés et contraintes............................... 12 1.2.1 Difficultés de la mise en correspondance....................... 12 1.2.2 Contraintes pour la mise en correspondance..................... 13 1.3 Méthodes locales.................................... 15 1.3.1 Quelques mesures de corrélation........................... 15 1.3.2 Algorithme général................................... 18 1.4 Méthodes globales................................... 18 1.4.1 Algorithme général................................... 18 1.4.2 Méthodes globales à base de régions (segment-based)................ 19 1.1 Introduction La mise en correspondance stéréoscopique de pixels est l étape qui consiste à retrouver sur chacune des images les primitives, dans notre cas les pixels, qui correspondent à, une même entité, respectivement un même point de la scène. Sur la figure 4, le point P se projette en p g dans l image gauche et p d dans l image droite. Les points p g et p d se correspondent et on dit qu ils sont homologues. Lorsque l on cherche à retrouver les correspondants de tous les pixels, on parle de mise en correspondance dense. Le lecteur intéressé trouvera plus de détails et de références dans [Chambon 05]. Généralement, on part de l image de référence (disons la gauche) et on cherche le correspondant sur la seconde image (la droite). Lorsqu on l a trouvé, une des façons de procéder est d enregistrer la disparité qui est le vecteur qui exprime la différence entre les coordonnées du pixel dans l image de gauche et les coordonnées du correspondant dans l image de droite. À chaque pixel p g = (i j) T de l image gauche, le vecteur disparité est défini par (d l d c ) T = (i i j j) T où p d = (i j ) T sont les coordonnées dans l image droite du correspondant de p g. Le résultat d une mise en correspondance est généralement représenté par une carte de disparité qui est visualisée sous la forme d une image dans laquelle le niveau de gris de chaque pixel représente sa disparité, cf. figures 1.1 et 1.2. Dans le cas des méthodes locales, on suppose que les pixels voisins de deux pixels homologues ont des niveaux de gris qui se ressemblent. Cette ressemblance peut-être quantifiée par une mesure de corrélation. Ainsi, seul le voisinage d un pixel est utilisé pour retrouver son correspondant. Ces méthodes sont rapides 11
12 Chapitre 1. État de l art Fig. 1.1 Exemple de carte de disparité - Plus les pixels sont foncés, plus la disparité est faible et donc plus ils correspondent à des points de la scène qui sont éloignés du capteur. Les pixels noirs sont ceux pour lesquels le correspondant se trouve dans une zone occultée. mais entraînent certaines ambiguïtés. Il existe également des méthodes globales qui utilisent la totalité de l image pour retrouver les pixels homologues. Ces méthodes font généralement une première estimation des correspondances puis elles affinent le résultat en minimisant une fonction de coût global. 1.2 Difficultés et contraintes 1.2.1 Difficultés de la mise en correspondance Les différents problèmes souvent rencontrés par les méthodes de mise en correspondance sont : Le bruit - Un problème commun à la vision par ordinateur et au traitement d images en général est le bruit qui affecte les niveaux de gris ou la couleur des pixels. Pour limiter les conséquences de ce problème, on peut appliquer un filtre dans l image. Il existe différents filtres adaptés à chaque type de bruit. Les occultations - Il s agit des zones qui ne sont visibles que dans une image et qui sont donc occultées dans l autre image, cf. figure 1.3. Cela pose le problème de la détermination des correspondants des pixels occultés notamment pour les méthodes locales, car dans ce cas l hypothèse de départ sur les voisinages respectifs n est plus respectée. discontinuités de profondeur - Au niveau d un contour séparant deux objets de profondeurs différentes, les voisinages ne sont pas les mêmes sur les deux images, cf. figure 1.4. Par conséquent, les méthodes locales basées sur le voisinage du pixel considéré montrent une certaine faiblesse.
14 Chapitre 1. État de l art Image gauche Image droite Fig. 1.4 Problème des discontinuités de profondeur - Les voisinages de ces deux pixels correspondants, représentés par les deux cercles blancs, sont différents, ce qui rend leur comparaison difficile. parle dans ce cas de configuration parallèle et, pour un pixel de l image droite situé sur la ligne u g, la zone de recherche de son correspondant se réduit à la même ligne u g = u d de l image droite. Il est possible d appliquer une transformation géométrique, appelée rectification épipolaire, à un couple d images issues d un capteur en configuration parallèle. Plan image gauche Plan épipolaire P Plan image droit p g p d O g Centre optique gauche Droites épipolaires conjuguées, D g et D d O d Centre optique droit Fig. 1.5 Géométrie épipolaire. La contrainte d unicité - Soit l image gauche l image de référence, chaque pixel de l autre image possède au plus un correspondant dans l image de référence. Cette contrainte, permet également de réduire le coût des calculs car si un pixel de l image de droite a été attribué à un pixel de l image de gauche, alors, il n est plus nécessaire de le prendre en compte lorsque l on cherche les correspondants des pixels restants à traiter. Cependant, cette contrainte peut être violée en présence du phénomène de raccourcissement, cf. figure 1.6. La contrainte d ordre - L ordre des pixels de l image gauche le long d une droite épipolaire doît être le même que celui de leurs correspondants. Cette contrainte peut aussi être violée, cf. figure 1.7. La contrainte de visibilité - De très nombreuses techniques ont été proposées pour prendre en compte le problème des occultations. L une d elles, proposée par Sun et al. [Sun 05], introduit la contrainte suivante : un pixel occulté ne doit pas avoir de correspondant et un pixel non-occulté doit avoir au moins un correspondant. La contrainte de symétrie - Toujours pour résoudre le problème des occultations, certains auteurs
1.3. Méthodes locales 15 (a) p i,j1 g p i,j2 g Image gauche p i,v d Image droite P 1 P 2 (b) p i,j1 g p i,j2 g p i,v d O g Caméra gauche O d Caméra droite Fig. 1.6 Contrainte d unicité - Dans la figure (a), nous pouvons voir les correspondances entre p i,j 1 g et p i,v d et entre p i,j 2 g et p i,v d qui ne respectent pas la contrainte d unicité. En (b), Il s agit d une vue de dessus d un capteur binoculaire en configuration parallèle et d une scène. C est un exemple de violation de la contrainte provoquée par un raccourcissement : tous les points qui se trouvent sur le segment de droite [P 1 P 2 ] se projettent sur le pixel p i,v d dans l image droite. ([Sun 05, Szeliski 02, Bobick 99]) proposent un modèle symétrique et calculent les cartes de disparité gauche et droite puis les comparent afin de localiser les zones occultées, cf. figure 1.8. 1.3 Méthodes locales 1.3.1 Quelques mesures de corrélation Les méthodes de mise en correspondance locale sont basées sur des mesures de corrélation. Elles permettent de quantifier la ressemblance entre deux pixels et leurs voisinages. Nous décrivons ici quelques mesures, mais le lecteur intéressé trouvera une étude complète dans [Chambon 05]. Soit N f = (2N v + 1) (2N h + 1) la taille des fenêtres de corrélation, les niveaux de gris des pixels des fenêtres de corrélation sont stockés dans les vecteurs f l = (...I i+p,j+q l...) T = (...fl k...) T où fl k est l élément k du vecteur f l, p [ N v ;N v ], q [ N h ;N h ] et k [0;N f 1]. Nous avons plusieurs exemples de voisinage 3 3 dans la figure 1.9. Nous pouvons voir que les ensembles (a) et (b) sont fortement corrélés. En revanche, les ensembles (a) et (c) ne le sont pas.
16 Chapitre 1. État de l art p i,j1 g p i,j2 g p i,v1 d (a) Image gauche Image droite p i,v2 d P 1 (b) p i,j2 g p i,j1 g P 2 p i,v1 d p i,v2 d O g Caméra gauche O d Caméra droite Fig. 1.7 Contrainte d ordre - En (a), nous pouvons voir deux correspondances qui respectent la contrainte d ordre et deux correspondances qui ne la respectent pas. En (b), une vue de dessus d un capteur binoculaire en configuration parallèle et d une scène, montre un exemple de violation de la contrainte d ordre (le plan transparent vertical virtuel passant par les points P 1 et P 2, représenté en tirets, est fortement incliné par rapport au plan des images). Lorsque la mise en correspondance est acceptée, on la marque d un trait plein. Dans le cas contraire, elle est marquée par un trait pointillé. p i,j1 g Image gauche p i,v d Image droite p i,j2 g Fig. 1.8 Contrainte de symétrie (vérification bidirectionnelle) - Nous pouvons remarquer que les correspondances entre p i,j 1 g et p i,v d et entre p i,v d et p i,j 2 g sont rejetées lorsqu on applique la contrainte de symétrie.
1.3. Méthodes locales 17 1 1 0 1 0 0 7 0 3 2 10 7 1 9 8 0 5 10 11 3 0 12 4 1 5 0 2 Fig. 1.9 Exemple d ensembles de pixels de voisinage 3 3. De gauche à droite, l ensemble (a), l ensemble (b) et l ensemble (c). 1.3.1.1 Somme des carrés des différences (Sum of Squared Differences) Pour quantifier la dissimilarité entre deux ensembles de niveaux de gris, on peut simplement calculer le carré de la distance euclidienne entre ces deux ensembles : SSD(f g,f d ) = f g f d 2 (1.1) Ainsi, lorsque les deux ensembles testés sont identiques, cette mesure vaut 0. En revanche, plus ils sont différents, plus le score est grand. Cette mesure est très utilisée (par exemple dans [Wei 04]). Avec les ensembles (a) et (b) de la figure 1.9, cette mesure donne 7 et 133 avec (a) et (c). 1.3.1.2 Somme des valeurs absolues des différences (Sum of Absolute Differences) Cette fonction mesure également la dissimilarité entre deux ensembles de pixels : SAD(f g,f d ) = f g f d 1 (1.2) Cette mesure est une des plus populaires et elle est, entre autres, utilisée dans [Wei 04]. Avec les ensembles (a) et (b) de la figure 1.9, cette mesure donne 7 et 31 avec (a) et (c). 1.3.1.3 Corrélation croisée centrée normalisée (Zero-mean Normalized Cross Correlation) Pour être robuste aux changements de luminosité, on peut utiliser une fonction de corrélation croisée centrée et normalisée : ZNCC(f g,f d ) = (f g f g ).(f d f d ) f g f g f d f d où f l est le vecteur dont les éléments sont la moyenne des éléments du vecteur f l. Cette mesure de similarité est notamment utilisée dans [Lhuillier 00]. Elle donne une valeur dans l intervalle [ 1;1], d autant plus grande que les deux ensembles testés sont corrélés. Avec les ensembles (a) et (b) de la figure 1.9, cette mesure donne 0.98 et 0.48 avec (a) et (c). 1.3.1.4 Estimation robuste de la variance (Smooth Median Powered Deviation) Dans sa thèse [Chambon 05], l auteur propose une estimation robuste, basée sur l estimateur SMAD (Smooth Median Absolute Deviation), comme la somme des h premières puissances des écarts à la médiane, notée SMPD P et donnée par : (1.3) h 1 SMPD P (f g,f d ) = ( f g f d med(f g f d ) P ) k:nf 1 (1.4) k=0 où h = 1+ N f 2. Il s agit d une mesure de dissimilarité. Avec les ensembles (a) et (b) de la figure 1.9, cette mesure donne 3 et 10 avec (a) et (c).
18 Chapitre 1. État de l art 1.3.2 Algorithme général On calcule les scores de corrélation sur une fenêtre centrée sur le pixel étudié dans l image de référence et sur une fenêtre centrée sur le pixel candidat dans l autre image. Ces candidats peuvent être tous les pixels de l image de droite ou, par exemple, seulement les pixels de la même ligne dans le cas où les images ont subi une rectification épipolaire. Le pixel sélectionné est celui qui obtient le meilleur score de corrélation (il s agit de la méthode winner takes all, notée WTA), cf. algorithme 1.1. Fonction mise en correspondance locale (gauche : Image, droite : Image) : Carte de disparité Pour chaque pixel p i,j g de gauche faire Pour chaque pixel p k,l d candidat de droite faire [Calcul des scores de corrélation entre le pixel étudié et les correspondants possibles] score score de corrélation calculé sur les voisinages de p i,j g Fin Pour Associer à p i,j g et de p k,l d le candidat ˆp k,l d ayant obtenu le meilleur score ; [Calcul de la disparité entre p i,j g et le correspondant que l on vient de trouver] (d l d c ) T = ˆp k,l d pi,j g Fin Pour Retourner carte de disparité Fin Algorithme 1.1 Algorithme de base de mise en correspondance locale de l image de référence, ici l image de gauche, vers l autre image, l image de droite. On cherche les correspondants de chaque pixel de l image de référence parmi les pixels candidats de l autre image. Celui qui obtient le meilleur score de corrélation est séléctionné. Malheureusement, les méthodes locales ne prennent pas en compte la totalité de l image et sont confrontées à des ambiguïtés. Il en résulte de nombreuses erreurs de mise en correspondance. Dans le but d éliminer de mauvais appariements, il est possible de faire une vérification bidirectionnelle qui correspond à l utilisation de la contrainte de symétrie. On cherche les correspondants de l image de gauche vers l image de droite puis de l image de droite vers l image de gauche. Les couples couples qui apparaissent dans les deux résultats sont alors validés. Dans le cas contraire, où on ne retrouve pas le même correspondant, on considère que les pixels concernés se trouvent dans une zone occultée. 1.4 Méthodes globales 1.4.1 Algorithme général Les méthodes globales prennent en compte la totalité de l image. Elles sont basées sur le principe suivant : si la carte de disparité calculée est correcte et si on construit une image à partir de l image de référence (disons celle de gauche) et la carte de disparité, alors l image obtenue doit ressembler à l image de droite. On cherche alors à trouver la carte de disparité qui maximise une fonction globale de similarité. La recherche de ce maximum peut se faire avec un algorithme glouton ([Tao 01, Bleyer 04]) mais trop coûteux, cf. algorithme 1.2. Des optimisations ont été proposées : programmation dynamique
1.4. Méthodes globales 19 dans [Veksler 05], coupure de graphe dans [Hong 04], propagation de croyances dans [Klaus 06]. Le lecteur intéressé par les différentes méthodes d optimisation utilisées peut consulter [Chambon 05]. Fonction mise en correspondance globale (gauche : Image, droite : Image) : Carte de disparité la carte courante calcul de la disparité initiale() similarité droite image déformée Tant que (similarité seuil) faire Déforme l image de référence en fonction de la carte de disparité courante similarité droite image déformée la carte courante mise à jour de la disparité Fait Retourner carte de disparité Fin Algorithme 1.2 Algorithme de mise en correspondance globale. Tant que la carte de disparité trouvée ne permet pas d obtenir une similarité satisfaisante entre l image déformée (à partir de l image de gauche et de cette carte de disparité) et l image de droite, on itère. Les méthodes globales ajoutent aussi une contrainte de lissage, notée E lissage, qui quantifie à quel point la carte de disparité respecte certaines contraintes que l on se donne (limite du gradient de disparité, contrainte d unicité). Par conséquent, le problème peut-être normalisé de la manière suivante : ˆd = argmin d E(d) = E attache (d) + λe lissage (d) où d est la fonction de disparité recherchée. (1.5) où d est la fonction de disparité recherchée et E attache (d) le terme d «attache aux données». De façon générale, on peut écrire : E attache (d) = i,j C(i,j, d(i,j)) où C(i,j, d(i,j)) représente le coût de l appariement du pixel (i,j) si on lui affecte la disparité d(i,j). 1.4.2 Méthodes globales à base de régions (segment-based) Il s agit généralement de méthodes globales où l on commence par découper l image en régions (on parle également de segments dans le cas d images rectifiées) car on suppose que les pixels d une même région ont une chance plus grande d avoir des valeurs de disparité proches. Cela permet également d avoir des contours bien définis (ce qui était difficile avec les méthodes locales en raison du problème de discontinuité de profondeur). Un algorithme de segmentation couleur est souvent utilisé. La méthode par mean-shift de [Comaniciu 97] est employée par [Tao 01, Klaus 06, Hong 04]. [Bleyer 04] utilise la méthode de segmentation proposée dans [Christoudias 02]. Un exemple de méthode est la méthode présentée dans [Klaus 06]. Cette méthode est une des mieux classées dans le protocole de Scharstein et Szeliski 1 de [Scharstein 02]. Elle se divise en quatre étapes : segmentation couleur; utilisation d un score de corrélation adaptatif qui maximise le nombre de correspondances fiables ; assignation d une valeur de disparité à chaque région ; recherche de la disparité optimale en utilisant une propagation de croyances reposant sur le modèle des champs de Markov. 1 bj.middlebury.edu/~schar/stereo/neweval/php/results.php
20 Chapitre 1. État de l art Image de gauche Image de droite Calcul de la carte de disparité Déformation de l'image Calcul de la mesure globale de similarité Carte de disparité correcte? Oui Non Modifier la carte de disparité Carte de disparité Fig. 1.10 Principe des méthodes globales - On cherche à maximiser une fonction de similarité entre l image réelle et celle obtenue à partir de la carte de disparité. On suppose que lorsque la similarité est maximale, la carte de disparité est correcte.
Chapitre 2 Détection de points d intérêt Sommaire 2.1 Introduction...................................... 21 2.1.1 Méthodes basées sur les contours........................... 22 2.1.2 Méthodes basées sur l intensité............................ 22 2.1.3 Méthodes basées sur des modèles paramétriques.................. 22 2.2 Détecteurs........................................ 22 2.2.1 Détecteur de Harris.................................. 22 2.2.2 Variantes de Harris................................... 24 2.2.3 Détecteur SIFT de Lowe................................ 25 2.2.4 Détecteur de Kadir................................... 25 2.2.5 Détecteur de Moravec................................. 25 2.2.6 Détecteur de Beaudet................................. 26 2.2.7 Détecteur SUSAN de Smith.............................. 26 2.2.8 Autres détecteurs.................................... 27 2.3 Caractérisation et mise en correspondance.................... 28 2.1 Introduction Les points d intérêt (ou point of interest) sont définis comme étant des points qui possèdent des caractéristiques qui permettent de les distinguer des autres points de l image, comme par exemple un fort contraste. Historiquement, on a cherché à extraire les coins des objets dans une image, mais les détecteurs ne trouvaient pas seulement les coins, mais également d autres points dans des zones texturées ou en présence de bruit. Un exemple de points intéressants est les coins des quadrillages utilisés lors de l étape de calibrage de la caméra. Les points d intérêt sont également utilisés dans différentes applications : la robotique, l indexation ou la reconnaissance d objets (on peut extraire d une image une suite de points caractéristiques d un objet afin de pouvoir l indexer dans une base de données), le suivi (ou tracking des objets dans une séquence d images, ou encore l imagerie médicale (les points d intérêt correspondent à des points anatomiques particuliers). D après Schmid et al [Schmid 98, Schmid 00], on distingue trois catégories de détecteurs : les détecteurs s appuyant sur une détection de contours ; les détecteurs exploitant les niveaux de gris ; les détecteurs utilisant des modèles paramétriques. 21
22 Chapitre 2. Détection de points d intérêt 2.1.1 Méthodes basées sur les contours On commence par appliquer un détecteur de contours dans l image puis on cherche sur ces contours les points d inflexion, les points où la courbure est localement maximale ou encore les points d intersections de plusieurs contours (les jonctions). Ces méthodes sont parmi les plus anciennes, cf. [Medioni 87]. [Schmid 00] cite certaines de ces méthodes. On peut également y ajouter [Ruzon 99] qui utilise les régions mais qui confirme les points trouvés avec les contours. Dans [Smith 97], il s agit d un détecteur de contour qui peut servir à détecter des coins. 2.1.2 Méthodes basées sur l intensité Ces méthodes sont basées la dérivée des niveaux de gris pour repérer les points où l intensité varie fortement dans une ou plusieurs directions. Un des premiers détecteur de cette catégorie est celui de [Moravec 77]. On trouve également dans cette catégorie le célèbre détecteur de Harris [Harris 88] que nous détaillerons plus particulièrement. [Lowe 99] utilise des différences de gaussiennes pour trouver les points clés. [Itti 98] s appuie également sur l intensité mais aussi sur la couleur et sur l orientation du gradient. [Kadir 01] se base sur des histogrammes d intensité. 2.1.3 Méthodes basées sur des modèles paramétriques Ces méthodes s appuient sur la déformation d un modèle paramétrique de coin pour qu il se rapproche des niveaux de gris au voisinage d un coin. Ce détecteur est précis à condition d avoir de bonnes valeurs initiales pour les paramètres du modèle. On peut citer par exemple, le détecteur de Baker [Baker 98]. 2.2 Détecteurs Il existe une quantité importante de détecteurs de points d intérêt. Nous n en décrivons que quelques uns. De façon générale, un détecteur de point d intérêt consiste à calculer une valeur de réponse représentative de l intérêt pour chaque pixel de l image et ensuite à sélectionner les meilleurs. 2.2.1 Détecteur de Harris Il se base sur une fonction d auto-corrélation du signal c est-à-dire sur les changements du signal dans plusieurs directions ([Harris 88]). La figure 2.1 montre les différentes étapes du détecteur de Harris. On commence par calculer en chaque pixel p i,j (i,j) de l image la matrice d auto-corrélation (ou des moments du second ordre ou tenseur de structure) : ( ) µ11 (i,j) µ M(i,j) = 12 (i,j) (2.1) µ 21 (i,j) µ 22 (i,j) avec µ 11 (i,j) = µ 22 (i,j) = µ 12 (i,j) = µ 21 (i,j) = n n p= n q= n n n p= n q= n n p= n q= n w(p, q)i 2 i (i + p, j + q) (2.2) w(p, q)i 2 j (i + p, j + q) (2.3) n w(p, q)i i (i + p, j + q)i j (i + p, j + q) (2.4)
2.2. Détecteurs 23 Calcul des dérivées premières Calcul des matrices d'auto-corrélation Calcul de la réponse Extraction des points d'intérêt Suppression des non-maxima Sélection des points d'intérêt 100 200 300 400 500 100 200 300 400 500 Fig. 2.1 Détecteur de Harris - Afin de retrouver les points d intérêt, le détecteur de Harris calcule pour chaque pixel, la matrice d auto-corrélation à partir des deux composantes des vecteurs gradients de l image. Ensuite, la matrice de réponse du détecteur est obtenue à partir de ces matrices. Enfin, les points d intérêt, ici marqués d une croix verte, sont localisés à partir de cette réponse.
24 Chapitre 2. Détection de points d intérêt où I i et I j sont les dérivées premières des niveaux de gris de l image obtenues par convolution avec les masques de dérivation issus du filtre gaussien et w(p, q) sont des poids de lissage gaussiens tels que n n p= n q= n w(p, q) = 1. On calcule ensuite les valeurs propres de chaque matrice M(i,j) : λ 1 (i,j) = 1 2 ( ) µ 11 (i,j) + µ 22 (i,j) + (µ 11 (i,j) µ 22 (i,j)) 2 + 4µ 2 12 (2.5) λ 2 (i,j) = 1 2 ( ) µ 11 (i,j) + µ 22 (i,j) (µ 11 (i,j) µ 22 (i,j)) 2 + 4µ 2 12 (2.6) On peut alors caractériser le pixel p i,j (i,j) de la manière suivante : si les deux valeurs propres sont grandes, alors on est en présence d un point d intérêt ; si les deux valeurs propres sont petites, alors le pixel étudié est dans un zone homogène ; si les deux valeurs propres sont très différentes, alors le motif de texture au voisinage du pixel p i,j (i,j) est unidirectionnel. 2.2.2 Variantes de Harris 2.2.2.1 Variante de Plessey Au lieu d utiliser les valeurs propres, la réponse du détecteur est souvent calculée par la formule de Plessey : où on prend généralement k = 0.05. R(i,j) = det(m(i,j)) k.trace 2 (M(i,j)) (2.7) 2.2.2.2 Variante de Shi et Tomasi Une autre variante pour calculer la réponse est d utiliser dans le calcul des matrices d auto-corrélation 1 w(p, q) =, c est-à-dire une pondération uniforme, et de calculer uniquement la valeur propre (2n+1) 2 λ 2 (i,j). La réponse est directement donnée par : R(i,j) = λ 2 (i,j) (2.8) 2.2.2.3 Variante de Schmid Dans [Schmid 98], les auteurs proposent une variante du détecteur de Harris où les dérivées sont calculées de façon plus précise. La méthode reste la même, seule l implémentation diffère afin d avoir des valeurs de plus grande précision. De plus, [Schmid 00] utilise la variante de Plessey pour calculer la réponse avec k = 0.06. 2.2.2.4 Variante de Gouet Les auteurs de [Gouet 00] étendent le détecteur de Harris à la couleur. Ils utilisent ensuite la variante de Plessey avec k = 0.04.
2.2. Détecteurs 25 2.2.2.5 Autre variante Une autre formule donnée dans [Crouzil 00] pour calculer la réponse est : R(i,j) = det(m(i,j)) trace(m(i, j)) (2.9) 2.2.3 Détecteur SIFT de Lowe Le but du détecteur SIFT (scale invariant feature transform) présenté dans [Lowe 99] par Lowe est de localiser des points clés avec un vecteur descripteur afin de pouvoir caractériser un objet et être capable de le reconnaître en comparant les caractéristiques des points trouvés à une base de données. Un autre objectif est également de résoudre le problème du changement d échelle qui pose généralement des difficultés aux autres détecteurs. L algorithme commence par sélectionner des points potentiellement intéressants, invariants aux changements d échelle et aux rotations, en détectant les extrema locaux, dans l espace échelle, du laplacien de l image, implémenté à l aide de différences de gaussiennes. Les points qui sont associés à un faible contraste sont ensuite éliminés en utilisant un seuil sur la valeur du laplacien après avoir calculé précisément la localisation dans l espace échelle des extrema par interpolation. Parmi les points restants, sont éliminés ceux qui se trouvent sur un contour en fixant un seuil sur le rapport des courbures principales calculé à partir d une approximation discrète des matrices Hessiennes. Ensuite une orientation est associée à chaque point d intérêt en calculant les directions dominantes des vecteurs gradients dans les voisinages des points. Dans [Mikolajczyk 05] les auteurs présentent un extension à SIFT : GLOH Gradient location-orientation histogram conçue dans le but d augmenter la robustesse du descripteur. 2.2.4 Détecteur de Kadir Kadir et al. proposent dans [Kadir 01] une méthode inspirée des travaux de Gilles []. Les régions saillantes («qui sautent aux yeux») sont extraites en calculant l entropie à partir des histogrammes locaux de niveaux de gris. L entropie mesure la quantité d information d une variable. Chaque variable continue est partitionnée en triant ses valeurs par intervalles. Dans notre cas, on utilise l histogramme des niveaux de gris avec en abscisse, l intensité, et en ordonnée, le nombre de pixels. Lorsque l histogramme est «plat», la probabilité d avoir un pixel d intensité i est la même quel que soit i. On a équiprobabilité, c està-dire que l on ne peut pas «deviner» quelle valeur d intensité on a pour un pixel donné. L entropie est alors maximale. Un histogramme «plat» se traduit dans l image par de fortes variations, contrairement à un histogramme qui présente un «pic» et qui est représentatif d une zone homogène, cf. figure 2.2. L entropie d une partition A = {A i } est donnée par H(A) = i p ilog(p i ) où p i est la probabilité de A i. Dans la version de Gilles, la taille de la fenêtre dans laquelle on calcule l histogramme local est fixe, ce qui pose problème pour reconnaître certains éléments caractéristiques. En effet, certaines régions ont une forte complexité sur une petite fenêtre mais pas forcément sur une taille de fenêtre un peu plus grande. Kadir et al. présentent dans [Kadir 01] une version avec une fenêtre de taille variable. 2.2.5 Détecteur de Moravec Dans [Moravec 77], Moravec propose l un des tout premiers détecteurs de points d intérêt. Le but était de sélectionner des points «intéressants» pour les mettre en correspondance de façon fiable sur des images prises par des caméras embarquées sur un robot afin de l aider à se guider et à éviter les obstacles. Ce détecteur retourne les maxima locaux d une mesure de variance directionnelle (sur les quatre directions :
26 Chapitre 2. Détection de points d intérêt 10 10 9 9 8 8 7 7 nombre de pixels 6 5 4 nombre de pixels 6 5 4 3 3 2 2 1 1 0 0 50 100 150 200 250 intensité 0 0 50 100 150 200 250 intensité entropie = 3.5 entropie = 5.5 Fig. 2.2 Entropie - À gauche, nous présentons une zone homogène avec en dessous son histogramme. L histogramme comporte un «pic» caractéristique de la zone homogène et l entropie est faible (3.5). Dans le cas contraire, à droite, où on a de fortes variations d intensité, l entropie est forte (5.5). horizontale, verticale et les deux diagonales). Sa réponse est donée par : R(i,j) = min( n k= n+1 (I(i + k, j + k) I(i + k 1,j + k 1))2, n k= n+1 (I(i + k, j k) I(i + k 1,j k + 1))2, n k= n+1 (I(i,j + k) I(i,j + k 1))2, n k= n+1 (I(i + k, j) I(i + k 1,j))2 ) (2.10) 2.2.6 Détecteur de Beaudet Ce détecteur utilise la matrice Hessienne H : ( Iii I H = ij I ij I jj ) (2.11) composée des dérivées secondes des niveaux de gris de l image. La réponse est donnée par R(i,j) = det(h). Un maximum local du déterminant de cette matrice est caractéristique d un point d intérêt. 2.2.7 Détecteur SUSAN de Smith Le principe de ce détecteur proposé dans [Smith 97] par Smith et al. est le suivant. Dans un voisinage circulaire autour du pixel considéré (appelé nucleus), on construit le masque USAN (Univalue Segment Assimilating Nucleus) où on ne garde que les pixels ayant la même intensité que le nucleus, cf. figure 2.3. On détermine les points d intérêt de la façon suivante : si à l intérieur de ce disque, tous les pixels ont la même intensité que le nucleus, alors on est dans une zone homogène ;
2.2. Détecteurs 27 masque USAN nucleus Fig. 2.3 Détecteur de SUSAN - Illustration du principe du détecteur de SUSAN, le nombre de pixels du masque USAN ayant la même intensité que le centre permet de déterminer si le pixel étudié se trouve dans une zone homogène, sur un contour ou s il s agit d un coin. si dans ce disque, la moitié des pixels ont la même intensité que le nucleus alors le pixel étudié est sur un contour; si seulement peu de pixels dans ce disque ont la même intensité que le nucleus, alors on est en présence d un coin. Smith et al. proposent la mesure de similarité suivante pour déterminer si un pixel de coordonnées (i,j) du disque a la même intensité que le nucleus de coodonnées (i 0,j 0 ) : d(i(i,j)i(i 0,j 0 )) = e ( I(i,j) I(i 0,j 0 ) t ) 6 (2.12) où t est le paramètre de tolérance de différence de niveaux de gris. La surface de l USAN est donnée par s(i 0,j 0 ) = i,j d(i(i,j),i(i 0,j 0 )). Enfin, la réponse du détecteur est donnée par : R(i,j) = { smax 2 s(i 0,j 0 ) si s(i 0,j 0 ) < smax 2 0 sinon, (2.13) où s max est la surface maximum. 2.2.8 Autres détecteurs Il existe de nombreux autres détecteurs dont certains utilisent le passage par zéro du laplacien, d autres retournent les points où la variance locale est élevée, d autres encore utilisent le contraste. Le filtre médian, utilisé pour supprimer le bruit, supprime aussi les coins, le détecteur de Paler, [Paler 84], fait la différence entre l image d origine et l image filtrée pour retrouver ces coins. Le détecteur de Itti [Itti 98], s inspire de la vision des primates qui peut se découper en deux phases : le bottom-up où le regard est attiré par des zones saillantes : cette phase est rapide et involontaire ; le top-down où l analyse de la scène est plus lente, volontaire et dépendante de la tâche à accomplir.
28 Chapitre 2. Détection de points d intérêt Itti et al. s inspirent de la première phase pour proposer un détecteur de régions saillantes. Ce détecteur est basé sur des pyramides de cartes d intensité, de couleurs et d orientations du gradient de l image. Les cartes sont ensuite normalisées puis combinées afin de sélectionner les points les plus saillants. 2.3 Caractérisation et mise en correspondance La mise en correspondance des points d intérêt peut être utilisée pour estimer les paramètres de la transformation qui relie deux images (comme par exemple une homographie). C est également, comme nous allons le voir, une étape importante de la mise en correspondance à partir de germes. En plus de fournir les coordonnées dans l image des points d intérêt détectés, certains détecteurs les caractérisent. Cette caractérisation est en fait une description au voisinage du point d intérêt qui peut être utilisée pour la mise en correspondance de ces points particuliers. Il peut s agir tout simplement des niveaux de gris des pixels voisins, auquel cas la mise en correspondance peut se faire par mesure de corrélation. Mais dans certains cas, il peut s agir d une description plus complexe, comme dans SIFT, qui va permettre une mise en correspondance plus robuste à différentes transformations. Dans [Allison 91], les auteurs traitent des images satellites dont le capteur, en plus d enregistrer pour chaque pixel le niveau de gris, enregistre les coordonnées géographiques. Ainsi, la mise en correspondance peut se faire en utilisant ses coordonnées géographiques avec une marge d erreur de 50 pixels. Pour le descripteur de SIFT, un descripteur local est calculé pour chaque point d intérêt. Il s agit d un vecteur de 128 éléments obtenus à partir d histogrammes des orientations des vecteurs gradients au voisinage des points. Selon Mikolajczyk et Schmid qui évaluent différents descriteurs dans [Mikolajczyk 05], celui de SIFT est celui qui obtient les meilleurs résultats sauf dans le cas d un changement de luminosité.
Chapitre 3 Mise en correspondance par propagation de germes Sommaire 3.1 Introduction...................................... 29 3.2 Sélection des germes................................. 29 3.3 Mise en correspondance des germes........................ 30 3.4 Propagation....................................... 30 3.5 Synthèse des méthodes................................ 30 3.6 Algorithme de Lhuillier................................ 30 3.6.1 Introduction...................................... 30 3.6.2 Propagation....................................... 31 3.6.3 Régularisation des bons appariements de la carte obtenue à l étape précédente. 32 3.7 Algorithme de Wei.................................. 33 3.7.1 Introduction...................................... 33 3.7.2 Segmentation couleur................................. 33 3.7.3 Fonction de coût.................................... 33 3.7.4 Mise en correspondance des régions.......................... 33 3.7.5 Propagation....................................... 33 3.1 Introduction L idée générale de la mise en correspondance à partir de germes repose sur la définition des germes comme des points mis en correspondance de façon fiable. À partir de là, il y a de fortes chances que les pixels voisins d un germe de l image de gauche, aient leurs correspondants au voisinage du germe correspondant dans l image de droite. Ces méthodes ont pour avantages d être simples et peu coûteuses en temps de calcul mais sont très sensibles aux erreurs de départ. 3.2 Sélection des germes La sélection des germes peut se faire de différentes manières. On peut : appliquer un détecteur de points d intérêt comme dans [Lhuillier 00]; 29
30 Chapitre 3. Mise en correspondance par propagation de germes sélectionner les germes manuellement comme dans [Zhang 00]; faire une première mise en correspondance locale et sélectionner les meilleurs appariements comme dans [Bobick 99, Szeliski 02]. 3.3 Mise en correspondance des germes La mise en correspondance des germes peut être faite manuellement ou bien, dans le cas d une sélection de germes avec un détecteur de point d intérêt, par une mise en correspondance de points d intérêt comme décrite au chapitre précédent. Dans [Lhuillier 00], les germes sont mis en correspondance par mesure de corrélation ZNCC sur une fenêtre de taille 11 11 et ne sont gardés que les meilleurs couples dont le score de corrélation est supérieur à 0.9. Dans [Wei 04] les auteurs utilisent les mesures SSD et SAD. Dans [Szeliski 02] la mesure de corrélation SSD est employée. Dans [Zhang 00], les auteurs choisissent les germes et leur correspondants manuellement ou de façon automatique et, dans ce cas, ils font une mise en correspondance des germes par la mesure de corrélation NCC. 3.4 Propagation Plusieurs solutions sont proposées : Stratégie du meilleur d abord - On sélectionne au voisinage d un germe la mise en correspondance qui donne le meilleur score de corrélation. Fenêtre adaptative - On fait plusieurs itérations avec des tailles de fenêtre de corrélation de plus en plus grandes. Ainsi, si une erreur est faîte lors d une itération, elle peut être rattrapée dans une des suivantes. Ces méthodes font aussi intervenir une fonction de lissage. La plupart du temps, la contrainte du gradient de disparité, impose que la variation de la disparité doit être limitée, est employée. 3.5 Synthèse des méthodes Le tableau 3.1 récapitule les caractéristiques de quatre méthodes de mise en correspondance à partir de germes. 3.6 Algorithme de Lhuillier 3.6.1 Introduction Cet algorithme est basé sur une croissance de régions à partir de germes. La propagation des mises en correspondance initiales est réalisée selon une stratégie de meilleur d abord. Cet algorithme peut se découper en quatre grandes parties, cf. figure 3.1 : sélection des germes ; mise en correspondance des germes ; propagation des mises en correspondance ; régularisation de la carte obtenue à l étape précédente. Selon Zhang et Shan [Zhang 00], le défaut de cet algorithme est qu il ne considère qu une mise en correspondance à la fois et n effectue la propagation que dans un petit voisinage. Ils proposent alors de considérer tous les germes simultanément et de ne pas limiter la propagation à un petit voisinage.
3.6. Algorithme de Lhuillier 31 Article Prétrait. Germes Corr. Propagation Lissage [Lhuillier 00] aucun Harris ZNCC meilleur d abord régularisation [Wei 04] segmentation meilleurs appariements SSD, SAD meilleur d abord limite du gradient de disparité [Szeliski 02] aucun meilleurs appariements [Zhang 00] aucun manuel et automatique SSD fenêtre adaptative NCC fenêtre adaptative comparaison avec l intensité du pixel voisin limite du gradient de disparité Tab. 3.1 Méthodes de mise en correspondance par propagation de germes - Tableau récapitulatif des méthodes utilisées dans différents articles pour chaque étape de la mise en correspondance à partir de germes. La première colonne (Prétrait. : Prétraitement) indique si une phase de prétraitement est appliquée, la deuxième, quelle méthode a été employée pour trouver les germes, la troisième (Corr. : Corrélation), quelle mesure a été choisi pour la mise en correspondance des germes, la quatrième, quelle stratégie de propagation est utilisée, et enfin, la dernière, quelle contrainte de lissage a été employée. Sélection de germes Mise en correspondance des germes Propagation Régularisation Fig. 3.1 Mise en correspondance à partir de points de contrôle - Les étapes de sélection et de mise en correspondance de germes sont capitales pour obtenir de bons résultats lors de la propagation. Dans le cas où, à l issue de la propagation, la mise en correspondance n est pas dense, une étape d interpolation est nécessaire pour densifier le résultat. 3.6.2 Propagation La fonction de propagation prend pour point de départ la liste des germes que l on vient d établir, soit, théoriquement, les couples de pixels mis en correspondance avec la plus grande fiabilité. Les couples de germes sont enregistrés avec une valeur de fiabilité. La fonction de propagation commence par sélectionner le meilleur et va regarder dans le voisinage tous les couples possibles. Les meilleurs candidats sont stockés dans une liste temporaire. Lorsque cette liste de meilleurs candidats potentiels est établie, la fonction sélectionne le meilleure couple d abord (pour un même pixel, plusieurs appariements peuvent être proposés). Si ce couple n a pas déjà été trouvé, alors il est rajouté à la liste résultat et à la liste de départ (en effet, comme on sélectionne la meilleure d abord, le nouveau couple que l on vient de trouver peut maintenant servir de germe). Le processus est répété jusqu à ce qu il n y ait plus de germes dans la liste de départ,
32 Chapitre 3. Mise en correspondance par propagation de germes cf. algorithme 3.1. Une mesure de confiance sert à stopper la propagation dans les zones homogènes. Elle est définie par mesure de confiance(p) = max( I(p + I(p), {(1,0),( 1,0),(0,1),(0, 1)}). Fonction lhuillier(germes : Liste) : Liste résultat vide Tant que ( vide(germes)) faire g meilleur(germes) supprimer(g, germes) candidats vide [Initialisation de la liste des candidats] [Stockage dans candidats des paires candidates] Pour chaque couple de pixels (c,d) du voisinage de g faire Si ((c,*) / résultat ET (*,d) / résultat ET mesure de confiance(c) > seuil ET mesure de confiance(d) > seuil ET ZNCC(c,d) > 0.5) Alors ajouter((c,d),candidats) Fin Si Fin Pour [Conservation du meilleur résultat] Tant que ( vide(candidats)) faire (e,f) = meilleur(candidats) supprimer((e,f), candidats) Si ((e,*) / résultat ET (*,f) / résultat) Alors ajouter((e,f), résultat) ajouter((e,f), germes) Fin Si Fait Fait Retourner germes Fin Algorithme 3.1 Algorithme de propagation de Lhuillier et al., [Lhuillier 00]. 3.6.3 Régularisation des bons appariements de la carte obtenue à l étape précédente Le résultat de l algorithme de propagation peut donner une carte de disparité incomplète et/ou irrégulière. Une étape de régularisation est alors nécessaire. Pour cela, [Lhuillier 00] divise l image en blocs de 8 8 pixels. Il suppose que la partie de la scène qui se projette sur ce bloc est une surface plane. Il fait alors, en utilisant la méthode RANSAC, une estimation de l homographie entre les deux blocs (gauche et droite). Il utilise ensuite l homographie estimée pour la régularisation de la carte de disparité. Enfin, les bons appariements sont validés à l aide d une méthode globale.
3.7. Algorithme de Wei 33 3.7 Algorithme de Wei 3.7.1 Introduction La méthode proposée par Wei et al., [Wei 04] est basée sur une propagation de régions selon une stratégie de meilleur d abord. L utilisation de régions permet de réduire le risque d avoir des erreurs car elles contiennent plus d informations qu un seul pixel. Les différentes étapes de cet algorithme sont les suivantes : segmentation couleur; sélection et mise en correspondance des germes ; mise en correspondance des régions à partir des germes ; propagation des régions selon une stratégie de meilleur d abord ; association d une fonction de coût à chaque mise en correspondance. Le processus s arrête lorsque la carte de disparités est dense. 3.7.2 Segmentation couleur Wei et al. utilisent dans [Wei 04] l algorithme de segmentation mean-shift afin de partitionner l image. L hypothèse est que pour tous les pixels d une même région, la disparité est la même. Cependant, cette hypothèse peut poser des problèmes lorsque l image n est pas constituée de plans fronto-parallèles. Lorsque la segmentation est effectuée, Wei et al. utilisent une méthode dynamique de séparation des régions qui consiste à bien délimiter les contours des objets de l image ainsi qu à resegmenter les régions non fronto-parallèles (ce qui permet d utiliser l hypothèse que tous les pixels d une même région ont la même disparité). 3.7.3 Fonction de coût La fonction de coût intègre un terme d attache aux données (qui prend en compte les occultations trouvées à l aide de la contrainte de visibilité) ainsi qu un terme de lissage : f(p,d) si d (p + d) est indéfini E attache (d) = λ occ si d (p + d) d (3.1) f(p,d) + λ occ si d (p + d) < d où f est une mesure de corrélation (SSD ou SAD), p représente le pixel étudié, d est la valeur de disparité associée à p, d est la fonction de disparité et λ occ est une constante positive. 3.7.4 Mise en correspondance des régions La méthode dynamique de séparation des régions est nécessaire lorsqu une région contient des points de contrôle avec des disparités différentes. Cette opération s effectue en donnant à chaque pixel de la région une des disparités. Il s agit en fait d un problème d étiquetage qui peut être résolu par un algorithme de coupure de graphe. 3.7.5 Propagation On attribue à chaque région un indice de confiance qui est le rapport du nombre de pixels voisins déjà mis en correspondance sur le nombre de pixels au contour. La valeur d ambiguïté est définie comme étant le rapport des meilleurs et second meilleur coûts de mise en correspondance. Le seuil d ambiguïté est d abord fixé de façon arbitraire. Il doit ensuite augmenter après chaque itération pour garantir une mise en correspondance dense, cf. algorithme 3.2.
34 Chapitre 3. Mise en correspondance par propagation de germes Fonction wei(régions : Liste) : Liste étiquette1 : trier(toutes les régions marquées NON MISES EN CORRESPONDANCE); A amb vide ; étiquette2 : Pour chaque région r où confiance(r) 0 faire Si (amb(r) λ amb ) Alors marquer(r,mises EN CORRESPONDANCE,d meilleur r ) ; aller à(étiquette2) ; Fin Si Si (r contient des points de contrôle ayant des disparités différentes) Alors nouvelles régions = découper(r); marquer(nouvelles régions,non MISES EN CORRESPONDANCE); aller à(étiquette2) ; Fin Si Si ( A amb {A amb = vide OU A amb > amb(r)}) Alors A amb amb(r); Fin Si Fin Pour Si ( nouvelles régions marquées MISES EN CORRESPONDANCE) Alors aller à(étiquette2) ; Fin Si Si ( régions marquées NON MISES EN CORRESPONDANCE) Alors λ amb maximum(a amb ) ; aller à(étiquette1) ; Fin Si Retourner régions ; Fin Algorithme 3.2 Algorithme de Wei et al. [Wei 04].
Deuxième partie Étude de la mise en correspondance par propagation de germes 35
Chapitre 4 Évaluation des détecteurs de points d intérêt pour la sélection de germes Sommaire 4.1 Introduction...................................... 37 4.2 Critères......................................... 37 4.2.1 Répétabilité....................................... 38 4.2.2 Localisation....................................... 38 4.2.3 Contenu de l information............................... 38 4.2.4 Résultats des différentes évaluations existantes................... 38 4.3 Images testées..................................... 39 4.4 Répétabilité du détecteur de Harris........................ 39 4.4.1 Tailles fixes de fenêtre................................. 39 4.4.2 Taille variable de fenêtre................................ 39 4.5 Répétabilité du détecteur SIFT........................... 42 4.6 Synthèse des résultats obtenus........................... 42 4.1 Introduction Le détecteur de Harris et le détecteur SIFT semblent être les détecteurs de points d intérêt les plus performants et aussi les plus populaires. Nous souhaitons alors étudier plus en détails ces détecteurs avec pour objectif de les utiliser pour la sélection de germes lors d une mise en correspondance par propagation de germes. On souhaite alors pouvoir disposer d un détecteur capable de fournir des germes fiables et qui se prêtent à la propagation. Nous effectuons alors différentes évaluations en étudiant l influence des différents paramètres afin de déterminer quelle configuration nous donne les résultats les plus performants. 4.2 Critères Dans le cadre de ce travail, nous utilisons les détecteurs de points d intérêt pour la sélection de germes. Nous devons avoir une mise en correspondance des points d intérêt fiable. Par conséquent, il est important d avoir des critères qui permettent de juger de la qualité d un détecteur. 37
38 Chapitre 4. Évaluation des détecteurs de points d intérêt pour la sélection de germes 4.2.1 Répétabilité Soit un pixel p g de l image gauche détecté comme point d intérêt. Si son correspondant p d dans l image droite est également détecté comme point d intérêt alors on dit que p g est répété. La répétabilité T rep d un détecteur de point d intérêt est alors définie par : T rep = N rep N PI (4.1) avec N rep le nombre de points d intérêt répétés et N PI le nombre total de points d intérêt. Ce critère est important car plus un détecteur de points d intérêt est répétable, plus on l étape d appariement sera facilitée. 4.2.2 Localisation La localisation est la précision avec laquelle le point détecté est situé dans l image. Lorsque l on mesure la répétabilité, il y a généralement une légère imprécision de localisation; c est pourquoi, on se laisse une petite marge d erreur. Si la distance euclidienne entre le point d intérêt correspondant trouvé et le point d intérêt correspondant théorique est inférieure à la marge de localisation, alors on considère que le point est répété. Plus formellement, si P i,j g est un point d intérêt à gauche et P k,l d et P k,l d son correspondant estimé, la localisation loc est donnée par : 4.2.3 Contenu de l information son correspondant théorique loc = (k k ) 2 + (l l ) 2 (4.2) Cette valeur est mesurée par Schmid et al. dans [Schmid 98, Schmid 00]. Elle est donnée par l entropie qui mesure la quantité d information d une variable. L entropie d une partition A = {A i } est donnée par H(A) = i p ilog(p i ) où p i est la probabilité de A i. 4.2.4 Résultats des différentes évaluations existantes Dans [Schmid 98, Schmid 00], Schmid et al mesurent la répétabilité de différents détecteurs (Harris, Heigter, Horaud, Cottier,Forstner) avec des images ayant subi différentes transformations (rotation, changement d échelle, changement d illumination, changement de point de vue) afin de juger de leur robustesse. Pour leur version améliorée de Harris, les auteurs trouvent une répétabilité de 0.9 quelle que soit l angle de rotation de l image. Celle-ci est légèrement inférieure pour la version classique de Harris où la répétabilité varie entre 0.8 et 0.9 selon l angle de rotation de l image (le résultat est meilleur lorsque l angle est multiple de 90 ). Les auteurs montrent également que le détecteur de Harris amélioré est robuste au bruit, aux changements d illumination et relativement robuste aux changements de point de vue (sous certains angles de prise de vue, la répétabilité du détecteur amélioré de Harris descend à 0.4. En revanche, ce même détecteur ne donne pas un très bon taux de répétabilité en cas de changement d échelle (inférieur ou égal à 0.3). Ils montrent que la répétabilité se stabilise pour une marge de localisation audelà de 1.5 pixels. Ils observent également que l entropie la plus élevée est obtenue avec le détecteur de Harris amélioré (6.05).Cependant, ils ne font des mesures que sur deux types d images : «Van Gogh» et «Astérix». De plus, ces images sont toutes les deux des images d un dessin plan, donc sans occultation. On aimerait également avoir des résultats pour des images «naturelles». Enfin, la méthode de Horaud basée sur l extraction de contours et de leurs intersections est celle qui donne les moins bons résultats. Dans leurs travaux [Gouet 00], les auteurs montrent que la répétabilité est meilleure lorsque les images
4.3. Images testées 39 sont préfiltrées (lissées), mais que cela détériore la précision de la localisation. Elle conclue également que la couleur peut apporter des informations utiles à la détection de points d intérêt en améliorant la répétabilité et la localisation. 4.3 Images testées Pour faire nos mesures, nous utilisons des couples d images stéréoscopiques rectifiées dont on connaît les disparités théoriques, cf. tableau 4.1. Dans l ordre alphabétique, ces images sont : Cones - Elles proviennent de l évaluation de Scharstein et Szeliski [Scharstein 03] et ont été acquise par vision active. Map - Elles sont proposées dans [Szeliski 99] et ont été acquises avec un système de stéréovision trinoculaire. Les plans de la scène ont été extraits manuellement puis Szeliski et Zabih ont estimé l homographie pour chaque plan et la carte de disparités à été calculée. La précision est au huitième de pixel. Sawtooth - Scharstein et Szeliski [Scharstein 02] ont repris le même principe que celui utilisé dans [Szeliski 99]; Teddy - Elles proviennent également de l évaluation de Scharstein et Szeliski [Scharstein 03] et ont été acquises par vision active ; Cones et teddy sont les images qui présentent le plus d occultations. Ces deux images, sont également celles où il y a le plus de niveaux de profondeur. De plus, teddy semble être l image ayant le plus de zones peu texturées. 4.4 Répétabilité du détecteur de Harris 4.4.1 Tailles fixes de fenêtre Nous souhaitons étudier l influence de la taille de fenêtre utilisée sur les points d intérêt détectés. On calcule d abord les points d intérêt avec le détecteur de Harris avec des tailles fixes de fenêtre (5, 7, 9 et 11 pixels de côté). Les images que nous testons ont des tailles de l ordre de 400 400 pixels. Le détecteur de Harris avec une fenêtre de taille de 11 11 est celui qui retourne le moins de points (au maximum un nombre de l ordre de 300). On sélectionne alors dans tous les cas les 300 meilleurs points. Le tableau 4.2 présente toutes les valeurs obtenues pour chacune des images stéréoscopiques testées. Les différents taux trouvés varient entre 0.45 et 0.94. Les images qui présentent le plus d occultations, cones et teddy, sont celles où les taux de répétabilité sont les plus faibles. Dans l ensemble, on remarque que la taille de la fenêtre utilisée par le détecteur de Harris ne change pas beaucoup le taux de répétabilité. Cependant, les résultats sont légèrement meilleurs avec une taille de fenêtre plus petite, cf. figure 4.1. On remarque également que le détecteur de Harris possède une bonne localisation puisque la répétabilité moyenne est de 0.6 avec une marge de 1 pixel. 4.4.2 Taille variable de fenêtre Afin d obtenir un nombre plus important de points d intérêt, on décide de faire l union des points trouvés par le détecteur de Harris pour les fenêtres de 5, 7, 9 et 11 pixels côté. Ainsi, toujours pour une image dont la taille est de l ordre de 400 400 pixels, on obtient un nombre de points d intérêt de l ordre de 1000 points. Ces points sont généralement répartis de façon uniforme dans l image, même si dans certains cas on a quelques amats au niveau des contours des objets, cf tableau 5.4, teddy, image (e), par exemple. On mesure de la même façon que précédemment la répétabilité. Les résultats obtenus sont exposés dans le tableau 4.2. Les différents taux trouvés varient également entre 0.54 et 0.95. Cones et
40 Chapitre 4. Évaluation des détecteurs de points d intérêt pour la sélection de germes Image de gauche Image de droite Carte de disparité Carte des occultations (a) (b) (c) (d) Tab. 4.1 Images testées - Les différents couples d images testés sont présentés avec leur carte de disparité théorique. On montre également la carte des occultations. Pour celle-ci, les pixels noirs correspondent aux pixels occultés entre l image de gauche et l image de droite et les pixels en gris se trouvent dans la zone d influence de la zone des occultations. La zone d influence est la dilatation morphologique par la fenêtre de corrélation de la zone des occultations. Ces images sont fréquemment employées pour tester des algorithmes de mise en correspondance. (a) Cones, (b) Map, (c) Sawtooth, (d) Teddy.
4.4. Répétabilité du détecteur de Harris 41 1 0.9 5 7 9 11 0.8 0.7 taux de répétabilité 0.6 0.5 0.4 0.3 0.2 0.1 0 1 1.5 2 2.5 3 3.5 4 4.5 5 marge de localisation (en pixels) Fig. 4.1 Répétabilité moyenne du détecteur de Harris - On mesure la répétabilité du détecteur de Harris en fonction de la marge de localisation pour les tailles de fenêtre 5, 7, 9 et 11 pour toutes les images. On remarque que les résultats sont d autant meilleurs que la taille de la fenêtre est petite.
42 Chapitre 4. Évaluation des détecteurs de points d intérêt pour la sélection de germes teddy, ont toujours les taux de répétabilité les plus faibles. De façon générale, la répétabilité est légèrement meilleure que celle obtenue avec une fenêtre fixe de taille 5 5 (celle qui donnait les meilleurs résultats précédemment), cf. figure 4.2. 4.5 Répétabilité du détecteur SIFT On mesure maintenant la répétabilité du déctecteur SIFT qui donne des points d intérêt trouvés à différentes échelles. Le nombre de résultats pour une image de taille de l ordre de 400 400 est également de l ordre de 1000 points. On décide alors de comparer les résultats obtenus pour le détecteur SIFT avec ceux obtenus pour le détecteur de Harris à taille de fenêtre variable, cf figure 4.2. Le tableau 4.2 présente toutes les valeurs obtenues pour chacun des couples testés. Les différents taux trouvés varient entre 0.49 et 0.96. Cones et teddy ont encore les taux de répétabilité les plus faibles. On remarque cependant que la répétabilité du détecteur de Harris avec une taille de fenêtre variable est meilleure que celle de SIFT de l ordre de 7%. Les deux détecteurs ont également une bonne localisation puisque avec une petite marge de localisation on trouve un taux de répétabilité correct (de l ordre de 0.6 alors qu avec une marge un peu plus grande de l ordre de 1 pixel, il n augmente que de 0.1 environ). 4.6 Synthèse des résultats obtenus Le tableau 4.2 récapitule les taux de répétabilité moyens et suivant les détecteurs (ainsi que leurs paramètres) testés. On remarque que sur les moyennes, les résultats ne varient pas trop. En revanche, il y a parfois de grandes variations de résultats entre les différents couples. C est le cas entre cones et sawtooth où il y a environ 20% d écart. La répétabilité dépend donc de l image étudiée. Ceci peut s expliquer par le fait que certaines images peuvent avoir plus de zones occultées que d autres.
4.6. Synthèse des résultats obtenus 43 1 0.9 taux de répétabilité des détecteurs Sift et Harris (union) (moyennes) Harris Sift 0.8 0.7 taux de répétabilité 0.6 0.5 0.4 0.3 0.2 0.1 0 1 1.5 2 2.5 3 3.5 4 4.5 5 marge de localisation (en pixels) Fig. 4.2 Répétabilité moyenne du détecteur de Harris (taille de fenêtre variable) et de SIFT - On mesure la répétabilité du détecteur de Harris en fonction de la marge de localisation avec une taille de fenêtre variable. On mesure également la répétabilité du détecteur SIFT en fonction de la marge de localisation. On remarque que le détecteur de Harris avec une taille de fenêtre variable donne un meilleur résultat que le détecteur SIFT.
44 Chapitre 4. Évaluation des détecteurs de points d intérêt pour la sélection de germes Cones Map Sawtooth Teddy Moyenne 0.51 0.72 0.78 0.55 0.64 0.59 0.82 0.85 0.61 0.71 (a) 0.65 0.86 0.87 0.66 0.76 0.73 0.91 0.89 0.70 0.81 0.78 0.94 0.90 0.75 0.84 0.50 0.65 0.79 0.51 0.61 0.56 0.75 0.85 0.61 0.69 (b) 0.63 0.78 0.85 0.65 0.72 0.67 0.82 0.87 0.67 0.76 0.72 0.86 0.90 0.71 0.79 0.47 0.67 0.74 0.56 0.61 0.55 0.75 0.82 0.64 0.69 (c) 0.59 0.77 0.84 0.67 0.72 0.64 0.79 0.85 0.69 0.74 0.70 0.83 0.86 0.72 0.77 0.45 0.66 0.73 0.54 0.59 0.53 0.74 0.82 0.64 0.68 (d) 0.59 0.74 0.84 0.66 0.70 0.64 0.74 0.85 0.68 0.73 0.68 0.77 0.86 0.71 0.76 0.54 0.71 0.80 0.58 0.66 0.63 0.82 0.86 0.65 0.74 (e) 0.70 0.88 0.88 0.69 0.79 0.76 0.93 0.91 0.74 0.83 0.81 0.95 0.92 0.78 0.87 0.49 0.62 0.65 0.50 0.56 0.55 0.71 0.72 0.55 0.63 (f) 0.61 0.80 0.76 0.60 0.69 0.66 0.90 0.80 0.65 0.75 0.73 0.96 0.85 0.69 0.81 Tab. 4.2 Répétabilité - Les taux de répétabilité pour chacune des images testées ainsi que la moyenne. Les valeurs sont données par ordre de taille de localisation : 1, 2, 3, 4 et 5. (a) Détecteur de Harris avec une fenêtre de taille de 5 5, (b) Détecteur de Harris avec une fenêtre de taille de 7 7, (c) Détecteur de Harris avec une fenêtre de taille de 9 9, (d) Détecteur de Harris avec une fenêtre de taille de 11 11, (e) Détecteur de Harris avec une fenêtre de taille variable (f) Détecteur SIFT. On marque en gras les meilleurs résultats pour une localisation de 1. Les meilleurs taux tous critères confondus sont obtenus avec une localisation de 5 ce qui n est pas intéressant à cause du manque de précision.
Chapitre 5 Évaluation de la mise en correspondance de points d intérêt Sommaire 5.1 Introduction...................................... 45 5.2 Critères......................................... 45 5.2.1 Taux de rappel..................................... 45 5.2.2 Taux de points d intérêt correctement mis en correspondance........... 46 5.3 Mise en correspondance des points d intérêt avec ZNCC........... 46 5.3.1 Détecteur de Harris.................................. 46 5.3.2 Détecteur de Harris à taille variable de fenêtre................... 46 5.3.3 Détecteur SIFT et mesure de corrélation ZNCC................... 48 5.4 Mise en correspondance des points d intérêt avec SMPD 2........... 49 5.4.1 Détecteur de Harris.................................. 49 5.4.2 Détecteur de Harris à taille variable de fenêtre................... 50 5.4.3 Détecteur SIFT et mesure de corrélation SMPD 2.................. 51 5.5 Mise en correspondance en utilisant les vecteurs descripteurs de SIFT... 53 5.6 Synthèse des résultats obtenus........................... 53 5.1 Introduction Avoir une bonne répétabilité garantit que l on peut mettre des points d intérêt en correspondance. En revanche, cela ne garantit pas que ces appariements soient justes. Cela dépend de la méthode de mise en correspondance utilisée. Par exemple, si le taux de répétabilité est de 0.7, alors sur 100 points détectés, 70 peuvent théoriquement être mis en correspondance de façon correcte. Malheureusement, on ne sait pas quels sont les points répétés, de plus, les méthodes de mise en correspondance peuvent se tromper. C est ce que nous étudions dans ce chapitre. 5.2 Critères 5.2.1 Taux de rappel Afin de limiter le nombre de mauvais appariements, on décide de faire une vérification bidirectionelle. De plus, lorsqu on utilise la mise en correspondance de points d intérêt par mesure de corrélation, on ne 45
46 Chapitre 5. Évaluation de la mise en correspondance de points d intérêt garde que les couples pour lesquels le score est supérieur à un seuil. On mesure ensuite le taux de rappel T rap comme étant le rapport du nombre de mises en correspondance correctes N cor sur le nombre total de mise en correspondance N app : T rap = N cor N app (5.1) Pour chaque point d intérêt de l image de référence (dans notre cas, la gauche), on cherche le correspondant. Si un correspondant est trouvé, on mesure la distance euclidienne entre ce correspondant trouvé et le correspondant théorique. On considère que la mise en correspondance est correcte si cette distance est inférieure ou égale à la marge de localisation. 5.2.2 Taux de points d intérêt correctement mis en correspondance Ce critère noté T PICor permet en quelque sorte de mesurer le gaspillage. Il s agit du rapport du nombre de mise en correspondance correctes sur le nombre total de points d intérêt initialement trouvés : T PICor = N cor N PI (5.2) 5.3 Mise en correspondance des points d intérêt avec ZNCC 5.3.1 Détecteur de Harris On commence par mesurer les taux de rappel à partir des points trouvés par le détecteur de Harris pour les tailles de fenêtre 5, 7, 9 et 11 et avec la mesure de corrélation ZNCC. La taille de la fenêtre de corrélation utilisée est la même que celle employée par le détecteur de Harris. On rappelle que lorsque deux ensembles de pixels sont identiques, la mesure de corrélation ZNCC retourne 1. On élimine alors les couples pour lesquels le score de corrélation est inférieur à 0.9 ce qui garantit de ne garder que les appariements fortement corrélés. On fait également une vérification bidirectionelle pour éliminer des mauvais appariements. Les résultats sont présentés dans le tableau 5.9. Entre les différentes images testées ils varient entre 0.87 et 1 et la taille de la fenêtre utilisée n influence pas beaucoup le taux de rappel. On ne remarque pas de différence significative entre les images cones et teddy (celles qui présentent le plus d occultations) et les autres images, même si ces premières ont des résultats légèrement inférieurs. Cependant, si on regarde de près, il semble que plus la taille de la fenêtre est grande, plus le taux de rappel est bon, mais la différence n est que de l ordre de 1%. Dans tous les cas, les correspondants sont trouvés avec une bonne précision de localisation, cf. figure 5.1. 5.3.2 Détecteur de Harris à taille variable de fenêtre On mesure maintenant les taux de rappel à partir des points retournés par le détecteur de Harris dont on a fait l union des résultats trouvés avec des tailles de 5, 7, 9 et 11. Chaque point est mis en correspondance par mesure de corrélation ZNCC sur une fenêtre de corrélation de la même taille que celle pour laquelle le point étudié avait été détecté. En cas de concurrence avec plusieurs tailles, on prend celle pour laquelle la réponse du détecteur est la meilleure. Le tableau 5.9 présente les résultats trouvés pour chacune des images testées. Les résultats entre les différentes images testées varient entre 0.85 et 0.99. Les remarques faites pour le détecteur de Harris avec des fenêtres fixes s appliquent également ici. Il semble toutefois que dans l ensemble, les résultats soient de l ordre de 1% moins bons avec ce détecteur,
5.3. Mise en correspondance des points d intérêt avec ZNCC 47 1 0.9 5 7 9 11 0.8 0.7 taux de rappel 0.6 0.5 0.4 0.3 0.2 0.1 0 1 1.5 2 2.5 3 3.5 4 4.5 5 marge de localisation (en pixels) Fig. 5.1 Taux de rappel moyens pour Harris avec ZNCC - On mesure le taux de rappel, c est-àdire le nombre d appariements corrects sur le nombre total de mise en correspondance avec la mesure de corrélation ZNCC pour différentes tailles de fenêtre à partir des points d intérêt retournés par le détecteur de Harris avec des fenêtres de la même taille. Quelle que soit la taille de la fenêtre, le taux de rappel pour le détecteur de Harris se situe autour de 0.95. Si on regarde de près, on remarque que plus le taille de la fenêtre est grande, plus le résultat est amélioré (toutefois, cette amélioration est assez faible).
48 Chapitre 5. Évaluation de la mise en correspondance de points d intérêt 1 0.9 0.8 0.7 taux de rappel 0.6 0.5 0.4 0.3 0.2 0.1 0 1 1.5 2 2.5 3 3.5 4 4.5 5 marge de localisation (en pixels) Fig. 5.2 Taux de rappel moyens pour Harris (union) avec ZNCC - On mesure le taux de rappel pour la mesure de corrélation ZNCC avec une taille de fenêtre variable à partir des points d intérêt formés par l union des résultats des détecteurs de Harris avec les tailles 5, 7, 9 et 11. Le taux de rappel est légèrement inférieur aux résultats précédents où on utilisait des tailles fixes. Toutefois, il reste supérieur à 0.9. cf. figure 5.2. 5.3.3 Détecteur SIFT et mesure de corrélation ZNCC On effectue les mêmes tests à partir des points détectés par le détecteur SIFT et mis en correspondance avec ZNCC pour les tailles de fenêtre de corrélation de 5, 7, 9 et 11 pixels. Les résultats sont présentés dans le tableau 5.9. Le taux de rappel entre les différentes images varie entre 0.88 et 0.99. On ne remarque pas non plus de différence significative entre les images cones et teddy (celles qui présentent le plus d occultations) et les autres. Cependant, on remarque que plus la taille de la fenêtre de corrélation est grande, meilleur est le taux de rappel, cf. figure 5.3. Si on compare ces résultats avec ceux trouvés avec Harris avec une taille de fenêtre variable et ZNCC (car les deux techniques donnent un nombre d appariements du même ordre), on remarque que SIFT, avec mise en correspondance par mesure de corrélation ZNCC sur une fenêtre de corrélation de 11 pixels, donne un résultat meilleur de
5.4. Mise en correspondance des points d intérêt avec SMPD 2 49 1 0.9 5 7 9 11 0.8 0.7 taux de rappel 0.6 0.5 0.4 0.3 0.2 0.1 0 1 1.5 2 2.5 3 3.5 4 4.5 5 marge de localisation (en pixels) Fig. 5.3 Taux de rappel moyens pour SIFT avec ZNCC - On mesure le taux de rappel avec une mesure de corrélation ZNCC avec les tailles de fenêtre de corrélation de 5, 7, 9 et 11 pixels à partir des points d intérêt retournés par le détecteur SIFT. Plus la taille de le fenêtre de corrélation est grande, meilleurs sont les résultats. l ordre de 3%. 5.4 Mise en correspondance des points d intérêt avec SMPD 2 5.4.1 Détecteur de Harris On mesure les taux de rappel à partir des points trouvés par le détecteur de Harris pour les tailles de fenêtre 5, 7, 9 et 11 et avec la mesure de corrélation SMPD 2. La taille de la fenêtre de corrélation utilisée est la même que celle employée par le détecteur de Harris. Le score de corrélation SMPD 2 est d autant plus grand que les deux ensembles de niveaux de gris testés sont différents. Les valeurs de dissimilarité appartiennent à l ensemble [0;Imaxh]. 2 On élimine alors les couples pour lesquels le score de corrélation est supérieur à un seuil s donné par s = I2 max h c où c est une constante choisie de façon arbitraire de telle sorte que les résultats obtenus soient comparables avec ceux résultants de la mesure ZNCC pour un seuil de 0.9. On fait également une vérification bidirectionelle
50 Chapitre 5. Évaluation de la mise en correspondance de points d intérêt 1 0.9 0.8 taux de rappel avec le détecteur de Harris/SMPD (moyennes) 5 7 9 11 0.7 taux de rappel 0.6 0.5 0.4 0.3 0.2 0.1 0 1 1.5 2 2.5 3 3.5 4 4.5 5 marge de localisation (en pixels) Fig. 5.4 Taux de rappel moyens pour Harris avec SMPD 2 - On mesure le taux de rappel, c est-àdire le nombre d appariements corrects sur le nombre total de mise en correspondance avec la mesure de corrélation SMPD 2 pour différentes tailles de fenêtre à partir des points d intérêt retournés par le détecteur de Harris avec des fenêtres de la même taille. Quelle que soit la taille de la fenêtre, le taux de rappel pour le détecteur de Harris se situe autour de 0.95. Si on regarde de près, on remarque que plus le taille de la fenêtre est grande, plus le résultat est amélioré (toutefois, cette amélioration est assez faible). pour éliminer des mauvais appariements. Les résultats sont présentés dans le tableau 5.9. Dans l ensemble, les mêmes remarques que celles faites pour ZNCC s appliquent, cf. figure 5.1. Les résultats moyens sont de l ordre de 1% meilleurs avec SMPD 2. 5.4.2 Détecteur de Harris à taille variable de fenêtre On mesure maintenant les taux de rappel à partir des points retournés par le détecteur de Harris dont on a fait l union des résultats trouvés avec des tailles de 5, 7, 9 et 11. Chaque point est mis en correspondance par mesure de corrélation SMPD 2 sur une fenêtre de corrélation de la même taille que celle pour laquelle le point étudié avait été détecté. En cas de concurrence avec plusieurs tailles, on prend
5.4. Mise en correspondance des points d intérêt avec SMPD 2 51 1 taux de rappel avec le détecteur Harris (union)/smpd (moyennes) 0.9 0.8 0.7 taux de rappel 0.6 0.5 0.4 0.3 0.2 0.1 0 1 1.5 2 2.5 3 3.5 4 4.5 5 marge de localisation (en pixels) Fig. 5.5 Taux de rappel moyens pour Harris (union) avec SMPD 2 - On mesure le taux de rappel pour la mesure de corrélation SMPD 2 avec une taille de fenêtre variable à partir des points d intérêt formés par l union des résultats des détecteurs de Harris avec les tailles 5, 7, 9 et 11. Le taux de rappel est légèrement inférieur aux résultats précédents où on utilisait des tailles fixes. Toutefois, il reste supérieur à 0.9. celle pour laquelle la réponse du détecteur est la meilleure. Le tableau 5.9 présente les résultats trouvés pour chacune des images testées. Dans l ensemble, les mêmes remarques que celles faites pour ZNCC s appliquent, cf. figure 5.5. Les résultats moyens sont de l ordre de 1% meilleurs avec SMPD 2. 5.4.3 Détecteur SIFT et mesure de corrélation SMPD 2 On effectue les mêmes tests à partir des points détectés par le détecteur SIFT et mis en correspondance avec SMPD 2 pour les tailles de fenêtre de corrélation de 5, 7, 9 et 11 pixels. Les résultats sont présentés dans le tableau 5.9. On constate que les résultats sont moins bons qu avec ZNCC en particulier avec les tailles 7 et 11, cf. figure 5.5.
52 Chapitre 5. Évaluation de la mise en correspondance de points d intérêt 1 0.9 0.8 taux de rappel avec le détecteur de Sift/SMPD (moyennes) 5 7 9 11 0.7 taux de rappel 0.6 0.5 0.4 0.3 0.2 0.1 0 1 1.5 2 2.5 3 3.5 4 4.5 5 marge de localisation (en pixels) Fig. 5.6 Taux de rappel moyens pour SIFT avec SMPD 2 - On mesure le taux de rappel avec une mesure de corrélation SMPD 2 avec les tailles de fenêtre de corrélation de 5, 7, 9 et 11 pixels à partir des points d intérêt retournés par le détecteur SIFT. Les résultats sont moins bons qu avec la mesure ZNCC.
5.5. Mise en correspondance en utilisant les vecteurs descripteurs de SIFT 53 1 0.9 0.8 0.7 taux de rappel 0.6 0.5 0.4 0.3 0.2 0.1 0 1 1.5 2 2.5 3 3.5 4 4.5 5 marge de localisation (en pixels) Fig. 5.7 Taux de rappel moyens pour SIFT avec descripteurs - On mesure le taux de rappel avec une mise en correspondance utilisant les vecteurs descripteurs de SIFT. On ne remarque pas de différence significative entre les images cones et teddy (celles qui présentent le plus d occultations) et les autres images, même si ces premières ont des résultats légèrements inférieurs. Les résultats sont les meilleurs que l on obtient même si l on remarque une petite faiblesse lorsque l on a une faible marge de localisation. 5.5 Mise en correspondance en utilisant les vecteurs descripteurs de SIFT Enfin, on mesure le taux de rappel de la mise en correspondance des points d intérêt retourné par le détecteur SIFT par mesure de la distance euclidienne entre les vecteurs de caractérisation de SIFT. Les résultats sont présentés dans le tableau 5.10. Les taux de rappel varient entre 0.88 et 0.97, et sont de loin les meilleurs résultats, cf. figure 5.7. 5.6 Synthèse des résultats obtenus Les tableaux suivants montrent les différents points d intérêt sélectionnés pour chacun des tests. Les carrés représentent les points d intérêt. Lorsque ce carré est blanc, le point a été répété dans l image
54 Chapitre 5. Évaluation de la mise en correspondance de points d intérêt de droite, sinon, il est jaune. Si à l intérieur de ce carré il y a une étoile verte, alors il a été mis en correspondance de façon correcte. S il a été mis en correspondance mais que celle-ci est fausse, alors il y a une croix rouge à l intérieur. Si le carré est vide, le point n a pas été mis en correspondance (éliminée par un seuil ou par la vérification bidirectionnelle), cf. tableaux 5.1 à 5.8. On ne montre que les résultats obtenus avec la mesure ZNCC, ceux obtenus avec la mesure SMPD 2 sont très proches. On montre également les résultats obtenus avec la caractérisation de SIFT. Les tableaux 5.9 et 5.10 récapitulent les taux de rappel par image avec les moyennes et suivant les détecteurs (ainsi que leurs paramètres) et la méthode de mise en correspondance testés. Enfin, les tableaux 5.11 et 5.12 récapitulent les taux de mises en correspondance correctes sur le nombre de points d intérêt sélectionnés par image pour les détecteurs (ainsi que leurs paramètres) et les méthodes de mise en correspondace testés. On donne aussi la moyenne de ces taux. On remarque que seul SIFT, avec une mise en correspondance utilisant la caractérisation de SIFT arrive à mettre correctement en correspondance plus de 50% des points d intérêt sélectionnés.
5.6. Synthèse des résultats obtenus 55 Cones harris5/zncc, localisation = 3 pixels (cones) Map harris5/zncc, localisation = 3 pixels (map) 20 50 40 100 60 (a) 150 200 80 100 120 250 140 300 160 180 350 200 50 100 150 200 250 300 350 400 450 harris7/zncc, localisation = 3 pixels (cones) 50 100 150 200 250 harris7/zncc, localisation = 3 pixels (map) 20 50 40 100 60 (b) 150 200 80 100 120 250 140 300 160 180 350 200 50 100 150 200 250 300 350 400 450 harris9/zncc, localisation = 3 pixels (cones) 50 100 150 200 250 harris9/zncc, localisation = 3 pixels (map) 20 50 40 100 60 (c) 150 200 80 100 120 250 140 300 160 180 350 200 50 100 150 200 250 300 350 400 450 50 100 150 200 250 Tab. 5.1 Mise en correspondance des points d intérêt - Les points d intérêt sélectionnés sont marqués par un carré blanc lorsque qu ils sont répétés dans l image de droite et jaune sinon. Ceux marqués d une étoile verte ont été mis en correspondance correctement et ceux marqués d une croix rouge ont été mis en correspondance de façon erronée. La méthode employée pour la sélection des points d intérêt, et respectivement, la méthode employée pour la mise en correspondance de ces points est (a) Harris avec une fenêtre de taille 5 5, respectivement, ZNCC (b) Harris avec une fenêtre de taille 7 7, respectivement, ZNCC (c) Harris avec une fenêtre de taille 9 9, respectivement, ZNCC.
56 Chapitre 5. Évaluation de la mise en correspondance de points d intérêt Cones harris11/zncc, localisation = 3 pixels (cones) Map harris11/zncc, localisation = 3 pixels (map) 20 50 40 100 60 (d) 150 200 80 100 120 250 140 300 160 180 350 200 50 100 150 200 250 300 350 400 450 harris (union des tailles 5, 7, 9 et 11)/zncc, localisation = 3 pixels (cones) 50 100 150 200 250 harris (union des tailles 5, 7, 9 et 11)/zncc, localisation = 3 pixels (map) 20 50 40 100 60 (e) 150 200 80 100 120 250 140 300 160 180 350 200 50 100 150 200 250 300 350 400 450 50 100 150 200 250 Tab. 5.2 Mise en correspondance des points d intérêt (suite) - Les points d intérêt sélectionnés sont marqués par un carré blanc lorsque qu ils sont répétés dans l image de droite et jaune sinon. Ceux marqués d une étoile verte ont été mis en correspondance correctement et ceux marqués d une croix rouge ont été mis en correspondance de façon erronée. La méthode employée pour la sélection des points d intérêt, et respectivement, la méthode employée pour la mise en correspondance de ces points est (d) Harris avec une fenêtre de taille 11 11, respectivement, ZNCC (e) Harris avec une fenêtre de taille variable, respectivement, ZNCC.
5.6. Synthèse des résultats obtenus 57 Sawtooth harris5/zncc, localisation = 3 pixels (sawtooth) Teddy harris5/zncc, localisation = 3 pixels (teddy) 50 50 100 100 (a) 150 200 150 200 250 250 300 300 350 350 50 100 150 200 250 300 350 400 harris7/zncc, localisation = 3 pixels (sawtooth) 50 100 150 200 250 300 350 400 450 harris7/zncc, localisation = 3 pixels (teddy) 50 50 100 100 (b) 150 200 150 200 250 250 300 300 350 350 50 100 150 200 250 300 350 400 harris9/zncc, localisation = 3 pixels (sawtooth) 50 100 150 200 250 300 350 400 450 harris9/zncc, localisation = 3 pixels (teddy) 50 50 100 100 (c) 150 200 150 200 250 250 300 300 350 350 50 100 150 200 250 300 350 400 50 100 150 200 250 300 350 400 450 Tab. 5.3 Mise en correspondance des points d intérêt (suite) - Les points d intérêt sélectionnés sont marqués par un carré blanc lorsque qu ils sont répétés dans l image de droite et jaune sinon. Ceux marqués d une étoile verte ont été mis en correspondance correctement et ceux marqués d une croix rouge ont été mis en correspondance de façon erronée. La méthode employée pour la sélection des points d intérêt, et respectivement, la méthode employée pour la mise en correspondance de ces points est (a) Harris avec une fenêtre de taille 5 5, respectivement, ZNCC (b) Harris avec une fenêtre de taille 7 7, respectivement, ZNCC (c) Harris avec une fenêtre de taille 9 9, respectivement, ZNCC.
58 Chapitre 5. Évaluation de la mise en correspondance de points d intérêt Sawtooth harris11/zncc, localisation = 3 pixels (sawtooth) Teddy harris11/zncc, localisation = 3 pixels (teddy) 50 50 100 100 (d) 150 200 150 200 250 250 300 300 350 350 50 100 150 200 250 300 350 400 harris (union des tailles 5, 7, 9 et 11)/zncc, localisation = 3 pixels (sawtooth) 50 100 150 200 250 300 350 400 450 harris (union des tailles 5, 7, 9 et 11)/zncc, localisation = 3 pixels (teddy) 50 50 100 100 (e) 150 200 150 200 250 250 300 300 350 350 50 100 150 200 250 300 350 400 50 100 150 200 250 300 350 400 450 Tab. 5.4 Mise en correspondance des points d intérêt (suite) - Les points d intérêt sélectionnés sont marqués par un carré blanc lorsque qu ils sont répétés dans l image de droite et jaune sinon. Ceux marqués d une étoile verte ont été mis en correspondance correctement et ceux marqués d une croix rouge ont été mis en correspondance de façon erronée. La méthode employée pour la sélection des points d intérêt, et respectivement, la méthode employée pour la mise en correspondance de ces points est (d) Harris avec une fenêtre de taille 11 11, respectivement, ZNCC (e) Harris avec une fenêtre de taille variable, respectivement, ZNCC.
5.6. Synthèse des résultats obtenus 59 Cones sift/zncc(taille 5), localisation = 3 pixels (cones) Map sift/zncc(taille 5), localisation = 3 pixels (map) 20 50 40 100 60 (f) 150 200 80 100 120 250 140 300 160 180 350 200 50 100 150 200 250 300 350 400 450 sift/zncc(taille 7), localisation = 3 pixels (cones) 50 100 150 200 250 sift/zncc(taille 7), localisation = 3 pixels (map) 20 50 40 100 60 (g) 150 200 80 100 120 250 140 300 160 180 350 200 50 100 150 200 250 300 350 400 450 sift/zncc(taille 9), localisation = 3 pixels (cones) 50 100 150 200 250 sift/zncc(taille 9), localisation = 3 pixels (map) 20 50 40 100 60 (h) 150 200 80 100 120 250 140 300 160 180 350 200 50 100 150 200 250 300 350 400 450 50 100 150 200 250 Tab. 5.5 Mise en correspondance des points d intérêt (suite) - Les points d intérêt sélectionnés sont marqués par un carré blanc lorsque qu ils sont répétés dans l image de droite et jaune sinon. Ceux marqués d une étoile verte ont été mis en correspondance correctement et ceux marqués d une croix rouge ont été mis en correspondance de façon erronée. La méthode employée pour la sélection des points d intérêt, et respectivement, la méthode employée pour la mise en correspondance de ces points est (f) SIFT, respectivement, ZNCC avec une fenêtre de taille 5 5 (g) SIFT, respectivement, ZNCC avec une fenêtre de taille 7 7 (h) SIFT, respectivement, ZNCC avec une fenêtre de taille 9 9.
60 Chapitre 5. Évaluation de la mise en correspondance de points d intérêt Cones sift/zncc(taille 11), localisation = 3 pixels (cones) Map sift/zncc(taille 11), localisation = 3 pixels (map) 20 50 40 100 60 (i) 150 200 80 100 120 250 140 300 160 180 350 200 50 100 150 200 250 300 350 400 450 sift/distance descripteurs, localisation = 3 pixels (cones) 50 100 150 200 250 sift/distance descripteurs, localisation = 3 pixels (map) 20 50 40 100 60 (j) 150 200 80 100 120 250 140 300 160 180 350 200 50 100 150 200 250 300 350 400 450 50 100 150 200 250 Tab. 5.6 Mise en correspondance des points d intérêt (suite) - Les points d intérêt sélectionnés sont marqués par un carré blanc lorsque qu ils sont répétés dans l image de droite et jaune sinon. Ceux marqués d une étoile verte ont été mis en correspondance correctement et ceux marqués d une croix rouge ont été mis en correspondance de façon erronée. La méthode employée pour la sélection des points d intérêt, et respectivement, la méthode employée pour la mise en correspondance de ces points est (i) SIFT, respectivement, ZNCC avec une fenêtre de taille 11 11 (j) SIFT, respectivement, la mise en correspondance utilisant les vecteurs caractéristiques de SIFT.
5.6. Synthèse des résultats obtenus 61 Sawtooth sift/zncc(taille 5), localisation = 3 pixels (sawtooth) Teddy sift/zncc(taille 5), localisation = 3 pixels (teddy) 50 50 100 100 (f) 150 200 150 200 250 250 300 300 350 350 50 100 150 200 250 300 350 400 sift/zncc(taille 7), localisation = 3 pixels (sawtooth) 50 100 150 200 250 300 350 400 450 sift/zncc(taille 7), localisation = 3 pixels (teddy) 50 50 100 100 (g) 150 200 150 200 250 250 300 300 350 350 50 100 150 200 250 300 350 400 sift/zncc(taille 9), localisation = 3 pixels (sawtooth) 50 100 150 200 250 300 350 400 450 sift/zncc(taille 9), localisation = 3 pixels (teddy) 50 50 100 100 (h) 150 200 150 200 250 250 300 300 350 350 50 100 150 200 250 300 350 400 50 100 150 200 250 300 350 400 450 Tab. 5.7 Mise en correspondance des points d intérêt (suite) - Les points d intérêt sélectionnés sont marqués par un carré blanc lorsque qu ils sont répétés dans l image de droite et jaune sinon. Ceux marqués d une étoile verte ont été mis en correspondance correctement et ceux marqués d une croix rouge ont été mis en correspondance de façon erronée. La méthode employée pour la sélection des points d intérêt, et respectivement, la méthode employée pour la mise en correspondance de ces points est (f) SIFT, respectivement, ZNCC avec une fenêtre de taille 5 5 (g) SIFT, respectivement, ZNCC avec une fenêtre de taille 7 7 (h) SIFT, respectivement, ZNCC avec une fenêtre de taille 9 9.
62 Chapitre 5. Évaluation de la mise en correspondance de points d intérêt Sawtooth sift/zncc(taille 11), localisation = 3 pixels (sawtooth) Teddy sift/zncc(taille 11), localisation = 3 pixels (teddy) 50 50 100 100 (i) 150 200 150 200 250 250 300 300 350 350 50 100 150 200 250 300 350 400 sift/distance descripteurs, localisation = 3 pixels (sawtooth) 50 100 150 200 250 300 350 400 450 sift/distance descripteurs, localisation = 3 pixels (teddy) 50 50 100 100 (j) 150 200 150 200 250 250 300 300 350 350 50 100 150 200 250 300 350 400 50 100 150 200 250 300 350 400 450 Tab. 5.8 Mise en correspondance des points d intérêt (suite) - Les points d intérêt sélectionnés sont marqués par un carré blanc lorsque qu ils sont répétés dans l image de droite et jaune sinon. Ceux marqués d une étoile verte ont été mis en correspondance correctement et ceux marqués d une croix rouge ont été mis en correspondance de façon erronée. La méthode employée pour la sélection des points d intérêt, et respectivement, la méthode employée pour la mise en correspondance de ces points est (i) SIFT, respectivement, ZNCC avec une fenêtre de taille 11 11 (j) SIFT, respectivement, la mise en correspondance utilisant les vecteurs caractéristiques de SIFT.
5.6. Synthèse des résultats obtenus 63 Cones Map Sawtooth Teddy Moyenne ZNCC SMPD 2 ZNCC SMPD 2 ZNCC SMPD 2 ZNCC SMPD 2 ZNCC SMPD 2 0.88 0.89 0.98 0.98 0.99 1.00 0.86 0.85 0.93 0.93 0.88 0.90 0.97 1.00 0.98 1.00 0.87 0.86 0.92 0.94 (a) 0.90 0.95 0.97 1.00 0.98 1.00 0.90 0.90 0.94 0.96 0.94 0.96 0.95 1.00 0.98 1.00 0.91 0.90 0.94 0.96 0.94 0.96 0.96 1.00 0.98 1.00 0.92 0.92 0.95 0.97 0.87 0.88 1.00 0.98 0.99 1.00 0.92 0.92 0.94 0.95 0.87 0.90 1.00 0.99 0.99 1.00 0.91 0.89 0.94 0.94 (b) 0.90 0.93 1.00 0.99 0.98 1.00 0.93 0.91 0.95 0.96 0.90 0.91 1.00 0.99 0.98 1.00 0.93 0.91 0.95 0.95 0.90 0.92 1.00 0.99 0.98 1.00 0.94 0.92 0.96 0.96 0.87 0.91 1.00 1.00 0.98 0.99 0.91 0.93 0.94 0.95 0.88 0.90 1.00 1.00 0.98 0.98 0.92 0.93 0.94 0.95 (c) 0.89 0.91 1.00 1.00 0.98 0.98 0.94 0.94 0.95 0.96 0.91 0.93 1.00 1.00 0.98 0.99 0.94 0.94 0.96 0.97 0.91 0.94 1.00 1.00 0.98 0.99 0.95 0.95 0.96 0.97 0.87 0.84 1.00 1.00 0.98 0.98 0.89 0.90 0.93 0.93 0.89 0.86 1.00 1.00 0.98 0.99 0.88 0.91 0.94 0.95 (d) 0.91 0.89 1.00 1.00 0.98 0.99 0.90 0.92 0.95 0.95 0.91 0.89 1.00 1.00 0.98 0.98 0.91 0.93 0.95 0.95 0.91 0.89 1.00 1.00 0.98 0.99 0.91 0.93 0.95 0.95 0.88 0.89 0.99 0.96 0.99 0.99 0.86 0.87 0.93 0.93 0.87 0.88 0.98 0.96 0.97 0.99 0.85 0.87 0.92 0.93 (e) 0.89 0.90 0.97 0.95 0.95 0.99 0.88 0.90 0.93 0.94 0.91 0.91 0.96 0.94 0.95 0.99 0.88 0.90 0.93 0.94 0.91 0.91 0.96 0.94 0.95 0.99 0.90 0.92 0.94 0.94 0.95 0.83 0.95 0.87 0.99 0.92 0.90 0.79 0.95 0.85 0.93 0.83 0.94 0.85 0.97 0.92 0.89 0.81 0.93 0.85 (f) 0.93 0.86 0.91 0.84 0.95 0.92 0.88 0.80 0.92 0.86 0.93 0.86 0.88 0.82 0.95 0.92 0.88 0.80 0.91 0.85 0.93 0.87 0.87 0.81 0.95 0.93 0.88 0.81 0.91 0.86 0.95 0.90 0.99 0.94 0.99 0.94 0.90 0.84 0.96 0.90 0.94 0.87 0.98 0.94 0.98 0.94 0.91 0.85 0.95 0.90 (g) 0.95 0.89 0.98 0.94 0.96 0.93 0.91 0.86 0.95 0.90 0.95 0.89 0.98 0.93 0.96 0.94 0.92 0.87 0.95 0.91 0.96 0.91 0.98 0.92 0.97 0.95 0.93 0.88 0.96 0.92 0.96 0.92 0.99 0.97 0.99 0.95 0.90 0.86 0.96 0.93 0.96 0.89 0.99 0.97 0.99 0.96 0.89 0.87 0.96 0.92 (h) 0.96 0.90 0.98 0.97 0.98 0.95 0.91 0.87 0.96 0.92 0.96 0.91 0.98 0.96 0.98 0.95 0.93 0.89 0.97 0.93 0.97 0.93 0.98 0.95 0.98 0.96 0.93 0.90 0.97 0.94 0.97 0.95 0.99 0.98 0.99 0.99 0.91 0.89 0.97 0.95 0.97 0.92 0.99 0.99 0.99 0.96 0.91 0.88 0.96 0.94 (i) 0.96 0.92 0.99 0.99 0.98 0.96 0.92 0.89 0.97 0.94 0.97 0.93 0.99 0.98 0.98 0.95 0.93 0.90 0.97 0.94 0.98 0.94 0.99 0.98 0.98 0.97 0.93 0.91 0.97 0.95 Tab. 5.9 Ce tableau récapitule tous les taux de rappel trouvés. La méthode employée pour la sélection des points d intérêt est (a) Harris 5 5, (b) Harris 7 7, (c) Harris 9 9, (d) Harris 11 11, (e) Harris avec une fenêtre de taille variable, (f) SIFT 5 5, (g) SIFT 7 7, (h) SIFT 9 9, (i) SIFT 11 11. On marque en gras les meilleurs résultats par colonne pour une localisation de 1.
64 Chapitre 5. Évaluation de la mise en correspondance de points d intérêt Cones Map Sawtooth Teddy Moyenne 0.88 0.91 0.92 0.88 0.90 0.93 0.96 0.98 0.92 0.95 (j) 0.95 0.96 0.98 0.95 0.96 0.95 0.96 0.98 0.96 0.96 0.96 0.96 0.99 0.97 0.97 Tab. 5.10 Taux de rappel (suite) - Ce tableau récapitule tous les taux de rappel trouvés pour chacune des images testées ainsi que les moyennes. (j) SIFT avec mise en correspondance utilisant les vecteurs caractéristiques.
5.6. Synthèse des résultats obtenus 65 Cones Map Sawtooth Teddy Moyenne ZNCC SMPD 2 ZNCC SMPD 2 ZNCC SMPD 2 ZNCC SMPD 2 ZNCC SMPD 2 0.36 0.33 0.44 0.22 0.48 0.40 0.33 0.30 0.40 0.31 0.37 0.33 0.45 0.23 0.49 0.41 0.36 0.33 0.42 0.32 (a) 0.39 0.35 0.45 0.23 0.49 0.41 0.38 0.35 0.43 0.33 0.41 0.36 0.45 0.23 0.49 0.41 0.38 0.35 0.43 0.34 0.41 0.36 0.45 0.23 0.49 0.41 0.39 0.36 0.43 0.34 0.38 0.33 0.36 0.30 0.50 0.48 0.32 0.30 0.39 0.35 0.40 0.35 0.38 0.33 0.52 0.50 0.35 0.35 0.41 0.38 (b) 0.42 0.37 0.38 0.33 0.52 0.50 0.36 0.37 0.42 0.39 0.43 0.37 0.38 0.33 0.52 0.50 0.36 0.37 0.42 0.39 0.43 0.37 0.38 0.33 0.52 0.50 0.36 0.37 0.42 0.39 0.31 0.31 0.39 0.39 0.49 0.52 0.38 0.41 0.39 0.41 0.33 0.33 0.41 0.43 0.51 0.61 0.41 0.47 0.41 0.46 (c) 0.33 0.34 0.41 0.43 0.51 0.61 0.43 0.48 0.42 0.46 0.34 0.35 0.41 0.43 0.51 0.61 0.43 0.49 0.42 0.47 0.34 0.35 0.41 0.43 0.51 0.61 0.44 0.49 0.42 0.47 0.29 0.31 0.40 0.39 0.49 0.54 0.38 0.42 0.39 0.41 0.31 0.34 0.40 0.41 0.52 0.63 0.43 0.51 0.41 0.47 (d) 0.32 0.36 0.40 0.41 0.52 0.63 0.43 0.52 0.42 0.48 0.32 0.36 0.40 0.41 0.52 0.63 0.44 0.52 0.42 0.48 0.32 0.36 0.40 0.41 0.52 0.63 0.44 0.52 0.42 0.48 0.38 0.37 0.39 0.38 0.53 0.48 0.37 0.34 0.42 0.39 0.39 0.48 0.40 0.41 0.54 0.49 0.41 0.38 0.44 0.41 (e) 0.41 0.40 0.40 0.41 0.54 0.49 0.42 0.39 0.44 0.42 0.42 0.41 0.39 0.40 0.54 0.49 0.43 0.39 0.44 0.42 0.42 0.41 0.39 0.40 0.54 0.49 0.44 0.40 0.45 0.42 0.30 0.39 0.29 0.36 0.34 0.45 0.26 0.37 0.30 0.39 0.31 0.41 0.31 0.37 0.35 0.49 0.26 0.39 0.31 0.42 (f) 0.31 0.41 0.30 0.36 0.35 0.49 0.26 0.40 0.31 0.41 0.31 0.40 0.30 0.34 0.35 0.49 0.27 0.40 0.31 0.41 0.32 0.41 0.30 0.33 0.35 0.48 0.27 0.40 0.31 0.41 0.31 0.37 0.31 0.34 0.36 0.44 0.28 0.37 0.32 0.38 0.32 0.40 0.32 0.38 0.38 0.50 0.29 0.40 0.32 0.42 (g) 0.32 0.41 0.32 0.38 0.37 0.50 0.29 0.42 0.33 0.43 0.32 0.41 0.32 0.37 0.37 0.50 0.30 0.43 0.33 0.43 0.33 0.42 0.32 0.37 0.38 0.50 0.30 0.43 0.33 0.43 0.31 0.36 0.31 0.34 0.38 0.45 0.28 0.35 0.32 0.37 0.32 0.39 0.31 0.37 0.40 0.50 0.29 0.39 0.33 0.41 (h) 0.32 0.40 0.31 0.37 0.40 0.50 0.30 0.40 0.33 0.42 0.32 0.40 0.31 0.37 0.40 0.50 0.30 0.41 0.33 0.42 0.32 0.41 0.31 0.37 0.40 0.50 0.30 0.42 0.33 0.42 0.31 0.35 0.30 0.33 0.40 0.45 0.29 0.35 0.32 0.37 0.32 0.37 0.30 0.36 0.42 0.50 0.30 0.38 0.33 0.40 (i) 0.32 0.38 0.30 0.36 0.42 0.50 0.30 0.40 0.33 0.41 0.32 0.38 0.30 0.36 0.42 0.50 0.31 0.40 0.34 0.41 0.32 0.39 0.30 0.36 0.42 0.50 0.31 0.40 0.34 0.41 Tab. 5.11 Ce tableau récapitule tous les taux d appariements corrects sur le nombre de points d intérêt détectés trouvés. La méthode employée pour la sélection des points d intérêt est (a) Harris 5 5, (b) Harris 7 7, (c) Harris 9 9, (d) Harris 11 11, (e) Harris avec une fenêtre de taille variable, (f) SIFT 5 5, (g) SIFT taille 7 7, (h) SIFT 9 9, (i) SIFT 11 11. On marque en gras les meilleurs résultats par colonne pour une localisation de 1.
66 Chapitre 5. Évaluation de la mise en correspondance de points d intérêt Cones Map Sawtooth Teddy Moyenne 0.48 0.40 0.78 0.48 0.53 0.51 0.42 0.83 0.50 0.56 (j) 0.51 0.42 0.83 0.52 0.57 0.52 0.42 0.83 0.52 0.57 0.52 0.42 0.83 0.53 0.58 Tab. 5.12 Taux d appariements corrects sur le nombre de points d intérêt détectés (suite) - Ce tableau récapitule tous les taux d appariements corrects sur le nombre de points d intérêt détectés trouvés pour chacune des images testées ainsi que les moyennes. (j) SIFT avec mise en correspondance utilisant les vecteurs caractéristiques.
Chapitre 6 Évaluation de la mise en correspondance par propagation Sommaire 6.1 Introduction...................................... 67 6.2 Critères......................................... 67 6.3 Résultats de la propagation............................. 68 6.4 Synthèse des résultats obtenus........................... 69 6.1 Introduction Nous souhaitons connaître l influence du choix de la méthode de mise en correspondance de points d intérêt sur les résultats d une mise en correspondance par propagation de germes, en l occurrence celle de Lhuillier. 6.2 Critères Scharstein et al. [Scharstein 01] proposent de mesurer les performances des différentes variantes des algorithmes de mise en correspondance de pixels à partir de deux images. Ils proposent une classification des méthodes de mise en correspondance en mettant en évidence les différents composants de ces algorithmes (calcul du coût de mise en correspondance, du coût d agrégation, de la disparité, optimisation, raffinement) et fournissent un ensemble de couples d images avec la vérité terrain (dont les plus récents ont été obtenus avec une méthode de projection de lumière structurée [Scharstein 03]). La vérité terrain regroupe toutes les informations connues sur la scène (dimensions, distance, correspondances). Une étude a déjà été réalisée sur les méthodes de calcul de la vérité terrain, cf. [Bocquillon 04]. Les auteurs d algorithmes de mise en correspondance disposent ainsi d une méthode «standardisée» pour évaluer leurs performances, une comparaison du résultat obtenu est faite avec le terrain vérité. Le classement des meilleurs algorithmes est disponible en ligne à l adresse : bj.middlebury.edu/~schar/stereo/neweval/php/results.php. Pour notre évaluation, nous reprenons les travaux de [Chambon 05] où l auteur propose son protocole d évaluation et de comparaison afin de pouvoir mesurer le comportement des algorithmes de mise en correspondance face au problème des occultations. Soit d ref la fonction de disparité théorique et occ la disparité symbolique attribuée à un pixel occulté, 67
68 Chapitre 6. Évaluation de la mise en correspondance par propagation alors nous posons : Le calcul de Err i,j g les suivants : Err i,j g = d(p i,j g ) d ref (p i,j g ). (6.1) n a de signification que si d(p i,j l ) occ et d ref (p i,j ) occ. Les critères étudiés sont 1. Pourcentage d appariements corrects (Corr) - Un appariement est correct si Err i,j g = 0. 2. Pourcentage d appariements acceptés (Acc) - Un appariement est accepté si 1 Err i,j g < 2, dans le cas où la disparité est réelle, ou si Err i,j g = 1, dans le cas d une disparité entière, cf. [McCane 01]. 3. Pourcentage d appariements mauvais (Mau) - L appariement est mauvais si 2 Err i,j g < 3, dans le cas où la disparité est réelle, ou si Err i,j g = 2, dans le cas d une disparité entière, cf. [McCane 01]. 4. Pourcentage d appariements erronés (Err) - L appariement est erroné si Err i,j g 3, dans le cas où la disparité est réelle, ou si Err i,j g 0, dans le cas d une disparité entière, cf. [McCane 01]. 5. Faux positif (FPo) - Un appariement est considéré comme un faux positif lorsqu une correspondance a été établie pour un pixel de gauche alors qu il y a une occultation, c est-à-dire, si d(p i,j g ) d ref (p i,j g ) et d ref (p i,j g ) = occ [Fielding 00, Egnal 02, Tesser 03]. 6. Faux négatif (FNe) - Un appariement est considéré comme un faux négatif lorsqu un pixel de gauche est considéré comme occulté alors qu il ne l est pas, c est-à-dire, si d(p i,j g ) d ref (p i,j g ) et d(p i,j l ) = occ [Egnal 02, Tesser 03]. Le pourcentage d appariements corrects est ensuite évalué uniquement sur la zone d occultations (ZO), la zone d influence d occultations (ZI) qui contient tous les pixels proches des zones occultées, la zone totale des occultations (ZT) qui est l union des deux précédentes zones et la zone des discontinuités (ZD) où les pixels ont des disparités très différentes de leurs voisins car on se situe à une discontinuité de profondeur. 6.3 Résultats de la propagation On applique l algorithme de propagation de Lhuillier tel que décrit dans [Lhuillier 00] à partir des différents couples de points d intérêt obtenus avec : le détecteur de Harris avec une taille de fenêtre de 11 pixels et une mesure de corrélation ZNCC ; le détecteur de Harris avec une taille de fenêtre variable et une mesure de corrélation ZNCC ; le détecteur SIFT et une mesure de corrélation ZNCC avec une taille de fenêtre de corrélation de 11 pixels ; le détecteur de Harris avec une taille de fenêtre de 11 pixels et une mesure de corrélation SMPD 2 ; le détecteur de Harris avec une taille de fenêtre variable et une mesure de corrélation SMPD 2 ; le détecteur SIFT et une mesure de corrélation SMPD 2 avec une taille de fenêtre de corrélation de 11 pixels ; le détecteur SIFT avec une mise en correspondance utilisant les descripteurs de SIFT. On choisit ceux-là, avec une marge de localisation de 3 pixels, car ce sont ceux qui donnent les meilleurs taux de rappel pour une précision de localisation médiane. Les temps de calcul, sont de l ordre de 30 secondes environ pour chaque image sur un PowerBook G4. Avec un seuil de corrélation de 0.9, la densité moyenne est d environ 50%. Cela signifie que le score de corrélation pour tous les pixels mis en correspondance est supérieur à 0.9. Avec la mesure ZNCC et le seuil à 0.9, les densités varient entre 29% et 52%, cf. tableau 6.1. Teddy a la densité la plus faible. Si on regarde les cartes de disparité obtenues, cf. tableau 6.3, on constate que ce sont principalement les zones homogènes qui font défaut là où peu de germes avaient été détectés. Les pourcentages d appariements corrects sont élevés, cf. tableau 6.2. En effet, en sélectionnant uniquement les couples dont le score de corrélation est superieur à 0.9, on ne garde que les appariements a priori
6.4. Synthèse des résultats obtenus 69 Cones Map Sawtooth Teddy (a) 48 52 42 34 (b) 51 52 42 29 (c) 49 52 42 32 (d) 49 52 42 33 Tab. 6.1 Densités des cartes de disparité - Densités en % des cartes de disparité obtenues avec (a) le détecteur de Harris avec une taille de fenêtre 11 et ZNCC, (b) le détecteur de Harris avec une taille de fenêtre variable et ZNCC, (c) le détecteur SIFT et une mise en correspondance ZNCC sur une taille de fenêtre 11, (d) le détecteur SIFT. les meilleurs. De plus, les correspondances sont précises. En revanche, on peut constater que les mauvais appariements sont principalement localisés au niveau des zones occultées. On calcule ensuite la propagation avec SMPD 2 et un seuil choisit de façon empirique de telle sorte que les densités des cartes de disparité obtenues soient de l ordre de 50%, cf. tableau 6.4. On constate que cartes de disparité obtenues sont un peu plus dense sauf pour map. Le pourcentage d appariements corrects est moins bon que pour ZNCC. On constate toutefois que les pourcentages d appariements corrects dans les zones occultées et de discontinuités sont meilleurs. Par conséquent, cela confirme que la mesure SMPD 2 est mieux adaptée aux contours des objets. 6.4 Synthèse des résultats obtenus Les tableaux 6.1 à 6.6 montrent les différentes valeurs obtenues en évaluant les cartes de disparité obtenues par l algorithme de propagation de Lhuillier à partir des germes sélectionnés selon les méthodes présentées au chapitre précédent. On montre d abord les résultats obtenus avec ZNCC puis ceux obtenus avec SMPD 2. Les cartes de disparité présentées ont subi un recadrage de la dynamique pour les rendre plus lisibles.
70 Chapitre 6. Évaluation de la mise en correspondance par propagation Corr Acc Mau Err FPo PNe ZT ZO ZI ZD (a) 92.57 0.00 0.57 2.49 1.85 3.09 43.75 18.26 47.38 42.95 (b) 91.66 0.00 0.58 2.34 2.36 3.65 42.04 17.08 46.14 41.87 Cones (c) 91.98 0.00 0.55 2.36 2.11 3.55 42.94 17.15 46.90 42.67 (d) 91.38 0.00 0.57 1.95 2.05 4.62 43.51 18.12 47.45 42.54 (e) 91.89 0.00 0.56 2.28 2.09 3.72 43.06 17.65 46.96 42.50 (a) 97.25 0.00 0.05 0.25 0.30 2.20 67.57 17.95 71.63 69.07 (b) 97.05 0.00 0.06 0.25 0.31 2.40 66.90 22.48 70.85 68.39 Map (c) 97.16 0.00 0.05 0.23 0.30 2.31 67.55 17.95 71.61 68.87 (d) 96.40 0.00 0.06 0.16 0.26 3.17 68.13 27.35 71.47 65.65 (e) 96.96 0.00 0.05 0.22 0.29 2.52 67.53 21.43 71.39 67.99 (a) 92.92 0.00 1.86 3.18 0.87 3.03 31.86 17.62 35.53 38.12 (b) 93.17 0.00 2.00 3.40 0.89 2.55 31.61 14.54 35.86 39.25 Sawtooth (c) 92.37 0.00 1.90 3.29 0.88 3.46 32.12 15.35 36.08 38.85 (d) 92.57 0.00 1.68 3.02 0.86 3.55 31.85 18.82 35.18 37.84 (e) 92.75 0.00 1.86 3.22 0.87 3.14 31.86 16.58 35.66 38.51 (a) 84.47 0.00 2.71 7.17 3.45 4.91 32.62 13.98 36.57 35.88 (b) 82.48 0.00 3.40 8.61 4.04 4.87 33.08 18.74 36.25 35.51 Teddy (c) 82.76 0.00 2.65 8.10 3.38 5.76 32.60 16.46 35.89 35.54 (d) 83.84 0.00 2.72 7.71 3.43 5.02 33.65 17.36 37.09 36.44 (e) 83.38 0.00 2.87 7.89 3.57 5.14 32.98 16.63 36.45 35.84 Tab. 6.2 Résultats obtenus pour les couples d images testées - Il s agit de l évaluation quantitative des disparités obtenues par propagation avec la mesure ZNCC et avec (a) le détecteur de Harris sur une taille de fenêtre 11 11 (b) le détecteur de Harris sur une taille de fenêtre variable (c) le détecteur SIFT sur une taille de fenêtre de corrélation 11 11 (d) le détecteur SIFT et une mise en correspondance utilisant la caractérisation de SIFT, (e) moyenne.
6.4. Synthèse des résultats obtenus 71 Cones Map Sawtooth Teddy (a) (b) (c) (d) Tab. 6.3 Cartes de disparités obtenues - Les cartes de disparités non-denses obtenues avec l algorithme de propagation de Lhuillier avec la mesure ZNCC et avec (a) le détecteur de Harris par une taille de fenêtre 11 11 (b) le détecteur de Harris par une taille de fenêtre variable (c) le détecteur SIFT par une taille de fenêtre de corrélation 11 11 (d) le détecteur SIFT et une mise en correspondance des points d intérêt utilisant la caractérisation de SIFT. En rose, ce sont les parties de l image qui n ont pas été mises en correspondance. Cones Map Sawtooth Teddy (a) 69 42 68 68 (b) 70 44 68 67 (c) 70 44 68 68 (d) 69 45 68 68 Tab. 6.4 Densités des cartes de disparité - Densités en % des cartes de disparité obtenues avec (a) le détecteur de Harris avec une taille de fenêtre 11 et SMPD 2, (b) le détecteur de Harris avec une taille de fenêtre variable et SMPD 2, (c) le détecteur SIFT et une mise en correspondance SMPD 2 sur une taille de fenêtre 11, (d) le détecteur SIFT.
72 Chapitre 6. Évaluation de la mise en correspondance par propagation Corr Acc Mau Err FPo PNe ZT ZO ZI ZD (a) 85.02 0.00 0.86 2.61 2.55 9.82 43.34 35.22 44.95 40.64 (b) 84.54 0.00 0.82 2.45 2.47 10.55 43.92 36.47 45.35 40.89 Cones (c) 84.30 0.00 0.80 2.54 2.53 10.63 43.84 37.38 45.14 40.98 (d) 85.07 0.00 0.85 2.61 2.44 9.89 45.03 37.81 46.45 41.97 (e) 84.73 0.00 0.83 2.55 2.49 10.22 44.03 36.72 45.47 41.12 (a) 87.99 0.00 0.73 0.83 0.14 11.04 56.36 27.45 57.56 70.74 (b) 86.87 0.00 0.65 0.77 0.22 12.13 54.71 26.51 56.50 69.77 Map (c) 86.30 0.00 0.69 0.76 0.16 12.77 55.68 25.42 57.08 70.32 (d) 83.10 0.00 0.63 0.70 0.13 16.06 55.33 31.48 56.32 70.16 (e) 86.06 0.00 0.67 0.76 0.16 13.00 55.52 27.71 56.86 70.24 (a) 79.27 0.00 2.36 3.14 0.40 17.19 39.76 57.18 35.89 40.52 (b) 79.17 0.00 2.41 3.28 0.39 17.16 39.71 61.34 34.57 39.89 Sawtooth (c) 78.93 0.00 2.36 3.16 0.38 17.53 39.12 60.49 34.22 38.13 (d) 78.38 0.00 2.31 3.30 0.49 17.82 38.35 49.46 35.76 40.33 (e) 78.93 0.00 2.36 3.22 0.41 17.42 39.23 57.11 35.11 39.71 (a) 59.54 0.00 1.86 4.14 1.41 34.91 29.62 61.15 23.00 24.93 (b) 61.54 0.00 2.11 5.14 1.47 31.84 35.68 57.18 31.44 28.67 Teddy (c) 51.85 0.00 1.72 3.77 1.30 43.08 35.61 56.73 31.94 27.96 (d) 69.21 0.00 2.46 5.06 1.81 23.92 34.81 39.37 34.02 31.18 (e) 60.53 0.00 2.03 4.52 1.49 33.43 33.93 53.60 30.10 28.18 Tab. 6.5 Résultats obtenus pour les couples d images testées - Il s agit de l évaluation quantitative des disparités obtenues par propagation avec la mesure SMPD 2 et avec (a) le détecteur de Harris sur une taille de fenêtre 11 11 (b) le détecteur de Harris sur une taille de fenêtre variable (c) le détecteur SIFT sur une taille de fenêtre de corrélation 11 11 (d) le détecteur SIFT et une mise en correspondance des points d intérêt utilisant la caractérisation de SIFT, (e) moyenne.
6.4. Synthèse des résultats obtenus 73 Cones Map Sawtooth Teddy (a) (b) (c) (d) Tab. 6.6 Cartes de disparités obtenues - Les cartes de disparités non-denses obtenues avec l algorithme de propagation de Lhuillier avec la mesure SMPD 2 et avec (a) le détecteur de Harris par une taille de fenêtre 11 11 (b) le détecteur de Harris par une taille de fenêtre variable (c) le détecteur SIFT par une taille de fenêtre de corrélation 11 11 (d) le détecteur SIFT et une mise en correspondance utilisant la caractérisation de SIFT. En rose, ce sont les parties de l image qui n ont pas été mises en correspondance.
Conclusion Dans ce rapport, dans le cadre de la stéréovision, nous avons abordé la mise en correspondance de pixels en utilisant une méthode par propagation de germes. Nous avons commencé par un état de l art des différentes méthodes de mise en correspondance et de détection de points d intérêt. Nous avons également étudié comment ces détecteurs de point d intérêt ont été évalués et comparés dans la littérature. Nous avons mis en évidence que ces évaluations étaient incomplètes et ne nous donnaient pas suffisamment d information par rapport au problème que nous nous posons : quel détecteur et quelle méthode de mise en correspondance utilisés afin de choisir au mieux les germes d une méthode de mise en correspondance par propagation de germes. Ainsi, dans un premier temps, nous avons donc proposé une nouvelle évaluation des différentes méthodes de détection et de mise en correspondance de points d intérêt, notamment en utilisant des critères comme la répétabilité. Cette évaluation a permis de mettre en évidence le détecteur possédant la meilleure répétabilité qui consiste à utiliser l union des points retournés par le détecteur de Harris avec différentes tailles de fenêtre. Dans un deuxième temps, nous avons également testé et évalué des méthodes de mise en correspondance de points d intérêt pour des méthodes par propagation de germes. De plus, pour la propagation ellemême, nous avons utilisé deux mesures de corrélation ZNCC et SMPD 2. Ce travail a mis en évidence le meilleur choix pour une méthode par propagation de germes : le détecteur SIFT associé avec une mise en correspondance des points d intérêt utilisant les vecteurs descripteurs de SIFT. Actuellement, nous améliorons notre étude sur la meilleure mesure à utiliser et notamment pour déterminer le seuil à utiliser pour la mesure SMPD 2. Pour la propagation de germes, nous avons obtenus de bons résultats mais les cartes de disparité résultantes ne sont pas denses. Par conséquent, nous pouvons dire qu en perspective, nous envisageons une étude sur différentes techniques permettant de densifier ces résultats. 75
Bibliographie [Allison 91] [Baker 98] [Bleyer 04] [Bobick 99] D. Allison, M J A. Zemerly et J.P. Muller. Automatic Seed Point Generation for Stereo Matching and Multi-image Registration. volume 4, pages 2417 2421, Helsinki, Finlande, juin 1991. S. Baker, R.Szeliski et P. Anandan. A Layered Approach to Stereo Reconstruction. Dans IEEE Computer Society Conference on Computer Vision and Pattern Recognition, pages 434 441, Santa Barbara, États-Unis, juin 1998. M. Bleyer et M. Gelautz. A layered stereo algorithm using image segmentation and global visibility constraints. Dans IEEE International Conference on Image Processing, volume 5, pages 2997 3000, Singapour, octobre 2004. A. F. Bobick et S. S. Intille. Large Occlusion Stereo. International Journal of Computer Vision, 33(3) :181 200, septembre 1999. [Bocquillon 04] B. Bocquillon. Obtention de la vérité terrain pour la mise en correspondance stéréoscopique. Rapport de dea, Université Paul Sabatier, Toulouse, France, juin 2004. [Chambon 05] S. Chambon. Mise en correspondance stéréoscopique d images couleur en présence d occultations. Thèse de doctorat, Université Paul Sabatier, France, décembre 2005. [Christoudias 02] C. M. Christoudias, B. Georgescu et P. Meer. Synergism in Low Level Vision. volume 4, pages 150 155, Québec, Canada, 2002. [Comaniciu 97] [Crouzil 00] [Egnal 02] [Fielding 00] [Gouet 00] [Harris 88] [Hong 04] D. Comaniciu et P. Meer. Robust analysis of feature spaces : color image segmentation. pages 750 755,, Porto Rico, juin 1997. A. Crouzil et P. Gurdjos. Vision par ordinateur, support de cours. Université Paul Sabatier, 2000. G. Egnal et R. P. Wildes. Detecting Binocular Half-Occlusions : Empirical Comparisons of Five Approaches. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(8) :1127 1133, août 2002. G. Fielding et M. Kam. Weighted matchings for dense stereo correspondence. The Journal of the Pattern Recognition Society, 33(9) :1511 1524, septembre 2000. V. Gouet, P. Montesinos, R. Deriche et D. Pelé. Évaluation de détecteurs de points d intérêt pour la couleur. Dans actes du Congrès AFRIF-AFIA Reconnaissance des Formes et Intelligence Artificielle, RFIA, pages 257 266, Paris, France, février 2000. C. Harris et M. Stephens. A Combined Corner and Edge Detector. Dans Alvey Vision Conference, pages 147 151, Manchester, Royaume-Uni, janvier 1988. L. Hong et G. Chen. Segment-Based Stereo Matching Using Graph Cuts. Dans IEEE Computer Society Conference on Computer Vision and Pattern Recognition, volume 1, pages 74 81, Washington, États-Unis, juin juillet 2004. 77
78 Bibliographie [Itti 98] [Kadir 01] [Klaus 06] [Lhuillier 00] [Lowe 99] [McCane 01] [Medioni 87] L. Itti, C. Koch et E. Niebur. A Model of Saliency-Based Visual Attention for Rapid Scene Analysis. IEEE Transactions on Pattern Analysis and Machine Intelligence, 20(11) :1254 1259, 1998. T. Kadir et M. Brady. Saliency, Scale and Image Description. International Journal of Computer Vision, 45(2) :83 105, 2001. A. Klaus, M. Sormann et K. Karner. Segment-Based Stereo Matching Using Belief Propagation and a Self-Adapting Dissimilarity Measure. Dans International Conference on Pattern Recognition, volume 3, pages 15 18, Graz, Autriche, août 2006. M. Lhuillier et L. Quan. Robust Dense Matching Using Local ang Global Geometric Constraints. Dans International Conference on Pattern Recognition, volume 1, pages 968 972, Barcelone, Espagne, septembre 2000. D. G. Lowe. Object Recognition from local scale-invariant features. IEEE International Conference on Computer Vision, 2 :1150 1157, septembre 1999. B. McCane, K. Novins, D. Crannitch et B. Galvin. On Benchmarking Optical Flow. Computer Vision and Image Understanding, 84(1) :126 143, octobre 2001. G. Medioni et Y. Yasumoto. Corner detection and curve representation using cubic B-spline. Computer Vision, Graphics, and Image Processing, 39(3) :267 278, 1987. [Mikolajczyk 05] K. Mikolajczyk et C. Schmid. A Performance Evaluation of Local Descriptors. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(10) :1615 1630, octobre 2005. [Moravec 77] [Paler 84] H. P. Moravec. Toward automatic visual obstacle avoidance. Dans International Joint Conference on Artificial Intelligence, volume 2, page584, Massachusetts, États- Unis, août 1977. K. Paler, J. Föglein, J. Illingworth et J. Kittler. Local ordered grey levels as an aid to corner detection. The Journal of the Pattern Recognition Society, 17(5) :535 543, 1984. [Ruzon 99] M. A. Ruzon et C. Tomasi. Corner Detection in Textured Color Images. volume 2, page1039, Kerkyra, Grèce, 1999. [Scharstein 01] [Scharstein 02] [Scharstein 03] [Schmid 98] [Schmid 00] [Smith 97] D. Scharstein et R. Szeliski. A taxomomy and evaluation of dense two-frame stereo correspondence algorithms. Rapport Technique MSR-TR-2001-81, Recherche Micro- Soft, novembre 2001. D. Scharstein et R. Szeliski. A Taxomomy and Evaluation of Dense Two-Frame Stereo Correspondence Algorithms. International Journal of Computer Vision, 47(1) :7 42, avril 2002. D. Scharstein et R. Szeliski. High-Accuracy Stereo Depth Maps Using Structured Light. Dans IEEE Computer Society Conference on Computer Vision and Pattern Recognition, volume 1, pages 195 202, Madison, États-Unis, juin 2003. C. Schmid, R. Mohr et C. Bauckhage. Comparing and Evaluating Interest Points. IEEE International Conference on Computer Vision, pages 230 235, 1998. C. Schmid, R. Mohr et C. Bauckhage. Evaluation of Interest Point Detectors. International Journal of Computer Vision, 37(2) :151 172, 2000. S. Smith et J. Brady. SUSAN a new approach to low level image processing. International Journal of Computer Vision, 23(1) :45 78, mai 1997.
Bibliographie 79 [Sun 05] [Szeliski 99] [Szeliski 02] [Tao 01] [Tesser 03] [Veksler 05] [Wei 04] [Zhang 00] J. Sun, Y. Li, S. B. Kang et H.-Y. Shum. Symmetric Stereo Matching for Occlusion Handling. Dans IEEE Computer Society Conference on Computer Vision and Pattern Recognition, volume 2, pages 399 406, San Diego, États-Unis, juin 2005. R. Szeliski et R. Zabih. An experimental Comparison of Stereo Algorithms. Dans IEEE Workshop on Vision Algorithms : Theory and Practice, volume 1883 de Lecture Notes in Computer Science, pages 1 19, Kerkyra, Grèce, septembre 1999. R. Szeliski et D. Scharstein. Symmetric Sub-Pixel Stereo Matching. Dans European Conference on Computer Vision, volume 2, pages 525 540, Copenhague, Danemark, mai 2002. H. Tao, H. S. Sawhnwey et R. Kumar. A Global Matching Framework for Stereo Computation. Dans IEEE International Conference on Computer Vision, volume 2, pages 532 539, Vancouver, Canada, juillet 2001. H. Tesser et T. Trout. A Note on Evaluation of Image Recognition Systems. Dans Scandinavian Conference on Image Analysis, pages 60 66, Göteborg, Suède, juin 2003. O. Veksler. Stereo Correspondence by Dynamic Programming on a Tree. Dans IEEE Computer Society Conference on Computer Vision and Pattern Recognition, volume 2, pages 384 390, San Diego, États-Unis, juin 2005. Y. Wei et L. Quan. Region-based Progressive Stereo Matching. Dans IEEE Computer Society Conference on Computer Vision and Pattern Recognition, volume 1, pages 106 113, Washington, États-Unis, juin juillet 2004. Z. Zhang et Y. Shan. A Progressive Scheme for Stereo Matching. Dans European Workshop on 3D Structure from Multiple Images of Large-Scale Environments, volume 2018 de Lecture Notes in Computer Science, pages 68 85, Dublin, Irlande, juillet 2000.