Appariement d images par invariants locaux de niveaux de gris. Application à l indexation d une base d objets

Transcription

1 Appariement d images par invariants locaux de niveaux de gris. Application à l indexation d une base d objets Cordelia Schmid To cite this version: Cordelia Schmid. Appariement d images par invariants locaux de niveaux de gris. Application à l indexation d une base d objets. Human-Computer Interaction [cs.hc]. Institut National Polytechnique de Grenoble - INPG, French. <tel > HAL Id: tel Submitted on 23 Feb 2004 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

2 THçESE prçesentçee par Cordelia SCHMID pour obtenir le titre de DOCTEUR de l'institut NATIONAL POLYTECHNIQUE DE GRENOBLE èarr^etçe ministçeriel du 30 mars 1992è Spçecialitçe INFORMATIQUE APPARIEMENT D'IMAGES PAR INVARIANTS LOCAUX DE NIVEAUX DE GRIS APPLICATION ç A L'INDEXATION D'UNE BASE D'OBJETS Soutenue le 2 juillet 1996 devant la commission d'examen : Prçesident: Rapporteurs : Examinateurs : Jan-Olof EKLUNDH Andrew ZISSERMAN Jean PONCE Luc VAN GOOL James L. CROWLEY Roger MOHR Thçese prçeparçee au sein du laboratoire Gravir - Imag - Inria sous la direction de Roger MOHR

3

4 Remerciements Je tiens tout d'abord ça remercier Andrew Zisserman et Jean Ponce qui ont acceptçe de juger ce travail et d'en rçediger les rapports. Je remercie çegalement Jan Olof Eklundh, Luc Van Gool et James L. Crowley pour l'intçerêt qu'ils portent ça ce travail en acceptant d'en être les examinateurs. Je suis tout particuliçerement reconnaissante ça Roger Mohr de m'avoir accueillie dans son çequipe. Toujours porteur de nouvelles idçees, il a su donner ça cette thçese les bonnes orientations. Je voudrais çegalement souligner son encouragement lors de moments diæciles. Je n'oublie pas les membres de l'çequipe Movi pour la bonne ambiance qui a permis un travail agrçeable. Je tiens ça remercier tout particuliçerement Jerôme Blanc comme relecteur patient de ce rapport. Parmi les stagiaires que j'ai encadrçes, je souhaite nommer Marianne Hardt pour les discussions et pour le tableau de Sanja ainsi que Christian Bauckhage pour avoir eæectuçe un travail remarquable et pris puis repris de nombreuses sçequences d'images. Cette thçese a dçebutçe au Lifia, j'ai donc une pensçee pour les personnes que j'ai pu y rencontrer et notamment les membres de l'çequipe Prima. Elle s'est terminçee dans les locaux de l'inria que je remercie pour son support et son ambiance. Merci ça la communautçe Europçeene pour avoir ænancçe deux ans de ce travail dans le cadre du programme Capital Humain et Mobilitçe. Merci çegalement ça Istar pour avoir mis ça ma disposition les images açeriennes utilisçees dans cette thçese. Enæn, merci beaucoup ça Philippe pour m'avoir supportçe pendant ces six derniers mois et pour nos nombreuses discussions.

5

6 Table des matiçeres 1 Introduction Contexte Approche proposçee Contributions Plan du mçemoire Dçetecteurs de points d'intçer^et Choix de points d'intçer^et çetat de l'art Mçethodes basçees sur les contours Mçethodes basçees sur le signal Mçethodes basçees sur un modçele thçeorique du signal Stabilisation du dçetecteur de Harris Mçethode d'çevaluation Critçeres d'çevaluation Dçeænition de la rçepçetabilitçe Mesure de rçepçetabilitçe Cadre d'çevaluation çetude comparative derçepçetabilitçe Exemples de dçetections et dçetecteurs considçerçes Rotation image Changement d'çechelle Changement de luminositçe Changement de point de vue Bruit de la camçera Robustesse ça l'çechelle - une approche multi-çechelle Conclusion Caractçerisation locale Mçethodes de caractçerisation locale Dçerivçees Descriptions frçequentielles Moments i

7 ii Table des matiçeres Autres caractçerisations Introduction aux invariants Dçeænition thçeorique d'un invariant Calcul des invariants Dçenombrement des invariants Thçeorçeme de Burns Quasi-invariants Invariance et transformations de l'image Rotation image Changement d'çechelle Changement de luminositçe Autres transformations image Changement de point de vue Evaluation ç de la caractçerisation Conclusion Appariement entre images Etat ç de l'art Appariement basçe sur des donnçees photomçetriques Appariement ça partir de donnçees gçeomçetriques Algorithme d'appariement Principe de l'appariement Distance entre images Procçedure d'appariement Contraintes semi-locales çevaluation de l'appariement Cadre d'çevaluation Rotation image Changement d'çechelle Changement de luminositçe Changement de point de vue Bruit de la camçera Transformations complexes Inæuence des diæçerentes composantes du vecteur Conclusion Recherche d'image Etat ç de l'art Recherche basçee sur les donnçees photomçetriques Recherche basçee sur des donnçees gçeomçetriques Algorithme de recherche Principe de la recherche Structure de la base d'images Mesure de ressemblance Adaptation de l'approche multi-çechelle Indexation Changement de base

8 Table des matiçeres iii Table de hachage multi-dimensionnelle Expçerimentation Cadre d'çevaluation Illustration de la recherche d'images ç Evaluation systçematique de la recherche Temps de recherche Conclusion Modçelisation 2D d'objet 3D Etat ç de l'art Modçele gçeomçetrique 3D Graphe d'aspect Ensemble d'images Modçelisation ça partir d'images 2D Principe Exemple d'une modçelisation sur un cercle Extension ça lamodçelisation sur une sphçere Rçesultats de reconnaissance Quelques exemples de reconnaissance Points sçelectionnçes Evaluation ç systçematique Localisation de donnçees symboliques 3D Ajout de donnçees symboliques Identiæcation des informations symboliques Rçesultats de localisation Conclusion Conclusion et perspectives Une mçethode d'appariement robuste Une modçelisation 3D pour la reconnaissance Perspectives Changement complexe de luminositçe Large base d'images Gçençeralisation Applications A Rçepçetabilitçe des points d'intçer^et sur la scçene ëastçerix" 117 B çevaluation de l'appariement pour la scçene ësanja" 123 C Quelques images de la base 127

9

10 Chapitre 1 Introduction Les travaux prçesentçes dans ce rapport s'inscrivent dans le domaine de l'appariement, encore appelçe mise en correspondance. Il s'agit d'un domaine fondamental et trçes vaste de la vision par ordinateur. Il recouvre des problçemes trçes variçes allant de celui de l'appariement entre deux images ça celui de la mise en correspondance d'une image avec un modçele CAO dçeæni par des primitives gçeomçetriques. L'approche proposçee dans cette thçese apporte une solution gçençerique aux problçemes liçes ça l'appariement. Dans ce chapitre, nous prçesentons d'abord le contexte dans lequel nous nous plaçcons. Ensuite, l'approche proposçee dans cette thçese est expliquçee et sa position par rapport aux mçethodes existantes est discutçee. Les contributions de ce travail puis un plan dçetaillçe de ce document terminent ce chapitre. 1.1 Contexte Les techniques utilisçees pour rçesoudre les problçemes d'appariement sonttrçes diæçerentes. En eæet, dans les approches existantes d'appariement entre une image et un modçele CAO, une recherche de ressemblance est eæectuçee entre quelques dizaines de primitives gçeomçetriques tridimensionnelles èsegments de droites, ellipses, etc.è dçeænies pour le modçele et des primitives extraites des images. En revanche, dans le cas de la recherche d'une image dans une base d'images, il faut mettre en correspondance plusieurs centaines de milliers de points. Trouver une solution gçençerale au problçeme de l'appariement a de trçes nombreuses applications comme par exemple : í savoir quel point d'une image correspond ça quel autre point d'une seconde image. Ceci est utile dans un contexte d'appariement stçerçeoscopique et permet de calculer la gçeomçetrie çepipolaire existant entre ces deux images. í retrouver une image dans une base d'images. La recherche dans une base d'images permet par exemple d'identiæer un tableau volçe ou de vçeriæer l'existence d'un copyright. Mais l'application la plus riche- et aussi la plus diæcile ça rçealiser - est la documentation : trouver l'image qui illustre 1

11 2 Chapitre 1 : Introduction tel çevçenement politique ou scientiæque par exemple. Cette aspect prend une dimension particuliçere avec les potentialitçes de consultation qu'oære maintenant le rçeseau Internet. í savoir quel objet est contenu dans une scçene et localiser ses parties. L'identiæcation de l'objet puis sa localisation peut être utilisçee pour des tâches d'asservissement visuel ou de navigation en robotique mobile. En crçeant une reprçesentation d'une rçegion ça partir d'images açeriennes, cette application permet de localiser la position d'un observateur. í savoir quelle partie d'une image correspond ça un çelçement d'un modçele CAO. Ceci permet par exemple de savoir quelle partie d'une image correspond ça l'anse d'une tasse ou au pied d'un dinosaure. De nombreuses solutions ont çetçe proposçees pour rçesoudre les diæçerents problçemes liçes ça l'appariement. Elles ont donnçe lieu ça des applications variçees. Cependant, elles prçesentent de fortes limitations : elles ne permettent pas de retrouver un objet dans une grande base d'objets sous des conditions gçençerales ; elles ne permettent pas non plus de mettre en correspondance deux images entre lesquelles il existe une forte rotation ou un changement de taille important. Enæn, les mçethodes proposçees sont fortement combinatoires et ne parviennent pas ça traiter des donnçees volumineuses ou complexes en un temps raisonnable ; elles nçecessitent parfois jusqu'ça plusieurs heures de calcul pour obtenir un rçesultat. L'objet de cette thçese a çetçe de proposer une mçethode innovante par rapport ça ces mçethodes et ça leurs limitations. 1.2 Approche proposçee Parmi les applications potentielle de l'appariement, nous nous intçeressons plus particuliçerement dans ce travail ça l'appariement entre deux images, ça la recherche d'une image dans une base et ça la localisation d'un objet ou d'une de ses parties dans une image. Pour ce faire, nous proposons une solution uniæçee qui permet de tenir compte des spçeciæcitçes de chacun de ces problçemes. Notre approche permet en outre de s'aæranchir des limites des approches existantes. Elle permet d'obtenir de trçes bons rçesultats dans des conditions oçu les approches classiques ne fonctionnent plus. Plus particuliçerement, nous nous plaçcons dans les conditions suivantes : mettre en correspondance des objets qui peuvent appara^çtre dans des scçenes complexes diæçerentes, et cela même s'ils sont partiellement visibles et s'ils sont observçes de diæçerents points de vues. La visibilitçe partielle comprend la prçesence d'occultations et le fait qu'une partie de l'image est seulement observçee, par exemple une portion d'un tableau de ma^çtre. En outre, nous avons çetendu la solution de la mise en correspondance au problçeme suivant: retrouver ça partir d'une seule image l'image correspondant dans une volumineuse base d'images et ceci dans des dçelais raisonnables. Enæn, il est çegalement possible de localiser des parties d'un objet dans l'image recherchçee. L'approche que nous dçetaillons dans la suite modçelise les images ça partir de ce qui est vu et ne repose sur aucune reprçesentation abstraite. Cette modçelisation repose sur une caractçerisation particuliçere de l'image. Cette caractçerisation est discriminante du fait qu'elle est basçee sur les informations contenues dans le signal de niveaux de gris. De plus elle est locale et applicable dans un contexte d'appariement. Par ce biais, ce travail apporte quelques contributions au problçeme de la mise en correspondance. En outre, notre

12 1.2 Approche proposçee 3 approche est robuste, ce qui permet de traiter les incertitudes inhçerentes ça tout processus de vision par ordinateur. Il existe dans la littçerature d'autres mçethodes basçees sur les informations contenues dans le signal ècf. section 5.1è. L'avantage de ces mçethodes est qu'elles permettent de distinguer des objets de n'importe quelle classe sans faire d'hypothçese initiale. En eæet, les approches basçees sur des donnçees gçeomçetriques ne permettent pas de traiter des objets compliquçes ècf. ægure 1.1è. Toutefois les approches existantes basçees sur le signal sont globales et ne sont donc pas robustes aux occultations ni ça la prçesence d'arriçeres-plans complexes. En outre, elles ne sont invariantes ça aucune transformation. Notre approche s'aæranchit des limites de ces mçethodes. Notre mçethode de mise en correspondance se compose de trois çetapes. Celles-ci suivent le schçema classique de la vision par ordinateur : un traitement de bas niveau qui permet de traiter le signal et d'extraire des primitives, un calcul de grandeurs numçeriques ça partir des primitives extraites et ensuite une interprçetation des grandeurs obtenues. Dans notre travail, cette derniçere çetape consiste en l'identiæcation et la localisation d'un objet. Il s'est avçerçe que chacun des choix lors de ces çetapes est important ; c'est la combinaison de l'ensemble qui nous a permis d'obtenir un algorithme robuste. Revenons maintenant sur ces çetapes. Parmi les diæçerentes possibilitçes de traitement bas niveau existantes, nous avons choisi d'extraire des points d'intçerêt. Ils correspondent bien ça nos objectifs : localitçe et richesse de l'information contenue dans le signal en ces points. En outre, les expçeriences mençees par Zhang ëzha 95ë et dans notre çequipe ëcot 94ë ont montrçe l'intçerêt d'utiliser de tels points pour le calcul de la gçeomçetrie çepipolaire. En ce qui concerne l'çetape suivante de quantiæcation de l'information, plusieurs choix çetaient possibles. On aurait par exemple pu choisir d'utiliser des grandeurs gçeomçetriques, par exemple des rapports de longueurs entre diæçerents points d'intçerêt. Toutefois de telles caractçeristiques sont moins signiæcatives que l'information photomçetrique que nous avons choisi d'utiliser. En eæet, les grandeurs gçeomçetriques sont issues de primitives symboliques ce qui entra^çne inçevitablement une perte d'information. Le type d'information que nous avons retenu caractçerise un point localement. Cette information est calculçee aux points d'intçerêt et stockçee dans des vecteurs ècf. ægure 1.1è. Elle permet de caractçeriser localement le signal observçe. Le fait qu'elle soit calculçee aux points d'intçerêt la rend trçes signiæcative et particuliçerement discriminante. La caractçerisation utilisçee dans ce travail est basçee sur les travaux thçeoriques de Koenderink ëkoe 87ë. vecteur de caractéristiques locales Fig. 1.1 í Reprçesentation d'une image. La troisiçeme et derniçere çetape de la mçethode proposçee est la phase d'appariement

13 4 Chapitre 1 : Introduction proprement dite. Elle consiste ça retrouver les vecteurs les plus semblables entre images. L'ajout de contraintes semi-locales permet d'augmenter la robustesse de cette mise en correspondance. Dans le cas d'une mise en correspondance entre deux images, il suæt de rechercher les points les plus semblables. Dans le cas de l'appariement d'une image avec une base d'images, la multiplicitçe des correspondances ne permet plus d'avoir de rçeponse satisfaisante ; il faut faire çemerger la rçeponse par une mçethode de vote, mçethode simple et statistiquement robuste. Enæn, le volume d'informations nçecessite le dçeveloppement d'un outil de recherche rapide par un mçecanisme d'indexation. çetant en mesure de retrouver une image dans une base d'image, il est ensuite possible de modçeliser un objet 3D ça partir d'une collection d'images. Ces images sont prises de points de vue diæçerents et doivent être reprçesentatives des diæçerents aspects de l'objet. Nous utilisons donc ce qui est perçcu pour modçeliser un objet 3D. Ceci facilite la reconnaissance d'un objet 3D. D'autre part l'ajout de donnçees symboliques 3D aux diæçerents aspects de l'objet stockçes dans la base permet ensuite la localisation de ces donnçees tridimensionnelles dans une nouvelle image. 1.3 Contributions La contribution principale de cette thçese est d'avoir dçeveloppçe une nouvelle mçethode de mise en correspondance. Cette mçethode est robuste, rapide et n'est pas restreinte ça une classe particuliçere d'images ou d'objets observçes. Les rçesultats prçesentçes prouvent la robustesse de la mçethode face aux transformations d'images importantes, aux occultations et en prçesence d'arriçeres-plans complexes. Le succçes de l'approche prçesentçee s'explique d'une part par l'utilisation d'un algorithme statistiquement robuste et d'autre part par les choix eæectuçes ça chaque çetape de notre algorithme. Par exemple quand nous avons observçe que l'instabilitçe des points d'intçerêt inæuence la stabilitçe de notre caractçerisation, une çevaluation de diæçerents dçetecteurs de points d'intçerêt a çetçe eæectuçee. La rçepçetabilitçe des points nous a permis de cerner le dçetecteur qui correspond le mieux aux besoins de notre mçethode. D'autre part nous avons montrçe que les invariants diæçerentiels peuvent être appliquçes avec des tailles de fenêtre raisonnables. Ceci permet la mise en çuvre d'une approche multi-çechelle. Il a çetçe montrçe qu'une telle approche est rendue nçecessaire par la diæcultçe d'utilisation des invariants ça l'çechelle. Pour une telle approche nous avons montrçe qu'un espacement de 20è entre des çechelles consçecutives est nçecessaire. D'autre part la rçealisation d'un algorithme d'indexation a permis une recherche rapide. Une autre contribution de ce travail est d'avoir proposçe une nouvelle mçethode de modçelisation d'objet 3D qui autorise non seulement l'identiæcation d'objets, mais aussi la localisation d'information tridimensionnelle : nous utilisons les images pour modçeliser les objets plutôt qu'une reprçesentation abstraite trop çeloignçee de la rçealitçe du signal et des performances des algorithmes de vision par ordinateur. Un objet 3D est alors modçelisçe ça partir de plusieurs images. Ensuite on ajoute une information symbolique ça chaque image de la base. Le tenseur trilinçeaire qui lie les coordonnçees des points entre diæçerentes images permet alors de retrouver cette information symbolique dans une nouvelle image. Ceci peut directement servir ça des tâches de positionnement d'outils en commande rçefçerencçee vision.

14 1.4 Plan du mçemoire Plan du mçemoire Ce rapport prçesente d'abord les trois çetapes de notre approche, puis il prçesente deux applications de la mçethode d'appariement dçeveloppçee : la recherche d'une image dans une base d'image et la modçelisation d'objet 3D. Le deuxiçeme chapitre dçecrit donc l'çetape de bas niveau : l'extraction des points d'intçerêt. Nous prçesentons d'abord l'avantage des points d'intçerêt par rapport ça d'autres caractçeristiques de bas niveau. Ensuite nous comparons diæçerents dçetecteurs de points d'intçerêt. Les critçeres de comparaison retenus sont la stabilitçe en prçesence du bruit de la camçera et la rçepçetabilitçe en prçesence de diæçerentes transformations. Cette rçepçetabilitçe signiæe que le point est retrouvçeçalamême position indçependamment de toute transformation de l'image. Une telle rçepçetabilitçe inæuence de façcon trçes importante la stabilitçe de la caractçerisation, l'çetape qui suit l'extraction de points. La caractçerisation locale du signal utilisçee par la suite est prçesentçee dans le troisiçeme chapitre. Cette caractçerisation est basçee sur des combinaison de dçerivçees invariantes aux rotations image. L'utilisation de ces invariants diæçerentiels dans un cadre multi-çechelle permet d'obtenir des invariants aux similitudes image. De plus, ces invariants sont des quasi-invariants ça une transformation perspective. Le quatriçeme chapitre dçecrit l'çetape de mise en correspondance. La mçethode d'appariement proposçee repose sur un calcul de distance entre deux vecteurs de caractçeristiques. L'utilisation de la distance de Mahalanobis permet de tenir compte des incertitudes sur les vecteurs ainsi que de la corrçelation çeventuelle de leurs composantes. L'ajout de contraintes semi-locales de voisinage augmente la robustesse de la mise en correspondance. Ce chapitre permet d'çevaluer la stabilitçe et l'invariance de la caractçerisation retenue au chapitre prçecçedent. La mise en correspondance entre deux images mçene directement ça la recherche d'image qui est un problçeme de mise en correspondance entre l'image recherchçee et les images stockçees dans la base. Le cinquiçeme chapitre aborde ce problçeme. La mçethode proposçee repose sur un algorithme de vote qui permet de gçerer la ressemblance entre images de façcon robuste. Toutefois un tel algorithme est fortement combinatoire. Nous introduisons donc un mçecanisme d'indexation via une table de hachage multi-dimensionnelle. Ceci nous permet de retrouver une image dans une base contenant plus de mille images en moins de cinq secondes avec un taux de reconnaissance supçerieur ça 99è. Le sixiçeme chapitre çetend la mçethode de recherche d'image ça des objets tridimensionnels et traite de la modçelisation d'un objet 3D ça partir de plusieurs images. Le problçeme est de dçeterminer le nombre de vues nçecessaires pour modçeliser un objet 3D. Ayant apportçe un çelçement de rçeponse ça ce problçeme, nous montrons que la modçelisation retenue permet de reconna^çtre correctement des objets 3D ça partir d'une image. Pour pouvoir obtenir une description symbolique de l'objet, des donnçees symboliques sont ajoutçees aux images de la base. Ces donnçees peuvent alors être retrouvçees pour une nouvelle image en utilisant la contrainte trilinçeaire. La conclusion prçesentçee au chapitre 7 dçegage les perspectives ouvertes par ce travail.

15

16 Chapitre 2 Dçetecteurs de points d'intçerêt Dans ce chapitre nous prçesentons l'çetape initiale de notre algorithme d'appariement: l'extraction de points d'intçerêt. Le choix des points d'intçerêt comme primitives de basniveau est d'abord expliquçe ça la section 2.1. Ensuite un çetat de l'art des diæçerents dçetecteurs existants est prçesentçeça la section 2.2. La section 2.3 montre alors commentamçeliorer la qualitçe du dçetecteur de Harris. Aæn de choisir un dçetecteur, il est nçecessaire de les comparer. La section 2.4 prçesente la mçethode d'çevaluation utilisçee dans ce travail. Le critçere d'çevaluation utilisçe pour juger des rçesultats obtenus est la rçepçetabilitçe. Une çetude comparative pour ce critçere est mençee ça la section 2.5 en prçesence de diæçerentes transformations. Une approche multi-çechelle est ensuite prçesentçee ça la section 2.6. Elle rend la dçetection plus robuste ça un changement d'çechelle. 2.1 Choix de points d'intçerêt Parmi les diæçerents types de caractçeristiques bas-niveau, nous avons choisi d'utiliser les points d'intçerêt 1. Un point d'intçerêt correspond ça unchangement bidimensionnel du signal. Des exemples en sont les coins et les jonctions en T, mais aussi les endroits oçu la texture varie fortement. Ce choix repose sur le fait que le signal contient plus d'information en ces points qu'en des points correspondantça des changements unidimensionnels du signal èlignes de contoursè ou ça des rçegions homogçenes. L'utilitçe des points d'intçerêt a çetçe constatçee par Brady ëbra 87ë qui a remarquçe qu'ils imposent plus de contraintes sur les processus visuels que les contours. Selon lui, ces points fournissent des endroits de calcul æable. De même, Dreschler et Nagel ëdre 82ë ont constatçe que le æot optique peut être calculçe uniquement aux endroits des points d'intçerêt. On peut çegalement citer le travail de Zhang ëzha 95ë. Il a montrçe que l'utilisation de points d'intçerêt pour le calcul de la gçeomçetrie çepipolaire donne de bons rçesultats. Dans son travail, les points dçetectçes sont appariçes par corrçelation, donc par une mesure du signal. D'autre part, les points d'intçerêt sont locaux. Leur calcul est eæectuçe sur une fenêtre locale, au moins en ce qui concerne les mçethodes basçees sur le signal. En prçesence d'oc- 1: Points d'intçerêt et coins sont souvent utilisçes de maniçere çequivalente dans la littçerature. En fait, point d'intçerêt est plus gçençeral que coin et ne comporte pas de connotation symbolique. 7

17 8 Chapitre 2 : Dçetecteurs de points d'intçerêt cultation, de telles mçethodes sont donc robustes. Ceci est beaucoup moins vrai pour les algorithmes d'extraction de contours ou de rçegions, qui ont besoin d'une çetape de cha^çnage ou de fusion, çetape qui par expçerience reste trçes fragile. Les points d'intçerêt ont çegalement un caractçere gçençeral. Leur extraction fonctionne aussi bien pour des objets simples que pour les objets complexes. Un exemple d'objet complexe est le semeur de ëvan Gogh" èvoir ægure 1.1è. Pour un tel exemple, l'extraction de contour est pratiquement impossible du fait de la texture contenue dans cette scçene. 2.2 ç Etat de l'art Les dçetecteurs de points d'intçerêt peuvent être classçes en trois catçegories. La premiçere contient les mçethodes basçees sur les contours, c'est-ça-dire ça partir de cha^çnes de contours les endroits avec une courbure maximale ou un point d'inæexion sont recherchçes. La deuxiçeme extrait le point d'intçerêt directement ça partir du signal de niveaux de gris et la derniçere approxime les points recherchçes avec un modçele thçeorique Mçethodes basçees sur les contours Le principe des mçethodes basçees sur les contours est soit de rechercher les points de courbure maximale le long des cha^çnes de contour soit d'eæectuer une approximation polygonale en vue d'en dçeduire des points particuliers èintersection, inæexion,...è. De telles mçethodes existent depuis longtemps, nous dçetaillerons dans la suite quelques unes des plus rçecentes. Asada et Brady ëasa 86ë extraient des points d'intçerêt pour des objets 2D ça partir de courbes planes. Ils constatent que les courbes planes ont des caractçeristiques signiæcatives : les changements de courbure. Ces changements sont classçes en plusieurs catçegories : coin, terminaison, etc. Pour pouvoir les dçetecter d'une maniçere robuste, l'algorithme est intçegrçe dans un cadre multi-çechelle. Une approche similaire a çetçe proposçee par Mokhtarian et Mackworth ëmok 86ë. Au lieu d'utiliser les changements de courbure d'une courbe plane, ils utilisent les points d'inæexion de celle-ci. Medioni et Yasumoto ëmed 87ë approximent les contours avec des B-splines. Les points d'intçerêt sont des maxima de courbure calculçes ça partir des coeæcients de ces B-splines. Horaud et al. ëhor 90ë recherchent des groupements dans une image de contours pour çetablir une reprçesentation intermçediaire. Cette reprçesentation repose sur la structuration de segments extraits dans l'image. L'intersection de ces segments donne les points d'intçerêt Mçethodes basçees sur le signal Les mçethodes basçees sur le signal ne dçependent pas des contours ni d'un modçele thçeorique du signal. La mesure qui indique s'il y a un point d'intçerêt ça un endroit donnçe est calculçee directement ça partir du signal. Beaudet ëbea 78ë a proposçe le premier dçetecteur de points d'intçerêt. Cet opçerateur utilise les dçerivçees deuxiçemes du signal pour calculer une mesure ëdet" : DET = I xx I yy, I 2 xy oçu Ièx; yè reprçesente la surface d'intensitçe de l'image.

18 2.2 ç Etat de l'art 9 Cette mesure est invariante en rotation et liçee ça la courbure gaussienne du signal. Les points oçu cette mesure est maximale sont les points d'intçerêt. Pour obtenir eæectivement les points d'intçerêt, la valeur absolue de cette mesure est seuillçee. Il faut noter que cet opçerateur dçetecte les points d'intçerêt prçes des coins mais pas sur les coins, pour autant que la notion de coin existe dans le signal. Moravec ëmor 79, Mor 81ë a proposçe un dçetecteur basçe sur la fonction d'auto-corrçelation du signal. Cette fonction mesure les diæçerences entre une fenêtre du signal et ses quatre fenêtres voisines. En eæet, le voisinage n'est considçerçe que de maniçere discrçete et dans les directions parallçeles aux lignes et colonnes de l'image. Lorsque le minimum de ces quatre diæçerences est supçerieur ça un seuil, ceci indique la prçesence d'un point d'intçerêt. Kitchen et Rosenfeld ëkit 82ë ont proposçe un dçetecteur de points d'intçerêt qui repose sur la courbure de courbes planes. Ils recherchent les maxima de courbure des isophotes du signal. Cependant, un isophote peut prçesenter une courbure importante du fait du bruit sans que cela corresponde ça un point d'intçerêt. Cela peut par exemple survenir sur une zone quasi-uniforme, d'autant plus que le calcul fait de la courbure est trçes approximatif. Kitchen et Rosenfeld proposent donc de multiplier la courbure par la magnitude de gradient de l'image. La mesure K qu'ils utilisent s'çecrit de la maniçere suivante : K = I xxi 2 y + I yy I 2 x, 2I xy I x I y I 2 x + I 2 y La magnitude du gradient est assez diæuse, aussi cet opçerateur est trçes imprçecis en localisation. Pour que les points d'intçerêt ne soient pas trop çepais, les maxima locaux de l'image de magnitude sont extraits avant d'eæectuer la multiplication. Dreschler et Nagel ëdre 82ë ont constatçe comme dçefaut ça l'approche de Beaudet que la courbure gaussienne peut devenir grande sur des contours marquçes, c'est-ça-dire sur des contours pour lesquels les deux niveaux de gris dçeænissant ce contour sont trçes diæçerents. Ceci est dû au fait que la courbure gaussienne est le produit des deux courbures principales d'une surface, et sur un contour marquçe une des deux courbures devient trçes importante. En utilisant un modçele thçeorique d'un coin, ils constatent qu'autour d'un coin la courbure gaussienne change de signe et qu'elle possçede un maximum positif et un minimum nçegatif. Ils proposent donc de localiser un point d'intçerêt sur la ligne joignant ce minimum et ce maximum, notamment ça l'endroit oçu la pente du signal est maximale. A cet endroit la courbure s'annule et change de signe. Par la suite ënag 83ë et ësha 84ë ont montrçe que les approches de Nagel, Kitchen et Zuniga ëzun 83ë sont çequivalentes. Harris ëhar 88ë a amçeliorçe l'approche de Moravec en calculant une matrice liçee ça la fonction d'auto-corrçelation qui prend en compte les valeurs des dçerivçees premiçeres du signal sur une fenêtre. Ceci est une amçelioration par rapport ça Moravec, car la discrçetisation utilisçee pour calculer la fonction d'auto-corrçelation, due au dçeplacement et aux directions choisies, n'est plus nçecessaire. Il obtient donc la matrice suivante : exp, x2 +y 2 2ç 2 æ " I 2 x I x I y Les valeurs propres de cette matrice sont les courbures principales de la fonction d'autocorrçelation. Si ces deux courbures sont grandes, ceci indique la prçesence d'un point d'intçerêt. L'utilisation des courbures est plus prçecise que l'utilisation de la valeur minimale comme l'avait proposçe Moravec. Toutefois, pour ne pas extraire les valeurs propres, Harris I x I y I 2 y è

19 10 Chapitre 2 : Dçetecteurs de points d'intçerêt utilise une mesure reposant sur le dçeterminant et la trace de la matrice. Cette mesure est supçerieure ça zçero dans le cas d'un coin. Noble ënob 88ë a montrçe que l'approche de Harris est optimale uniquement pour des coins en forme de ël". Cottier ëcot 94ë a proposçe une autre rçealisation du dçetecteur de Harris. Pour amçeliorer la localisation des points dçetectçes, il applique ce dçetecteur uniquement sur les contours de l'image et utilise successivement deux tailles de support diæçerentes. Dans ëbau 96ë nous avons proposçe une amçelioration par l'utilisation de dçerivçees prçecises, on reviendra sur ce point en section 2.3. Fíorstner ëfíor 87, Fíor 94ë propose une approche basçee sur la statistique locale d'une image. Ceci lui permet d'estimer les paramçetres de son algorithme de maniçere automatique. La premiçere çetape de son algorithme est d'estimer la variance du bruit. Il utilise ensuite cette estimation pour restaurer le signal. Puis, les pixels sont classçes dans les catçegories rçegions, contours et points d'intçerêt. Pour ce faire, il utilise la fonction d'auto-corrçelation de la même maniçere que Harris. Enæn, il classe les points d'intçerêt en jonctions ou points isolçes. De plus, il eæectue une estimation sous-pixellique. Heitger et Rosenthaler ëhei 92, Ros 92ë ont proposçe une autre approche inspirçee des mçecanismes neuro-biologiques. Leur approche consiste ça convoluer l'image avec des æltres directionnels pairs et impairs. Ces æltres sont des fonctions sinusoíçdales sur une enveloppe gaussienne de moyenne nulle. Ils ressemblent ça des æltres de Gabor. Les rçesultats des æltres pairs et impairs d'une même direction permettent de calculer l'çenergie locale de l'image dans cette direction. Cette çenergie correspond aux caractçeristiques 1D de l'image. Pour obtenir les caractçeristiques 2D de l'image, leur approche consiste ça calculer pour chaque direction les dçerivçees premiçeres et deuxiçemes de cette çenergie. La mesure ainsi obtenue permet de dçetecter les caractçeristiques 2D mais aussi les fausses rçeponses sur les caractçeristiques 1D. Une mçethode reposant sur la nature systçematique des erreurs permet ensuite d'çeliminer les rçeponses sur les caractçeristiques 1D. Les rçeponses restantes sont seuillçees. Reisfeld et al. ërei 95ë ont proposçe un opçerateur motivçe par des çevidences psychophysiques. Cet opçerateur est basçe sur la notion de symçetrie. Ils calculent une carte de symçetrie qui contient pour chaque pixel une ë magnitude de symçetrie " et une orientation. Cette symçetrie est calculçee localement en regardant la magnitude et la direction des dçerivçees des points voisins. Cette carte de symçetrie peut être appliquçee ça des tâches diverses, notamment ça l'extraction de points d'intçerêt. Les endroits avec une symçetrie importante sont des points d'intçerêt, des lignes de symçetrie reprçesentent les axes de symçetrie Mçethodes basçees sur un modçele thçeorique du signal En ce qui concerne les mçethodes basçees sur un modçele thçeorique du signal, le but est d'obtenir une prçecision sous-pixellique en approximant le signal par un modçele thçeorique. De telles mçethodes ne sont utilisables que pour des types bien prçecis de points d'intçerêt, par exemple des coins. La ægure 2.1 montre un modçele thçeorique pour un coin avec un angle de 90 degrçes. Une telle approche est inutilisable dans un contexte gçençeral de dçetection de points d'intçerêt. Cercles, lignes etc. peuvent çegalement être modçelisçes par une telle approche. Rohr ëroh 90, Roh 92ë modçelise les jonctions de plusieurs lignes. Pour ce faire, il convolue un modçele binaire de jonction avec une gaussienne aæn de modçeliser le æou. Dans le cas d'un coin les paramçetres du modçele sont l'angle dçeænissant l'orientation de l'axe de symçetrie, l'angle dçeænissant l'ouverture du coin, les niveaux de gris, la position du point et

20 2.2 ç Etat de l'art 11 Fig. 2.1 í Modçele thçeorique d'un coin. le æou. Ces paramçetres sont ajustçes pour que le signal thçeorique soit le plus proche possible du signal observçe. Cette recherche repose sur une minimisation au sens des moindres carrçes. Les coins obtenus par cette mçethode sont trçes prçecis. Toutefois, la qualitçe de l'approximation repose sur une bonne estimation initiale de la position. Rohr utilise les segments extraits pour dçeterminer les paramçetres initiaux du modçele : le type de coin, les angles initiaux ainsi que la position du coin. Deriche et Blaszka ëder 93bë ont proposçe une amçelioration de la mçethode de Rohr au niveau du temps de calcul en remplaçcant la fonction gaussienne de lissage par une fonction exponentielle. Deriche propose, en outre, une solution pour l'initialisation des paramçetres. Une fois que la position du coin a çetçe donnçee de façcon interactive par l'utilisateur, l'ouverture du coin est estimçee de façcon automatique ça partir du gradient sur les bords de la fenêtre. Le point donnçe par l'utilisateur est ensuite amçeliorçe avec une mçethode de descente de la variance des niveaux de gris. Deriche et al. ont montrçe la bonne prçecision en position des rçesultats en prçesence de bruit synthçetique. Cette çetude a aussi permis de voir que pour assurer la convergence de la minimisation, le support utilisçe doit être assez grand. Ceci constitue un dçefaut de ces mçethodes, car lorsque le signal rçeel comporte plusieurs signaux sur ce support, la convergence est fortement aæectçee. Brand et Mohr ëbra 94ë proposent une implçementation diæçerente. Le modçele thçeorique est ajustçe au signal en utilisant une transformation aæne. L'importance de leurs travaux repose sur l'çevaluation de la qualitçe de la localisation d'une telle approche sur des donnçees rçeelles. Pour cette çevaluation ils mettent en place plusieurs tests : un test d'alignement, une reconstruction 3D et un calcul de la gçeomçetrie çepipolaire. Ces tests permettent de valider une prçecision de 0.1 pixel. Deriche et Giraudon ëder 90, Gir 91, Der 93cë ont prçesentçe une mçethode diæçerente pour amçeliorer la prçecision de la dçetection, tout en utilisant un modçele thçeorique pour un coin. ça partir de ce modçele ils analysent d'une maniçere thçeorique le comportement de diæçerents dçetecteurs. Ils constatent que la rçeponse de nombreux dçetecteurs varie suivant l'çechelle. Toutefois, il existe une relation entre la position de la vçeritable caractçeristique ça dçetecter et les rçeponses dans l'espace d'çechelle. Pour le dçetecteur de Beaudet, les rçeponses se situent, pour un coin donnçe, sur la bissectrice de l'angle dçeænissant ce coin. Ceci, et le fait que le Laplacien du signal s'annule ça l'endroit prçecis du coin indçependamment de l'çechelle considçerçee, leur permet de proposer la mçethode suivante : d'abord, un dçetecteur de Beaudet est appliquçe ça deux çechelles diæçerentes. Ensuite les points correspondant ça un même coin sont recherchçes dans les deux images. La droite reliant ces deux points dçeænit la bissectrice de ce coin. La position exacte du coin est alors dçeterminçee sur cette droite ça

21 12 Chapitre 2 : Dçetecteurs de points d'intçerêt l'endroit le plus proche du point oçu le Laplacien s'annule. 2.3 Stabilisation du dçetecteur de Harris Le calcul des dçerivçees est mal conditionnçe dans le sens oçu il manque de robustesse visça-vis du bruit dans les donnçees d'entrçee. Même un bruit faible peut perturber ce calcul de façcon importante. Pour illustrer ce manque de robustesse, considçerons les fonctions f èxè et ^fèxè =fèxè+" sinè!xè. Elles sont similaires, si " est petit. Toutefois f 0 èxè peut diæçerer beaucoup de ^f 0 èxè pour un! grand è" éé!è. En consçequence un bruit de relativement haute frçequence dans une image peut modiæer considçerablement la premiçere dçerivçee et donc a fortiori les dçerivçees d'ordre supçerieur. Prçealablement ça tout calcul de dçerivation, il est donc nçecessaire d'eæectuer un lissage. Puisque la diæçerenciation commute avec la convolution i èg æ fè =g i f i g æ f, un tel lissage peut être obtenu soit en lissant l'image soit en lissant l'opçerateur de dçerivation. Un moyen simple pour stabiliser les calculs de dçerivation est donc d'utiliser les dçerivçees d'une fonction de lissage. Le choix le plus communçement fait pour une telle fonction est la gaussienne ëwit 83, Tor 86, Rom 94a, Flo 93, Lin 94ë. La formule de la gaussienne Gè~x;çè pour un ~x de dimension 2 est : Gè~x;çè= 1 ~x2 expè, 2çç2 2ç 2 è è2.1è La dçerivçee n-içeme de cette fonction par rapport aux variables x ik èk =1:::nè est la suivante n G i1 :::i n è~x;çè= Gè~x;çè n =0:::N 1 :::@i n oçu i k indique l'axe du systçeme de rçefçerence et donc i k =1; 2 dans le cas d'un systçeme de dimension 2. Pour la nouvelle version du dçetecteur de Harris, nous utilisons de telles dçerivçees. Les convolutions avec les dçerivçees des gaussiennes intervenant dans le calcul sont implçementçees de maniçere rçecursive ce qui permet des calculs rapides ëder 93aë. Pour eæectuer ces calculs rçecursifs la gaussienne et ses dçerivçees sont approximçees de façcon trçes prçecise. La ægure 2.2 compare la version stabilisçee avec une implçementation standard qui utilise des dçerivçees ë-1 0 1ë. Le critçere de comparaison est le taux de rçepçetabilitçe qui est introduit dans la section suivante. La ægure 2.2 montre cette comparaison pour une rotation image ègraphe de gaucheè et pour un changement d'çechelle ègraphe de droiteè. La scçene utilisçee est ëvan Gogh". On peut observer que la version stabilisçee donne de meilleurs rçesultats. Dans le cas d'une rotation les rçesultats obtenus avec la version standard se dçetçeriorent pour un angle de 45 degrçes. Ceci est dû au fait que cette implçementation standard du dçetecteur de Harris utilise des æltres trop discrets pour approximer de façcon prçecise et isotrope les dçerivçees gaussiennes. La ægure A.10 dans l'annexe A montre des rçesultats similaires pour la scçene ëastçerix". 2.4 Mçethode d'çevaluation Prçecçedemment, nous avons vu qu'il existe beaucoup de travaux sur les dçetecteurs de points d'intçerêt. Toutefois la mçethode d'çevaluation la plus rçepandue a çetçe de vçeriæer

22 2.4 Mçethode d'çevaluation Harris HarrisPrecis 1 Harris HarrisPrecis taux de repetabilite taux de repetabilite angle de rotation en degres facteur d echelle Fig. 2.2 í Comparaison de Harris et HarrisPrçecis. ça gauche pour la sçequence rotation image et ça droite pour la sçequence changement d'çechelle. La scçene utilisçee est ëvan Gogh" et " = 1.5. visuellement la qualitçe des rçesultats. Ceci n'est pas systçematique et risque en plus de donner des rçesultats subjectifs : on compare le rçesultat avec ce qu'on çevalue comme çetant un point d'intçerêt et non pas avec ce qui est important pour l'çetape qui suit l'extraction de ces points. Un exemple pour une çevaluation systçematique est le travail de Brand et Mohr ëbra 94ë mentionnçe dans la section prçecçedente. Nous prçesentons maintenant diæçerents critçeres d'çevaluation et en retenons un particulier : la rçepçetabilitçe. Une mçethode pour mesurer ce critçere est ensuite dçeænie et mise en çuvre Critçeres d'çevaluation D'une maniçere gçençerale un dçetecteur est caractçerisçe par sa rçepçetabilitçe et sa localisation. La rçepçetabilitçe signiæe qu'un même point est dçetectçe dans une suite d'images. La localisation, par contre, signiæe qu'un point dçetectçe dans l'image correspond de façcon prçecise ça un point 3D de la scçene. Plusieurs travaux ont constatçe ëwan 92ë, ëder 93cë qu'il existe une contradiction entre rçepçetabilitçe et localisation. En eæet, un lissage amçeliore la rçepçetabilitçe, mais rend plus mauvaise la localisation, comme l'a constatçe Canny ëcan 86ë. Selon l'application pour laquelle sert la dçetection, les critçeres d'çevaluation diæçerent. Pour des applications qui ne nçecessitent pas de conna^çtre la position 3D, comme le calcul de la gçeomçetrie çepipolaire, l'appariement ou la reconnaissance d'objet, le seul critçere important est la rçepçetabilitçe. Par contre pour la reconstruction 3D ou le calibrage, la localisation et la rçepçetabilitçe sont toutes les deux nçecessaires Dçeænition de la rçepçetabilitçe Dçeænition 2.1 Rçepçetabilitçe Soient I 1 et I i deux images d'une même scçene et M 1 et M i les matrices de projection correspondantes. La dçetection des points image p 1 et p i appartenant respectivement ça I 1 et I i est rçepçetable si et seulement si p 1 = M 1 P et p i = M i P. La ægure 2.3 illustre cette dçeænition. Pour mesurer la rçepçetabilitçe d'un dçetecteur, il faut çetablir une relation entre p 1 et p i ça partir des images. Dans le cas gçençeral, il n'existe

23 14 Chapitre 2 : Dçetecteurs de points d'intçerêt P I 1 I i ε p 1 p i H i1 Fig. 2.3 í Dçeænition de la rçepçetabilitçe. pas de telle relation. Toutefois, si I 1 et I i sont des images d'une scçene plane, cette relation est dçeænie par une homographie : p i = H i1 p 1 oçu H i1 = M i M,1 1 Dans le cas d'une rçepçetabilitçe parfaite entre I 1 et I i, on obtient pour les points dçetectçes sur ces images fpg 1 et fpg i : H i1 fpg 1 = fpg i Dans des conditions rçeelles, uniquement un sous-ensemble de points est rçepçetçe. En outre un point n'est souvent pas rçepçetable de façcon exacte, mais il est rçepçetable dans un voisinage. Nous allons dans la suite introduire une mesure de rçepçetabilitçe qui prend en compte ces deux faits Mesure de rçepçetabilitçe La mesure de rçepçetabilitçe compare les ensembles de points fpg i et fpg 1. Il faut tout d'abord noter qu'un certain nombre de points ne peuvent pas être rçepçetçes, car ils correspondent ça une partie de la scçene qui n'est pas vue dans les deux images. Il faut donc tenir compte uniquement de la partie commune eæective des images, c'est-ça-dire de la partie de la scçene vue dans les deux images. Soient fdg 1 et fdg i les sous ensembles de points dçetectçes correspondant ça la partie commune : fdg 1 = fp 1 =H i1 p 1 2 I i g et fdg i = fp i =H 1i p i 2 I 1 g L'ensemble des points dçetectçes ça lamême position dans l'image I i est formellement: D = fèd i ;d 1 è=d i = H i1 d 1 g Le support de l'image çetant discret, cette intersection n'a pas de rçealitçe physique. Pratiquement, l'ensemble des points dçetectçes ça la même position est dçeterminçe par un seuil de distance " èon parlera alors d'ë"-rçepçetabilitçe"è : Dè"è =fèd i ;d 1 è=distèd i ;H i1 d 1 è é"g

24 2.5 ç Etude comparative derçepçetabilitçe 15 Soient n i = jfdg i j et n 1 = jfdg 1 j le nombre de points dçetectçes dans les images respectives. Le taux de rçepçetabilitçe r i è"è pour l'image i est dçeæni par : r i jdè"èj è"è = min èn i ;n 1 è Cadre d'çevaluation Pour nos expçeriences nous avons enregistrçe des sçequences d'images correspondant aux diæçerentes transformations ça examiner. Pour ces sçequences il faut estimer les homographies de façcon prçecise et indçependante des points dçetectçes. En eæet, si l'homographie est estimçee ça partir de points dçetectçes et que ceux-ci prçesentent un biais, l'homographie va^etre faussçee par ce biais. Ceci favorise le dçetecteur avec lequel ont çetçe dçetectçes les points. Nous avons donc besoin d'une dçetection indçependante et si possible sous-pixellique de points pour le calcul de l'homographie. Pour ce faire, deux images de la scçene sont prises pour chaque position de la camçera : une image de la scçene originale et une image de la scçene sur laquelle sont projetçees des cibles noires. La ægure 2.4 montre une telle paire d'images pour la scçene ëastçerix". Fig. 2.4 í Image ëastçerix" avec et sans cibles. Le processus de projection est illustrçe par la ægure 2.5. Des cibles noires sont projetçees sur la scçene par un rçetroprojecteur. Pendant toute la prise de vue, la scçene et le mçecanisme de projection des cibles sont æxes. Seule la camçera bouge. Dans la suite les images avec cibles sont utilisçees pour le calcul de l'homographie et la dçetection des points d'intçer^et est eæectuçee sur les images sans cibles. Pour le calcul de l'homographie on extrait d'abord les centres des cibles d'une maniçere prçecise en utilisant l'algorithme de Brand ëbra 95ë qui repose sur une approximation du modçele thçeorique du signal. ça partir de ces centres des cibles le calcul de l'homographie est eæectuçe avec une mçethode robuste de moindres carrçes mçedians. 2.5 ç Etude comparative derçepçetabilitçe ça la section 2.2 nous avons vu qu'il existe une grande variçetçe de dçetecteurs. Vu qu'il est impossible de les comparer tous, un sous-ensemble a çetçe choisi. L'çevaluation a çetçe eæectuçee par rapport ça diæçerentes transformations, notamment une rotation image, un changement d'çechelle, un changement de luminositçe et un changement de point de vue. La stabilitçe au bruit de la camçera a çegalement çetçe testçee. L'çevaluation est eæectuçee sur deux

25 16 Chapitre 2 : Dçetecteurs de points d'intçerêt Fig. 2.5 í Mçecanisme de projection des cibles. scçenes diæçerentes, rçefçerencçees dans la suite ëastçerix" et ëvan Gogh" èvoir ægure 2.4 et ægure 2.6è. On peut constater la nature diæçerente de ces deux images : l'image ëastçerix" contient surtout des contours et l'image ëvan Gogh" contient beaucoup de texture. Avant de donner les rçesultats obtenus pour les diæçerentes transformations, nous prçesentons un exemple de points dçetectçes et nous spçeciæons les dçetecteurs considçerçes Exemples de dçetections et dçetecteurs considçerçes La ægure 2.6 montre les points d'intçerêt dçetectçes sur une même scçene pour des images prises sous diæçerentes transformations de la camçera. Entre l'image de gauche et l'image du milieu il y a une rotation image de 155 degrçes. Et entre l'image de gauche et l'image de droite il y a un changement d'çechelle de 1.4. Le dçetecteur utilisçe pour cet exemple est le dçetecteur de Harris. On peut constater que la rçepçetabilitçe obtenue est bonne. Même sur les zones texturçees les points obtenus sont rçepçetables. n Fig. 2.6 í Points d'intçerêt dçetectçes sur la même scçene pour diæçerentes transformations de la camçera. La rotation entre l'image de gauche et l'image du milieu est de 155 degrçes. Le facteur d'çechelle entre l'image de gauche et l'image de droite est de 1.4.

26 2.5 ç Etude comparative derçepçetabilitçe 17 Pour notre comparaison nous avons retenu les dçetecteurs suivants : í HarrisPrçecisëBau 96ë í HeitgerëHei 92ë í FíorstnerëFíor 94ë í HoraudëHor 90ë í CottierëCot 94ë Dans chaque cas nous avons utilisçe le programme dçeveloppçe par les auteurs correspondants. Pour une description de ces dçetecteurs le lecteur pourra se reporter ça la section 2.2 et ça la section 2.3. Nous n'avons pas inclut les algorithmes de la derniçere catçegorie dans notre comparaison. En eæet, elle nçecessite des modçeles typiquement obtenus par l'usage de cibles ce qui est trop restrictif pour le contexte gçençerale dans lequel nous nous plaçcons. Les sections suivantes çetudient la rçepçetabilitçe de chacun des dçetecteurs par rapport aux transformations considçerçees. L'çevaluation pour une rotation image est prçesentçee ça la section 2.5.2, pour un changement d'çechelle ça la section 2.5.3, pour un changement de luminositçe ça la section et pour un changement de point de vue ça la section La stabilitçe au bruit est çevaluçee ça la section Rotation image Pour obtenir une sçequence de rotations image, nous avons tournçe la camçera approximativement autour de son axe optique. Ceci est rendu possible par le mçecanisme particulier de notre objectif qui permet une rotation autour de la bague de montage. La ægure 2.6 montre deux images de la sçequence rotation image entre lesquelles l'angle de rotation est de 155 degrçes. La scçene utilisçee est ëvan Gogh". La ægure 2.7 montre les rçesultats obtenus pour cette sçequence. Les angles de rotation varient entre 0 et 180 degrçes. Pour le graphe de gauche l'erreur de localisation " est de 0.5 pixel ce qui correspond ça une prçecision du pixel. Le graphe de droite reprçesente les rçesultats obtenus pour un erreur de localisation " de 1.5 pixels. Ceci indique que le point dçetectçe se trouve dans un des pixels voisins du point prçedit HarrisPrecis Foerstner Cottier Heitger Horaud HarrisPrecis Foerstner Cottier Heitger Horaud taux de repetabilite taux de repetabilite angle de rotation en degres angle de rotation en degres Fig. 2.7 í Taux de rçepçetabilitçe pour la sçequence rotation image et la scçene ëvan Gogh". Pour le graphe de gauche " = 0.5 et pour le graphe de droite " = 1.5.

27 18 Chapitre 2 : Dçetecteurs de points d'intçer^et Pour les deux erreurs de localisation le dçetecteur ëharrisprçecis" donne les meilleurs rçesultats. Pour une " de 1.5 il obtient un taux de rçepçetabilitçe de presque 100è. En ce qui concerne les autres dçetecteurs, on observe que le fait de calculer Harris uniquement sur les contours ècottierè dçegrade les rçesultats. Ceci est d^u ça l'instabilitçe supplçementaire de l'extraction des contours. On peut çegalement voir que le dçetecteur de Heitger n'est pas du tout invariant ça une rotation. Pour ce dçetecteur les rçesultats sont les plus mauvais pour une rotation de 90 degrçes ce qui s'explique par l'utilisation des directions choisies pour les æltres directionnels. Le dçetecteur de Fíorstner donne de mauvais rçesultats pour des rotations de 45 degrçes ce qui peut s'expliquer par l'utilisation de æltres anisotropes. La mçethode basçee sur l'intersection des segments èhoraudè donne les plus mauvais rçesultats. En eæet, l'extraction des contours, l'extraction de segments ainsi que l'çetape d'intersection des segments introduisent tous des erreurs qui se propagent. La ægure A.2 dans l'annexe A montre des rçesultats similaires pour la scçene ëastçerix". La ægure 2.8 montre le taux de rçepçetabilitçe en fonction de l'erreur de localisation " pour un angle de rotation constant. L'erreur le localisation varie entre 0.5 pixel et 5 pixel. On peut observer que les rçesultats de tous les dçetecteurs s'amçeliorent si l'on tolçere de plus grandes erreurs de localisation. Toutefois, le dçetecteur de HarrisPrçecis est supçerieur aux autres et augmente plus rapidement. On peut voir que pour ce dçetecteur on obtient de bons rçesultats pour une erreur de localisation de 1 pixel. La ægure A.3 dans l'annexe A montre des rçesultats similaires pour la sçequence ëastçerix" taux de repetabilite HarrisPrecis 0.2 Foerstner Cottier Heitger Horaud erreur de localisation Fig. 2.8 í Taux de rçepçetabilitçe pour un angle de rotation de 89 degrçes et la scçene ëvan Gogh" Changement d'çechelle Pour obtenir un changement d'çechelle nous avons changçe la longueur focale du zoom de la camçera. La ægure 2.9 montre l'image de rçefçerence de la sçequence zoom et la derniçere image de la sçequence. Le changement d'çechelle entre ces deux images est de 4.1. Il a çetçe dçeterminçe par le rapport des focales utilisçees. La ægure 2.10 montre le taux de rçepçetabilitçe des diæçerents dçetecteurs pour un changement d'çechelle. Le graphe de gauche reprçesente les rçesultats obtenus pour un " de 0.5, celui de droite les rçesultats obtenus pour un " de 1.5 pixels. La ægure A.5 de l'annexe A montre les rçesultats obtenus pour la sçequence

28 2.5 ç Etude comparative derçepçetabilitçe 19 Fig. 2.9 í ç A gauche l'image de rçefçerence pour la sçequence changement d'çechelle et ça droite la derniçere image de cette sçequence. Le changement d'çechelle entre les deux est de 4.1. ëastçerix" HarrisPrecis Foerstner Cottier Heitger Horaud HarrisPrecis Foerstner Cottier Heitger Horaud taux de repetabilite taux de repetabilite facteur d echelle facteur d echelle Fig í Taux de rçepçetabilitçe pour la sçequence changement d'çechelle et la scçene ëvan Gogh". Pour le graphe de gauche " = 0.5 et pour le graphe de droite " = 1.5. La ægure 2.10 montre que les dçetecteurs sont tous trçes sensibles ça un changement d'çechelle. Pour un " de 0.5, la rçepçetabilitçe est trçes mauvaise pour un facteur supçerieur ça 1.5. Pour un " de 1.5, les rçesultats deviennent tous trçes mauvais au-dessus d'un facteur de 2. On peut çegalement observer que le dçetecteur de HarrisPrçecis et le dçetecteur de Cottier donnent les meilleurs rçesultats. Les autres donnent des rçesultats diæcilement exploitables. Les rçesultats obtenus au-dessus d'un facteur d'environ 2.5 sont dus ça des artçefacts. A une çechelle plus grande, on trouve beaucoup plus de points du fait de la texture de la scçene. Des points peuvent donc plus facilement se correspondre par hasard. La ægure 2.11 montre pour un changement d'çechelle constant le taux de rçepçetabilitçe en fonction de l'erreur de localisation ". On peut observer que les rçesultats s'amçeliorent si l'on tolçere de plus grandes erreurs de localisation. Toutefois, le taux de rçepçetabilitçe des dçetecteurs de HarrisPrçecis et de Cottier augmentent plus rapidement que les autres. La ægure A.6 dans l'annexe A montre des rçesultats similaires pour la scçene ëastçerix" Changement de luminositçe Dans la suite deux types de changement de luminositçe sont examinçes : un changement uniforme et un changement complexe. Dans le cas d'un changement uniforme, unique-

29 20 Chapitre 2 : Dçetecteurs de points d'intçer^et taux de repetabilite HarrisPrecis 0.2 Foerstner Cottier Heitger Horaud erreur de localisation Fig í Taux de rçepçetabilitçe pour un changement d'çechelle de 1.5 et la scçene ëvan Gogh". ment l'intensitçe de la luminositçe varie et dans le cas d'un changement complexe la source lumineuse est dçeplacçee. Changement uniforme de luminositçe Un changement uniforme de luminositçe est obtenu en changeant l'ouverture de la camçera. Pour mesurer ce changement nous avons introduit la notion de ëniveau de gris relatif". Cette mesure est le rapport de la moyenne des niveaux de gris d'une image de la sçequence par rapport ça une image de rçefçerence. L'image de rçefçerence est une image au milieu de la sçequence, c'est ça dire une image qui n'est ni trçes sombre ni trçes claire. La ægure 2.12 montre deux images de la sçequence, une trçes sombre avec un niveau de gris relatif de 0.6 et une claire avec un niveau de gris relatif de 1.7. Fig í ça gauche l'image de la sçequence changement uniforme de luminositçe avec un niveau de gris relatif de 0.6 et ça droite l'image avec un niveau de gris relatif de 1.7. La ægure 2.13 montre les rçesultats obtenus pour un changement uniforme de luminositçe. Le graphe de gauche montre les rçesultats obtenus pour un " de 0.5, le graphe de droite reprçesente les rçesultats obtenus pour un " de 1.5 pixels. Pour ces deux graphes, le taux de rçepçetabilitçe diminue rçeguliçerement en fonction du niveau de gris relatif. Pour l'image de niveau de gris relatif de 1, le taux de rçepçetabilitçe n'est pas de 100è du fait du bruit dans les images èdeux images de niveau de gris relatif de 1 ont çetçe prises pour la sçequence : une de rçefçerence et une de testè.

30 2.5 ç Etude comparative derçepçetabilitçe HarrisPrecis Foerstner Cottier Heitger Horaud HarrisPrecis Foerstner Cottier Heitger Horaud taux de repetabilite taux de repetabilite niveau de gris relatif niveau de gris relatif Fig í Taux de rçepçetabilitçe pour la sçequence changement uniforme de luminositçe et la scçene ëvan Gogh". Pour le graphe de gauche " = 0.5 et pour le graphe de droite " = 1.5. Les dçetecteurs de HarrisPrçecis et de Heitger donnent des rçesultats supçerieurs aux autres dçetecteurs. Les rçesultats de ces deux dçetecteurs sont çequivalents. On peut dire que HarrisPrçecis est lçegçerement meilleur, surtout si on considçere aussi les rçesultats obtenus pour la scçene ëastçerix" qui sont prçesentçes ça la ægure A.2 de l'annexe A. Les rçesultats obtenus pour ëastçerix" sont meilleurs que ceux de ëvan Gogh" ce qui s'explique surtout par les diæçerents intervalles de luminositçe choisis. L'image la plus sombre de la scçene ëvan Gogh" est beaucoup plus sombre que celle de la scçene ëastçerix". Changement complexe de luminositçe Un changement non uniforme de luminositçe est obtenu en bougeant la source lumineuse sur un cercle entre approximativement -45 degrçes et 45 degrçes. La ægure 2.14 montre trois images de la sçequence. L'image 0 est prise pour la position de la source lumineuse la plus ça droite. Cette image sert comme image de rçefçerence pour nos tests. Pour l'image 6 l'çeclairage vient de face. Une partie de cette image est saturçee. En ce qui concerne l'image 11, la source lumineuse est la plus ça droite. Fig í ç A gauche l'image 0 de la sçequence changement complexe de luminositçe, au milieu l'image 6 et ça droite l'image 11. L'image 0 est prise pour la position de la source lumineuse la plus ça droite. Pour l'image 6 l'çeclairage vient de face. Et pour l'image 11, la source lumineuse est la plus ça droite. La ægure 2.15 montre les rçesultats obtenus pour un changement complexe de luminositçe. Le graphe de gauche montre les rçesultats obtenus pour un " de 0.5, le graphe de droite reprçesente les rçesultats obtenus pour un " de 1.5 pixels.

31 22 Chapitre 2 : Dçetecteurs de points d'intçer^et HarrisPrecis Foerstner Cottier Heitger Horaud HarrisPrecis Foerstner Cottier Heitger Horaud taux de repetabilite taux de repetabilite image image Fig í Taux de rçepçetabilitçe pour la sçequence changement complexe de luminositçe et la sçequence ëvan Gogh". Pour le graphe de gauche " = 0.5 et pour le graphe de droite " = 1.5. Le dçetecteur de HarrisPrçecis donne des rçesultats supçerieurs aux autres dçetecteurs. Pour un " de 0:5, on peut constater une dçegradation pour l'image au milieu de la sçequence. Ceci provient de la saturation importante de cette image due ça un lçeger reæet. Par contre, pour un " de 1:5 les rçesultats sont peu modiæçes par un changement complexe de luminositçe et globalement constants. Ceci s'explique par la localitçe des dçetecteurs çevaluçes Changement de point de vue Pour mesurer la rçepçetabilitçe des dçetecteurs par rapport ça un changement de point de vue, la camçeraaçetçedçeplacçee autour de la scçene sur un cercle entre approximativement -50 et 50 degrçes. Les diæçerentes prises de vues sont ça peu prçes çequi-rçeparties. La ægure 2.16 montre trois images de la sçequence. L'image 0 est prise pour la position de la camçera la plus ça droite. Pour l'image 7 la camçera est positionnçee en face du tableau. Cette image sert comme image de rçefçerence pour nos tests. En ce qui concerne l'image 15, c'est la prise de vue la plus ça gauche. Fig í ça gauche l'image 0 de la sçequence pour un changement complexe de luminositçe, au milieu l'image 7 et ça droite l'image 15. L'image 0 est prise pour la position de la camçera la plus ça droite. Pour l'image 7 la camçera est positionnçee en face du tableau. En ce qui concerne l'image 15, c'est la prise de vue la plus ça gauche. La ægure 2.17 montre les rçesultats obtenus pour un changement du point de vue. Le graphe de gauche montre les rçesultats obtenus pour un " de 0.5, le graphe de droite reprçesente les rçesultats obtenus pour un " de 1.5 pixels. Le dçetecteur de HarrisPrçecis donne des rçesultats supçerieurs aux autres dçetecteurs. On

32 2.5 ç Etude comparative derçepçetabilitçe HarrisPrecis Foerstner Cottier Heitger Horaud HarrisPrecis Foerstner Cottier Heitger Horaud taux de repetabilite taux de repetabilite image image Fig í Taux de rçepçetabilitçe pour la sçequence changement de point de vue et la scçene ëvan Gogh". Pour le graphe de gauche " = 0.5 et pour le graphe de droite " = 1.5. peut constater que les rçesultats se dçegradent rapidement pour un " de 0:5. Par contre, la dçegradation est beaucoup moins forte pour un " de 1:5. Dans ce cas le taux de rçepçetabilitçe est toujours supçerieur ça 60è ça l'exception de l'image 0. La qualitçe des rçesultats obtenue avec cette expçerience montre un bon comportement vis ça vis de dçeformations perspectives de l'image Bruit de la camçera Pour observer le comportement du dçetecteur en prçesence du bruit de la camçera, une scçene statique a çetçe prise plusieurs fois. Les rçesultats obtenus pour une telle expçerience sont montrçes sur la ægure HarrisPrecis Foerstner Cottier Heitger Horaud taux de repetabilite taux de repetabilite image HarrisPrecis Foerstner Cottier Heitger Horaud image Fig í Taux de rçepçetabilitçe pour la sçequence bruit de la camçera et la scçene ëvan Gogh". Pour le graphe de gauche " = 0.5 et pour le graphe de droite " = 1.5. On peut voir que tous les dçetecteurs donnent de bons rçesultats ça part celui de Horaud. Le dçetecteur de HarrisPrçecis donne les meilleurs rçesultats. Ces rçesultats sont lçegçerement supçerieurs ça ceux obtenus avec le dçetecteur de Heitger. Pour un " de 1.5 ces deux dçetecteurs obtiennent un taux avoisinant 100è. La ægure A.9 dans l'annexe A montre des rçesultats similaires pour la sçequence ëastçerix".

33 24 Chapitre 2 : Dçetecteurs de points d'intçerêt 2.6 Robustesse ça l'çechelle - une approche multi-çechelle Notre version du dçetecteur de Harris utilise des gaussiennes pour calculer les dçerivçees. Ceci rend plus stable les calculs et permet çegalement de traiter l'image ça plusieurs çechelles. En eæet, la taille ç de la gaussienne peut être adaptçee ça un changement d'çechelle de l'image. Dans ce qui suit, un changementd'çechelle signiæe un changement du facteur d'agrandissement d'une image, dçenommçe par æ pour bien le distinguer de la taille ç de la gaussienne utilisçee pour le calcul des dçerivçees. Dans le cas d'une image, nous devons aussi tenir compte du fait que pour le calcul de dçerivçees nous utilisons un masque gaussien. Il faut donc adapter la taille de ce masque au changement d'çechelle. Ainsi, pour deux images I 1 et I 2,oçu I 2 est changçee par un facteur d'çechelle æ nous avons: Z I 1 è~xèg i1 :::i n è~x; çèd~x = æ n,1,1 Z I 2 è~uèg i1 :::i 2 è~u; çæèd~u è2.3è oçu les G ii sont les dçerivçees de la gaussienne comme dçeænies dans l'çequation 2.2. L'çequation 2.3 montre que si l'on conna^çt le changement d'çechelle entre 2 images, alors il est possible d'adapter la taille de la gaussienne utilisçee pour le calcul des dçerivçees. Ainsi, il est possible d'obtenir les mêmes points d'intçerêt indçependamment du facteur æ. La ægure 2.20 montre une telle adaptation pour un changementd'çechelle de la sçequence ëastçerix" èvoir ægure A.12 dans l'annexe A pour la sçequence ëvan Gogh"è. On peut voir que la courbe ëharrisprçecis adaptçe" donne des rçesultats nettement meilleurs. Toutefois audessus d'un facteur de 3 les rçesultats se dçegradent. Ceci est dû au fait qu'au-dessus d'un tel facteur les changements du signal ne ressemblent plus aux changements thçeoriques modçelisçes. 1 HarrisPrecis HarrisPrecis adapte 0.8 taux de repetabilite facteur d echelle Fig í Adaptation de HarrisPrçecis ça un changement d'çechelle. La scçene utilisçee est ëastçerix" et " = 1.5. Toutefois, le changement d'çechelle est souvent inconnu. ç A ce moment il est indispensable d'introduire un cadre multi-çechelle, c'est ça dire d'eæectuer les calculs ça des çechelles prçe-dçeænies. Nous avons choisi un espacement de 0.5, c'est ça dire les calculs sont eæectuçes aux çechelles 1.0, 1.5, 2.0 etc. En thçeorie il faudrait un espacement exponentiel suivant une suite gçeomçetrique. Toutefois vues les diæçerences qui apparaissent dans les signaux avec

34 2.7 Conclusion 25 des çechelles trop diæçerentes, un espacement linçeaire est un compromis raisonnable. Les rçesultats sont donnçes sur la ægure 2.20 èvoir ægure A.12 dans l'annexe A pour la sçequence ëvan Gogh"è. Pour chaque dçetection, l'çechelle pour laquelle ont çetçe eæectuçes les calculs est notçee. Ces rçesultats montrent que si nous eæectuons des calculs ça un tel espacement, une dçetection robuste ça un changement d'çechelle est possible. Fig í Utilisation d'un cadre multi-çechelle pour HarrisPrçecis. La scçene utilisçee est ëastçerix" et " = Conclusion Dans ce chapitre nous avons mençe une çevaluation comparative de diæçerents dçetecteurs. Le critçere de cette çevaluation est la rçepçetabilitçe de la dçetection lorsque l'image est prise dans des conditions diæçerentes : une rotation image, un changement d'çechelle, un changement de luminositçe, un changement du point de vue et le bruit du systçeme de prise de vue. Dans tous ces cas le dçetecteur de HarrisPrçecis donne des rçesultats meilleurs ou çequivalents aux autres dçetecteurs. Ce chapitre a çegalement montrçe qu'une implçementation stable des dçerivçees du signal permet d'amçeliorer de façcon importante les rçesultats du dçetecteur de Harris standard. D'autre part, les expçerimentations de ce chapitre ont montrçe que les dçetecteurs basçes sur les contours sont moins stables, car leur performance est dçependante du succçes ou de l'çechec de l'extraction de contour. Les rçesultats obtenus pour les diæçerentes transformations peuvent être rçesumçes comme suit. Dans le cas d'une rotation de l'image le dçetecteur de HarrisPrçecis donne des rçesultats nettement supçerieurs aux autres dçetecteurs. Ceci est dû au fait qu'il est basçe sur des mesures invariantes ça une telle transformation. Le dçetecteur de Heitger qui utilise un calcul dans plusieurs directions rçesiste moins bien aux rotations image. Ceci est conærmçe par les observations de ëper 95ë qui a constatçe que le calcul pour plusieurs directions est moins robuste ça une rotation image. Dans le cas d'un changement d'çechelle, les dçetecteurs de HarrisPrçecis et de Cottier donnent les meilleurs rçesultats. En outre, ces dçetecteurs peuvent être facilement adaptçes ça un changement d'çechelle. Nous avons montrçe qu'une telle adaptation est rçealisable et permet d'obtenir de bons rçesultats jusqu'ça un facteur d'çechelle de 3. Dans le cas d'un changement de luminositçe et du bruit de la camçera, les dçetecteurs de HarrisPrçecis et de Heitger donnent les meilleurs rçesultats. Enæn, dans le cas d'un

35 26 Chapitre 2 : Dçetecteurs de points d'intçer^et changement de point de vue le dçetecteur de HarrisPrçecis donne des rçesultats supçerieurs aux autres dçetecteurs. En conclusion, L'çevaluation comparative montre que le dçetecteur de HarrisPrçecis est le plus rçepçetable. Ce dçetecteur est donc utilisçe par la suite pour notre algorithme d'appariement.

36 Chapitre 3 Caractçerisation locale Ce chapitre prçesente la deuxiçeme çetape de notre algorithme d'appariement : la caractçerisation locale du signal autour d'un point. Dans le chapitre prçecçedent nous avons vu comment dçetecter des points d'intçerêt. Ces points ont çetçe retenus parce qu'ça priori ils sont ça des endroits oçu le signal prçesente un contenu informatif important. Il s'agit maintenant de valider cette hypothçese en capturant cette information. Pour ce faire, il faut dçecrire localement la fonction signal au voisinage d'un point d'intçerêt. La ægure 3.1 reprçesente cette fonction Ièx; yè, encore appelçee fonction d'intensitçe lumineuse Fig. 3.1 í Fonction d'intensitçe lumineuse autour d'un point d'intçerêt Le but de la caractçerisation prçesentçee dans ce chapitre est de dçecrire cette fonction de la maniçere la plus prçecise et la plus complçete possible. D'autre part, nous recherchons une description qui soit invariante aux transformations usuelles de l'image. Aprçes avoir dçecrit ça la section 3.1 les mçethodes existantes permettant d'obtenir une caractçerisation du signal, la section 3.2 prçesente une brçeve introduction aux invariants. Il est alors montrçe ça la section 3.3 comment des mesures diæçerentielles - la mçethode de caractçerisation retenue - peuventêtre invariantes aux diæçerentes transformations image considçerçees. Les expçeriences mençees dans un contexte d'appariement ça la section 4.3 du chapitre suivant montrent 27

37 28 Chapitre 3 : Caractçerisation locale l'invariance et la discriminance de cette caractçerisation. Ceci est briçevement discutçe en section Mçethodes de caractçerisation locale De nombreuses mçethodes de caractçerisation locale sont possibles. Dans le cas d'images de niveaux de gris des exemples en sont les dçerivçees, les æltres de Gabor et plus gçençeralement les ondelettes ainsi que les moments. Des caractçeristiques basçees sur la couleur sont çegalement utilisables. Elles ne sont cependant pas dçetaillçees par la suite, puisque nous nous plaçcons dans un contexte d'images de niveaux de gris Dçerivçees Une fonction peut être approximçee localement par ses dçerivçees. Sachant calculer les dçerivçees d'une fonction en un point jusqu'ça un ordre N, lasçerie de Taylor dçecrit cette fonction localement jusqu'ça cet ordre : NX fèx0+x; fèx0;y0è :::+ x p y N p=1 N,p fèx0;y0è+oèxn ;y N è De ce fait il est possible de dçecrire une image en un point en stockant dans un vecteur l'ensemble des dçerivçees en ce point. Un tel vecteur a çetçe utilisçe par Koenderink ëkoe 87ë qui l'a nommçe jet local. Koenderink calcule en outre le jet local de maniçere stable en utilisant un æltre passe-bas : la gaussienne et ses dçerivçees ècf. section 2.6è. La dçeænition du jet local est la suivante : Dçeænition 3.1 Jet local Soit I une image et ç un facteur d'çechelle. Le jet local d'ordre N en un point ~x, notçe J N ëiëè~x;çè, est dçeæni par J N ëiëè~x;çè=fl i1 :::i n è~x;çè j è~x;çè 2 I æ IR + ;n=0;:::;ng oçu L i1 :::i n è~x;çè est la dçerivçee n-içeme de l'image par rapport aux variables i k èk =1:::nè obtenue par la convolution de I avec la diæçerentielle G i1 :::i n è~x; çè de la fonction gaussienne : L i1 :::i n è~x; çè=g i1 :::i n è~x;çèæ Iè~xè Gè~x;çè et G i1 :::i n è~x; çè sont dçeænis par les çequations 2.1 et 2.2. L'opçerateur æ reprçesente l'opçerateur de convolution. Un jet local est calculçe au voisinage d'un point et dçecrit la gçeomçetrie locale de ce voisinage. Pour un point donnçe le jet local est fonction d'un paramçetre : la taille ç de la gaussienne. Ce paramçetre permet de caractçeriser une fonction ça plusieurs niveaux d'çechelle ou il peut être adaptçe ça l'çechelle de l'image considçerçee. Le jet local est basçe sur la dçerivation du signal. Toutefois, comme on ne conna^çt pas la fonction du signal de maniçere analytique, les dçerivçees doivent être estimçees de façcon numçerique : elles sont calculçees par convolution avec une gaussienne et ses dçerivçees. On peut donc interprçeter le jet local comme la projection - la dçecomposition - du signal sur une base : la gaussienne et ses dçerivçees.

38 3.1 Mçethodes de caractçerisation locale 29 y 1/v L 1/u θ x Fig. 3.2 í La transformçee de Fourier est directionelle Descriptions frçequentielles On peut çegalement caractçeriser une fonction par une description frçequentielle. Un exemple de description frçequentielle globale est la transformçee de Fourier, dont la formulation dans le cas d'un signal bidimensionnel est la suivante : Fèu; vè= ZZ fèx; yèe ièux+vyè dxdy La transformçee de Fourier est un cas spçecial de dçecomposition d'une fonction dans une base inænie de fonctions complçetes et orthogonales. Cette base de fonctions est constituçee des fonctions sinusoíçdales donc pçeriodiques et inænies. D'autre part, cette transformçee est directionelle : la transformçee est calculçee dans la direction dçeænie par u et v ècf. ægure 3.2è. Il existe pour chaque paire de frçequences èu; vè une direction, une magnitude et une phase. L'intçerêt de la transformçee de Fourier, ainsi que des autres mçethodes de description frçequentielle, rçeside dans le fait que la phase est ë normalisçee ", c'est ça dire indçependante de la luminositçe des images ainsi que de leur contraste. D'autre part, la phase est stable ça un changement d'çechelle jusqu'ça 20è. Du fait de cette stabilitçe, l'utilisation de cette phase peut être mise en çuvre dans un contexte multi-çechelle. Enæn, la phase est une variable continue qui permet d'obtenir des rçesultats sous-pixelliques, c'est-ça-dire de prçecision supçerieure ça celle du signal. Cependant la transformation de Fourier est globale : elle permet une localisation en frçequence et non pas en espace. C'est ça dire elle ne permet pas de dire quelles frçequences appartiennent ça quel point. Ce problçeme est connu sous le nom du principe d'incertitude et s'çenonce de la maniçere suivante : æx æ! ç constante oçu x est la variable spatiale et! la variable frçequentielle. Les dispersions æx et æ! reprçesentent respectivement l'incertitude spatiale et frçequentielle. Ce principe montre donc que l'on ne peut pas être ça la fois prçecis en espace et en frçequence. En fait, si un æltre est trçes prçecis en espace il l'est trçes peu en frçequence, et rçeciproquement. Pour remçedier ça ce problçeme et minimiser ça la fois l'incertitude en espace et en frçequence, il est prçefçerable

39 30 Chapitre 3 : Caractçerisation locale d'utiliser un fenêtrage. Gabor ëgab 46ë a proposçe d'utiliser un fenêtrage gaussien et a dçemontrçe qu'un tel fenêtrage est optimal pour obtenir une bonne prçecision ça la fois en frçequence et en espace. La transformation de Gabor est donc la convolution du signal par un æltre dont l'expression est la suivante : G ç!x! y èx; yè=e iè!xx+!yyè 1 ç2ç x2 +y e, 2 2ç 2 La transformçee de Gabor permet d'adapter l'analyse frçequentielle ça la rapiditçe des changements de l'image, donc aux frçequences de l'image. Cependant, il faut pour ce faire dçeterminer la taille de la fenêtre ça utiliser. Celle-ci correspond ça la rçesolution que l'on veut obtenir. Ce choix æxe complçetement la dispersion en frçequence de la description obtenue. Il est donc prçefçerable d'eæectuer une dçecomposition multi-çechelle aæn d'obtenir une description riche du signal. Le æltre de Gabor est souvent utilisçe pour les problçemes de stçerçeo-correspondance ou pour rçealiser la vergence d'une tête stçerçeoscopique ëwes 92, Fle 91, San 88ë. Ce æltre permet d'obtenir une information locale de la phase du signal et sert ainsi ça estimer la disparitçe entre deux images. Dans le cadre du calcul d'appariements, une çegalitçe de phase entre deux points de deux images diæçerentes signiæe une grande probabilitçe qu'il s'agisse de points ça apparier, modulo le fait qu'une même valeur de phase peut appara^çtre plusieurs fois. Ainsi, pour qu'une çegalitçe de phase corresponde ça un appariement de façcon certaine, une approche multi-rçesolution est nçecessaire. Toutefois cette mesure est locale en frçequence et directionelle en espace. Aussi, une telle approche rçesiste uniquement ça des rotations et des changements d'çechelle faibles. Pour rçesoudre ce problçeme, Wu ëwu 95ë a proposçe une implçementation qui utilise des æltres de Gabor dans plusieurs directions et ça plusieurs çechelles. Morlet, Grossmann et Meyer ëmor 83, Mey 91ë ont construit une thçeorie reposant sur l'idçee de caractçeriser un signal par diæçerentes çechelles et diæçerentes rçesolutions : cette thçeorie est ça l'origine des ondelettes. L'idçee principale des ondelettes est que l'apparition de hautes frçequences est de faible durçee en espace. Cette idçee se justiæe par l'hypothçese que les hautes frçequences correspondent ça des discontinuitçes du signal et doivent donc être considçerçees uniquement de maniçere locale. Mallat ëmal 89ë a çetendu ces travaux dans le domaine de la vision par ordinateur au cas des signaux discrets. La transformçee en ondelettes de la fonction f est de la forme suivante : oçu í a est un facteur d'çechelle í ç est une translation 1 í p Ch CWT h èç;aè= p 1 1 Ch a est une constante utilisçee pour la normalisation en çenergie Z fèxèh æ è x, ç èdx è3.1è a í hèxè est une fonction continue quelconque appelçee fonction gçençeratrice de l'ondelette Les ondelettes nçecessitent une rçepartition logarithmique en espace et en frçequence. La ægure 3.3 illustre cet espacement. Cette rçepartition logarithmique est çequivalente ça avoir

40 3.1 Mçethodes de caractçerisation locale 31 fréquence espace Fig. 3.3 í L'espacement en espace et en frçequence est logarithmique pour une dçecomposition en ondelettes. des æltres dont la bande passante relative est constante : æ!! = constante Les rçesultats obtenus par la transformation de Gabor ainsi que par les ondelettes dçependent de la taille du voisinage sur lequel sont eæectuçes les calculs. Ceci n'est pas le cas pour la transformation de Wigner. Sa formulation est la suivante ècf. ëjac 91ëè : W I èx; y;! x ;! y è= ZZ R I èx; y; æ; æèe,ièæ!x+æ!yè dædæ avec R I èx; y; æ; æè=ièx + æ 2 ;y+ æ 2 èiæ èx, æ 2 ;y, æ 2 è Cette transformation permet donc un calcul de la frçequence en tout point. Malheureusement, cette reprçesentation est diæcile et lourde ça calculer Moments Les moments permettent çegalement de caractçeriser un signal. Thçeoriquement, çetant donnçe un signal bidimensionnel Ièx; yè, le moment d'ordre èp + qè est dçeæni dans le cas discret de la maniçere suivante : m pq = X x X y x p y q Ièx; yè Hu ëhu 62ë a utilisçe pour la premiçere fois les moments pour des problçemes de reconnaissance en vision par ordinateur. Il a par ailleurs dçemontrçe l'existence de combinaisons de moments qui sont invariantes en translation, rotation et changement d'çechelle. Teague ëtea 80ë a introduit la notion de moments orthogonaux pour caractçeriser une image. Pour ce faire, il utilise la thçeorie des polynômes orthogonaux et introduit la notion de moments de Zernike. Ces moments sont indçependants et peuvent être facilement construits pour un ordre quelconque. D'autres moments orthogonaux sont les moments de Legendre basçes sur les polynômes du même nom. Teh ëteh 88ë a montrçe que les moments de Zernike sont les moins sensibles au bruit et les moins redondants en information. Une

41 32 Chapitre 3 : Caractçerisation locale comparaison similaire a çetçe mençee par Kim ëkim 94ë entre les moments de Zernike et ceux de Hu. Les rçesultats de cette comparaison conærment la supçerioritçe des moments de Zernike pour diæçerencier deux modçeles. Parmi les travaux plus rçecents, Van Gool ëgoo 96ë a prçesentçe un ensemble de moments jusqu'au deuxiçeme ordre qui sont ça la fois invariants aux changement aænes et aux changements d'intensitçe Autres caractçerisations Il existe d'autres mçethodes de caractçerisation d'un signal que celles prçesentçees prçecçedemment. Par exemple, Bigun ëbig 95, Big 94ë propose l'utilisation d'un systçeme non linçeaire de coordonnçees. Son systçeme de base doit satisfaire l'çequation de Laplace et il doit ^etre conjuguçe. Puis il cherche ça tourner son systçeme de coordonnçees de telle maniçere que les isophotes dans ce nouveau repçere soient les plus parallçeles possible. Il utilise ces coordonnçees pour caractçeriser des textures et pour reconna^çtre des objets. Weiss ëwei 92ë quantça lui propose une mçethode pour calculer localement des invariants aænes et projectifs. Pour ce faire, il utilise une reprçesentation implicite de la courbe des contours. Pour un point donnçeildçeænit un voisinage puis il approxime localement la courbe passant par ce point. Toutefois il est diæcile de calculer une reprçesentation implicite ça des ordres çelevçes. Il utilise un systçeme de coordonnçees canonique qui est localement dçeæni par les propriçetçes de la forme. Un exemple simple est l'utilisation de la tangente et de la normale dans le cas des transformations rigides. Dans le cas gçençeral il utilise des courbes osculatrices pour obtenir l'invariance aux transformations. Parmi les caractçerisations possibles, il faut aussi citer une mçethode simple, mais rçepandue : un point est dçecrit par les valeurs des pixels voisins. On stocke donc les niveaux de gris directement dans un vecteur. La comparaison entre des vecteurs de niveaux de gris dçeænit une mesure de ressemblance entre des points. La maniçere dont est eæectuçee cette comparaison dçeænit diæçerentes variantes. La plus simple est la ëssd" èsum of Squared Diæerencesè qui prend la somme des carrçes des diæçerences entre les vecteurs. Une mesure plus çelaborçee est la ëzncc" èzero-mean Cross-Correlationè qui normalise les vecteurs de niveaux de gris par rapport ça la moyenne et ça la variance avant d'eæectuer une corrçelation. 3.2 Introduction aux invariants Aæn de rendre la mçethode de caractçerisation locale invariante aux diæçerentes transformations de l'image considçerçees, cette section prçesente une introduction ça la thçeorie des invariants. Pour plus d'information le lecteur pourra se rçefçerer ça ëmun 92bë et ça ëgro 92ë Dçeænition thçeorique d'un invariant D'une maniçere gçençerale un invariant est une propriçetçe qui est constante pour un ensemble de fonctions. La dçeænition thçeorique des invariants sous sa forme algçebrique est due ça Hilbert. Dçeænition 3.2 ç Etant donnçes deux ensembles E et F, un ensemble T de transformations de E dans F et I une fonction dont l'ensemble de dçepart est F, I est invariante par T si et seulement si : 8e 2 E 8t; t 0 2 T Iètèeèè = Ièt 0 èeèè

42 3.2 Introduction aux invariants 33 Dans la cadre de la vision par ordinateur, trois types de transformations particuliçeres nous intçeressent : les transformations de la scçene tridimensionnelle vers l'image, les transformations de l'image et les transformations qui opçerent sur le signal de l'image èles changements de luminositçeè. Le problçeme est de calculer des invariants pour ces diæçerentes transformations Calcul des invariants Il existe deux types de mçethodes pour calculer les invariants d'un problçeme donnçe : les mçethodes inænitçesimales et les mçethodes par gçençeralisation et contrainte. Mçethodes inænitçesimales Le calcul d'invariants par les mçethodes inænitçesimales reposent sur les groupes de Lie. Dçeænition 3.3 Un groupe de Lie est un ensemble qui est ça la fois une sous-variçetçe de IR n ou de IC n et un groupe tel que la multiplication et l'inversion sont continues. Les groupes de Lie sont des ensembles de fonctions paramçetrçees dont les paramçetres dçeænissent une structure de groupe. Dans le cadre de la dçeænition 3.2 prçecçedente, ces fonctions vont de E dans E et l'ensemble des transformations est un groupe notçe G. Pour un çelçement e de E donnçe, on dçeænit son orbite Oèeè comme l'ensemble des images de e par toutes les transformations du groupe G : Dçeænition 3.4 est l'orbite de e selon G. Oèeè =fe 0 2 E j9g 2 Ge 0 = gèeèg En fait, la relation Rèe; e 0 è ssi 9g 2 G j e 0 = gèeè est une relation d'çequivalence puisque G a une structure de groupe. L'orbite Oèeè est donc la classe d'çequivalence de l'çelçement e. L'ensemble des orbites des çelçements de E forme une partition de E. L'utilisation de groupes de Lie permet de calculer thçeoriquement des invariants par rçesolution d'çequations diæçerentielles. En eæet, les invariants sont des fonctions analytiques f i constantes sur les orbites, mais qui peuvent distinguer ces diæçerentes orbites. Comme ces fonctions f i sont constantes sur chaque orbite, leur gradient est donc orthogonal aux espaces tangents aux orbites. Soit f j une fonction invariante dont le gradient est notçe ~ rf j, et soit V i èeè une base de l'espace tangent ça l'orbite de e. On a alors : 8j 8i 8e ~ rfj :V i èeè =0 La rçesolution de cette çequation diæçerentielle permet d'obtenir des invariants.

43 34 Chapitre 3 : Caractçerisation locale Mçethode par gçençeralisation et contrainte La rçesolution de l'çequation diæçerentielle prçesentçee ça la section prçecçedente s'avçere parfois dçelicate. Gros ëgro 92ë a donc proposçe d'utiliser une mçethode classique pour calculer des invariants : pour chercher des invariants associçes ça un problçeme donnçe, on gçençeralise le problçeme ça rçesoudre. Ensuite on calcule les invariants pour le problçeme gçençeralisçe et on exprime le fait que le problçeme de dçepart en est un cas particulier. Le problçeme de cette mçethode est de trouver une gçençeralisation du problçeme de dçepart pour laquelle on sache calculer des invariants. Mirbach ësch 95ë a proposçe une mçethode de gçençeralisation qui exprime les solutions de l'çequation diæçerentielle sous la forme d'une intçegrale calculçee sur toute l'image. Pour une transformation donnçee, il propose en fait de calculer la moyenne des valeurs sur une orbite associçee ça cette fonction Dçenombrement des invariants Dans le cadre des groupes de Lie, le thçeorçeme suivant permet de conna^çtre le nombre d'invariants indçependants pour un problçeme donnçe. Avant de donner ce thçeorçeme, il est nçecessaire de dçeænir la notion d'invariants indçependants. Soit I un invariant pour une conæguration x, alors pour toute fonction f, fèièxèè est un invariant pour x. ça partir d'un invariant, il est donc possible de gçençerer une inænitçe d'invariants. Cependant, les dçerivçees partielles de tous ces invariants sont linçeairement dçependantes. D'oçu la dçeænition d'invariants indçependants : Dçeænition 3.5 Des invariants sont dits indçependants si leurs dçerivçees partielles sont linçeairement indçependantes. Soit E un espace vectoriel, et soit G un groupe de Lie opçerant sur cet espace, alors le nombre n d'invariants indçependants est : n = dime, èdimg, min e2e èdimg eèè oçu G e est le groupe d'isotropie ou groupe stabilisateur de e : G e = fg 2 G j gèeè =eg Thçeorçeme de Burns Dans le cas de la vision par ordinateur, les ensembles E et F peuvent ^etre diæçerents. L'ensemble des transformations ne forme alors plus un groupe. Dans ce cas, les orbites ne forment plus une partition : elles peuvent se croiser et la relation Rèe; e 0 è n'est plus une relation d'çequivalence. Dans ce cas, il n'existe pas d'invariant. Ceci a çetçe çenoncçe par Burns ëbur 90ë, puis çegalement par Moses ëmos 92ë et Clemens ëcle 90ë: Thçeorçeme 3.1 Dans le cas des conægurations de n points et des projections perspectives, aænes ou orthogonales, quel que soit l'entier n, les orbites se croisent de telle maniçere que toute fonction constante sur les orbites est constante sur tout l'ensemble d'arrivçee. Il n'y a donc pas d'invariants pour ce problçeme exception faite des fonctions constantes.

44 3.3 Invariance et transformations de l'image 35 Dans le cas gçençeral, la recherche d'invariants pour les transformations de la scçene tridimensionnelle vers l'image est donc vaine. Toutefois, il existe des invariants pour des classes gçeomçetriques d'objet 3D, comme l'ont montrçe Zisserman et al. ëzis 95ë. Ces classes incluent les surfaces de rçevolution, les tubes, les objets symçetriques ainsi que les polyçedres. Il est çegalement possible d'approximer les transformations perspectives par des quasiinvariants comme nous le verrons ça la section suivante Quasi-invariants L'apparition des quasi-invariants dans la communautçe en vision remonte ça la æn des annçees 1960 et est due ça Binford. Dans ëbin 93ë il reprend et prçecise la dçeænition des quasiinvariants. Il dçemontre çegalement que les invariants au groupe des similitudes image sont des quasi-invariants pour une transformation perspective. En eæet, la thçeorie des quasiinvariants permet de dçeænir des invariants au premier ordre dans le cas des transformations perspectives. Soit g une fonction de E dans F qui dçeænit une relation d'çequivalence sur E. Une fonction f de E dans F est un quasi-invariant deg en e 2 E si f est localement constante sur les classes d'çequivalence de E et localement çequivalente ça g en e. En termes plus mathçematiques, la dçeænition d'un quasi-invariant est : Dçeænition 3.6 Soit G un ensemble de transformation, la fonction f est quasi-invariante pour une transformation g 2 G si son dçeveloppement de Taylor est constant au second ordre pour l'ensemble de transformations considçerçees et si son dçeveloppement au premier ordre est çegal au dçeveloppement de g. Le dçenombrement des quasi-invariants pour un problçeme donnçe est diæcile. De m^eme, vçeriæer qu'une fonction est un quasi-invariant est souvent complexe. Par contre, les quasiinvariants se rçevçelent souvent plus stables que les invariants et ils apportent une solution dans le cas oçu il n'existe pas d'invariants. 3.3 Invariance et transformations de l'image Dans cette section les invariants obtenus pour une caractçerisation basçee sur les dçerivçees sont prçesentçes. Les diæçerentes transformations considçerçees sont une rotation image, un changement d'çechelle, un changement de luminositçe et un changement de point de vue. Obtenir des descriptions invariantes est çegalement possible pour les autres caractçerisations vues en section 3.1. Par exemple, dans le cas d'une description frçequentielle, la transformçee de Fourier-Mellin ëgra 91, Rub 91ë permet de rendre une transformation de Fourier invariante aux rotations image et aux changements d'çechelle. De m^eme, la mçethode proposçee par Hu ëhu 62ë rend invariants les moments aux rotations et changements d'çechelle Rotation image Dans cette section, nous prçesentons deux approches diæçerentes pour obtenir une invariance ça la rotation. La premiçere est d'utiliser des mesures diæçerentielles invariantes au groupe des dçeplacements. Cette caractçerisation repose sur des combinaisons de dçerivçees invariantes ça une rotation image. D'une maniçere thçeorique, de tels invariants ont çetçe proposçe par Kçnderink ëkoe 87ë et Romeny et al. ësal 92, Flo 93, Rom 94b, Rom 94aë. La

45 36 Chapitre 3 : Caractçerisation locale deuxiçeme approche pour obtenir une caractçerisation invariante au groupe des dçeplacements consiste ça utiliser le principe des æltres ajustables. Dans ce deuxiçeme cas, les dçerivçees sont ajustçees dans la direction du gradient et ainsi invariantes ça une rotation image. Invariants diæçerentiels ça partir du jet local dçeæni ça la section 3.1, Koenderink ainsi que Romeny proposent de calculer des invariants pour le groupe des dçeplacements SOè2è. Pour ce faire ils ont repris des rçesultats mathçematiques, formulçes entre autres par Hilbert ëhil 93ë. Ils soulignent çegalement la nçecessitçe d'implçementer le calcul des dçerivçees de maniçere stable pour pouvoir calculer ces invariants ça un ordre çelevçe. Nous utilisons l'ensemble d'invariants diæçerentiels jusqu'au troisiçeme ordre. Ces invariants sont regroupçes dans un vecteur notçe ~ V. La premiçere partie de ce vecteur est constituçee d'un ensemble complet et irrçeductible d'invariants diæçerentiels jusqu'au deuxiçeme ordre : ~Vë0::4ë = 2 64 L L i L i L i L ij L j L ii L ij L ji 3 75 = 26 4 L L x L x + L y L y L xx L x L x +2L xy L x L y + L yy L y L y L xx + L yy L xx L xx +2L xy L xy + L yy L yy 3 75 è3.2è Les L i sont les çelçements du jet local dçeæni par la dçeænition 3.1. L reprçesente par exemple la fonction de luminance convoluçee avec une gaussienne. La formulation de cette premiçere partie du vecteur est donnçee en notation d'einstein et en coordonnçees cartçesiennes. En notation cartçesienne, les indices x et y reprçesentent respectivement ladçerivation par rapport aux variables x et y, par exemple L x@ y L. En notation d'einstein, un indice i signiæe la sommation des dçerivations par rapport ça l'ensemble des variables : L i = X i L i = L x + L y et L ij = X i X j L ij = L xx + L xy + L yx + L yy : On peut constater que la deuxiçeme composante de ce vecteur est la magnitude du gradient et la quatriçeme le Laplacien. Il est possible de calculer les invariants pour diæçerentes tailles ç de la gaussienne, car ils sont dçeænis ça partir des L i. La deuxiçeme partie du vecteur est constituçe d'un ensemble complet d'invariants du troisiçeme ordre. Ces invariants en notation d'einstein sont: ~Vë5::8ë = 2 64 " ij èl jkl L i L k L l, L jkk L i L l L l è L iij L j L k L k, L ijk L i L j L k,"ij L jkl L i L k L l L ijk L i L j L k 3 75 è3.3è oçu " ij reprçesente le tenseur canonique anti-symçetrique : " 12 =," 21 =1et" 11 = " 22 =0. En notation cartçesienne nous obtenons donc : 2 64 ~V ië5::8ë = L xxxl yl yl y +3L xyyl xl xl y, 3L xxyl xl yl y, L yyyl xl xl x L xxxl xl yl y + L xxyè,2l xl xl y + L yl yl yè+l xyyè,2l xl yl y + L xl xl xè+l yyyl xl xl y L xxyè,l xl xl x +2L xl yl yè+l xyyè,2l xl xl y + L yl yl yè, L yyyl xl yl y + L xxxl xl xl y L xxxl xl xl x +3L xxyl xl xl y +3L xyyl xl yl y + L yyyl yl yl y 3 75 è3.4è

46 3.3 Invariance et transformations de l'image 37 Jet ajustable ça partir du jet local dçeæni ça la section 3.1, il est possible de calculer les dçerivçees dans une direction donnçee. Pour être invariant ça la rotation, cette direction est par exemple la direction du gradient. Nous donnons par la suite, les formules pour calculer jusqu'ça l'ordre 3, les dçerivçees dans une direction ç donnçee ècf. ëfre 91ëè. Les L x ;L y ;:::sont les çelçements du jet local. L 0 èçè = L x cosèçè+l y sinèçè L 00 èçè = L xx cos 2 èçè+2l xy sinèçè cosèçè+l yy sin 2 èçè L 000 èçè = L xxx cos 3 èçè+3l xxy cos 2 èçè sinèçè+3l xyy sin 2 èçè cosèçè+l yyy sin 3 èçè Dans ces formules, la dçerivçee d'ordre n dans une direction donnçee dçepend des n +1 dçerivçees d'ordre n. Pour reprçesenter de façcon complçete l'ensemble des dçerivçees ça un ordre donnçe n, il faut utiliser n + 1 dçerivçees directionelles correspondant ça n + 1 directions ç n;i i =0:::n.Pour des raisons de stabilitçe, les n + 1 directions ç n;i utilisçees doivent être espacçees rçeguliçerement. Aæn d'obtenir des dçerivçees indçependantes de la rotation existante entre deux images, la direction ç n;0 doit de plus être rapportçee ça l'image. Si cette direction correspond ça la direction du gradient, les orientations sont alors : ç n;i = iç=èn +1è+ç g oçu ç g = arctanèl y =L x è. Le calcul de cette direction ç g est une source d'instabilitçe des mçethodes utilisant les jets ajustables. Normalisation en taille de l'image Pour obtenir eæectivement des dçerivçees invariantes en rotation, la forme des pixels doit être carrçee. Sinon la rectangularitçe des pixels introduit une anisotropie qui fausse le calcul des dçerivçees. Il faut donc normaliser l'image. Ceci est fait par interpolation linçeaire sur les colonnes de l'image en utilisant un facteur de rçeduction çegal au facteur ëæ v èæ u ". Ce facteur de normalisation ëæ v =æ u " reprçesente le ratio entre la largeur et la longueur d'un pixel. Diæçerentes expçerimentations ont montrçe que ce facteur est stable et peu dçependant du calibrage Changement d'çechelle Un changement d'çechelle peut être dû soit ça un changement de la distance entre la camçera et l'objet soit ça un changement de la longueur focale de l'objectif èdans le cas d'un zoomè. Nous noterons dans la suite un changement d'çechelle par æ de maniçere ça le distinguer de la taille ç de la gaussienne utilisçee pour eæectuer les calculs de dçerivation. Dans cette section des invariants thçeoriques ça un changement d'çechelle sont d'abord prçesentçes. Il est ensuite montrçe que de tels invariants ne sont pas valable dans le contexte du jet local oçu les dçerivçees sont calculçees sur un support. De ce fait, il est nçecessaire d'utiliser une approche multi-çechelle. Invariants ça un changement d'çechelle çetant donnçee une fonction f, un changement d'çechelle æ peut être dçecrit par un changement de variable : f èxè = gèuè oçu gèuè = gèuèxèè = gèæxè. De cette relation dçecoulent les relations suivantes entre f et g :

47 38 Chapitre 3 : Caractçerisation locale f ènè èxè =æ n g ènè èuè oçu f ènè èxè reprçesente la dçerivçee n-içeme de f: è3.5è L'çequation 3.5 montre que les dçerivçees n-içemes de f et de g sont çegales ça un facteur multiplicatif æ n prçes. ç A partir du quotient de deux dçerivçees il est donc possible d'çeliminer ce facteur æ n. Des invariants thçeoriques ça unchangement d'çechelle sont donnçes par l'çequation suivante : hf ènè èxèi k n f èkè èxè Cependant, des rçesultats expçerimentaux en prenant des images de tableaux de ma^çtre ça diæçerentes çechelles ont montrçe que de tels invariants sont peu stables ça un changement d'çechelle supçerieur ça 20è. Les rçesultats prçesentçes ça la section du chapitre suivant ont montrçe que les invariants ça la rotation çetaient eux aussi robustes çaunchangementd'çechelle de 20è. Cette robustesse est cohçerente avec les observations faites par Fleet dans ëfle 91ë dans le contexte des æltres de Gabor. En fait, les invariants ça l'çechelle n'apportent pas de stabilitçe supplçementaire. Ceci est dû au fait que le calcul numçerique est eæectuçe sur un support. En eæet, dans le cas oçu les dçerivçees sont calculçees par convolution avec les dçerivçees de la gaussienne, l'çequation 3.5 prçecçedente se rçeçecrit de la maniçere suivante : Z I 1 è~xèg i1 :::i n è~x; çèd~x = æ n,1,1 Z I 2 è~uèg i1 :::i 2 è~u; çæèd~u è3.6è oçu les G i1 :::i 2 reprçesentent les dçerivçees de la fonction gaussienne dçeænie par l'çequation 2.2. Cette çequation montre l'importance du support èç ça gauche et æç ça droiteè sur lequel sont eæectuçes les calculs. Ce support doit être adaptçeauchangementd'çechelle pour calculer eæectivement un invariant. Ceci est ça l'origine des mçethodes multi-çechelle telle que celle que nous allons prçesenter ça la section suivante. Approche multi-çechelle Dans la littçerature il existe de nombreuses approches multi-çechelle. Parmi les premiçeres approches, il faut citer les pyramides qui ont çetçe proposçees par Burt ëbur 81ë et Crowley ëcro 81, Cro 84ë. Toutefois ces approches eæectuent un sous-çechantillonnage de l'image et ne sont donc pas adaptçees ça notre problçeme. En eæet, notre approche est basçee sur la notion d'espace d'çechelle oçu un paramçetre continu dçeænit l'çechelle. Cette notion a çetçe introduite par Witkin ëwit 83ë et Koenderink ëkoe 84ë. Plus tard, Lindeberg ëlin 94ë a çetendu et rçesumçe leur approche. L'espace d'çechelle permet de calculer les invariants ça une çechelle donnçee. Il est cependant impossible de calculer les invariants ça toutes les çechelles. La discrçetisation de l'espace d'çechelle est donc nçecessaire. De nombreux auteurs ont proposçe une discrçetisation par octave ou par demi-octave. Avec un tel pas de discrçetisation la caractçerisation obtenue s'est rçevçelçee imprçecise et instable. Puisque notre caractçerisation est robuste ça un changement d'çechelle jusqu'ça 20è ècf. section 4.3.3è, nous avons choisi un pas de discrçetisation qui garantit qu'entre deux çechelles consçecutives, le changement est infçerieur ça 20è. De maniçere ça être rçesistant ça un changement d'çechelle jusqu'ça un facteur 2, les diæçerentes çechelles

48 3.3 Invariance et transformations de l'image 39 retenues ont pour valeur : 0.48, 0.58, 0.69, 0.83, 1, 1.2, 1.44, 1.73, Nous eæectuons donc les calculs pour des diæçerentes çechelles, c'est-ça-dire pour diæçerentes tailles ç de la gaussienne. Ceci nous permet de rçealiser une approche multi-çechelle. L'intçegration des invariants diæçerentiels prçesentçes ça la section dans un cadre multi-çechelle permet d'obtenir une caractçerisation robuste au groupe des similitudes Changement de luminositçe La caractçerisation doit çegalement^etre robuste ça unchangement de luminositçe. Il existe plusieurs possibilitçes pour modçeliser un changement de luminositçe. Par la suite trois modçeles de transformations de niveaux de gris sont prçesentçes: une translation, une transformation aæne et une transformation monotone. Pour chacun de ces modçeles on dçeænit les invariants correspondants. Translation des niveaux de gris Une translation des niveaux de gris se modçelise par : ~Ièx; yè=ièx; yè+b Il est facile de voir que par simple dçerivation, le facteur b s'çelimine et par consçequent les invariants diæçerentiels, ça part la moyenne des intensitçes lumineuses sont invariants ça un tel changement. Le vecteur ~ V sans la composante ~ Vë0ë est un invariant. Il est dans la suite rçefçerencçe par ~ VT. Transformation aæne des niveaux de gris Une transformation aæne des niveaux de gris se modçelise par : ~Ièx; yè=aièx; yè+b Une telle transformation modiæe les dçerivçees du signal de la maniçere suivante : ~ I ènè èx; yè= ai ènè èx; yè. N'importe quel quotient de deux dçerivçees est donc invariant ça une transformation aæne de la luminance. Il yadiæçerentes maniçeres de rendre le vecteur ~ V invariant ça une transformation aæne. Nous avons choisi de diviser par la puissance adçequate de la magnitude du gradient : ~VAë0::2ë = 2 64 LiLijLj èl i L i è 3=2 L ii èl i L i è 1=2 L ij L ji L i L i 3 75 et ~ VAë3::6ë = 2, 1 èl i L i è 6 4 "ijèljkllilkll LjkkLiLlLlè L iij L j L k L k, L ijk L i L j L k 2," ij L jkl L i L k L l L ijk L i L j L k è3.7è Transformation monotone de la luminositçe Un changement de luminositçe peut çegalement^etre modçelisçe par une fonction monotone et donc inversible. L'inversibilitçe de la fonction èou sa stricte monotonieè est nçecessaire

49 40 Chapitre 3 : Caractçerisation locale pour çeviter une perte d'information par rapport ça celle contenue dans l'image de niveaux de gris. Florack ëflo 94ë montre que le jet local permet çegalement de calculer des invariants par rapport ça n'importe quelle transformation inversible de la luminositçe. Il fait remarquer que les isophotes ne sont pas modiæçes sous l'action d'une transformation inversible de luminositçe. Jusqu'au deuxiçeme ordre il existe deux invariants indçependants, notamment la courbure des isophotes ç et la courbure des lignes de plus grande pente ç : ç = " ij" kl L i L jk L l èl m L m è 3=2 = 2L xl y L xy, L 2 xl yy, L 2 yl yy, L 2 yl xx L 2 x + L 2 y ç = " ijl j L k L ik èl m L m è 3=2 = L xyèl y L y, L x L x è+l x L y èl xx, L yy è L 2 x + L 2 y Berthod et al. ëber 94ëprçesente une famille d'invariants ça une transformation monotone de la luminositçe. Ces invariants sont basçes sur les orientations du gradient et ses dçerivçees partielles Autres transformations image Il est possible de calculer des invariants diæçerentiels pour d'autres types de transformation image, par exemple pour le groupe des transformations aænes. Dans ce cas, une possibilitçe est d'utiliser une transformation aæne pour transformer la conique dçeænie par une çequation de la forme ~x T L ij ~x = Cste en cercle et d'eæectuer les calculs dans ce repçere normalisçe. Ceci est çequivalent ça calculer des invariants ça partir de l'inverse de la matrice L ij. On obtient alors l'ensemble suivant d'invariants jusqu'au troisiçeme ordre : ~ VAFFINEë0::5ë = 2 64 L L i L j èl,1 è ij L ijl L l L m L n èl,1 è il èl,1 è jm èl è, 1èè kn L ijk L l èl,1 è ij èl,1 è kl L ijk L lmn èl,1 è ij èl,1 è kl èl,1 è mn L ijk L lmn èl,1 è il èl,1 è jm èl,1 è kn Toutefois, comme dans le cas d'un changement d'çechelle, pour calculer de tels invariants, il est nçecessaire de tenir compte du support de calcul. ç Etendre directement l'approche multi-çechelle est possible, mais extr^emement co^uteux : il faut calculer les invariants pour diæçerents supports, chacun correspondant ça un jeu de paramçetres donnçes, sachant qu'il y a trois paramçetres ça prendre en compte. Aprçes çevaluation, nous n'avons pas retenu ces invariants dans notre approche ça cause de la diæcultçe de leur mise en çuvre Changement de point de vue Les invariants ça une rotation image sont calculçes dans un cadre multi-çechelle. On obtient donc une caractçerisation invariante au groupe des similitudes dans l'image. Binford ëbin 93ë a montrçe que de tels invariants sont des quasi-invariants ça une transformation perspective, c'est-ça-dire qu'ils sont localement invariants ça une telle transformation. Notre caractçerisation est donc robuste ça des transformations perspectives. Ceci est conærmçe au chapitre suivant qui çevaluent notre caractçerisation ècf. section 4.3.5è. 3 75

50 3.4 ç Evaluation de la caractçerisation ç Evaluation de la caractçerisation La mçethode d'çevaluation de la caractçerisation et les rçesultats obtenus sont prçesentçes ça la section 4.3 du chapitre suivant. Cette çevaluation est eæectuçee dans un cadre d'appariement basçe sur la caractçerisation prçesentçee. Le critçere d'çevaluation est le taux d'appariements corrects. En eæet, un taux çelevçe montre le pouvoir discriminant de la caractçerisation que nous avons choisie. Ce taux est calculçe sçeparçement pour les diæçerentes transformations considçerçees, notamment une rotation image, un changement d'çechelle, un changement de luminositçe etunchangement de point de vue. Un taux constant montre alors l'invariance ça la transformation considçerçee. Par ailleurs, la caractçerisation est reprçesentçee par un vecteur comportant 9 composantes. L'utilitçe de chacune de ces composantes est prouvçee ça la section Conclusion Ce chapitre a prçesentçe un çetat de l'art des mçethodes de caractçerisation d'une image. La thçeorie des invariants nous a permis d'introduire une caractçerisation invariante aux diæçerentes transformations. Celle-ci est basçee sur les dçerivçees gaussiennes du signal. L'utilisation de combinaisons de ces dçerivçees permet d'être invariant ça une rotation image. Puisqu'il n'existe pas d'invariant ça l'çechelle qui soit numçeriquement applicable, nous proposons d'utiliser un cadre multi-çechelle pour obtenir une robustesse ça un changement d'çechelle. Une robustesse ça un changement de luminositçe peut être obtenue de deux maniçeres diæçerentes. La premiçere maniçere consiste ça ne pas utiliser la moyenne d'intensitçe des niveaux de gris comme composante du vecteur de caractçeristiques. La deuxiçeme repose sur des invariants spçeciæques ça un changement de luminositçe. Le nombre de ces invariants est cependant rçeduit. Nous avons choisi une caractçerisation basçee sur les dçerivçees. Toutefois, d'autres choix auraient çetçe possibles et une çetude comparative devra être mençee. Ceci constitue une premiçere extension de ce travail. Une autre extension possible de ce chapitre est d'utiliser la couleur. Nous avons pu voir dans le cas d'un changement de luminositçe que nous ne pouvons pas utiliser la moyenne des intensitçes lumineuses autour d'un point. Toutefois, l'information de luminance est reprçesentative d'un point. Les invariants colorimçetriques permettront donc de garder cette information de luminance, sous une forme invariante ça un changement de luminositçe.

51

52 Chapitre 4 Appariement entre images Ce chapitre utilise les points d'intçerêt du chapitre 2 et la caractçerisation du signal du chapitre 3 pour rçealiser l'çetape ænale de notre algorithme : l'appariement. De trçes nombreuses mçethodes ont çetçe proposçees pour trouver une solution au problçeme d'appariement entre images. La section 4.1 en prçesente un çetat de l'art. Les mçethodes existantes sont soit basçees sur des grandeurs gçeomçetriques soit sur des grandeurs photomçetriques. Les grandeurs gçeomçetriques s'avçerent instables et peu discriminantes pour des images rçeelles et les grandeurs photomçetriques sont peu invariantes aux transformations image couramment observçees. L'utilisation faite ça la section 4.2 de la caractçerisation locale et invariante permet d'apporter une solution robuste qui remçedie ça ces dçefauts. Ceci est conærmçe par les rçesultats prçesentçes ça la section ç Etat de l'art Appariement basçe sur des donnçees photomçetriques La mçethode de mise en correspondance la plus ancienne est la corrçelation du signal èvoir par exemple ëfau 92aë pour une comparaison des mçethodes, voir aussi ëzha 89ë ou ëzab 94ë pour une corrçelation binaire rapideè. La corrçelation peut être interprçetçee comme une caractçerisation çelçementaire du signal autour d'un point : tout point est caractçerisçe par l'ensemble des valeurs de niveaux de gris sur un voisinage. Pour qu'une telle mçethode rçeussisse, l'image doit avoir çetçe prise dans des conditions voisines pour que les fenêtres de corrçelation se superposent correctement par simple translation. Si une rotation sensible de l'image est intervenue, alors la mçethode çechoue. Il faut noter cependant l'existence de travaux qui permettent, lorsque la gçeomçetrie çepipolaire est connue, de compenser les transformations gçeomçetriques et de plus d'obtenir des mises en correspondance au niveau sous-pixellique èëack 84ë, ërem 94ë, ëlot 94ëè. Il est çegalement possible de devenir robuste en rotation en utilisant des mesures de corrçelation dans plusieurs directions comme par exemple Hu ëhu 94ë. Ceci nçecessite la discrçetisation de l'espace suivant plusieurs directions et reposent sur une hypothçese de linçearitçe entre deux directions adjacentes. Cette hypothçese est diæcilement vçeriæable. En 43

53 44 Chapitre 4 : Appariement entre images outre, le calcul dans plusieurs directions est coûteux. La mesure de corrçelation conduit ça un certain nombre d'erreur de mise en correspondance. Pour amçeliorer les rçesultats obtenus par corrçelation Deriche et al. ëder 94ë proposent l'utilisation de caractçeristiques du signal : la direction du gradient, la courbure et la disparitçe qui est supposçee en dessous d'un certain seuil. Pour diminuer les erreurs d'appariementetlecoût de la corrçelation, certaines mçethodes utilisent des points particuliers oçu l'image prçesente un contenu informatif. Par exemple, Zhang et al. ëzha 95ë ont appliquçe la corrçelation aux points d'intçerêt. Aæn d'amçeliorer les rçesultats obtenus, pour un couple de points appariçes, les points dans des voisinages respectifs de même taille doiventçegalement se correspondre. De plus ces points du voisinage doivent avoir la même position relative dans les deux images. Cette position relative repose sur une mesure de distance Appariement ça partir de donnçees gçeomçetriques D'autres mçethodes de mise en correspondance entre deux images ont cherchçe ça effectuer la mise en correspondance ça partir de donnçees de nature gçeomçetrique. Ainsi bon nombre d'auteurs ont cherchçe ça apparier deux images ça partir de leurs lignes de contraste. On peut dans ce cas obtenir une structure de contours èessentiellement la structure du graphe ëhor 90ë extrait de ces contoursè qui capture la structure globale de la scçene. Un critçere de ressemblance globale ça partir de cette structure est alors utilisçe pour la mise en correspondance ça partir de techniques d'optimisation comme la relaxation ëlon 86ë, ou alors de techniques combinatoires comme la recherche de cliques maximales ëhor 89ë. Il faut noter cependant que dans toutes ces approches, la combinatoire reste si forte qu'il faut la contraindre par l'usage de la gçeomçetrie çepipolaire aæn de rester dans des temps d'exçecution raisonnables. Il est çegalement possible d'utiliser les contours pour calculer des informations locales. En thçeorie, ça un point d'un contour courbe peut être associçe un invariant qui permet de discriminer ce point ëwei 91ë. De fait ce genre de mçethode est diæcile ça mettre en çuvre parce que trop locale sur le contour. En revanche, si une partie suæsante du contour est visible, des mçethodes semi-locales ëdie 94ë, ërot 92ë permettent de calculer des invariants qui caractçerisent le morceau de contour observçe. On peut ainsi faire une mise en correspondance grossiçere. Une telle application directe n'a cependant pas çetçe mençee ça notre connaissance. Toutes les mçethodes de mise en correspondance utilisant les contours partagent un dçefaut commun : l'utilisation des contours. En eæet, ce type de mçethode n'est applicable que si la segmentation des images en contours est correctement faite. Sur des scçenes aux structures simples, ces mçethodes ont prouvçe leur applicabilitçe, mais elles restentnçeanmoins diæciles ça ma^çtriser. 4.2 Algorithme d'appariement Principe de l'appariement En conclusion de l'çetat de l'art prçecçedent, les grandeurs gçeomçetriques s'avçerent instables et peu discriminantes pour des images rçeelles. Ces mçethodes repose sur des caractçeristiques prçealablement extraites de l'image, c'est-ça-dire sur une description symbolique.

54 4.2 Algorithme d'appariement 45 Leur instabilitçe provient donc des erreurs lors de l'extraction de la description symbolique et leur manque de discriminance du fait qu'une partie de l'information, l'information de niveaux de gris, n'est pas utilisçee. Les mçethodes basçees sur des grandeurs photomçetriques sont par nature plus discriminantes car moins symboliques. Elles sont en eæet plus proches du signal. Par contre leur dçefaut principale est qu'elles ne sont pas invariantes ça des types de transformations qui peuvent être pris en compte par les mçethodes gçeomçetriques. Dans la suite nous prçesentons une solution robuste qui remçedie ça ces dçefauts. L'algorithme d'appariement est basçe sur la caractçerisation locale du signal prçesentçee au chapitre prçecçedent. Cette caractçerisation est invariante aux transformations image. Ceci permet d'être ça la fois discriminant et invariant aux transformations images. Pour pouvoir apparier les vecteurs d'invariants composant cette caractçerisation, il faut d'abord introduire une distance qui permet de les comparer. Il est ensuite possible de choisir dans deux images les vecteurs correspondant au même point physique en utilisant le principe de l'appariement croisçe. Pour augmenter la robustesse des contraintes semi-locales sont ajoutçees Distance entre images Pour apparier deux points, il faut mettre en correspondance leur vecteur d'invariants ~V. Le problçeme essentiel est de dçecider si deux vecteurs sont similaires. L'utilisation de la distance euclidienne pour comparer deux vecteurs d'invariants est peu judicieuse puisque les diæçerentes composantes d'un vecteur peuvent être corrçelçees et qu'elles n'ont pas le même ordre de grandeur. Par exemple, la premiçere composante de ~ V reprçesente la moyenne de luminance autour d'un point. Elle est donc contenue dans l'intervale ë0; 255ë. ça titre de comparaison, la troisiçeme composante reprçesente le Laplacien de la fonction de luminance. L'ordre de grandeur de cette composante est d'environ 0:1. Nous modçelisons donc les composantes par des variables alçeatoires gaussiennes et nous utilisons la distance de Mahalanobis pour comparer deux vecteurs d'invariants. Cette distance statistique utilise la matrice de covariance æ des composantes et prend ainsi en compte la diæçerence de magnitude des composantes ainsi que leur corrçelation çeventuelle : d M è ~ b;~aè = q è ~ b, ~aè T æ,1 è ~ b, ~aè En seuillant cette distance, il est possible de dçecider si deux vecteurs sont similaires. En outre, le carrçe de la distance de Mahalanobis est une variable alçeatoire qui suit une distribution du ç 2. La fonction racine carrçe çetant une bijection de IR + dans IR +, il est possible d'utiliser une table de cette distribution pour seuiller la distance et rejeter les appariements qui ont la plus grande probabilitçe d'être faux. Ces appariements correspondent aux plus grandes valeurs de la distance. La qualitçe des rçesultats obtenus avec cette distance dçepend de la reprçesentativitçe dela matrice de covariance. Cette matrice doit tenir compte du bruit des images, des variations d'çeclairage et de l'imprçecision en position des points d'intçerêt. Un changement de seulement un pixel de cette position perturbe de façcon importante la valeur des invariants. Un calcul thçeorique de cette matrice est diæcile puisque la forme du signal autour d'un point d'intçerêt est quelconque. Un tel calcul est uniquement possible si l'on restreint les points utilisçes ça des coins. Cette matrice a donc çetçe estimçee de façcon empirique. çetant donnçe un point d'intçerêt, il a çetçe suivi sur une sçequence d'images. La matrice de covariance a alors çetçe calculçee pour ce point en utilisant l'ensemble des vecteurs d'invariants calculçes pour

55 46 Chapitre 4 : Appariement entre images chacune des images. Aæn d'obtenir une matrice reprçesentative de la variçetçe des points possibles, ceci a çetçe rçealisçe pour plusieurs points sur plusieurs sçequences avec des scçenes diæçerentes. La moyenne de toutes les matrices obtenues a ensuite çetçe utilisçee comme la matrice de covariance globale. Aæn d'obtenir une matrice reprçesentative, les sçequences utilisçees sont relativement variçees et tous les points de ces sçequences ont çetçe utilisçees. Cette procçedure s'est avçerçee suæsante. Toutefois, une çetude plus approfondie reste ça mener pour savoir le nombre de points ça considçerer et la variçetçe des sçequences ça utiliser. De même, il peut être intçeressant d'çetudier les changements de la matrice en fonction des points utilisçes Procçedure d'appariement Le processus de mise en correspondance est basçe sur le principe d' ë appariementcroisçe ". C'est un algorithme d'appariement trçes simple. La section suivante complçete cet algorithme par l'ajout de contraintes et l'utilisation d'un seuillage statistique. Ayant calculçe des vecteurs de caractçeristiques ~ V pour chaque point d'intçerêt, l'algorithme recherche d'abord pour chaque point d'intçerêt de la premiçere image le point le plus semblable dans la deuxiçeme image. Pour dçecider si deux points sont semblables, on compare leur vecteur de caractçeristiques en utilisant la distance de Mahalanobis ècf è. Le processus est ensuite interverti. On obtient donc deux listes de paires de points appariçes. Les appariements retenus sont les paires de points qui se sont choisies mutuellement. La ægure 4.1 illustre le principe de cette mise en correspondance. Fig. 4.1 í Principe de la mise en correspondance par ë appariement-croisçe " Pour rendre robuste la mise en correspondance ça un changement d'çechelle, le vecteur d'un point d'intçerêt de la premiçere image est comparçe avec les vecteurs d'un point de la deuxiçeme image calculçes ça plusieurs tailles ç de la gaussienne. Les tailles ç utilisçees ont çetçe prçecisçees ça la section La taille ç pour laquelle les vecteurs se ressemblent le plus est retenue comme estimation du facteur d'çechelle entre les deux images. La même procçedure est eæectuçee symçetriquement pour chaque point de la deuxiçeme image, on obtient ainsi une deuxiçeme estimation du changement d'çechelle. Une paire de points n'est alors retenue comme appariement que si elle a çetçe retrouvçee deux fois et si les tailles ç se correspondent Contraintes semi-locales En prçesence de bruit, un vecteur de caractçeristiques donnçe peut être impliquçe dans plusieurs appariements. Un nombre important d'appariements possibles ainsi que la simi-

56 4.2 Algorithme d'appariement 47 laritçe de certains vecteurs de caractçeristiques accro^çt encore la probabilitçe qu'un vecteur vote pour plusieurs appariements. Califano ëcal 94ë ainsi que Rao ërao 95ë ont suggçerçe que l'utilisation de vecteurs de caractçeristiques de grande dimensionnalitçe diminue cette probabilitçe d'erreur. Dans notre cas, ceci signiæe augmenter l'ordre de dçerivation des caractçeristiques ce qui est de fait peu praticable. D'autre part, l'ajout de vecteurs calculçes ça diæçerentes çechelles, comme l'a proposçe Rao dans ërao 95ë rend l'approche multi-çechelle diæcile ça mettre en çuvre. Un autre moyen de diminuer la probabilitçe de fausses correspondances est de æltrer les mises en correspondance par l'addition d'une contrainte de cohçerence basçee sur le voisinage. Nous avons optçe pour cette derniçere solution : l'utilisation de contraintes semilocales. Les contraintes dçetaillçees dans la suite sont des contraintes de voisinage et de nature gçeomçetrique. Ces contraintes s'avçerent particuliçerement utiles dans le cadre d'appariement entre une image et une base d'images. Leur inæuence est montrçee ça la section du chapitre suivant. Contrainte de voisinage La contrainte de voisinage prend en compte la conæguration relative des points d'intçerêt. Ainsi, ça chaque point P j dans une image sont associçes les p points d'intçerêt les plus proches. Un point d'une image est alors reprçesentçe par son vecteur d'invariants et ces p points voisins : è ~ V j ;P j;1 ;:::P j;p è Si le vecteur de caractçeristiques ~ V j issu de l'image est appariçe avec le vecteur ~ V k d'une seconde image, tout ou partie des p points d'intçerêt voisins de P j doivent correspondre ça des voisins de P k. Ceci est illustrçe par la ægure 4.2 et s'çecrit formellement: ~V j;m et ~ Vk;n se correspondent pour quelques èm; nè oçu ~ V j;m vecteur de P j;m et P j;m un des p-voisins de P j et ~ Vk;n vecteur de P k;n et P k;n un des q-voisins de P k α 1 α 2 un point caractérisé et ses p voisins les plus proches un point apparié Fig. 4.2 í Une contrainte de voisinage est ajoutçee au processus de mise en correspondance en stockant les p voisins les plus proches d'un point. Durant la phase d'appariement, il est imposçe qu'au moins 50è de ces voisins se correspondent pour que la correspondance soit validçee.

57 48 Chapitre 4 : Appariement entre images Imposer que tous les p voisins les plus proches de P j correspondent aux voisins de P k revient ça imposer qu'il n'y a aucun bruit de dçetection 1. Aæn d'^etre robuste ça ces inçevitables bruits, il a donc çetçe imposçe qu'au moins 50è des voisins de P j correspondent ça des voisins de P k. Ce seuil de 50è est arbitraire et serait certainement çaçevaluer, mais les rçesultats obtenus n'ont pas nçecessitçe d'approfondissement. L'utilisation de cette contrainte augmente le taux d'appariements corrects en rçeduisant signiæcativement la probabilitçe des fausses mises en correspondance ècf. ægures 5.4 du chapitre suivantè. Contrainte gçeomçetrique L'utilisation de contraintes gçeomçetriques permet une vçeriæcation supplçementaire des appariements trouvçes. Dans le cadre de ce travail, une contrainte basçee sur la conservation des angles a çetçe utilisçee. Une telle conservation est vçeriæçee dans le cas des similitudes entre images. La contrainte de voisinage dçeænie dans la section prçecçedente contraint l'appariement entre deux points èvoir la ægure 4.2è. Dans le cas des similitudes image, l'angle dçeæni par deux voisins d'un point doit ^etre constant pour toutes les vues de ce point. Dans le contexte de la ægure 4.2, ceci s'çecrit æ1 = æ2. Il faut se rappeler que chaque point P j d'une image est caractçerisçe par son vecteur de caractçeristiques ~ V j et par ses voisins fp j;n g p n=1. Ce point P j est mis en correspondance avec le point P k d'une seconde image si et seulement si: ~V j;m ; Vk;n ~ se correspondent pour quelques èm; nè et kæ k;n, æ j;m k éæ t pour les èm; nè considçerçes oçu æ j;m est l'angle dçeæni entre deux voisins mis en correspondance et æ t est un seuil angulaire donnçe. Nous avons utilisçe 20 degrçes pour ce seuil. L'ajout de cette contrainte augmente encore le taux d'appariements corrects ècf. ægures 5.5 du chapitre suivantè. 4.3 ç Evaluation de l'appariement Le but de cette section est d'çevaluer le processus d'appariement. Cette çevaluation permet de montrer le pouvoir discriminant de notre caractçerisation et son invariance aux diæçerentes transformations. L'çevaluation est eæectuçee sçeparçement pour les diæçerentes transformations considçerçees, notamment une rotation image, un changement d'çechelle, un changement de luminositçe et un changement de point de vue. La stabilitçe au bruit de la camçera a çegalement çetçe testçee. Ensuite, quelques rçesultats pour des transformations complexes sont prçesentçes. La section quant ça elle montre l'importance relative des diæçerentes composantes du vecteur dans un processus de mise en correspondance et prouve l'apport des invariants du troisiçeme ordre Cadre d'çevaluation Cette section prçesente le cadre utilisçe pour çevaluer l'appariement. Elle prçesente le critçere d'çevaluation retenu, la mçethode d'çevaluation automatique appliquçee, les sçequences d'images utilisçees ainsi que quelques dçetails d'implçementation. 1: Par bruit de dçetection, on entend les erreurs de dçetections dues aux imperfections du dçetecteur utilisçe ainsi que celles dues au bruit de l'image.

58 4.3 ç Evaluation de l'appariement 49 Critçere d'çevaluation çetant donnçees deux images, on souhaite que tous les points dçetectçes soient correctement appariçes. Le critçere d'çevaluation choisi est donc le nombre d'appariements corrects par rapport au nombre d'appariements trouvçes : nombre d 0 appariements corrects nombre d0 appariements trouvçes Pour calculer le nombre d'appariements corrects, il est indispensable de conna^çtre la relation entre les deux images ça apparier. Le paragraphe suivant explique comment dçeterminer de maniçere automatique si un appariement donnçe est correct. çevaluation automatique L'çevaluation automatique d'un appariement est diæçerente suivant que la scçene observçee est plane ou non. Dans le cas d'une scçene plane, la mçethode d'çevaluation utilisçee est similaire ça celle dçeveloppçee ça la section 2.4 du chapitre 2. Deux images d'une scçene plane sont reliçees par une homographie. çetant donnçe un appariementdepoints entre deux images èun couple de pointsè, l'homographie existant entre ces images permet directement de conna^çtre la validitçe de cet appariement. Dans ce qui suit, les homographies sont calculçees d'une maniçere robuste ça partir des appariements calculçes. Ce calcul repose sur une mçethode de moindres carrçes mçedians et est donc robuste jusqu'ça une proportion de 50è de faux appariements. Dans le cas d'une scçene non-plane, il n'existe pas d'homographie entre deux images. Cependant, il existe une contrainte entre deux vues quelconques d'une scçene, ça savoir la relation çepipolaire reprçesentçee par la matrice fondamentale F :ça un point a d'une image correspond une droite çepipolaire F a dans la seconde image. Un appariement èa; bè peut alors ^etre çevaluçe comme correct si le point b appartient ça la droite çepipolaire correspondant au point a : F a æ b = 0, soit t bf a = 0. Une telle çevaluation n'est pas exempte d'erreur puisque deux points d'un appariement faux peuvent vçeriæer la contrainte çepipolaire. Cependant, la probabilitçe d'un tel çevçenement est suæsamment faible pour que cet estimateur fournisse une bonne çevaluation du nombre d'appariements corrects. Dans ce qui suit, la contrainte çepipolaire entre deux images est calculçee ça partir des appariements trouvçes. Ce calcul repose sur une mçethode de moindres carrçes mçedians ècf. ëzha 95, Bou 95ëè. Sçequences utilisçees L'çevaluation de la mise en correspondance a çetçe eæectuçee sur deux scçenes planes et sur quelques scçenes tridimensionnelles. Les ægures 4.3 et 4.4 montrent les deux scçenes planes. Elles sont rçefçerencçees dans la suite par ësanja" et ëvan Gogh". On peut constater la nature diæçerente de ces deux images : l'image ësanja" contient surtout des contours nets et l'image ëvan Gogh" contient beaucoup de texture. Les ægures 4.17, 4.18, 4.20 prçesentent les scçenes tridimensionnelles utilisçees. Dçetails d'implçementation Les invariants utilisçes pour les expçeriences qui suivent sont donnçes par les çequations 3.2 et 3.3. La taille de la gaussienne utilisçee pour l'ensemble des expçeriences est de 3 sauf si

59 50 Chapitre 4 : Appariement entre images spçeciæçe autrement. Dans le cas d'un changement de luminositçe, nous avons comparçe ces invariants aux invariants ça un changement de luminositçe ècf. section 3.3.3è. D'autre part, les expçeriences ont çetçe eæectuçees sans utiliser de contraintes semi-locales Rotation image Cette section montre les rçesultats obtenus pour une rotation image. Pour cette expçerimentation, nous avons suivi le m^eme procçedçe expçerimental que celui utilisçe pour l'çevaluation des dçetecteurs de points d'intçer^et: pour chaque scçene, une sçequence d'images a çetçe prise en faisant tourner la camçera approximativement autour de l'axe optique de son objectif. La ægure 4.3 montre les rçesultats obtenus pour une paire d'images de la scçene ësanja". L'angle de rotation entre les deux images est de 133 degrçes. Les croix blanches indiquent les appariements corrects et les noires les faux appariements. Le pourcentage d'appariements corrects est de 88:52è La ægure 4.4 montre les rçesultats pour la scçene ëvan Gogh". Le pourcentage d'appariements corrects est alors de 74:2è. Il faut noter que parmi les faux appariements certains sont dus ça la nature rçepçetitive des motifs. Fig. 4.3 í 88:52è d'appariements corrects pour une rotation de 133:0 degrçes. Fig. 4.4 í 74:26è d'appariements corrects pour une rotation de 134:8 degrçes. La ægure 4.5 trace le pourcentage d'appariements corrects en fonction de l'angle de rotation pour la scçene ëvan Gogh". Ce pourcentage a çetçe calculçe pour deux dçetecteurs

60 4.3 ç Evaluation de l'appariement 51 diæçerents de points d'intçerêt : Heitger et HarrisPrçecis èse reporter ça la section 2.2è. Ce pourcentage a çegalement çetçe çevaluçe ça partir des points prçecis projetçes par l'homographie. Les courbes diæçerent en fonction du dçetecteur utilisçe. Pour les points prçecis, le taux de mise en correspondance est approximativement de 100è. Les rçesultats obtenus pour le dçetecteur de HarrisPrçecis sont presque aussi bons. Le dçetecteur de Heitger donne des rçesultats nettement moins bons. Cette expçerience montre deux choses. Premiçerement, elle montre que la caractçerisation proposçee permet de distinguer les diæçerents points et qu'elle est invariante ça la rotation. Deuxiçemement, on peut observer que les rçesultats obtenus dçependent fortement de la rçepçetabilitçe du dçetecteur utilisçe. Ceci est dû ça la localitçe de la caractçerisation : l'instabilitçe du dçetecteur conduit ça caractçeriser deux pixels voisins, mais non identiques. Les caractçerisations obtenues sont alors diæçerentes. En eæet, on peut remarquer la trçes forte similaritçe des rçesultats obtenus avec le dçetecteur de Heitger avec la courbe 2.7 de rçepçetabilitçe de ce dçetecteur. Des rçesultats çequivalents ont çetçe obtenus sur la scçene ësanja" et sont prçesentçes ça l'annexe B sur la ægure B % correct PointsPrecis HarrisPrecis 0 Heitger angle de rotation en degres Fig. 4.5 í Pourcentage d'appariements corrects pour la sçequence rotation image et la scçene ëvan Gogh". Les trois courbes correspondent aux diæçerents dçetecteurs de points d'intçerêt utilisçes : Heitger, HarrisPrçecis et les points prçecis. Les rçesultats obtenus avec le dçetecteur de Heitger peuvent être amçeliorçes en utilisant des tailles ç de gaussienne plus importantes. La ægure 4.6 montre les rçesultats obtenus avec ce dçetecteur pour diæçerentes tailles ç. Plus cette taille est importante et meilleurs sont les rçesultats. Ceci est dû au fait que plus cette taille augmente et moins la caractçerisation est locale, donc moins sensible ça une erreur de prçecision. L'incertitude en position du dçetecteur utilisçe peut donc être compensçee en utilisant une taille ç plus importante. Des rçesultats similaires ont çetçe obtenus pour la scçene ësanja". Ils sont prçesentçes ça l'annexe B sur la ægure B Changement d'çechelle Cette section montre la robustesse de notre algorithme d'appariement par rapport çaun changement d'çechelle. Pour ce faire, une sçequence d'images a çetçe prise pour chaque scçene en faisant varier la longueur focale de notre objectif èun zoomè. Les paragraphes suivants

61 52 Chapitre 4 : Appariement entre images % correct sigma=3 sigma=5 sigma= angle de rotation en degres Fig. 4.6 í Pourcentage d'appariements corrects pour la sçequence rotation image et la scçene ëvan Gogh". Le dçetecteur utilisçe est celui de Heitger. Les diæçerentes courbes correspondent ça diæçerentes tailles ç de gaussienne. montrent la robustesse de la caractçerisation lorsque l'approche multi-çechelle est utilisçee, puis la stabilitçe des invariants diæçerentiels lors d'un changement d'çechelle. Ces expçeriences montrent la validitçe de l'approche multi-çechelle et permettent de dçeterminer l'espacement nçecessaire entre deux çechelles. Approche multi-çechelle Dans ce paragraphe les invariants diæçerentiels sont utilisçes dans un cadre multi-çechelle. La ægure 4.7 montre les rçesultats obtenus pour une paire d'images de la scçene ësanja". Le changement d'çechelle entre ces deux images est d'un facteur 1:5. Les croix blanches indiquent les appariements corrects et les noires les faux appariements. Le pourcentage d'appariements corrects est de 90:91è. La ægure 4.8 montre les rçesultats pour la scçene ëvan Gogh" pour un facteur d'çechelle de 1:5. Le pourcentage d'appariements corrects est alors de 70:31è. Fig. 4.7 í Le taux d'appariements corrects est de 90:91è pour un facteur d'çechelle de 1:5. La ægure 4.9 trace le pourcentage d'appariements corrects en fonction du facteur

62 4.3 ç Evaluation de l'appariement 53 Fig. 4.8 í Le taux d'appariements corrects est de 70:31è pour un facteur d'çechelle de 1:5. d'çechelle pour la scçene ëvan Gogh". Ce pourcentage a çetçe calculçe pour deux dçetecteurs diæçerents de points d'intçer^et : Heitger et HarrisPrçecis èse reporter ça la section 2.2è. Ce pourcentage a çegalement çetçe çevaluçe ça partir des points prçecis projetçes par l'homographie. La taille moyenne ç de la gaussienne utilisçee est de 5 pour cette expçerimentation, ce qui correspond ça des tailles utilisçees commençcant ça 2: % correct PointsPrecis HarrisPrecis Heitger facteur d echelle Fig. 4.9 í Pourcentage d'appariements corrects pour la sçequence changement d'çechelle et la scçene ëvan Gogh" en utilisant une approche multi-çechelle. Les trois courbes correspondent aux diæçerents dçetecteurs de points d'intçer^et utilisçes : Heitger, HarrisPrçecis et les points prçecis. La taille moyenne ç de la gaussienne utilisçee est de 5. Cette expçerience montre qu'on obtient des rçesultats robustes ça un changement d'çechelle. En se reportant ça la ægure 2.10, on peut çegalement observer que les rçesultats obtenus dçependent plus de la rçepçetabilitçe du dçetecteur utilisçe que de la caractçerisation. Des rçesultats similaires ont çetçe obtenus pour la scçene ësanja" et sont prçesentçes dans l'annexe B ça la ægure B.3.

63 54 Chapitre 4 : Appariement entre images Robustesse ça un changement d'çechelle Dans ce paragraphe les invariants diæçerentiels sont utilisçes sans approche multi-çechelle. La ægure 4.10 montre que les rçesultats se dçegradent rapidement au-dessus d'un facteur d'çechelle de 1.2. Ceci conærme l'espacement choisi pour notre approche multi-çechelle. Des rçesultats similaires ont çetçe obtenus pour la scçene ësanja". Ils sont prçesentçes ça l'annexe B sur la ægure B HarrisPrecis Heitger 80 % correct facteur d e chelle Fig í Pourcentage d'appariements corrects pour la sçequence changement d'çechelle et la scçene ëvan Gogh" sans utiliser une approche multi-çechelle. Les deux courbes correspondent aux diæçerents dçetecteurs de point d'intçer^et utilisçes : Heitger et HarrisPrçecis. La taille ç de la gaussienne utilisçee est de Changement de luminositçe Cette section prçesente la robustesse de notre algorithme d'appariement ça un changement de luminositçe. Pour ce faire nous avons pris des sçequences de test pour deux types de changements de luminositçe, notamment un changement uniforme et un changement complexe. Dans le cas d'un changement uniforme, uniquement l'intensitçe de la luminositçe varie et dans le cas d'un changement complexe la source lumineuse est dçeplacçee. Changement uniforme de luminositçe Pour obtenir un tel changement, des sçequences d'images ont çetçe prises en changeant l'ouverture de l'objectif. Pour mesurer ce changement nous avons introduit ça la section la notion de ëniveau de gris relatif". Cette mesure est le rapport des moyennes des niveaux de gris d'une image de la sçequence par rapport ça une image de rçefçerence. L'image de rçefçerence est une image ë au milieu " de la sçequence, c'est-ça-dire une image qui est ni trçes sombre ni trçes claire. La ægure 2.9 montre deux images de la sçequence, une trçes sombre avec un niveau de gris relatif de 0.6 et une claire avec un niveau de gris relatif de 1.7. La ægure 4.11 montre les rçesultats obtenus en utilisant diæçerents vecteurs d'invariants, notamment ~ V, ~ V T et ~ V A.Ledçetecteur utilisçe est celui de HarrisPrçecis. On peut observer que le vecteur ~ V est peu robuste ça des changements de luminositçe. Le vecteur ~ VT est lçegçerement plus robuste ça de tels changements. Il repose sur une modçelisation par translation

64 4.3 ç Evaluation de l'appariement 55 des niveaux de gris. On peut observer qu'une telle modçelisation n'est pas suæsante. Par contre si l'on modçelise le changement de luminositçe par une transformation aæne, on obtient detrçes bons rçesultats, voir la courbe pour le vecteur ~ V A. En eæet, le pourcentage d'appariements corrects est supçerieur ça 80è pour un niveau de gris relatif allant de 0.5 ça 1.7. Des rçesultats similaires ont çetçe obtenus pour la scçene ësanja" et sont prçesentçes sur la ægure B.5 de l'annexe B % correct avec V avec VT avec VA niveau de gris relatif Fig í Pourcentage d'appariements corrects pour la sçequence changement uniforme de luminositçe et la scçene ëvan Gogh". Les trois courbes correspondent aux diæçerents vecteurs d'invariants utilisçes : ~ V, ~ V T et ~ V A. Changement complexe de luminositçe Pour obtenir un tel changement, une sçequence d'images a çetçe prise en dçeplaçcant la source lumineuse le long d'un cercle entre approximativement -45 degrçes et 45 degrçes. La ægure 2.14 montre trois images de la sçequence. L'image 0 est prise pour la position de la source lumineuse la plus ça droite sert d'image de rçefçerence pour nos tests. La ægure 4.12 montre les rçesultats obtenus en utilisant diæçerents vecteurs d'invariants, notamment ~ V, ~ V T et ~ V A.Ledçetecteur utilisçe est celui de HarrisPrçecis. On peut observer que si l'on modçelise le changement de luminositçe par une transformation aæne, on obtient de trçes bons rçesultats, m^eme dans le cas d'une image saturçee. En eæet, le pourcentage d'appariements corrects est toujours supçerieur ça 80è. Par contre, le pourcentage d'appariement corrects sans utiliser d'invariant ça la luminositçe est trçes mauvais dçes que l'image est un peu saturçee ècf. courbe avec ~ Vè. En outre, quelque soit le vecteur utilisçe plus l'image est saturçee plus les rçesultats se dçegradent Changement de point de vue Pour obtenir un tel changement, une sçequences d'images a çetçe prise en dçeplaçcant la camçera le long d'un cercle approximativement entre -50 degrçes et 50 degrçes. La ægure 2.16 montre trois images de la sçequence. L'image 7 pour laquelle la camçera est positionnçee en face du tableau sert d'image de rçefçerence pour nos tests. La ægure 4.13 montre les rçesultats obtenus pour un changement de point de vue pour la scçene ëvan Gogh". Le dçetecteur utilisçe est celui de HarrisPrçecis. Les bons rçesultats

65 56 Chapitre 4 : Appariement entre images % correct avec V avec VT avec VA image Fig í Pourcentage d'appariements corrects pour la sçequence changement complexe de luminositçe et la scçene ëvan Gogh". Les trois courbes correspondent aux diæçerents vecteurs d'invariants utilisçes : ~ V, ~ V T et ~ V A. obtenus sont dus au fait que nos invariants sont robustes ça un changement de point de vue. En eæet, notre caractçerisation est invariante aux similitudes image et est donc de fait quasi-invariante aux transformations perspectives, c'est-ça-dire robuste ça de telles transformations. Ceci explique les bons rçesultats obtenus m^eme pour des changements importants de point de vue % correct image Fig í Pourcentage d'appariements corrects pour la sçequence changement de point de vue et la scçene ëvan Gogh" Bruit de la camçera La ægure 4.14 montre la robustesse de notre caractçerisation au bruit de la camçera. Pour cette expçerimentation, une sçequence statique d'images a çetçe prise. Cette ægure montre les rçesultats obtenus pour la scçene ëvan Gogh". Le taux d'appariements corrects avoisine 100è. La ægure B.6 de l'annexe B montre les rçesultats obtenus pour la scçene ësanja".

66 4.3 ç Evaluation de l'appariement % correct image Fig í Pourcentage d'appariements corrects pour la sçequence bruit de la camçera et la scçene ëvan Gogh" Transformations complexes Les sections prçecçedentes ont examinçe la robustesse de la caractçerisation proposçee sçeparçement pour chaque transformation image et uniquement pour des scçenes planes. Cette section prçesente les rçesultats obtenus pour la combinaison d'une rotation et d'un changement d'çechelle ainsi que les rçesultats obtenus pour des scçenes tridimensionnelles. Combinaison d'une rotation et d'un changement d'çechelle Ce paragraphe prçesente la robustesse de notre caractçerisation ça la combinaison d'une rotation et d'un changement d'çechelle La ægure 4.15 montre les rçesultats obtenus pour la scçene ësanja" dans le cas d'une rotation de 108:8 degrçes et d'un changement d'çechelle d'un facteur de 1:5. Comme prçecçedemment, les croix blanches indiquent les appariements corrects et les noires les appariements faux. Le taux d'appariements corrects est de 82.35è. La ægure 4.16 montre les rçesultats obtenus pour la scçene ëvan Gogh" dans le cas d'une rotation de 99:8 degrçes et d'un changement d'çechelle d'un facteur 1:5. Le pourcentage d'appariements corrects est de 68:42è. Ces rçesultats prouvent que la mçethode proposçee permet de gçerer les similitudes image. Scçenes tridimensionnelles Ce paragraphe prçesente les rçesultats obtenus pour des scçenes tridimensionnelles. L'çevaluation des rçesultats a çetçe rçealisçee en utilisant la mçethode dçecrite ça la section La ægure 4.17 montre les rçesultats obtenus sur une scçene d'extçerieur complexe. La transformation entre les deux images est relativement faible, cependant laprçesence de motifs rçepçetitifs rend la mise en correspondance particuliçerement diæcile. Le pourcentage d'appariements corrects est de 84:34è. Il s'agit d'un bon rçesultat vue la diæcultçe de la scçene. On peut d'ailleurs remarquer que certains des faux appariements sont dus aux motifs rçepçetitifs. La ægure 4.18 montre les rçesultats obtenus sur une autre scçene. La transformation entre les deux images est constituçee d'une rotation scçene, d'une rotation image et d'un changement d'çechelle. Le pourcentage d'appariements corrects est de 80è. Lça encore, les

67 58 Chapitre 4 : Appariement entre images Fig í Le pourcentage d'appariements corrects pour une rotation de 108:8 degrçes et un changement d'çechelle d'un facteur de 1:5 est de 82:35è. Fig í Le pourcentage d'appariements corrects pour une rotation de 98:8 degrçes et un changement d'çechelle d'un facteur de 1:5 est de 68:42è. Fig í Le pourcentage d'appariements corrects est de 84:34è sur cette scçene.

68 4.3 ç Evaluation de l'appariement 59 faux appariements sont essentiellement dus aux motifs rçepçetitifs contenus dans la scçene. La ægure 4.19 montre le champ de dçeplacement calculçe ça partir des appariements corrects de la ægure Une mçethode classique basçee sur la corrçelation çechoue complçetement sur une telle scçene. Fig í Le pourcentage d'appariements corrects est de 80:0è sur cette scçene. Fig í Champ de dçeplacement pour les appariements corrects de la ægure 17. La ægure 4.20 montre les rçesultats obtenus pour une scçene d'intçerieur. La transformation entre les deux images consiste en une rotation scçene, une rotation image et un changement d'çechelle. Le taux d'appariements corrects est de 84:9è. La ægure 4.21 montre le champ de dçeplacement calculçe ça partir des appariements çevaluçes comme corrects. On peut voir qu'un appariement a çetçe faussement çevaluçe. Ceci est d^u ça la mçethode d'çevaluation qui repose sur la contrainte çepipolaire ècf. section 4.3.1è. Les rçesultats des sections prçecçedentes ontdçejça montrçe l'invariance aux rotations image, la robustesse aux changements d'çechelle et la robustesse ça un changement important de point de vue. Les rçesultats obtenus sur des scçenes tridimensionnelles ne font donc que conærmer ces rçesultats. La qualitçe des rçesultats obtenus en prçesence d'un changement de point de vue pour ces scçenes provient du fait que les invariants aux similitudes sont des quasi-invariants aux transformations perspectives.

69 60 Chapitre 4 : Appariement entre images Fig í Le pourcentage d'appariements corrects est de 84:9è sur cette scçene. Fig í Champ de dçeplacement pour les appariements corrects de la ægure 19. Un appariement a çetçe faussement çevaluçe.

70 4.4 Conclusion Inæuence des diæçerentes composantes du vecteur Cette section montre l'inæuence des diæçerentes composantes du vecteur de caractçeristiques. Pour ce faire, deux expçeriences ont çetçe rçealisçees. La premiçere expçerience çevalue le taux d'appariement lorsque l'on utilise une seule composante du vecteur de caractçeristiques. La deuxiçeme montre le taux d'appariement obtenu en utilisant un sous-ensemble de composantes. Ces expçeriences permettent de montrer la discriminance de chacune des composantes, notamment des invariants de troisiçeme ordre. La ægure 4.22 montre le taux d'appariement en fonction de la composante utilisçee pour les scçenes ëastçerix" et ëvan Gogh". Les valeurs de cette ægure correspondent aux moyennes obtenues sur l'ensemble des images des sçequences de bruit ècf. section 4.3.6è. Les taux d'appariement sont supçerieurs pour la scçene ëvan Gogh" ce qui s'explique par la texture de cette scçene qui facilite le calcul d'appariement. En outre, pour la scçene ëvan Gogh" les composantes correspondant aux premiçeres et deuxiçemes dçerivçees permettent un meilleur taux d'appariement. Ceci est dû ça la prçesence de texture. Dans ce cas les dçerivçees de troisiçeme ordre sont moins stables que les dçerivçees d'ordre infçerieur. En ce qui concerne la scçene ëastçerix", toutes les composantes permettent d'obtenir approximativement le même taux d'appariement Asterix VanGogh % correct numero de l invariant Fig í Taux d'appariement en utilisant une composante du vecteur de caractçeristiques. Le tableau 4.1 montre le taux d'appariement pour un sous-ensemble de composantes. La premiçere colonne donne le sous-ensemble utilisçe et les deux autres colonnes donnent les rçesultats pour les scçenes ëvan Gogh" et ëastçerix". On peut observer que certains sous-ensembles permettent d'obtenir de trçes bons rçesultats. D'autre part, les invariants de troisiçeme ordre apportent le même taux d'appariement que l'ensemble des invariants de premier et de deuxiçeme ordre. Ces deux expçeriences justiæent l'utilisation des invariants de troisiçeme ordre. Ces invariants s'avçerent suæsamment stables et apportent une information non nçegligeable. 4.4 Conclusion Ce chapitre a montrçe l'avantage de notre mçethode d'appariement par rapport aux mçethodes classiques. L'algorithme d'appariement dçeveloppçe repose sur les points d'intçerêt du chapitre 2 et sur la caractçerisation proposçee au chapitre 3. Avec un algorithme de

71 62 Chapitre 4 : Appariement entre images invariants Astçerix VanGogh 0 ::: ::: ::: ::: ::: ::: , Tab. 4.1 í Taux d'appariement en fonction du sous-ensemble de composantes utilisçees. mise en correspondance simple, nous obtenons un taux d'appariements corrects nettement supçerieur ça 50è ce qui suæt pour une estimation robuste de la transformation entre deux images. Ce taux d'appariement est d^u ça la discriminance de la caractçerisation utilisçee. De plus, cette caractçerisation est invariante aux rotations images et robuste ça un changement d'çechelle. Ce chapitre a çegalement prouvçe que la qualitçe de l'appariement ne dçepend pas uniquement de la caractçerisation, mais aussi des points pour lesquels la caractçerisation est calculçee. Il est important que ces points soient rçepçetables, car une telle rçepçetabilitçe inæuence la stabilitçe de la caractçerisation et donc la qualitçe des appariements obtenus. Les expçeriences prçesentçees ont montrçe de trçes bons rçesultats pour une rotation image et un changement d'çechelle mais aussi pour un changement perspectif important. Ceci est d^u au fait que notre caractçerisation est robuste aux similitudes image et de fait robustes aux transformations perspectives. En eæet, les invariants aux similitudes image sont des quasi-invariants aux transformations perspectives. Ceci a çetçe conærmçe par les rçesultats obtenus sur des scçenes tridimensionnelles. L'utilisation d'invariants ça la luminositçe permet en outre d'obtenir de bons rçesultats pour des changements uniformes et des changements complexes de luminositçe.

72 Chapitre 5 Recherche d'image L'idçee de ce chapitre est de considçerer la recherche d'une image comme un problçeme d'appariement d'une image avec une base d'images. Ainsi, la recherche d'une image est l'extension de l'appariement entre deux images prçesentçe au chapitre prçecçedent. Le problçeme est donc d'apparier l'image recherchçee avec chacune des images-modçeles, c'est-ça-dire avec l'ensemble des images stockçees dans la base. Ceci nçecessite l'introduction d'un mçecanisme de ressemblance permettant de dçeterminer quelle image de la base est la plus ressemblante ça l'image recherchçee. Ceci est rçealisçe ça la section 5.2 par un algorithme de vote. La robustesse de cet algorithme est augmentçee par l'utilisation de contraintes semi-locales qui permettent d'accro^çtre la discriminance de la caractçerisation utilisçee. Ceci s'avçere nçecessaire du fait du grand nombre de points contenus dans la base d'images. D'autre part, une comparaison image par image fait accro^çtre la complexitçe rapidement. Aæn d'çeviter des temps de recherche trop importants, un mçecanisme d'accçes rapide est introduit ça la section 5.3. Les rçesultats prçesentçes ça la section 5.4 montrent les performances atteintes pour l'appariement d'une image ça une base d'images et le gain obtenu par rapport aux mçethodes existantes. 5.1 ç Etat de l'art Cette section prçesente un çetat de l'art des mçethodes de recherche d'images, c'est-çadire d'appariement d'une image avec un ensemble d'images modçeles. Il n'est pas toujours facile de sçeparer les mçethodes existantes dans la littçerature en mçethodes de recherche d'images et en mçethodes de reconnaissance d'objets 3D qui seront prçesentçees dans le chapitre suivant. Le critçere que nous avons retenu pour eæectuer une telle sçeparation est de vçeriæer quel type d'information a çetçe reconnu : s'agit-il d'une image 2D ou d'un objet 3D? Les mçethodes utilisant uniquement des images 2D sont rçefçerencçees dans cet çetat de l'art. Il faut toutefois constater que les mçethodes de recherche d'images peuvent parfois ^etre çetendues ça la reconnaissance d'objet 3D ècf. section 6.1è. 63

73 64 Chapitre 5 : Recherche d'image Recherche basçee sur les donnçees photomçetriques Un premier groupe de mçethodes d'appariement entre une image et une base d'images utilise l'information de luminance d'un objet, c'est ça dire son aspect comme signature de l'objet. Dans ce contexte, la premiçere idçee a çetçe d'utiliser la couleur. Swain ëswa 91ë a dçemontrçe que les histogrammes de couleur peuvent ^etre utilisçes pour indexer et mettre en correspondance des objets. Le plus gros dçefaut de cette approche est son manque de robustesse vis-ça-vis de changements de luminositçe. Plusieurs auteurs ont accru les performances de la technique initiale de mise en correspondance par histogramme de couleur en introduisant des mesures plus ou moins sensibles ça des changements de luminositçe. Ainsi, Funt ëfun 95ë a proposçe d'utiliser la distribution de rapports de couleur et a dçemontrçe que ces rapports fournissent une constante de couleur pour un objet. Slater ësla 96ë a dçemontrçe que les moments de la distribution des couleurs sont invariants ça un changement de luminositçe dans l'hypothçese d'un modçele linçeaire de rçeæexion lumineuse. Nayar ënay 93ëet Nagao ënag 95ë, quant ça eux ont utilisçe des invariants photomçetriques basçes sur des rapports de rçeæection. Enæn, il est çegalement possible d'utiliser des histogrammes de æltres locaux comme l'a fait Schiele ësch 96ë. Une autre approche de la reconnaissance d'image ça partir d'informations photomçetriques est celle de Turk ëtur 91ë. Sa mçethode utilise une grande collection d'images qui est dçecomposçee en composantes principales. Les composantes correspondant aux plus grandes valeurs propres reprçesentent des formes gçençeriques. Turk a utilisçe cette mçethode pour reconna^çtre des visages. Cette approche a çetçe appliquçee par Murase ëmur 95ë pour reconna^çtre des images d'objets quelconques. Les avantages de cette mçethode sont sa rapiditçe, sa gçençeralitçe et sa robustesse ça de petites occultations. Par contre, elle nçecessite de centrer les images et elle n'est pas robuste aux rotations images ni aux occultations importantes. Des approches assez similaires ça celle suivie dans notre travail sont celles de Rao ërao 95ë, Wu ëwu 95ë et Lades ëlad 93ë. Ces auteurs ont utilisçe des mesures locales basçees sur l'image de niveaux de gris. Le signal est caractçerisçe localement par des æltres ajustables dans le cas de Rao et par des transformçees de Gabor dans le cas de Wu et de Lades. Ces æltres sont calculçes sur une grille qui est centrçee sur l'objet par un calcul simple du centre de l'objet. Rao utilise une grille circulaire tandis que Wu et Lades utilisent une grille rectangulaire. Le positionnement de la grille est diæcile ça rçealiser dçes que l'objet est prçesentçe devant un arriçere-plan complexe. En outre, ces mçethodes ne permettent pas de reconna^çtre un objet ça partir d'images d'une portion de cet objet. Ceci provient du fait que la grille ne peut pas ^etre positionnçee si uniquement une partie de l'objet est donnçee. D'autre part, l'utilisation d'une grille implique que certains points de celle-ci sont peu voire aucunement reprçesentatifs de l'objet. Rao ërao 95ë propose donc d'utiliser des vecteurs de caractçeristiques comportant jusqu'ça 45 composantes. Pour ce faire, cette caractçerisation est calculçee dans un contexte multi-çechelle. Pour reconna^çtre un objet en prçesence d'un changement d'çechelle, il faut translater les vecteurs de caractçeristiques aæn de trouver les sous-ensembles de composantes qui se correspondent. La mise en correspondance est alors faite sur une partie de la caractçerisation et les rçesultats se dçegradent de façcon signiæcative Recherche basçee sur des donnçees gçeomçetriques Un deuxiçeme groupe de mçethodes d'appariement entre une image et une base d'images utilise des donnçees gçeomçetriques telles que segments, jonctions et ellipses. De telles don-

74 5.2 Algorithme de recherche 65 nçees sont extraites prçealablement des images et l'appariement est eæectuçe en utilisant uniquement ces donnçees. Ces mçethodes d'appariement reposent donc sur des donnçes symboliques même si elles utilisent ces donnçees pour calculer des grandeurs numçeriques. Un certain nombre d'approches sont basçees sur le paradigme suivant : calcul d'hypothçese et vçeriæcation. Durant la premiçere phase, des caractçeristiques sont extraites ça partir de l'image ça reconna^çtre, puis elles sont associçees aux caractçeristiques des modçeles 2D contenus dans une base. La recherche exhaustive de tous les modçeles existant dans la base engendre un coût de calcul polynômial. La contribution majeure de diæçerents systçemes de reconnaissance a çetçe de contrôler et de diminuer la complexitçe de la phase d'appariement. Par exemple, Ayache et Faugeras ëaya 86ë utilisent une çevaluation rçecursive d'hypothçeses. Lamdan ëlam 88ë a proposçe d'utiliser des mçethodes d'indexation et de hachage pour obtenir une accçelçeration signiæcative. Dans le cas de l'indexation, la mise en correspondance des caractçeristiques et la recherche d'un modçele de la base sont remplacçes par un mçecanisme de ë look-up table ". Dans un contexte similaire, le groupe d'oxford a utilisçe des invariants projectifs comme çelçement d'indexation èvoir par exemple ërot 93ëè. Dans le cas d'objet 2D de tels invariants peuvent être calculçes pour n'importe quel objet. D'autres mçethodes de recherche d'image sont basçees sur la transformçee de Hough. Elles choisissent lemodçele en recherchant un point d'accumulation dans l'espace des transformations ècf. par exemple Ballard ëbal 81ëè. Grimson ëgri 90ë a toutefois dçemontrçe qu'une telle approche est peu robuste au bruit de l'image. En eæet, en prçesence d'un tel bruit, il n'est plus possible de distinguer entre deux modçeles diæçerents. Pour remçedier ça ce problçeme, Gros ëgro 95ë utilise des invariants aux similitudes et vote uniquement dans l'espace de Hough si ces invariants se correspondent. Ceci rçeduit le nombre de votes dans l'espace de Hough et rend ainsi la distinction des diæçerents modçeles possible. 5.2 Algorithme de recherche Principe de la recherche En conclusion de l'çetat de l'art prçecçedent, les mçethodes basçees sur des donnçees gçeomçetriques permettent de traiter uniquement des objets relativement simples. Dans le cas d'objets plus complexes, le calcul de grandeurs gçeomçetriques devient instable. De plus, ces mçethodes sont peu discriminantes, car elles sont basçees sur des donnçees symboliques. Toutefois, ces mçethodes sont locales et donc robustes aux occultations. De plus, elles sont invariantes aux diæçerentes transformations. Les mçethodes basçees sur les donnçees photomçetriques sont par nature plus discriminantes car moins symboliques. Elles sont en eæet plus proches et donc plus reprçesentatives de l'objet considçerçe. Ces mçethodes permettent de reconna^çtre des objets qui ne peuvent pas être traitçes par les mçethodes gçeomçetriques. Le grand inconvçenient des mçethodes proposçees jusqu'ça prçesent dans la littçerature est qu'elles sont toutes globales. Cette globalitçe signiæe que l'information est calculçee sur toute l'image contrairement aux mçethodes locales qui reposent sur un ensemble d'informations calculçe ça plusieurs endroits de l'image. Le dçesavantage des mçethodes globales par rapport aux mçethodes locales est leur manque de robustesse par rapport ça des perturbations locales de l'image. Les mçethodes globales sont donc par exemple peu robuste ça des occultations. De plus, les mçethodes basçees sur les donnçees photomçetriques sont peu invariantes aux transformations images couramment observçees.

75 66 Chapitre 5 : Recherche d'image Dans la suite nous prçesentons une solution robuste qui remçedie ça ces deux dçefauts des mçethodes basçees sur les donnçees photomçetriques. Cette solution est une extension directe de la mçethode d'appariement prçesentçee au chapitre prçecçedent. Cette mçethode est locale et invariante aux transformations image usuelles. L'idçee est de considçerer la recherche d'une image comme un problçeme d'appariement d'une image ça une base d'images. Cependant, çetant donnçes une image et un ensemble d'images, le problçeme n'est plus de savoir quels points se correspondent mais de retrouver l'image la plus semblable. Les sections suivantes vont donc montrer comment utiliser une procçedure d'appariement pour dçeterminer la ressemblance de deux images. Ceci est illustrçe sur la ægure 5.1 suivante. çetant capable de dire si deux images sont trçes semblables, un peu semblables ou diæçerentes, il est alors possible d'identiæer les deux images les plus ressemblantes Structure de la base d'images Une base d'images contient un ensemble fm k g de modçeles. Chaque modçele M k est dçeæni par un ensemble de vecteur d'invariants f~ Vk;j g calculçes aux endroits oçu des points d'intçerêt ont çetçe dçetectçes pour les images du modçele. Durant la phase d'enregistrement dans la base, chaque vecteur ~ Vk;j est ajoutçe dans la base avec une rçefçerence explicite au numçero k du modçele pour lequel il a çetçe calculçe. Formellement, la base la plus simple est une table de n-uplets è~ Vk;j ;kè ècf. ægure 5.2è. En outre, dans la base que nous venons de prçesenter, les çelçements peuvent être insçerçes de façcon incrçementale. Aucun rçe-arrangement de la base n'est nçecessaire aprçes une insertion. La mise ça jour de la base, ou simplement sa construction sont donc trçes rapides Mesure de ressemblance Mettre en correspondance une image ça une base d'images consiste ça retrouver le modçele qui correspond ça une image I donnçee. Pour cette image, un ensemble de vecteurs d'invariants f ~ V j g est calculçe aux endroits oçu ontçetçe extraits des points d'intçerêt. Ces vecteurs sont alors comparçes aux vecteurs ~ Vk;l de la base. Cette comparaison est faite en calculant la distance d M de Mahalanobis entre Vj ~ et Vk;l ~ : d M è~ Vj ; Vk;l ~ è=d j;k;l 8èj; k; lè. Pour chaque vecteur Vj ~, les modçeles M k? pour lesquels la distance d j;k? ;l est infçerieure ça un seuil donnçe t sont retenus. Ce seuil est dçeæni ça partir de la distribution du ç 2 observçee en calculant la matrice de covariance des vecteurs d'invariants ècf. section 4.2.2è. Lorsque la distance d j;k? ;l est infçerieure ça ce seuil, M k? est un modçele probable pour le vecteur de caractçeristiques V ~ j. On dit aussi que le modçele M k? estësçelectionnçe ". Etant ç donnçe un vecteur de caractçeristiques, plusieurs modçeles peuvent lui correspondre du fait de bruit ou d'ambiguíçtçes. Aæn d'autoriser une telle incertitude quant ça l'origine d'un vecteur de caractçeristiques, l'ensemble fk jg? des modçeles probables n'est pas rçeduit ça un seul çelçement. Ainsi, un vecteur de caractçeristiques peut être mis en correspondance avec plusieurs modçeles. Le modçele correspondant ça une image çemerge du fait qu'un modçele correspond plus souvent que les autres aux vecteurs de caractçeristiques de cette image. De façcon similaire ça la transformçee de Hough ësha 78ë, l'idçee d'un algorithme de vote est de sommer le nombre de fois qu'un modçele correspond ça unvecteur de caractçeristiques. Aussi, chaque fois qu'un modçele M k est sçelectionnçe, une table de votes T est mise ça jour de maniçere ça ce que la valeur T èkè soit incrçementçee. Notons qu'un point peut sçelectionner n'importe quel modçele mais qu'il ne peut sçelectionner qu'une seule fois un modçele donnçe.

76 5.2 Algorithme de recherche 67 très semblable semblable différent différent Fig. 5.1 í Principe de la recherche d'image.

77 68 Chapitre 5 : Recherche d'image vecteurs modele s Fig. 5.2 í Recherche d'un vecteur dans la base d'images. Le modçele le plus souvent sçelectionnçe est considçerçe comme le meilleur reprçesentant de l'image : l'image reprçesente le modçele M^k pour lequel ^k = argmax T èkè k La ægure 5.3 montre le contenu de la table T de votes sous la forme d'un histogramme. Pour cet exemple, la base contenait 100 images. L'image de numçero 0 a çetçe correctement reconnue. Cependant, d'autres images ont obtenu un score de sçelection du même ordre de grandeur. Pour rendre le modçele ça reconna^çtre plus distinct, on utilise des contraintes semi-locales. La ægure 5.4 montre le contenu de la table T de votes sous la forme d'un histogramme lorsque la contrainte de voisinage est utilisçee. Le modçele reconnu appara^çt alors distinctement. Si l'on ajoute en plus la contrainte gçeomçetrique, le modçele reconnu appara^çt encore plus distinctement ècf. ægure 5.5è. Chacune des contraintes prçesentçees diminue le nombre d'ambiguíçtçes lors de l'appariement. Ceci prouve le gain en robustesse obtenu grâce ça l'utilisation de ces contraintes. En consçequence, le seuil t initial utilisçe pour dçeterminer les appariements initiaux a un rôle beaucoup moins important Adaptation de l'approche multi-çechelle Il est aisçe d'çetendre l'algorithme prçesentçe ça la section prçecçedente dans un contexte multi-çechelle. Les rçesultats thçeoriques de la section ont montrçe comment adapter le calcul des invariants ça un changement d'çechelle. Il existe alors trois possibilitçes pour mettre en çuvre une approche multi-çechelle : 1. çetant donnçe une image ça reconna^çtre, les invariants de cette image sont calculçes ça diæçerentes çechelles. 2. Les invariants sont calculçes ça diæçerentes çechelles pour tous les modçeles de la base. 3. Les invariants sont calculçes ça diæçerentes çechelles ça la fois pour l'image et pour l'ensemble des modçeles de la base.

78 5.2 Algorithme de recherche 69 nombre de votes modele Fig. 5.3 í Rçesultats de l'algorithme de vote. nombre de votes modele Fig. 5.4 í Rçesultats de l'algorithme de vote lorsque la contrainte de voisinage est utilisçee. Cette ægure est directement comparable ça la ægure 5.3. L'objet reconnu appara^çt distinctement. 30 nombre de votes modele Fig. 5.5 í Rçesultats de l'algorithme de vote lorsque les contraintes de voisinage et gçeomçetrique sont utilisçees. Cette ægure est directement comparable aux ægures 5.3 et 5.4

79 70 Chapitre 5 : Recherche d'image La derniçere possibilitçe est la plus robuste puisqu'elle permet la rçealisation d'une phase de vçeriæcation au travers des çechelles considçerçees. Cependant, elle est trçes lourde ça mettre en çuvre autant par le temps d'exçecution qu'elle nçecessite que par la mçemoire qu'elle requiert. La premiçere possibilitçe est la moins coûteuse en ressource. C'est celle qui a çetçe retenue dans le cadre de notre approche. Il faut cependant noter qu'elle peut introduire des erreurs par ambiguíçtçes. Cela survient par exemple lorsque les invariants calculçes ça une çechelle inadçequate votent pour un faux modçele. Ce problçeme est toutefois rçesolu par l'utilisation des contraintes semi-locales prçesentçees ça la section prçecçedente. En eæet, ces contraintes semi-locales incluent implicitement une contrainte d'çechelle puisque les invariants calculçes en un point et les invariants de son voisinage sont calculçes ça la même çechelle. Ainsi, si deux points ainsi que leur voisinage respectif se correspondent, alors la contrainte d'çechelle est vçeriæçee. Les rçesultats expçerimentaux prçesentçes en section 5.4 montrent qu'une approche multi-çechelle est eæective dçes que les contraintes semi-locales sont utilisçees. 5.3 Indexation Le temps pour apparier une image ça une base d'images dçepend de façcon linçeaire du nombre d'images de la base. Dans le cas oçu l'on veut pouvoir traiter des base avec plus de mille images, la recherche est donc trçes lente. Il est donc nçecessaire de dçevelopper un mçecanisme d'indexation rapide Changement de base La distance de Mahalanobis est fort peu pratique pour mettre en çuvre une technique de mise en correspondance rapide par indexation en utilisant par exemple une table multi-dimensionnelle de hachage. Ceci est dû au fait que les composantes d'un vecteur de caractçeristiques peuvent être corrçelçees. En fait, l'ensemble des vecteurs qui peuvent correspondre ça un vecteur donnçe se situe dans un ellipsoíçde ça neuf dimensions, centrçe autour de ce vecteur. En outre, les axes principaux de cet ellipsoíçde sont en gçençeral non parallçeles aux axes canoniques des vecteurs. Ceci est illustrçe dans la cas de deux dimensions ça gauche sur la ægure 5.6. Fig. 5.6 í Lorsque l'on utilise la distance de Mahalanobis, l'ensemble des vecteurs qui peuvent correspondre ça un vecteur donnçe se situe dans un ellipsoíide èægure de gaucheè. Aprçes changement de base, il est possible d'utiliser la distance euclidienne. L'ensemble des vecteurs qui peuvent correspondre ça un vecteur donnçe se trouve dans une sphçere facilement englobçee dans un cube èægure de droiteè. Il existe toutefois un changement de base qui rend possible l'utilisation de la distance euclidienne habituelle d E pour comparer deux vecteurs d'invariants. Puisque la matrice de

80 5.3 Indexation 71 covariance est rçeelle symçetrique et semi-dçeænie positive, il est possible de la dçecomposer de la maniçere suivante : æ,1 = P T DP = P Tp D p DP oçu P est orthogonale et D positive diagonale. De lça, il se dçeduit que : d M è~a; ~ bè 2 = è ~ b, ~aè T P Tp D p DPè ~ b, ~aè = hp DPè ~ b, ~aèi T hp DPè ~ b, ~aèi = hp DP ~ b, p DP~ai T hp DP ~ b, p DP~ai = d E è p DP~a; p DP ~ bè 2 Calculer la distance de Mahalanobis entre deux vecteurs d'invariants est donc çequivalent ça transformer ces deux vecteurs en les multipliant par la matrice p DP puis ça calculer la distance Euclidienne entre les deux vecteurs transformçes. L'intçerêt de ce changement de base est illustrçe sur la ægure 5.6 : aprçes changement de base, l'ensemble des vecteurs qui peuvent correspondre ça un vecteur donnçe se situe dans une ësphçere" ça neuf dimensions centrçee autour de ce vecteur et facilement englobçee par un ëcube" Table de hachage multi-dimensionnelle La complexitçe de l'algorithme de vote est de l'ordre J æ K æ L pour calculer toutes les distances d j;k;l plus K pour trouver le modçele le plus vraisemblable, oçu J est le nombre de points de l'image recherchçee, K le nombre d'images de la base et L le nombre moyen de points dçetectçes par image de la base. Ce coût correspond au calcul de la similaritçe entre la caractçerisation d'une image et l'ensemble des modçeles de la base. Cette complexitçe peut être rçeduite en organisant la base sous la forme d'une table de hachage multidimensionnelle ècf. ëwol 90ëè. Pour ce faire, une fonction de IR 9 dans IR 9 est utilisçee pour regrouper en catçegories les invariants. Ceci revient ça ne calculer la similaritçe de l'image qu'avec des modçeles plausibles. Ceci est rendu possible par l'utilisation d'une distance. De plus, la section prçecçedente a montrçe que deux vecteurs d'invariants peuvent être comparçes en utilisant la distance Euclidienne. Ceci simpliæe grandement la mise en çuvre d'une technique d'indexation. çetant donnçe unvecteur d'invariants ~ V, il est possible de dçeænir le voisinage dans lequel se situent tous les modçeles plausibles de ce vecteur. La ægure 5.6 prçecçedente illustre cette idçee. Une technique d'indexation en permet une mise en çuvre en ordonnant les vecteurs d'invariants dans une table multi-dimensionnelle de hachage ècf. ægure 5.7è. Chaque dimension de cette table indexe une composante du vecteur de caractçeristiques. La table rçealise ainsi une partition de l'espace euclidien de dimension neuf. La mise en çuvre de cette table soulçeve deux problçemes majeurs qui sont la granularitçe du partitionnement et la dimension de la table. La granularitçe permet de rçepartir les valeurs d'une composante en plusieurs sous-ensembles. Elle rçealise une partition èau sens mathçematiqueè d'un axe dçeæni par une composante. Elle correspond ça l'espacement entre deux cases dans chaque tableau de la ægure 5.7. La dimension de la table de hachage contrôle le nombre de composantes utilisçees pour le partitionnement. C'est le nombre de tableaux de la ægure 5.7.

81 72 Chapitre 5 : Recherche d'image Fig. 5.7 í Table de hachage multi-dimensionnelle. Pour cette illustration le nombre de dimensions est limitçe ça 4. Nous avons observçe qu'une dimensionnalitçe çelevçee avec une granularitçe grossiçere ça chaque niveau accçelçere plus la recherche qu'une faible dimensionnalitçe avec une granularitçe æne ça chaque niveau. Ceci peut facilement ^etre expliquçe par le fait qu'une dimensionnalitçe çelevçee permet une meilleure diæçerenciation spatiale des vecteurs de caractçeristiques. Dans notre mise en çuvre, nous avons donc arr^etçe le partitionnement dçes que le nombre de points caractçerisçes pour une partition donnçee est en dessous d'un seuil critique. Nous avons observçe un optimum en temps de reconnaissance pour une seuil de trois points. En rçesumçe, cette table de hachage rçealise un ë K-tree " sur l'espace Euclidien de dimension k. Il faut noter que la granularitçe n'est pas constante pour tous les axes mais dçeænies pour chaque composante en fonction de la distribution de celle-ci. 5.4 Expçerimentation Cette section prçesente les rçesultats expçerimentaux obtenus lors du calcul de mise en correspondance entre une image et une base d'images. Les expçeriences ont çetçe mençees sur une base d'images contenant plus de 1000 images Ces images sont de types diæçerents, tels que des images de tableaux de ma^çtre, de scçenes açeriennes et d'objets tridimensionnels. La section prçesente plus en dçetail cette base et les images tests utilisçees. Le taux de reconnaissance dçepasse les 99è pour des images tests prises sous diæçerentes conditions. Il faut prçeciser qu'aucune des images tests n'est contenue dans la base. Pour les images contenues dans la base la reconnaissance est exempte de toute erreur. La section illustre la recherche d'images et les expçerimentations prçesentçees en section montrent la robustesse de la mçethode vis-ça-vis d'une rotation image, d'un changement d'çechelle, de luminositçe, de point de vue ainsi que dans le cas d'une visibilitçe partielle et de fouillis Cadre d'çevaluation Base utilisçee La base utilisçee pour les expçerimentations prçesentçees dans cette section contient 1020 images. La ægure 5.8 montre quelques images de cette base. Ces images se rçepartissent en 200 tableaux de ma^çtre, 100 scçenes açeriennes et 720 images d'objets tridimensionnels

82 5.4 Expçerimentation 73 dont 360 images de la base ëcolumbia". Certains des tableaux de ma^çtre sont prçesentçes sur la premiçere ligne de la ægure 5.8, d'autres ça la ægure C.1 de l'annexe C. On peut voir quelques scçenes açeriennes sur la deuxiçeme ligne de la ægure 5.8 et aussi ça la ægure C.2 de l'annexe C. Ces images açeriennes ont çetçe fournies par la sociçetçe Istar et en reste leur propriçetçe. Les images d'objets tridimensionnels comprennent les images de la base ëcolumbia". Ces images sont prçesentçees sur la troisiçeme ligne. Des objets tridimensionnels propres ça notre laboratoire sont prçesentçes sur la quatriçeme ligne. Ces images prçesentent une grande variçetçe. Cependant, si l'on considçere les tableaux de ma^çtre ècf. ægure C.1 de l'annexe Cè ou encore les images açeriennes ècf. ægure C.2 de l'annexe Cè, on peut observer la grande similaritçe de certaines images. Cette similaritçe induit des ambiguíçtçes qui sont de trçes bons tests pour la robustesse et la discriminance de la mçethode proposçee. De plus, dans le cas des images açeriennes, il faut noter la ænesse des dçetails sur lesquels il faut s'accrocher pour diæçerencier deux images. Dans le cas d'objets planaires, un objet est reprçesentçe dans la base par une seule image. Ceci est çegalement valable pour les objets quasiment plats, comme c'est le cas des images açeriennes qui correspondent ça des projections para-perspectives. C'est-ça-dire que la profondeur relative de l'objet est ètrçesè faible par rapport ça la distance d'observation. En revanche, dans le cas des objets tridimensionnels, il est nçecessaire de reprçesenter ces objets par plusieurs images correspondant ça diæçerents points de vue. La question se pose alors de savoir combien d'images sont nçecessaires pour reprçesenter de façcon complçete un objet donnçe. Ce point sera abordçe ça la section 6.2 du chapitre suivant. Images tests Pour l'çevaluation prçesentçee aux sections suivantes, les images test sont des images rçeelles non stockçees dans la base d'images. Par rapport aux images de la base, il s'agit d'images acquises aprçes avoir fait subi ça la camçera une rotation, un changement de longueur focale, d'ouverture ou de point de vue. Pour certaines images tests, la source lumineuse a çegalement çetçe dçeplacçee. Ainsi les images tests prçesentent par rapport aux images de la base des rotations image, des changements d'çechelle, de luminositçe et de point de vue. La combinaison de ces transformations conduit en outre ça des dçeformations de l'image plus complexes. D'autres images tests correspondent ça l'observation d'une partie de la scçene pour laquelle une image est stockçee dans la base. Toutes les images test utilisçees dans ce chapitre correspondent ça des scçenes planes ou ça des transformations para-perspectives. C'est-ça-dire que la distance d'observation est grande par rapport ça la profondeur relative de la scçene observçee. En ce qui concerne les rçesultats pour des objets 3D le lecteur doit se rapporter au prochain chapitre Illustration de la recherche d'images Quelques exemples de recherche Les exemples suivants illustrent les conditions sous lesquelles on peut reconna^çtre correctement une image de la base. Pour les ægures 5.9 et 5.10, l'image de droite a çetçe correctement reconnue quelle que soit l'image de gauche considçerçee pour la recherche. La ægure 5.9 prçesente la reconnaissance d'un tableau de ma^çtre en prçesence d'une rotation image etèou d'un changement d'çechelle. Cette ægure montre qu'il est çegalement possible de reconna^çtre le modçele ça partir de l'image d'un fragment du tableau.

83 74 Chapitre 5 : Recherche d'image Fig. 5.8 í Quelques images de notre base d'images. Cette base contient 1020 images.

84 5.4 Expçerimentation 75 Fig. 5.9 í Exemple de reconnaissance. L'image de droite a çetçe correctement reconnue quelle que soit l'image de gauche utilisçee pour la recherche. La ægure 5.10 montre la reconnaissance d'une image açerienne en prçesence d'une rotation image etèou d'un changement d'çechelle. La reconnaissance est çegalement possible en utilisant une partie d'image. En outre, un changement de point de vue engendre des dçeformations perspectives perceptibles d'autant plus fortement que la scçene n'est qu'approximativement plane. On peut voir que les immeubles apparaissent de maniçeres diæçerentes. De m^eme, l'çecart temporel entre les deux prises d'images fait que des voitures se sont dçeplacçe. La robustesse de la mçethode a permis de rçesister ça ces perturbations. Pour rappel, une seule image a çetçe stockçee dans la base. Fig í Exemple de reconnaissance dans le cas d'images açeriennes. L'image de droite a çetçe correctement reconnue quelle que soit l'image de gauche considçerçee èimages fournies par Istarè. Points sçelectionnçes Les contraintes utilisçees permettentdesçelectionner uniquement les points discriminants d'une image et permettent d'çeliminer les points dus au bruit. Elles diminuent le nombre des fausses correspondances et rçeduisent le nombre total de mises en correspondance. La ægure 5.11 montre les points utilisçes durant la phase d'appariement pour une rotation image. La rotation entre les deux images est de 152 degrçes. L'image de gauche montre l'image recherchçee et les points dçetectçes qui ont çetçe mis en jeu dans le processus

85 76 Chapitre 5 : Recherche d'image d'appariement. L'image de droite de la ægure 5.11 prçesente le modçele reconnu ainsi que les points reconnus. L'image de la base est reprçesentçee par 377 points et 363 points d'intçerêt ont çetçe dçetectçes sur l'image ça reconna^çtre. Dans le processus d'appariement 116 points ont çetçe utilisçes. Fig í Exemple d'une image recherchçee et du modçele reconnu. Les croix symbolisent les points utilisçes pendant la phase d'appariement. La transformation entre les deux images est constituçee d'une rotation de 152 degrçes. La ægure 5.12 montre les points utilisçes durant la phase de reconnaissance pour deux images entre lesquelles il y a une rotation de 185 degrçes et un changement d'çechelle de 1:3. Pour cet exemple, l'approche multi-çechelle n'çetait pas utilisçee. Dans le processus d'appariement 48 points ontçetçe mis en correspondance. Une raison pour laquelle aussi peu de points ont çetçe mis en correspondance est que l'approche multi-çechelle n'est pas utilisçee et donc le changement d'çechelle n'est pas pris en compte. D'autre part un changement d'çechelle rend la dçetection de points moins stable et donc plus de points doivent être çeliminçes. Fig í Exemple d'une image recherchçee et du modçele reconnu. Les croix symbolisent les points utilisçes pendant la phase d'appariement. La transformation entre les deux images est constituçee d'une rotation de 185 degrçes et d'un facteur d'çechelle de 1:3. De façcon gçençerale, il y a entre 20 et 150 points qui sont mis en correspondance. Ceci dçepend de l'image considçerçee. Le faible nombre de points mis en correspondance comparçe au nombre de points dçetectçes illustre bien le rejet des points non discriminants et explique pourquoi une image caractçerisçee dans la base avec seulement 20 points peut être correc-

86 5.4 Expçerimentation 77 tement appariçee alors que d'autres images de la base sont caractçerisçees par plus de 600 points ç Evaluation systçematique de la recherche Rotation image Fig í Quelques images de la sçequence de rotation image du tableau ësanja". L'image de droite est l'image stockçee dans la base. Elle a çetçe correctement reconnue quelle que soit l'image de gauche considçerçee. Pour tester l'invariance ça une rotation image, plusieurs images ont çetçe prises d'un même tableau de ma^çtre en faisant tourner la camçera approximativement autour de l'axe optique de son objectif. Ces images sont approximativement prises ça intervalle rçegulier. La ægure 5.13 prçesente quelques images d'une des sçequences de rotation pour la scçene ësanja". L'image la plus ça droite est celle contenue dans la base. Le taux de reconnaissance est de 100è pour les 40 images que contient cette sçequence de rotation. Cette expçerience montre l'invariance de la caractçerisation vis-ça-vis d'une rotation image. Cela dçemontre qu'il est suæsant de ne stocker qu'une seule image dans la base pour diæçerentes rotations. Changement d'çechelle Fig í Quelques images de la sçequence changement d'çechelle du ësemeur" de Van Gogh. L'image de droite est l'image stockçee dans la base. Elle a çetçe correctement reconnue quelle que soit l'image de gauche considçerçee en utilisant l'approche multi-çechelle. Pour tester la robustesse ça un changement d'çechelle, plusieurs images d'une même scçene ont çetçe prises en faisant varier le facteur de grossissement de l'objectif utilisçe. Il s'agit d'un objectif ça focale variable. La ægure 5.9 prçesente quelques images de la sçequence de changement d'çechelle pour le tableau ële semeur" de Van Gogh. En utilisant l'approche multi-çechelle, le taux de reconnaissance est de 100è jusqu'çaunchangementd'çechelle de 2:2. Ceci montre la robustesse de notre caractçerisation ça un changement d'çechelle. Toutefois, le facteur de changement a çetçe limitçe ça 2.2 par le dçetecteur de points d'intçerêt utilisçe. Changement de luminositçe Dans la suite la robustesse ça deux types de changement de luminositçe sont examinçes : un changement uniforme et un changement complexe. Dans le cas d'un changement uniforme,

87 78 Chapitre 5 : Recherche d'image Fig í Quelques images des sçequences changement uniforme et changement complexe de luminositçe du ësemeur" de Van Gogh. L'image de droite est l'image stockçee dans la base. Elle a çetçe correctement reconnue quelle que soit l'image de gauche considçerçee. uniquement l'intensitçe de la luminositçe varie et dans le cas d'un changement complexe la source lumineuse est dçeplacçee. La ægure 5.15 montre des images du ësemeur" de Van Gogh pour ces changements. Les images des deux sçequences correspondant ça ces types de changements ont toutes çetçe reconnues correctement. Ceci conærme les rçesultats obtenus ça la section dans le cadre de l'appariement. Changement de points de vue Nous allons maintenant çetudier la robustesse de notre mçethode dans le cas d'un changement de point de vue. Cette çetude est eæectuçee pour des images de tableau et pour des images açeriennes. Images de tableau Fig í Quelques images de la sçequence changement de point de vue du ësemeur" de Van Gogh. L'image de droite est l'image stockçee dans la base. Elle a çetçe correctement reconnue quelle que soit l'image de gauche considçerçee. La ægure 5.16 montre quelques images de la sçequence changement de point de vue du ësemeur" de Van Gogh. L'image la plus ça droite est l'image stockçee dans la base. Les quatre autres images sont les images les plus extr^eme de la sçequence. Toutes les images de la sçequence ont çetçe reconnues correctement exceptçee l'image la plus ça gauche. Si l'on compare ces rçesultats avec les rçesultats d'appariement obtenus sur cette sçequence ça la section 4.3.5, on peut notçe que cette image est la seule pour laquelle le taux d'appariement est infçerieur ça 50è. Images açeriennes La ægure 5.17 montre ça gauche l'image recherchçee et ça droite l'image correspondante contenue dans la base. On peut voir que la camçera s'est dçeplacçee entre les deux vues. En plus, la scçene est uniquement approximativement plane. Il y a donc des parties de maisons qui apparaissent et disparaissent. En plus des voitures ont bougçe. Pour ces images açeriennes nous avons des images prises de 4 points de vue diæçerents. Les 100 images prises du premier point de vue, notçe ëvue 1" sont stockçees dans la base.

88 5.4 Expçerimentation 79 Fig í ça droite, une image de la vue 1 stockçee dans la base ; ça gauche une image ça reconna^çtre provenant de la vue 4. On peut remarquer les diæçerences d'aspect des immeubles dues au changement de point de vue ainsi que le dçeplacement des vçehicules èimages fournies par Istarè. Pour chacune de ces 100 images, nous avons utilisçe 3 images tests prises ça des points de vues diæçerents, notçes ëvue 2", ëvue 3", et ëvue 4". Toutes ces images tests sont reconnues correctement exception faite de l'image du port qui ne contient que de l'eau. Visibilitçe partielle Les expçerimentations prçesentçees dans cette section ont pour but de montrer qu'il est possible de reconna^çtre une partie d'une image comme provenant de l'image entiçere. Des tests systçematiques ont çetçe eæectuçes pour les images de tableaux de ma^çtres et pour les images açeriennes. Pour ces tests, nous avons choisi alçeatoirement des parties de taille relative entre 100è et 10è de l'image entiçere. Les parties contenant moins de 10 points d'intçer^et ontçetçeçeliminçees. Pour chaque taille relative 100 parties ontçetçe tirçees alçeatoirement. Images de tableau Fig í Exemples de parties d'images correctement retrouvçees. La ægure 5.18 montre quelques exemples de parties d'image de tableau pour lesquelles l'image entiçere est correctement retrouvçee. L'ensemble des images tests ont çetçe prises dans des conditions diæçerentes des images de la base, notamment une rotation image et une translation. Jusqu'ça 30è de taille relative, le taux de reconnaissance est de 100è. Pour une taille de 20è, nous obtenons 95è et pour une taille de 10è nous obtenons 90è. Les

89 80 Chapitre 5 : Recherche d'image images sur lesquelles la reconnaissance çechouent sont les parties qui contiennent uniquement une texture rçepçetitive, comme par exemple une pelouse ou un ciel peint par Monnet. Sur de telles parties le nombre de points d'intçer^et est suæsant èsupçerieur ça 10è, mais les vecteurs de caractçeristiques sont peu signiæcatifs. Images açeriennes En ce qui concerne les images açeriennes nous possçedons des images prises de 4 points de vue diæçerents ècf. ægure 5.17è. Les images prises pour le premier point de vue sont stockçees dans la base. Pour les images des trois autres points de vue, le taux de reconnaissance a çetçe çevaluçe en fonction de la taille relative. La ægure 5.19 montre ces rçesultats pour les points de vue 2, 3 et 4 oçu lepoint de vue 4 est le plus çeloignçe du point de vue initial. On peut constater que plus les points de vue sont çeloignçes du point de vue stockçe dans la base et moins bons sont les rçesultats. Pour le point de vue 2 nous obtenons presque toujours 100 è de taux de reconnaissance. En ce qui concerne le point de vue 3, le taux de reconnaissance est supçerieur ça 90è jusqu'ça une taille relative de 20è. Pour une taille relative de 10è, le taux de reconnaissance se dçegrade. Pour le point de vue 4, les rçesultats se dçegradent ça partir d'une taille relative de 40è. Ceci provient de l'importante dçeformation perspective entre les vues 1 et 4 et du dçeplacement des voitures taux de reconnaissance vue 2 vue 3 vue taille de l image recherchee (%) 10 Fig í Taux de reconnaissance en fonction de la taille relative de l'image recherchçee pour une sçequence d'images açeriennes. La ægure 5.20 montre les rçesultats pour la vue 4 si nous ne comptons pas uniquement le meilleur choix, mais çegalement le deuxiçeme puis le troisiçeme choix. On peut observer que ceci amçeliore les rçesultats obtenus. En conclusion de ces tests, les images de la base ont çetçe reconnues ça partir d'images n'en reprçesentant qu'une partie. Vue la taille de la base d'images, ce rçesultat ne peut s'expliquer que par la discriminance des caractçerisations et des contraintes semi-locales utilisçees. Les applications possibles de la reconnaissance d'une partie d'un modçele sont nombreuses. Par exemple, trouver la position d'un h^otel dans l'image d'une ville est une application potentielle.

90 5.5 Conclusion taux de reconnaissance ier choix 2ieme choix 3ieme choix taille de l image recherchee (%) 10 Fig í Taux de reconnaissance en fonction de la taille relative de l'image recherchçee pour une sçequence d'images açeriennes. Les diæçerentes courbes correspondent au nombre de choix considçerçes Temps de recherche Dans la suite, le temps de recherche est dçetaillçe selon les diæçerentes çetapes de notre algorithme. Les chiæres donnçes correspondent au temps de calcul nçecessaire sur une station de travail Sparc 10 sans conæguration particuliçere. Le temps de dçetection des points d'intçerêt dçepend uniquement de la taille de l'image. Pour une image 512 x 512 ce temps est de 7 secondes. En ce qui concerne la caractçerisation et la structuration des points d'intçerêt, le temps dçepend du nombre de points extraits. Pour une image sur laquelle 100 points ont çetçe trouvçes, la caractçerisation prend 8 secondes et la structuration 1=20 çeme de secondes. Enæn, la recherche d'images basçee sur la technique d'indexation prçesentçee ça la section 5.3 dçepend du nombre de points extraits, mais aussi du nombre de points stockçes dans la base. Pour çevaluer de façcon thçeorique la dçependance de la taille de base, il faudra çetudier la distribution statistique des invariants. Ici l'çevaluation a çetçe eæectuçee en utilisation notre base de 1020 images contenant points. Pour rechercher 100 points dans cette base, il faut en moyenne cinq secondes. En conclusion, le temps de recherche est au total de 20 secondes pour une image 512x512 et 100 points dçetectçes. La rapiditçe de cette recherche pourrait être encore facilement accrue par la parallçelisation de l'algorithme puisque la caractçerisation et l'indexation sont faits de façcon indçependante pour chaque point d'intçerêt. 5.5 Conclusion Dans ce chapitre, le problçeme de la recherche d'une image a çetçe considçerçe comme un problçeme d'appariement d'une image ça une base d'images. L'approche proposçee est basçee sur des donnçees photomçetriques et permet de s'aæranchir des deux dçefauts principaux de ces mçethodes : elles sont en gçençeral globales et non invariantes aux transformations image. Pour ce faire, des invariants locaux de niveaux de gris sont calculçes aux points d'intçerêt qui reprçesentent des points caractçeristiques du signal. En fait, l'utilisation des points d'intçerêt permet de rendre locale la mçethode de recherche d'image, car ces points sont dçetectçes

91 82 Chapitre 5 : Recherche d'image automatiquement et dçependent uniquement de l'image considçerçee. Pour retrouver une image dans une base d'images, il est nçecessaire de retrouver parmi plus d'un millier d'images celle qui ressemble le plus ça une image donnçee. Il ne s'agit plus alors de mettre en correspondance un point d'une image avec un autre parmi quelques centaines de points issus d'une seconde image mais d'apparier un point d'une image avec quelques centaines de millier de points issus de plusieurs images. Dans ce contexte les points d'une image donnçee sont appariçes avec plusieurs points de la base. Un algorithme de vote permet de faire çemerger l'image de la base la plus ressemblante. Cet algorithme fait ressortir la cohçerence globale des diæçerents appariements. Cet algorithme permet de reconna^çtre des images en prçesence de rotation, de changement d'çechelle, de changement de luminositçe, de changement de point de vue èlimitçeè, de fouillis et de visibilitçe partielle. L'utilisation de contraintes semi-locales permet en outre d'accro^çtre de façcon importante le taux de reconnaissance. Ces contraintes reposent sur le voisinage des points et sur une information gçeomçetrique d'angle entre points voisins. Un autre problçeme soulevçe par la recherche d'une image dans une base d'images est le co^ut de recherche. La transformation des vecteurs d'invariant dans une base tenant compte de la corrçelation des diæçerentes composantes et de leur ordre de grandeur permet de dçevelopper une technique d'indexation. La mçethode ainsi proposçee permet de rechercher une image parmi plus de mille en moins de cinq secondes sans matçeriel particulier. En outre le taux de reconnaissance est supçerieur ça 99è.

92 Chapitre 6 Modçelisation 2D d'objet 3D Ce chapitre çetend la mçethode d'appariement entre une image et une base d'images prçesentçee au chapitre prçecçedent ça la reconnaissance d'objet. Pour ce faire, un objet 3D est modçelisçe par un ensemble d'images. Un çetat de l'art des diæçerentes mçethodes de modçelisation d'objet est prçesentçe ça la section 6.1. La section 6.2 expose le principe de notre mçethode de modçelisation et montre quelles images utiliser pour modçeliser un objet 3D. Les rçesultats de reconnaissance obtenus en utilisant une telle modçelisation sont prçesentçes en section 6.3 : un objet peut être reconnu même s'il est prçesentçe au milieu d'une scçene complexe ou s'il n'est que partiellement visible ècas des occultations jusqu'ça 50è de l'objetè. Toutefois une telle modçelisation ne contient aucune information 3D. Pour obtenir ce type d'information, il est nçecessaire d'attacher des donnçees symboliques 3D aux images de la base. L'ajout de ces donnçees ainsi que leur calcul pour une image recherchçee sont exposçes ça la section 6.4. Les rçesultats prçesentçes ça la section 6.5 montrent les donnçees symboliques retrouvçees et la prçecision atteinte. 6.1 ç Etat de l'art Cette section prçesente diæçerentes mçethodes de modçelisation d'objets. Un objet 3D peut être modçelisçe par un modçele gçeomçetrique. Il est çegalement possible de reprçesenter un objet 3D par des graphes d'aspect. Enæn, un objet 3D peut être modçelisçe par un ensemble d'images 2D. Nous prçesentons maintenant chacune de ces mçethodes et montrons comment la modçelisation inæuence l'çetape de reconnaissance Modçele gçeomçetrique 3D Les modçeles gçeomçetriques d'un objet 3D sont basçes sur des caractçeristiques gçeomçetriques telles qu'arêtes, jonctions, ellipses, surfaces et volumes. Un modçele 3D de l'objet ça reconna^çtre est çetabli ça partir de ces caractçeristiques. Ces modçeles sont souvent basçes sur 83

93 84 Chapitre 6 : Modçelisation 2D d'objet 3D des modçeles CAO 1.Parmi les modçeles CAO existants, la modçelisation par un æl de fer consiste en une liste de jonctions et de connexions entre ces jonctions. La gçeomçetrie par construction de solides èconstructive Solid Geometryè, quant ça elle, modçelise un objet par des opçerations ensemblistes ça partir de primitives volumiques. La reprçesentation par occupation spatiale dçecrit le volume occupçe par l'objet 3D et la reprçesentation par enveloppe surfacique èb-rep.è modçelise un objet par des morceaux de surface. Besl et al. ëbes 85ë et Chin et al. ëchi 86ë prçesentent un çetat de l'art des modçeles gçeomçetriques et des systçemes de reconnaissance d'objet basçes sur de tels modçeles. Ces systçemes mettent en correspondance une image 2D et un modçele gçeomçetrique 3D. Il existe de nombreux travaux pour eæectuer une telle mise en correspondance. Ces travaux peuvent être partitionnçes en mçethodes basçees sur un mçecanisme de prçedictionèvçeriæcation, sur la transformçee de Hough et sur l'utilisation d'un arbre d'interprçetation. Les systçemes basçes sur un mçecanisme de prçedictionèvçeriæcation mettent en correspondance quelques caractçeristiques du modçele avec quelques caractçeristiques de l'image. Ceci permet un calcul initial de la transformation modçele - image. Cette transformation est utilisçee pour projeter les autres caractçeristiques du modçele sur l'image et ensuite vçeriæer la correspondance avec les caractçeristiques de l'image. Dans le cas d'objets polyçedriques, Huttenlocher et al. ëhut 90ë et Lowe et al. ëlow 86ë ont dçeveloppçe une telle approche. Bolles et al. ëbol 86ë etfaugeras et al. ëfau 86ë ontdçeveloppçe des approches similaires dans le cas des images de profondeur. Toutefois, la recherche exhaustive de tous les modçeles existant dans la base engendre un coût de calcul exponentiel. La contribution majeure de diæçerents systçemes de reconnaissance a çetçe de contrôler et de diminuer la complexitçe de la phase d'appariement. Par exemple, Bolles et al. ëbol 86ë utilisent un arbre de recherche. Kriegman et al. ëkri 90ë ont çetendu une telle approche pour des modçeles courbes. La reprçesentation implicite de ces courbes dans l'image est paramçetrisçee par la position et l'orientation de l'objet. Le calcul de ces paramçetres se rçeduit au problçeme d'ajustement entre le contour thçeorique et les points contour dans l'image. La vçeriæcation est eæectuçee en comparant les erreurs d'ajustement pour les diæçerents modçeles. D'autres travaux, comme par exemple Mundy et al. ëmun 90ë, calculent les transformations entre les primitives image dçetectçees et les primitives des donnçees CAO. Ils utilisent ensuite la transformçee de Hough dans l'espace des paramçetres de ces transformations pour trouver le point d'accumulation. Ce point d'accumulation donne ça la fois le modçele correspondant et la transformation entre l'image et le modçele. Les arbres d'interprçetation contiennent toutes les combinaisons possibles entre les primitives dçetectçees dans l'image et les primitives du modçele. Ces combinaisons sont organisçees dans un arbre, par exemple le premier niveau de l'arbre contient les combinaisons entre une primitive extraite et les primitives du modçele. Cet arbre donne lieu ça un çenorme espace de recherche. Il est donc indispensable d'introduire des contraintes supplçementaires qui çevitent le parcours exhaustif de l'arbre. Brooks ëbro 83ë a par exemple dçeveloppçe une telle approche. En plus son approche permet d'utiliser des contraintes avec un intervalle de conæance dans le cas d'objets gçençeriques. Grimson et al. ëgri 87, Gri 89ë ont utilisçe des arbres d'interprçetation dans le cas d'images de profondeur. Dans le cas des images de niveau de gris leur approche est limitçee aux objets 2D. Ces reprçesentations symboliques d'un objet sont sçeduisantes ça l'esprit mais cepen- 1: CAO : Conception Assistçee par Ordinateur. Cette conception permet l'automatisation de processus de conception et de manufacture.

94 6.1 ç Etat de l'art 85 dant çeloignçees de la rçealitçe des images manipulçees en vision par ordinateur. En eæet, ces reprçesentations sont ça la fois trop simples pour modçeliser des objets non manufacturçes et diæciles ça apparier avec les rçesultats des algorithmes d'extraction de primitives existants. Chen et Mulgaonkar ëche 91ë ont montrçe l'inadçequation des modçeles CAO dans un contexte de vision par ordinateur : les contours extraits ça partir d'images de synthçese issues d'un modçele CAO ne coíçncident pas avec les contours extraits de l'image rçeelle. En fait, aprçes de nombreuses expçerimentations avec des objets relativement simples, Chen et al. ont conclu ne pas être capables de prçedire ça partir des donnçees CAO ce qui devrait être perçcu dans les images rçeelles. Ceci a çetçe observçe malgrçe des algorithmes de gçençeration d'image trçes sophistiquçes. Les segments attendus n'çetaient que trçes rarement les segments dçetectçes. Malgrçe les succçes limitçes obtenus, il est apparu au sein de la communautçe que la vision reposant sur des donnçees CAO n'est pas suæsamment robuste. Certains auteurs ont même aærmçe que le problçeme d'appariement entre une image et un modçele CAO n'a pas de solution gçençerale puisque les niveaux de reprçesentations entre le modçele CAO et ce qui peut être dçetectçe dans les images sont trop diæçerents. On peut se reporter ça la discussion ayant eu lieu au workshop sur la vision utilisant des modçeles CAO ësha 91ë. L'une des principales raisons de cet çechec rçeside dans le fait que les images ne reæçetent pas directement les informations abstraites CAO des objets : l'image 2D d'intensitçe est trop diæçerente de la structure 3D abstraite. En outre de telles reprçesentations ne sont pas disponibles pour de nombreux objets naturels tels que les arbres, et elles ne le sont pas non plus pour des objets manufacturçes tels que les tableaux de ma^çtres èsi l'on excepte certaines çuvres cubistesè. Pour cette raison, il appara^çt nçecessaire de modçeliser les objets perçcus ça partir de descriptions 2D Graphe d'aspect Les graphes d'aspect ont çetçe introduits par Kçnderink ëkoe 79ë. Ils permettent de modçeliser un objet par un ensemble de descriptions 2D. Pour ce faire, les aspects topologiques 2D des droites perçcues dans les images sont utilisçes. Ces graphes peuvent être calculçes de façcon exacte ça partir d'un modçele thçeorique de l'objet. La ægure 6.1 montre par exemple un graphe d'aspect pour une sphçere facettisçee. Il existe de nombreux travaux pour calculer des graphes exacts. Ces travaux diæçerent par la catçegorie de l'objet considçerçe et le type de projection considçerçee. Dans le cas d'objets polyçedriques, on peut par exemple citer Stewman ëste 88ë et Gigus ëgig 91ë. Eggert ëegg 89ë et Kriegman ëkri 89ë ont calculçe des graphes d'aspect pour des solides de rçevolution. En ce qui concerne des objets plus complexes, Rieger ërie 87ë et Petitjean ëpet 92ë ont proposçe des solutions. Il est çegalement possible de construire des graphes d'aspect ça partir d'un nombre æni de vues synthçetisçees d'un objet. En eæet, Herbert ëheb 85ë et Ikeuchi ëike 88ë n'utilisent pas de modçele exact de l'objet mais une centaine de vues synthçetiques pour calculer leur graphe d'aspect. Cette approche simpliæe les graphes obtenus mais ne tient pas compte du fait que certaines vues ne diæçerent que par des dçetails mineurs qui sont en fait indçetectables. De bons rçesultats ont çetçe obtenus dans le cas d'objets simples. En conclusion, les graphes d'aspect utilisent un modçele thçeorique de l'objet et prçesentent de ce fait un nombre de dçesavantages ècf. par exemple l'article de Bowyer ëbow 91ëè. Comme dans le cas des modçeles gçeomçetriques les graphes d'aspect requiçerent une trçes bonne segmentation des images. Un modçele est dçeæni par des caractçeristiques thçeoriques qui doivent être dçetectçees ça partir des images. Rien ne garantit que ces caractçeristiques

95 86 Chapitre 6 : Modçelisation 2D d'objet 3D Fig. 6.1 í Construction du graphe d'aspects d'une sphçere facettisçee è66 facesè. Cette ægure est extraite de la thçese de Degott ëdeg91ë.

96 6.2 Modçelisation ça partir d'images 2D 87 soient eæectivementdçetectçees. En outre, les graphes d'aspect sontvolumineux et complexes puisqu'ils prennent en compte les dçetails des objets modçelisçes. ça chaque catastrophe èapparition ou disparition d'une arêteè, un nouvel aspect est crçeçe. Pour un objet rçeel même simple, le graphe d'aspect obtenu peut capturer nombre d'aspects sans importance et être ainsi extrêmement complexe ècf. ægure 6.1è. Cependant, cette reprçesentation reste pauvre puisque uniquement la nature topologique d'un objet est capturçee Ensemble d'images L'approche consistantça utiliser des images pour modçeliser un objet 3D est relativement nouvelle. L'idçee principale d'une telle approche est de ne plus utiliser de modçeles thçeoriques çeloignçes des images, mais d'utiliser des images caractçeristiques pour reprçesenter un objet. Ces images sont dans la suite rçefçerencçees par images-modçeles. Nayar et al. ënay 93ë proposent demodçeliser un objet 3D ça partir d'images 2D de niveaux de gris. Comme images-modçeles ils utilisent un ensemble d'images rçeguliçerement espacçees. ça partir de ces images, un espace de vecteurs propres est construit. Pour une nouvelle image, une dçecomposition dans cet espace est eæectuçee ce qui permet de reconna^çtre l'objet. Gros ëgro 95ë utilise des primitives extraites des images-modçeles, notamment des segments et des jonctions de segments. Pour dçeterminer les images nçecessaires pour reprçesenter un objet 3D, il prend un grand nombre d'images de cet objet. Il utilise ensuite un algorithme de clustering pour dçecider quelles images il faut garder comme images reprçesentatives de l'objet. Le dçesavantage de son approche est que les segments ne peuvent être extraits que pour des objets relativement simples comme des polyçedres. De même, Gdalyahu ëgda 96ë utilise les contours des images-modçeles pour reprçesenter un objet. Cette approche souligne la nçecessitçe de choisir de ëbonnes" vues pour reprçesenter l'objet. De telles vues sont intrinsçequement plus stables et plus reprçesentatives de l'objet. En outre, avec de telles vues, la mçetrique utilisçee pour comparer deux images a peu d'inæuence sur les rçesultats obtenus. Enæn, pour des classes spçeciæques d'objets 3D il est possible de caractçeriser un objet ça partir d'une seule vue. Comme Zisserman ëzis 95ë l'a montrçe, il existe des invariants projectifs pour un certain nombre de classe d'objet 3D. Ces invariants peuvent donc être extraits ça partir d'une vue d'un tel objet. En utilisant ces invariants, il est ensuite possible de reconna^çtre l'objet ça partir de n'importe quel point de vue. 6.2 Modçelisation ça partir d'images 2D Principe Cette section prçesente la mçethode retenue pour modçeliser un objet 3D ça partir d'images 2D. Chaque image 2D èimage-modçeleè reprçesente en fait un ëaspect" de l'objet. Deux motivations importantes sont ça l'origine d'une telle modçelisation. Premiçerement, les images permettent de reprçesenter l'information rçeellement utilisable lors de la phase de reconnaissance et non pas une information abstraite diæcilement dçetectable comme dans le cas des modçeles gçeomçetriques ou des graphes d'aspect. Deuxiçemement, il n'y a pas d'invariant gçençerique 3D comme nous avons pu le voir ça la section 3.2. Il est donc impossible de modçeliser un objet 3D quelconque par une seule vue. Par contre, une modçelisation ça partir

97 88 Chapitre 6 : Modçelisation 2D d'objet 3D de plusieurs vues est possible. Pour mettre en çuvre une telle modçelisation, se pose le problçeme de dçeterminer quelles images sont nçecessaires pour reprçesenter un objet 3D. Pour cela il faut dçeterminer l'ensemble minimal d'images qui reprçesente l'objet. Il est donc nçecessaire de savoir si deux images sont proches. Pour ce faire, le critçere utilisçe est l'appariement. Si le taux d'appariements correct entre deux images est çelevçe, ceci signiæe qu'elles peuvent être reprçesentçees par la même image-modçele. La modçelisation prçesentçee par la suite utilise des images-modçeles qui sont espacçees rçeguliçerement. Il s'agit d'une approximation grossiçere de la rçealitçe, car les images se ressemblent plus ou moins selon le point de vue. Il est en dehors des objectifs de ce travail d'çetudier la possibilitçe d'utiliser une distribution non uniforme dçependant de la forme de l'objet 3D ça modçeliser comme cela a çetçe fait dans ëgda 96ë et dans ëgro 95ë. Dans la suite nous allons prçesenter des exemples de modçelisation d'objet sur un cercle. Cette modçelisation est ensuite çetendue de façcon thçeorique çalamodçelisation sur une sphçere Exemple d'une modçelisation sur un cercle Pour modçeliser un objet 3D diæçerentes images d'un objet sont prises en dçeplaçcant la camçera sur un cercle centrçe sur l'objet ça modçeliser èou en faisant tourner l'objet sur luimême, ce qui est çequivalentè. Dans la suite nous calculons les images modçeles pour l'objet ëdinosaure" ècf. ægure 6.2è et l'objet ëmain Abstraite" ècf. ægure 6.4è. Fig. 6.2 í Quelques images de l'objet ëdinosaure" contenues dans la base. L'espacement entre deux images consçecutives est de 20 degrçes. Pour l'objet ëdinosaure", 18 images espacçees de 20 degrçes en position sont suæsantes pour obtenir un modçele complet. Nous avons obtenu cette valeur de façcon expçerimentale en utilisant 36 vues de l'objet ëdinosaure" espacçees de 10 degrçes. Pour ce faire nous calculons le nombre de votes obtenus pour chacune de ces vues pour une image test se trouvant gçeomçetriquement entre les vues 1 et 2. La ægure 6.3 montre l'histogramme de votes obtenus. On peut voir que le nombre de votes est important pour les vues 1 et 2 et trçes nettement infçerieur pour les autres vues. Les vues 1 et 2 sont donc suæsamment ressemblantes pour qu'il ne soit pas nçecessaire de les stocker toutes les deux dans la base. Ceci montre que le nombre de vues peut être rçeduit par un facteur d'au moins 2 sans diminuer la qualitçe du processus de mise en correspondance. 18 vues espacçees de 20 degrçes sont donc bien suæsantes pour reprçesenter l'objet ëdinosaure".

98 6.2 Modçelisation ça partir d'images 2D 89 Toutefois, le nombre de vue nçecessaire dçepend de la complexitçe de l'objet. Pour des objets moins complexes, telle la ëmain Abstraite", uniquement 9 vues se sont rçevçelçees suæsantes pour dçeænir le modçele de l'objet ècf. ægure 6.4è Fig. 6.3 í Rçesultats du nombre de votes pour 36 vues de l'objet ëdinosaure". L'image ça reconna^çtre est proche des images 1 et 2. Fig. 6.4 í Quelques images de l'objet ëmain Abstraite" contenues dans la base. L'espacement entre deux images consçecutives est de 40 degrçes Extension ça la modçelisation sur une sphçere La modçelisation d'un objet sur une sphçere de vue est une extension directe de la modçelisation sur un cercle. Nous n'avons pas pu tester une telle modçelisation ça cause de sa diæcultçe de mise en çuvre sans outil robotique adaptçe. Toutefois, il est possible d'estimer de façcon thçeorique combien de vues sont nçecessaires pour une telle modçelisation. Si l'on considçere un espacement rçegulier de 20 degrçes ce qui s'est avçerçe suæsant dans la section prçecçedente, un centaine de vues sont suæsante pour modçeliser un objet. Ceci ne prçesentera pas de diæcultçe particuliçere. Toutefois, une telle modçelisation accro^çt de façcon importante le nombre d'images contenues dans la base d'images. Nous verrons dans les perspectives ça la section 7.3 les solutions envisagçees pour surmonter ce problçeme.

99 90 Chapitre 6 : Modçelisation 2D d'objet 3D 6.3 Rçesultats de reconnaissance Ayantmodçelisçe un objet 3D par des images 2D la reconnaissance d'objet se traduit par une recherche d'images. La procçedure de recherche d'image dçeveloppçee au chapitre prçecçedent est donc utilisçee. ça la section nous allons d'abord montrer quelques exemples qui illustrent que la reconnaissance est possible en prçesence d'arriçere-plan complexe et d'occultation. Ensuite, la complexitçe du problçeme est illustrçee ça la section Pour ce faire les points dçetectçes et les points sçelectionnçes pour la reconnaissance sont visualisçes. Enæn, une çevaluation systçematique est prçesentçee ça la section Quelques exemples de reconnaissance L'objet tridimensionnel ëdinosaure" est reconnu correctement ça partir des images de gauche de la ægure 6.5. On peut voir que l'objet est correctement reconnu en prçesence de rotation, de changement d'çechelle, de changement de arriçere-plan et d'occultation. En outre, le changement de point de vue entre l'image recherchçee et l'image reconnue correspond ça un angle de 10 degrçes. Ceci correspond au plus grand angle possible entre une image et une image-modçele puisque l'espacement entre deux images-modçeles est de 20 degrçes. La ægure 6.5 montre de plus que l'on a retrouvçe l'image la plus proche de la base ce qui donne une estimation de l'attitude. Fig. 6.5 í Exemple de reconnaissance d'un objet tridimensionnel. L'image de droite a çetçe correctement reconnue quelle que soit l'image de gauche considçerçee. La ægure 6.6 montre le rçesultats de reconnaissance pour un deuxiçeme objet ëmain Abstraite". L'objet est correctement reconnu en prçesence d'un arriçere-plan complexe Points sçelectionnçes Cette section illustre la diæcultçe de la reconnaissance en prçesence d'un arriçere-plan complexe. Pour ce faire, les points d'intçerêt sont visualisçes pour l'exemple de la ægure 6.6. La ægure 6.7 montre les points d'intçerêt dçetectçes sur l'image recherchçee. Elle illustre la complexitçe du problçeme de la reconnaissance : il y a nettement plus de points d'intçerêt trouvçes sur l'arriçere-plan que sur l'objet en lui-même. Toutefois, la discriminance de la caractçerisation et l'utilisation des contraintes semi-locales permettent d'çeliminer les points dçetectçes sur l'arriçere-plan. Ceci est conærmçe par la ægure 6.8 qui montre les points d'intçerêt

100 6.3 Rçesultats de reconnaissance 91,! Fig. 6.6 í Exemple de reconnaissance d'un objet tridimensionnel. L'image de droite a çetçe correctement reconnue ça partir de l'image de gauche. appariçes lors du processus de reconnaissance. De plus, les appariements trouvçes permettent de localiser l'objet dans une scçene complexe. Fig. 6.7 í Points d'intçer^et dçetectçes sur l'image recherchçee de la ægure ç Evaluation systçematique Cette section prçesente les rçesultats de reconnaissance d'objets 3D ça partir de n'importe quel point de vue. Par simplicitçe chaque objet est reprçesentçe dans la base par 18 vues espacçees de 20 degrçes. Pour l'çevaluation systçematique les images tests ont çetçe prises en faisant tourner les objet par pas de 10 degrçes. De plus, des images tests donnçe ontçetçe prises sous des angles de vue diæçerents de ceux utilisçes pour les images stockçees dans la base. Le taux de reconnaissance pour un ensemble de 720 images tests est de 99:86è. Notre base d'images contient çegalement les images de la base de Columbia. Cette base, malgrçe ses dçefauts, sert de base de tests ça plusieurs systçemes de reconnaissance. Il

101 92 Chapitre 6 : Modçelisation 2D d'objet 3D Fig. 6.8 í Illustration des points appariçes lors du processus de reconnaissance. L'image de droite a çetçe correctement reconnu ça partir de l'image de gauche. çetait donc intçeressant de tester notre mçethode uniquement sur ces images. En utilisant les mêmes conditions expçerimentales que les autres chercheurs, le taux de reconnaissance a çetçe de 100è ce qui est le même taux que celui obtenu par d'autres chercheurs. Par rapport ça Rao et al. ërao 95ë qui utilisent çegalement une caractçerisation locale, nous utilisons moins de points qu'eux et la dimension de nos caractçeristiques est moindre. Pour mçemoire, Rao utilise des vecteurs qui possçedent 45 composantes, alors que notre caractçerisation ne contient que 9 composantes. De plus, Rao æxe la position des points caractçerisçes sur une grille. La sçelection automatique des points ça caractçeriser et l'utilisation d'invariants permet donc d'obtenir les mêmes rçesultats que Rao avec des coûts nettement infçerieurs. Ceci montre la reprçesentativitçe de la caractçerisation retenue. 6.4 Localisation de donnçees symboliques 3D La modçelisation ça partir d'images 2D ne contient aucune information symbolique 3D. Notre seule information sont les points appariçes. Toutefois, ces points sont la plupart du temps non signiæcatifs dans un contexte d'interprçetation. De plus, ces points varient du fait de l'instabilitçe inhçerente au processus de vision. Nous proposons donc d'ajouter les donnçees symboliques dont on a besoin aux images-modçeles contenues dans la base. Cette section prçesente comment ajouter ces donnçees puis comment les retrouver pour une image recherchçee Ajout de donnçees symboliques Les donnçees symboliques peuvent être ajoutçees n'importe oçu dans l'image. Nous proposons de stocker les coordonnçees 2D correspondant ça ces donnçees dans un æchier attachçe ça l'image modçele. L'ajout peut se faire ça la main ou de façcon semi-automatique par projection des donnçees CAO: ayant repçerçe quelques caractçeristiques particuliçeres, il est possible de calculer la matrice de projection perspective 3D-2D et ensuite l'intçegralitçe des donnçees CAO peut être projetçee sur l'image modçele. Ces donnçees symboliques peuvent être des points, des lignes, des ellipses, des axes de symçetrie ou autres. Bien çevidemment il faut

102 6.4 Localisation de donnçees symboliques 3D 93 Fig. 6.9 í Donnçees symboliques pour l'objet ëdinosaure". avoir une cohçerence entre les donnçees symboliques des diæçerentes images-modçeles d'un m^eme objet. Dans le cadre de ce travail cette cohçerence a çetçe assurçee manuellement. La ægure 6.9 montre les donnçees symboliques dçeænies pour l'objet ëdinosaure". On a marquçe des points intçeressants : l'çil, les doigts, le bout de la queue, etc. Dans le cas d'une tasse, on a ajoutçe les axes de symçetrie et les ellipses caractçeristiques ècf. ægure 6.10è. Fig í Donnçees symboliques pour une tasse. Les donnçees symboliques çetant localisçees dans les images, il est facile de relier ces positions ça tout type d'information symbolique ou numçerique pertinente. Ce peut ^etre le nom d'un point ou ses coordonnçees dans un repçere particulier, ou des informations sur les matçeriaux, etc. En particulier, ce type d'information peut permettre de conna^çtre la position relative des points ce qui est important pour beaucoup d'applications ètçelçeguidage assistçe par ordinateur ou asservissement visuelè.

103 94 Chapitre 6 : Modçelisation 2D d'objet 3D Identiæcation des informations symboliques Ayant ajoutçe des donnçees symboliques, le problçeme est maintenant de les retrouver dans une image inconnue. De fait, les appariements utilisçes lors de la recherche d'image sont connus. La connaissance de relations point ça point entre deux images ne permet malheureusement pas d'çetablir une information projective suæsamment riche pour retrouver de façcon univoque la position des donnçees symboliques. En revanche, il existe une relation univoque point ça point entre tout triplet de points se correspondant. Nous utilisons donc trois images : en plus de l'image recherchçee et de l'image reconnue, nous utilisons une autre image-modçele de la base. Ceci impose de calculer des correspondances entre les imagesmodçeles d'un m^eme objet. Ceci est naturellement eæectuçe hors ligne. On conna^çt dans ces conditions les appariements entre trois images ce qui permet de calculer la relation trilinçeaire existant entre ces images. Cette relation permet de dçeterminer la position d'un point dans une image si l'on conna^çt les positions de ce point dans deux autres images. Dans notre cas, les donnçees symboliques ont çetçe dçeænies pour les deux images-modçeles de la base. En utilisant la relation trilinçeaire on peut donc retrouver ces m^emes donnçees dans l'image recherchçee. Ceci est exposçee schçematiquement sur la ægure Nous allons maintenant prçesenter les çequations importantes de la relation trilinçeaire et montrer comment la mettre en çuvre dans notre cas. Relation trilinçeaire La gçeomçetrie projective a montrçe qu'il existe une relation point ça point entre trois images. On peut se reporter ça ësha 94, Fau 95, Mun 92a, Fau 92bë. Dans la suite, cette relation sera notçee T.L'çequation 6.1 prçesente une forme de cette relation èil en existe en fait quatreè. Cette çequation exprime la contrainte entre les coordonnçees èx; yè, èx 0 ;y 0 è et èx 00 ;y 00 è des projections p, p 0 et p 00 d'un point P dans trois images. ç Etant donnçe un ensemble de correspondances entre ces trois images, il est alors possible de calculer les paramçetres æ ë1::18ë de cette çequation. 8é é: æ 1 + æ 2 x + æ 3 x 00 + æ 4 y + æ 5 y 0 + æ 6 xx 00 + æ 7 yy 0 + æ 8 xy 0 + æ 9 x 00 y+ æ 10 x 00 y 0 + æ 11 x 00 yy 0 + æ 12 xx 00 y 0 = 0 æ 13 + æ 14 x + æ 15 y + æ 16 y 0 + æ 3 y 00 + æ 17 yy 0 + æ 9 yy 00 + æ 10 y 0 y 00 + æ 18 xy 0 + æ 6 xy 00 + æ 12 xy 0 y 00 + æ 11 yy 0 y 00 = 0 è6.1è Il existe plusieurs mçethodes pour calculer la relation trilinçeaire. La mçethode utilisçee ici est une variante de la mçethode proposçee par ëbob 96ë qui est basçee sur une formulation gçeomçetrique prçesentçee dans ëbea 94ë et ëhar 92ë. La mçethode proposçee repose sur l'expression d'une reconstruction implicite du modçele observçe. Le calcul de la relation trilinçeaire est trçes sensible aux fausses correspondances. Il est donc nçecessaire de rejeter celles-ci. Notre mçethode de calcul utilise une mçethode de moindres carrçes mçedians. Ceci autorise jusqu'ça 50è de fausses correspondances. D'autre part, le rejet eæectuçe par la mçethode de calcul introduit une contrainte de cohçerence globale sur les donnçees mises en correspondance.

104 6.4 Localisation de donnçees symboliques 3D 95 données stockées T données calculées image recherchée Fig í Etant ç donnçees deux images-modçeles de la base pour lesquelles les donnçees symboliques sont connues, la relation trilinçeaire T permet de retrouver ces donnçees sur l'image recherchçee.

105 96 Chapitre 6 : Modçelisation 2D d'objet 3D Dçetermination de la position des donnçees symboliques çetant donnçee une relation trilinçeaire entre trois images et un ensemble de points correspondants entre deux de ces images, les positions de ces points peuvent être directement calculçees dans la troisiçeme image. Il est donc possible de calculer les positions des donnçees symboliques dans une image si on conna^çt les positions de ces donnçees dans deux autres images. La ægure 6.11 illustre le principe de ce calcul. Ce calcul est dçetaillçe par la suite. Soient I 0 et I 00 deux images-modçeles pour lesquelles on conna^çt la position des donnçees symboliques et soit I une image pour laquelle on recherche ces donnçees. En utilisant la relation trilinçeaire T, c'est-ça-dire les coeæcients æ ë1::18ë, les positions correspondantes peuvent être calculçees dans l'image I ça partir de l'çequation 6.2. Cette çequation montre que le calcul d'une position èx; yè est obtenue par la rçesolution d'un systçeme linçeaire. 8é é: èæ 1 + æ 3 x 00 + æ 5 y 0 + æ 10 x 00 y 0 è+ èæ 2 + æ 6 x 00 + æ 8 y 0 + æ 12 x 00 y 0 èx +èæ 4 + æ 9 x 00 + æ 7 y 0 + æ 11 x 00 y 0 èy = 0 èæ 13 + æ 16 y 0 + æ 3 y 00 + æ 10 y 0 y 00 è+ èæ 14 + æ 18 y 0 + æ 6 y 00 + æ 12 y 0 y 00 èx +èæ 15 + æ 17 y 0 + æ 9 y 00 + æ 11 y 0 y 00 èy = 0 è6.2è Il faut noter que si les coordonnçees tridimensionnelles de ces donnçees symboliques sont connues, il est alors facile de dçeterminer l'attitude de l'objet dans le repçere de la camçera. çetant donnçes les appariements entre une image recherchçee et l'image modçele lui correspondant, il faut retrouver les donnçees symboliques sur l'image recherchçee. La ægure 6.9 ça la section prçecçedente prçesente les donnçees symboliques attachçees ça l'image-modçele ëdinosaure". 6.5 Rçesultats de localisation Cette section prçesente des rçesultats de localisation de donnçees symboliques. La æ- gure 6.12 montre les donnçees symboliques retrouvçees pour une image recherchçee. Si l'on compare ces donnçees aux donnçees ajoutçees ça l'image-modçele ècf. ægure 6.9è, on peut voir que ces donnçees ont çetçe retrouvçees correctement. En outre, la prçecision des donnçees symboliques est bonne : la distance moyenne entre les points retrouvçes et les points rçeels est de 0:23 pixel. Cette prçecision a çetçe çevaluçee en mesurant la distance entre les donnçees retrouvçees et les donnçees dçetectçees manuellement. La ægure 6.13 atteste de la prçecision de la position retrouvçee par un agrandissement de l'çil du ëdinosaure" sur l'image recherchçee. La mçethode robuste de calcul de la relation trilinçeaire a en outre permis de rejeter deux faux appariements. Il est çegalement possible de retrouver les donnçees symboliques en prçesence d'occultations pourvu que suæsamment d'appariements restent pour qu'on puisse dçeterminer la relation trilinçeaire. Pour montrer ce fait, nous avons cachçe la tête du ëdinosaure". La ægure 6.14 montre les donnçees symboliques retrouvçees ça partir de cette image. L'image de gauche est l'image utilisçee pour la recherche sur laquelle sont positionnçees les donnçees retrouvçees. L'image de droite dçevoile l'occultation et montre la prçecision des rçesultats obtenus. La ægure 6.15 montre la rçecupçeration de donnçees symboliques non ponctuelles pour une tasse. L'image recherchçee contient la tasse devant un arriçere-plan complexe et pour une position diæçerente de celle de l'image modçele. Pour dçeænir les ellipses dans les images-modçeles

106 6.5 Rçesultats de localisation 97 Fig í Donnçees symboliques retrouvçees sur l'objet ëdinosaure". Fig í Agrandissement de l'çil du ëdinosaure". Cette ægure atteste de la prçecision avec laquelle les donnçees sont positionnçees sur l'image recherchçee.

107 98 Chapitre 6 : Modçelisation 2D d'objet 3D Fig í Exemple de rçecupçeration de donnçees symboliques en prçesence d'occultations. L'image de gauche est l'image utilisçee pour la recherche sur laquelle sont positionnçees les donnçees retrouvçees. L'image de droite dçevoile l'occultation et montre la prçecision des rçesultats obtenus. 8 points ont çetçe utilisçes par ellipse. Pour chaque ellipse, ces 8 points ont çetçe projetçes sur l'image recherchçee aæn de calculer les çequations de l'ellipse sur l'image recherchçee. Fig í Donnçees symboliques retrouvçees sur l'objet Tasse. 6.6 Conclusion La modçelisation 3D ça partir d'images 2D permet de reconna^çtre un objet 3D en prçesence d'occultations, de scçenes comportant un arriçere-plan complexe et dans le cas de positions diæçerentes. Comme la reconnaissance se traduit par une recherche d'image, on peut appliquer l'algorithme dçeveloppçe au chapitre prçecçedent. La reconnaissance est donc

108 6.6 Conclusion 99 robuste dans les mêmes conditions et applicable pour n'importe quel type d'images. En outre, la modçelisation proposçee repose sur des images, c'est-ça-dire sur des donnçees rçeelles. En eæet, nous utilisons ce qui est perçcu èdçetectçeè rçeellement dans les images et pas ce qui doit être vu dans les images èet qui correspond ça ce qu'un humain voudrait voir dçetectçeè. Nous nous aæranchissons ainsi des problçemes classiques de la modçelisation, notamment de celui de dçetecter dans les images des donnçees abstraites, comme les donnçees CAO ou les donnçees utilisçees pour les graphes d'aspect. Toutefois, la modçelisation ça partir d'images 2D prçesente le dçesavantage de ne pas contenir d'information symbolique 3D. On conna^çt les appariements entre les deux images, mais ces appariements ne correspondent pas ça des donnçees symboliques de l'objet. Il est donc impossible de retrouver par exemple l'anse d'une tasse. De plus, pour reconna^çtre correctement un objet il n'est pas nçecessaire de dçetecter tous les points contenus dans la base, mais uniquement un sous-ensemble. On n'est donc pas sûr de retrouver un point d'intçerêt particulier. En eæet, l'information symbolique doit être indçependante du processus d'appariement. Nous proposons donc d'ajouter des donnçees symboliques aux images-modçeles. Ensuite ces donnçees symboliques sont projetçees sur l'image recherchçee en utilisant la relation trilinçeaire calculçee ça partir des appariements. Une amçelioration possible de la mçethode proposçee serait d'ajouter un mçecanisme d'apprentissage ou ëclustering" pour le choix des images-modçeles. Ceci permettrait un espacement non rçegulier de ces images pour la reprçesentation d'un objet. Ceci tiendrait compte du fait que les images-modçeles se ressemblent plus ou moins suivant le point de vue utilisçe pour observer l'objet, et qu'elles sont plus ou moins stables. Il s'agit lça d'une extension dçetaillçee dans les perspectives de ce travail èvoir le chapitre 7 suivantè. Ayant retrouvçe l'image-modçele correspondant ça l'image r

109

110 Chapitre 7 Conclusion et perspectives Dans cette thçese a çetçe dçeveloppçee une mçethode d'appariement entre images qui est robuste et capable de s'aæranchir des limites des mçethodes existantes. En outre, cette mçethode a permis de poser de façcon originale le problçeme de la perception et de la modçelisation d'objets tridimensionnels. Ces deux points constituent les contributions majeures de notre travail. Les sections suivantes prçesentent tout d'abord un rçesumçe de notre travail et exposent ensuite les perspectives ouvertes. 7.1 Une mçethode d'appariement robuste Notre mçethode d'appariement est robuste : elle permet de æltrer les diæçerents types d'erreurs qui apparaissent pendant l'çetape de prçetraitement d'une image. Les origines de cette robustesse sont multiples. Premiçerement, la distance de Mahalanobis permet de tenir compte de l'incertitude des vecteurs de caractçeristiques qui peut appara^çtre ça cause du bruit dans les images ou de l'instabilitçe de la position des points d'intçerêt. Deuxiçemement, des contraintes de cohçerence semi-locale permettent un æltrage des appariements obtenus, qui est rçesistant aux erreurs de dçetection. Troisiçemement, un algorithme de vote fait çemerger une cohçerence globale des dçetections et des appariements calculçes. Ceci permet de s'aæranchir du bruit de fond des images et augmente encore la robustesse de la dçetection. La mçethode d'appariement dçeveloppçee est basçee sur une caractçerisation locale du signal de niveaux de gris. Cette caractçerisation est calculçee aux points d'intçerêt. De ce fait, elle reprçesente une information trçes riche. Nous avons vu qu'ça partir de seulement quelques vecteurs de caractçeristiques d'une image, il est possible d'identiæer l'image correspondante dans une base d'images. La caractçerisation utilisçee est çegalement invariante pour le groupe des similitudes d'images et permet d'apparier des images ayant subi de telles transformations. Le groupe des similitudes absorbe au premier ordre les variations dues ça des changements de points de vue lors d'une projection perspective ècf. le papier sur les quasi-invariants de Binford ëbin 93ëè. Notre approche est donc robuste ça une telle transformation. L'utilisation de points d'intçerêt permet de manipuler des familles trçes gçençerales d'images et d'objets, parce qu'ils peuvent être extraits ça partir de n'importe quel type de scçene. En 101

111 102 Chapitre 7 : Conclusion et perspectives outre, les rçesultats obtenus ne sont pas conditionnçes ça la dçetection de segments ni même de contours. Toutefois, dans le cas d'images ne comportant que des objets sans nuance de texture et avec des contours francs, l'apport de notre mçethode est nettement moins signiæcative. 7.2 Une modçelisation 3D pour la reconnaissance La mçethode d'appariement dçeveloppçee dans ce travail permet une modçelisation tridimensionnelle ça partir d'images bidimensionnelles. L'idçee principale est de rester le plus ëproche" possible des donnçees. On ëapprend" donc des modçeles ça partir de donnçees de même type que celles qui seront ça reconna^çtre, c'est-ça-dire ça partir d'images et non de donnçees artiæcielles, de type CAO par exemple. Dans ce but, il est nçecessaire de dçeterminer les images-modçeles qui reprçesentent un objet donnçe. Uniquement un sous-ensemble de toutes les vues possibles est nçecessaire pour reprçesenter un objet, car les caractçeristiques utilisçees sont des quasi-invariants des transformations perspectives. Toutefois, une telle modçelisation n'inclut pas d'information de nature tridimensionnelle. Nous proposons donc d'ajouter aux images modçeles des donnçees symboliques 3D, comme par exemple des axes de symçetrie, des points particuliers, des contours, etc. Pour toute nouvelle image d'un objet reprçesentçe dans la base il est ensuite possible de ëretrouver", c'est-ça-dire de localiser cette information sans mettre en jeu d'algorithme de dçetection. Cette localisation est rçealisçee en couplant les appariements obtenus au tenseur trilinçeaire liant trois images. Un calcul robuste de ce tenseur permet un positionnement prçecis de l'information symbolique 3D dans la nouvelle image. Cette approche permet de traiter des objets pour lesquels il n'çetait pas possible jusqu'ça prçesent d'obtenir une modçelisation en utilisant les algorithmes actuels de vision par ordinateur. Ces rçesultats autorisent la manipulation automatisçee d'objets observçes par exemple en commande rçefçerencçee vision ècf. ëesp 92ëè. 7.3 Perspectives L'approche dçeveloppçee doit être considçerçee comme une premiçere rçealisation. De nombreuses extensions sont possibles. Il faudrait tout d'abord devenir plus robuste ça des changements complexes de luminositçe. Ensuite on souhaite pouvoir traiter des bases de taille plus grande. Gçerer des objets gçençeriques, c'est-ça-dire des classes d'objets, est çegalement un but ça atteindre. Rçesoudre ces problçemes au moins partiellement permet de mettre en place un grand nombre d'applications Changement complexe de luminositçe Concernant la caractçerisation des points d'intçerêt, il faut rendre cette caractçerisation plus indçependante des conditions d'çeclairage èou la plus invariante possibleè. Nous avons pu voir dans le cas d'un changement de luminositçe que nous ne pouvons pas utiliser la moyenne des intensitçes lumineuses autour d'un point. Toutefois, l'information de luminance est reprçesentative d'un point. Dans ce contexte, l'çetude de la couleur est une voie intçeressante. Pour ce faire, il reste ça çetudier comment les indices colorimçetriques peuvent s'aæranchir de l'incidence de la source lumineuse. La rçeponse n'est pas simple : ainsi en

112 7.3 Perspectives 103 couleur peu saturçee, seule la luminance apporte une information signiæcative;ça l'inverse en couleur saturçee, la simple information colorimçetrique contient une grande partie de l'information. On peut espçerer qu'en ajoutant des invariants colorimçetriques un gain signiæcatif sera obtenu. Les invariants colorimçetriques permettront de garder cette information de luminance, sous une forme invariante ça un changement de luminositçe Large base d'images Obtenir une caractçerisation plus discriminante est certainement un premier pas pour pouvoir traiter de larges bases d'images. Pour ce faire, il est envisageable d'utiliser la couleur, d'ajouter d'autres descripteurs et d'intçegrer l'utilisation d'autres primitives. Toutefois, il est çegalement nçecessaire d'organiser la base pour pouvoir traiter de larges quantitçes de donnçees. On peut prçevoir une modçelisation plus compacte d'un objet, la pondçeration par des probabilitçes et une vçeriæcation supplçementaire par une contrainte de cohçerence globale. Enæn la gçençeralisation, c'est-ça-dire la catçegorisation des images, permettra de partitionner la base d'images. Utilisation de la couleur L'utilisation de la couleur apporte de l'information supplçementaire. Dans le cas d'images en noir et blanc nous avons une information par point de l'image par rapport ça trois informations dans le cas d'images couleur. Ceci permet donc d'obtenir des vecteurs de caractçeristiques plus longs et donc plus discriminants. Il est ainsi possible de diæçerencier plus d'objets. Ajout d'autres descripteurs Une autre piste pour devenir plus discriminant est l'utilisation d'autres descripteurs. Ceci permettra d'enrichir la caractçerisation des points d'intçerêt. Notre caractçerisation repose sur la dçecomposition du signal dans une base de fonctions : les invariants sont des compositions des projections du signal sur une base de dçerivçees de gaussiennes. Il semble intçeressant de comparer la caractçerisation choisie avec d'autres caractçerisations, c'est-ça-dire avec d'autres bases de fonctions. Des exemples d'autres caractçerisations ont çetçe prçesentçes ça la section 3.1. Intçegration avec d'autres primitives de l'image On peut çegalement utiliser d'autres primitives, comme par exemple les segments. Ceci apporte une information supplçementaire et indçependante qui enrichit la caractçerisation. Une rçealisation possible est de combiner les vecteurs d'invariants avec des invariants gçeomçetriques entre point et segment. Utiliser d'autres primitives prçesente comme deuxiçeme avantage de pouvoir traiter tout type de scçene. Pour beaucoup d'images, notamment des images qui contiennent de la texture, le choix des points d'intçerêt est valable. Toutefois, pour des scçenes simples, comportant par exemple les objets polyçedriques, le nombre de points d'intçerêt est limitçe. Dans ce cas, l'identiæcation devient plus diæcile. L'utilisation d'autres caractçeristiques, comme les segments, s'avçere donc nçecessaire.

113 104 Chapitre 7 : Conclusion et perspectives Modçelisation plus compacte d'un objet 3D Dans ce travail un objet 3D est modçelisçe par des images. Rçeduire le nombre d'images par objet augmente le nombre d'objets qui peuvent être modçelisçes. On aimerait donc modçeliser un objet de la maniçere la plus compacte possible. Pour l'instant les vues sont çequi-rçeparties. Un tel espacement n'est pas optimal, car il y a des zones d'un objet qui sont plus stables que d'autres. En utilisant un espacement non çequi-rçeparti, on obtiendra une reprçesentation plus compacte. Pour ce faire, il faut être capable de rçeunir dans un groupe èclusteringè des images voisines, et de lça en tirer les caractçeristiques stables. Ceci suit l'approche de modçelisation commencçee par Patrick Gros ëgro 95ë. Dans la mesure oçu notre algorithme de mise en correspondance permet d'induire une distance, cette extension ne devrait pas poser de diæcultçe majeure. Pondçeration par des probabilitçes Parmi les vecteurs de caractçeristiques stockçes dans la base, un certain nombre sont reprçesentatifs de plusieurs objets. D'autres dçecrivent uniquement un objet. Une pondçeration par des probabilitçes conditionnelles permet de donner moins d'importance ça des vecteurs peu discriminants. Pour dçevelopper une telle mçethode, nous proposons d'utiliser la distribution des invariants de la base d'image pour conna^çtre la discriminance d'un invariant donnçe. Si ça un invariant la fonction de densitçe des invariants est faible, cela signiæe que l'invariant appara^çt peu souvent dans la base et qu'il est donc reprçesentatif d'un objet. Au contraire, un invariant correspondant ça une valeur importante de la fonction de densitçe est partagçe par plusieurs objets. L'inverse de la fonction de densitçe peut donc être utilisçee comme facteur de pondçeration dans l'algorithme de recherche. Vçeriæcation par cohçerence globale La mçethode dçeveloppçee dans ce travail utilise des invariants locaux et des contraintes semi-locales. Nous avons vu, lors de la reconnaissance d'objet 3D et du calcul de la relation trilinçeaire entre 3 images, qu'il est possible d'çeliminer des erreurs d'appariement par l'utilisation d'une contrainte globale. Dans le cas de la reconnaissance d'objets 3D, cette contrainte est implicitement contenue dans la relation trilinçeaire et dans l'utilisation d'une mçethode statistique robuste qui rejette les outliers. Nous proposons comme perspective d'utiliser une contrainte globale entre deux images pour pouvoir çeliminer des faux appariements. Ceci permettra d'augmenter le taux de reconnaissance et de distinguer deux objets trçes similaires par leur structure locale Gçençeralisation La gçençeralisation permet de dçecrire des concepts, comme par exemple un visage, un chien ou une æeur. Pour ce faire, on peut çevidemment stocker toutes les images possibles qui reprçesentent un concept, mais ceci est coûteux et rarement exhaustif. Il s'agit donc de trouver des descripteurs qui reprçesentent un concept. La ægure 7.1 illustre ceci pour l'exemple des visages. On peut voir que les nez de diæçerentes personnes se ressemblent plus que l'çil et le nez. Ce fait permet d'apprendre des descripteurs locaux. Ceci peut se faire ça partir de nos invariants en utilisant une distance adaptçee qui est basçee sur des matrices de covariance spçeciæques ça la variabilitçe

114 7.3 Perspectives 105 Fig. 7.1 í Illustration du principe de la gçençeralisation des invariants pour un type de point. On obtient ainsi une distance spçeciæque par type permettant de savoir de quel type est un point donnçe. Ceci permet de regrouper tous les points d' un type donnçe. Apprendre des descripteurs locaux est çegalement possible ça partir de critçeres locaux de texture ou de couleur. Il faudra cependant veiller ça rester robuste comme cela a çetçe notre ligne directrice dans ce travail ; cela signiæe en particulier ne pas se reposer sur la segmentation en rçegion ; ce type de segmentation est par expçerience la plus fragile de toutes. Enæn il faut relier toutes ces informations et modçeliser leurs dçependances gçeomçetriques. Pour rçesoudre ce problçeme on peut s'imaginer d'ajouter des relations globales ou probabilistes entre ces descripteurs, comme par exemple les rçeseaux bayçesiens. En conclusion, la gçençeralisation est un problçeme de recherche ça long terme qui a de nombreuses applications. Elle permet par exemple de partitionner une base d'images ce qui est important de le contexte de large base d'images. Ainsi pour rechercher une nouvelle image, on dçetermine que c'est un visage et ensuite on recherche uniquement dans la sous-base des visages. La gçençeralisation rend çegalement possible l'interrogation de base d'images Applications Nous prçesentons dans cette section deux applications qui nous semblent particuliçerement intçeressantes : l'interrogation de larges bases d'images et la modçelisation d'une scçene 3D par des images. Pour pouvoir interroger des base d'images, il est indispensable d'avoir rçesolu le problçeme de la gçençeralisation, c'est-ça-dire d'être capable de dçeænir des mesures de similaritçe. Et pour pouvoir modçeliser une scçene 3D, il faut être capable de traiter de grandes bases d'images. Interrogation de larges bases d'images Le but est de pouvoir rçepondre ça des requêtes par analogie comme par exemple : ëje souhaite voir les images qui ont tel aspect". On veut par exemple trouver dans une large base d'images des images qui contiennent des visages qui ont des yeux noirs. Il existe aujourd'hui des mçethodes apportant des solutions partielles ça ce problçeme. Un premier type de mçethodes se base sur les histogrammes de couleur. Cependant de telles mçethodes s'avçerent insuæsantes, car il s'agit de mçethodes globales dont le pouvoir

115 106 Chapitre 7 : Conclusion et perspectives discriminant est limitçe. Il est par exemple impossible avec ces mçethodes de distinguer entre un champ de æeurs rouges et un camion de pompier. En outre, l'aspect d'un objet ne se rçesume pas ça sa couleur qui peut varier. D'autres mçethodes utilisent la texture des objets. Ces mçethodes reposent sur la distribution statistique de textures particuliçeres dans l'image. Toutefois, l'inconvçenient majeur de ces mçethodes est qu'elles procçedent par une mesure globale ; ceci limite çenormçement le domaine d'application. Un autre type de mçethodes d'interrogation de bases d'image utilise des systçemes basçes sur l'information textuelle. De tels systçemes permettent de retrouver facilement les images associçees ça une information particuliçere. Toutefois, le texte est ajoutçeça priori et souvent peu reprçesentatif. En outre, l'ajout doit se faire de façcon manuelle et est donc coûteux. Nous proposons d'indexer par le contenu des images. Cette recherche doit être basçee sur une mesure de ressemblance intçegrant la notion de gçençeralisation. En outre, une interrogation doit se faire en interaction avec l'utilisateur qui dçeænit dynamiquement les critçeres de sa recherche. Modçelisation de scçene 3D La modçelisation d'une scçene 3D ça partir d'images bidimensionnelles est une extension de la modçelisation compacte d'un objet 3D. On peut imaginer de modçeliser un espace 3D par une collection d'images et ensuite d'utiliser cette collection d'images comme base de reprçesentation pour se dçeplacer dans l'espace. Avec des outils capables de retrouver une posture ça partir de milliers d'images, on peut espçerer se positionner par rapport ça des points d'observation utilisçes lors de l'apprentissage. Reste alors ça voir comment on peut dçeterminer les positions spatiales en fonction de l'image qui lui çetait prçesentçee, et comment la combiner avec les images voisines. Ceci peut être appliquçe ça des tâches de positionnement relatif.

116 Bibliographie ëack 84ë F. Ackermann. Digital image correlation : performance and potential application in photogrammetry. Photogrammetric Record, 64è11è: 429í439, ëasa 86ë H. Asada et M. Brady. The curvature primal sketch. Ieee Transactions on Pattern Analysis and Machine Intelligence, 8è1è: 2í14, ëaya 86ë N. Ayache et O. Faugeras. HYPER : a new approach for the recognition and positioning of 2D objects. Ieee Transactions on Pattern Analysis and Machine Intelligence, 8è1è: 44í54, ëbal 81ë D. H. Ballard. Generalizing the Hough transform to detect arbitrary shapes. Pattern Recognition, 13è2è: 111í122, ëbau 96ë C. Bauckhage et C. Schmid. Evaluation of keypoint detectors. Rapport technique, Inria, ëbea 78ë P.R. Beaudet. Rotationally invariant image operators. Dans Proceedings of the 4th International Joint Conference on Pattern Recognition, pages 579í583, ëbea 94ë P. Beardsley, A. Zisserman et D. Murray. Sequential update of projective and aæne structure from motion. Rapport technique 2012è94, University of Oxford, ëber 94ë M. Berthod et G. Giraudon. About grey-level invariants. Vçersion prçeliminaire non publiçee, ëbes 85ë P.J. Besl et R.C. Jain. Three-dimensional object recognition. Acm Computing Surveys, 17è1è: 75í145, ëbig 94ë J. Bigíun et M.H. du Buf. N-folded symmetries by complex moments in gabor space and their application to unsupervised texture segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 16è1è: 80í87, ëbig 95ë J. Bigíun. Pattern recognition in images by symmetries and coordinate transformations. Computer Vision and Image Understanding, Soumis. ëbin 93ë T.O. Binford et T.S. Levitt. Quasi-invariants : theory and exploitation. Dans Proceedings of Darpa Image Understanding Workshop, pages 819í829,

117 108 Bibliographie ëbob 96ë P. Bobet, J. Blanc et R. Mohr. Aspects cachçes de la trilinçearitçe. Dans Actes du 10çeme Congrçes AFCET de Reconnaissance des Formes et Intelligence Artiæcielle, pages 137í146, ëbol 86ë R. C. Bolles et R. Horaud. 3DPO : a three-dimensional part orientation system. International Journal of Robotics Research, 5è3è: 3í26, ëbou 95ë B. Boufama et R. Mohr. Epipole and fundamental matrix estimation using the virtual parallax property. Dans Proceedings of the 5th International Conference on Computer Vision, pages 1030í1036, ëbow 91ë K. Bowyer. Why aspect graphs are not èyetè practical for computer vision. Dans Proceedings of the Ieee Workshop on Direction on automated CAD-based Vision, pages 97í104, ëbra 87ë M. Brady. Seeds of perception. Dans Proceedings of the 3rd Alvey Vision Conference, pages 259í265, ëbra 94ë P. Brand et R. Mohr. Accuracy in image measure. Dans Proceedings of the Spie Conference on Videometrics III, volume 2350, pages 218í228, ëbra 95ë P. Brand. Reconstruction tridimensionnelle d'une scçene ça partir d'une camçera en mouvement : de l'inæuence de la prçecision. Thçese de doctorat, Universitçe Claude Bernard, Lyon I, ëbro 83ë R. A. Brooks. Model-based three-dimensional interpretations of two-dimensional images. Ieee Transactions on Pattern Analysis and Machine Intelligence, 5è2è: 140í150, ëbur 81ë P. J. Burt. Fast ælter transforms for image processing. Computer Graphics and Image Processing, 16: 20í51, ëbur 90ë J. B. Burns, R. Weiss et E. M. Riseman. View variation of point set and line segment features. Dans Proceedings of Darpa Image Understanding Workshop, pages 650í659, ëcal 94ë A. Califano et R. Mohan. Multidimensional indexing for recognizing visual shapes. Ieee Transactions on Pattern Analysis and Machine Intelligence, 16è4è: 373í392, ëcan 86ë J. Canny. A computational approach to edge detection. Ieee Transactions on Pattern Analysis and Machine Intelligence, 8è6è: 679í698, ëche 91ë C.H. Chen et P.G. Mulgaonkar. CAD-based feature-utility measures for automatic vision programming. Dans Proceedings of the Ieee Workshop on Direction in Automated CAD-Based Vision, pages 106í114, ëchi 86ë R. T. Chin, H. Smith et S. C. Fralick. Model-based recognition in robot vision. ACM Computing Surveys, 18è1è: 67í108, ëcle 90ë D. J. Clemens et D. W. Jacobs. Model-group indexing for recognition. Dans Proceedings of Darpa Image Understanding Workshop, pages 604í613, 1990.

118 Bibliographie 109 ëcot 94ë J. C. Cottier. Extraction et appariements robustes des points d'intçer^et de deux images non çetalonnçees. Stage de ma^çtrise, ëcro 81ë J. L. Crowley. A representation for visual information. Thçese de doctorat, Carnegie-Mellon University, ëcro 84ë J. L. Crowley et A. C. Parker. A representation for shape based on peaks and ridges in the diæerence of low pass transform. Ieee Transactions on Pattern Analysis and Machine Intelligence, 6è2è: 156í170, ëder 90ë R. Deriche et G. Giraudon. Accurate corner detection : an analytical study. Dans Proceedings of the 3rd International Conference on Computer Vision, ëder 93aë R. Deriche. Recursively implementing the gaussian and its derivatives. Rapport technique, Inria, ëder 93bë R. Deriche et T. Blaszka. Recovering and characterizing image features using an eæcient model based approach. Dans Proccedings of the Conference on Computer Vision and Pattern Recognition, pages 530í535, ëder 93cë R. Deriche et G. Giraudon. A computational approach for corner and vertex detection. International Journal of Computer Vision, 10è2è: 101í124, ëder 94ë R. Deriche, Z. Zhang, Q.-T. Luong et O. Faugeras. Robust recovery of the epipolar geometry for an uncalibrated stereo rig. Dans Proceedings of the 3rd European Conference on Computer Vision, pages 567í576, ëdie 94ë M. Van Diest, L. Van Gool, T. Moons et E. Pauwels. Projective invariants for planar contour recognition. Dans Proceedings of the 3rd European Conference on Computer Vision, pages 527í534, ëdre 82ë L. Dreschler et H.-H. Nagel. Volumetric model and 3D trajectory of a moving car derived from monocular tv frame sequences of a street scene. Computer Graphics and Image Processing, 20: 199í228, ëegg 89ë D. Eggert et K. Bowyer. Computing the orthographic projection aspect graph of solid of revolution. Dans Proceedings of the Ieee Workshop on Interpretation of 3D Scenes, pages 102í108, ëesp 92ë B. Espiau, F.Chaumette et P. Rives. A new approach to visual servoing in robotics. Ieee Transactions on Robotics and Automation, 8è3è: 313í326, ëfau 86ë O. Faugeras et M. Hebert. The representation, recognition, and locating of 3-D objects. International Journal of Robotics Research, 5: 27í52, ëfau 92aë O. Faugeras, P. Fua, B. Hotz, R. Ma, L. Robert, M. Thonnat et Z. Zhang. Quantitative and qualitative comparisons of some area and feature-based stereo algorithms. Dans Robust Computer Vision, pages 1í26, ëfau 92bë O. Faugeras, Q.-T. Luong et S. J. Maybank. Camera self-calibration: theory and experiments. Dans Proceedings of the 2nd European Conference on Computer Vision, pages 321í334, 1992.

119 110 Bibliographie ëfau 95ë O. Faugeras et B. Mourrain. On the geometry and algebra of the point and line correspondences between n images. Dans Proceedings of the 5th International Conference on Computer Vision, pages 951í956, ëfle 91ë ëflo 93ë ëflo 94ë D. J. Fleet, A. D. Jepson et M. R. M. Jenkin. Phase-base disparity measurement. Computer Vision Graphics and Image Processing, 53è2è: 198í210, L. M. J. Florack. The syntactical structure of scalare images. Thçese de doctorat, Universiteit Utrecht, L. M. J. Florack, B. M. ter Haar Romeny, J. J. Koenderink et M. A. Viergever. General intensity transformations and diæerential invariants. Journal of Mathematical Imaging and Vision, 4: 171í187, ëfíor 87ë W. Fíorstner et Gíulch. A fast operator for detection and precise location of distinct points, corners and circular features. Dans Intercommission Conference on Fast Processing of Photogrammetric Data, pages 281í305, ëfíor 94ë W. Fíorstner. A framework for low level feature extraction. Dans Proceedings of the 3rd European Conference on Computer Vision, ëfre 91ë W. T. Freeman et E. H. Adelson. The design and use of steerable ælters. IEEE Transactions on Pattern and Machine Intelligence, 13è9è: 891í906, ëfun 95ë B. Funt et G. Finlayson. Color constant color indexing. IEEE Transactions on Pattern and Machine Intelligence, 17è5è:522í529, ëgab 46ë D. Gabor. Theory of communication. Proceedings of Inst. Elec. Eng., 93è26è: 429í441, ëgda 96ë Y. Gdalyahu et D. Weinshall. Measures for silhouettes resemblance and representative silhouettes of curved objects. Dans Proceedings of the 4th European Conference on Computer Vision, pages 363í375, ëgig 91ë Z. Gigus, J. Canny et R. Seidel. Eæciently computing and representing aspect graphs of polyhedral objects. Ieee Transactions on Pattern Analysis and Machine Intelligence, 13è6è: 542í551, ëgir 91ë G. Giraudon et R. Deriche. On corner and vertex detection. Dans Proceedings of the Conference on Computer Vision and Pattern Recognition, pages 650í655, ëgoo 96ë L. Van Gool, T. Moons et D. Ungureanu. Aæne è photometric invariants for planar intensity patterns. Dans Proceedings of the 4th European Conference on Computer Vision, pages 642í651, ëgra 91ë A. E. Grace et M. Spann. A comparison between Fourier-Mellin descriptors and moment based features for invariant object recognition using neural networks. Pattern Recognition Letters, 12: 635í643, ëgri 87ë W. E..L. Grimson et T. Lozano-Perez. Localizing overlapping parts by searching the interpretation tree. Ieee Transactions on Pattern Analysis and Machine Intelligence, 9:è4è 469í482, 1987.

120 Bibliographie 111 ëgri 89ë ëgri 90ë W. E. L. Grimson. On the recognition of curved objects. Ieee Transactions on Pattern Analysis and Machine Intelligence, 11è3è: 632í643, W. E. L. Grimson et D. P. Huttenlocher. On the sensitivity of the Hough transform for object recognition. Ieee Transactions on Pattern Analysis and Machine Intelligence, 12è3è: 225í274, ëgro 92ë P. Gros et L. Quan. Projective invariants for vision. Rapport technique RT 90 IMAG - 15 LIFIA, Grenoble, ëgro 95ë P. Gros. Matching and clustering: Two steps towards object modelling in computer vision. International Journal of Robotics Research, 14è6è: 633í642, ëmor 83ë A. Grossmann et J. Morlet. Decomposition of Hardy functions into square integrable wavelets of constant shape. SIAM J. Math., 15: 723í736, ëhar 88ë C. Harris et M. Stephens. A combined corner and edge detector. Dans Proceedings of the 4th Alvey Vision Conference, pages 147í151, ëhar 92ë R. Hartley. Invariants of points seen in multiple images. Rapport technique, G.E. CRD, Schenectady, ëheb 85ë M. Hebert et T. Kanade. The 3D proæle method for object recognition. Dans Proceedings of the Conference on Computer Vision and Pattern Recognition, ëhei 92ë F. Heitger, L. Rosenthaler, R. von der Heydt, E. Peterhans et O. Kuebler. Simulation of neural contour mechanism: from simple to end-stopped cells. Vision Research, 32è5è: 963í981, ëhil 93ë D. Hilbert. Ueber die vollen Invariantensystemen. Math. Annalen, 42: 313í373, ëhor 89ë R. Horaud et T. Skordas. Stereo correspondence through feature grouping and maximal cliques. Ieee Transactions on Pattern Analysis and Machine Intelligence, 11è11è: 1168í1180, ëhor 90ë R. Horaud, T. Skordas et F. Veillon. Finding geometric and relational structures in an image. Dans Proceedings of the 1st European Conference on Computer Vision, pages 374í384, ëhu 62ë ëhu 94ë M. K. Hu. Visual pattern recognition by moment invariants. Ieee Transactions on Information Theory, 8: 179í187, X. Hu et N. Ahuja. Feature extraction and matching as signal detection. International Journal of Pattern Recognition and Artiæcial Intelligence, 8è6è: 1343í1379, ëhut 90ë D. P. Huttenlocher et S. Ullman. Recognizing solid objects by alignment with an image. International Journal of Computer Vision, 5è2è: 195í212, 1990.

121 112 Bibliographie ëike 88ë ëjac 91ë K. Ikeuchi et T. Kanade. Applying sensor models to automatic generation of object recognition programs. Dans Proceedings of the 2nd International Conference on Computer Vision, pages 228í237, L. Jacobson et H. Wechsler. Derivation of optical æow using a spatiotemporalfrequency approach. Computer Vision, Graphics and Image Processing, 38: 29í 65, ëkim 94ë W.-Y. Kim et P. Yuan. A practical pattern recognition system for translation, scale and rotation invariance. Dans Proceedings of the Conference on Computer Vision and Pattern Recognition, pages 391í396, ëkit 82ë L. Kitchen et A. Rosenfeld. Gray-level corner detection. Pattern Recognition Letters, 1: 95í102, ëkoe 79ë J. J. Koenderink et A. V. van Doorn. The internal representation of solid shape with respect to vision. Biological Cybernetics, 32: 211í216, ëkoe 84ë J. J. Koenderink. The structure of images. Biological Cybernetics, 50: 363í396, ëkoe 87ë J. J. Koenderink et A. J. van Doorn. Representation of local geometry in the visual system. Biological Cybernetics, 55: 367í375, ëkri 89ë D. J. Kriegman et J. Ponce. Computing exact aspect graphs of curved objects: Solids of revolution. Dans Proceedings of the Ieee Workshop on 3D Scene, pages 116í122, ëkri 90ë D. J. Kriegman et J. Ponce. On recognizing and positioning curved 3-D objets from image contours. Ieee Transactions on Pattern Analysis and Machine Intelligence, 12è12è: 1127í1137, ëlad 93ë M. Lades, J. C. Vorbríuggen, J. Buhmann, J. Lange, C. von der Malsburg, R. P. Wíurtz et W. Konen. Distortion invariant object recognition in the dynamic link architecture. IEEE Transanctions on Computers, 42è3è: 300í311, ëlam 88ë Y. Lamdan, J. T. Schwartz et H. J. Wolfson. Object recognition by aæne invariant matching. Dans Proceedings of the Conference on Computer Vision and Pattern Recognition, pages 335í344, ëlin 94ë T. Lindeberg. Scale-Space Theory in Computer Vision. Kluwer Academic Publishers, ëlon 86ë P. Long et G. Giraudon. Stereo matching based on contextual line-region primitives. Dans Proceedings of the 8th International Conference on Pattern Recognition, ëlot 94ë J. L. Lotti et G. Giraudon. Adaptive window algorithm for aerial image stereo. Dans Proceedings of the 12th International Conference on Pattern Recognition, pages 701í703, 1994.

122 Bibliographie 113 ëlow 86ë D. Lowe. Three-dimensional object recognition from single two-dimensional images. Artiæcial Intelligence, pages 355í395, ëmal 89ë S. G. Mallat. A theory for multiresolution signal decomposition: the wavelet representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 11è7è: 674í693, ëmed 87ë G. Medioni et Y. Yasumoto. Corner detection and curve representation using cubic B-splines. Computer Vision, Graphics and Image Processing, 39è1è: 267í 278, ëmey 91ë Y. Meyer. Ondelettes et fonctions splines. Dans Sem. Equations aux Dçerivçees Partielles, çecole Polytechnique, Paris, ëmok 86ë F. Mokhtarian et A. Mackworth. Scale-based description and recognition of planar curves and two-dimensional shapes. Ieee Transactions on Pattern Analysis and Machine Intelligence, 8è1è: 34í43, ëmor 79ë H. Moravec. Visual mapping by a robot rover. Dans Proceedings of the 6th International Joint Conference on Artiæcal Intelligence, pages 598í600, ëmor 81ë H. Moravec. Rover visual obstacle avoidance. Dans Proceedings of the 7th International Joint Conference on Artiæcal Intelligence, pages 785í790, ëmos 92ë Y. Moses et S. Ullman. Limitations of non modelíbased recognition. Dans Proceedings of the 2nd European Conference on Computer Vision, pages 820í 828, ëmun 90ë J. L. Mundy et A. J. Heller. The evolution and testing of a model-based object recognition system. Dans Proceedings of the 3rd International Conference on Computer Vision, pages 268í282, ëmun 92aë J. L. Mundy et A. Zisserman. Projective geometry for machine vision. Dans Geometric Invariance in Computer Vision, chapitre 23, pages 463í519. MIT Press, ëmun 92bë J. L. Mundy et A. Zisserman. Geometric Invariance in Computer Vision. MIT Press, ëmur 95ë H. Murase et S. K. Nayar. Visual learning and recognition of 3D objects from appearance. International Journal of Computer Vision, 14: 5í24, ënag 83ë H.-H. Nagel. Displacement vectors derived from second order intensity variations in image sequences. Computer Vision, Graphics and Image Processing, 21: 85í 117, ënag 95ë K. Nagao. Recognizing 3D objects using photometric invariant. Dans Proceedings of the 5th International Conference on Computer Vision, pages 480í487, ënay 93ë S. K. Nayar et R. M. Bolle. Computing reæectance ratios from an image. Pattern Recognition, 26è10è: 1529í1542, 1993.

123 114 Bibliographie ënob 88ë J. A. Noble. Finding corners. Image and Vision Computing, 6è2è: 121í128, ëper 95ë P. Perona. Deformable kernels for early vision. Ieee Transactions on Pattern Analysis and Machine Intelligence, 17è5è: 488í499, ëpet 92ë S. Petitjean, J. Ponce et D. J. Kriegman. Computing exact aspect graphs of curved objects : algebraic surfaces. International Journal of Computer Vision, 9è3è: 231í255, ërao 95ë R. P. N. Rao et D. H. Ballard. Object indexing using an iconic sparse distributed memory. Dans Proceedings of the 5th International Conference on Computer Vision, pages 24í31, ërei 95ë D. Reisfeld, H. J. Wolfson et Y. Yeshurun. Context-free attentional operators : the generalized symmetry transform. International Journal of Computer Vision, 14: 119í130, ërem 94ë P. Remagnino, P. Brand et R. Mohr. Correlation techniques in adaptative template matching with uncalibrated cameras. Dans Vision Geometry III, SPIE's international symposium on photonic sensors & control for commercial applications, volume 2356, pages 252í253, ërie 87ë J. H. Rieger. On the classiæcation of views of piecewise smooth objects. Image and Vision Computing, 5è2è: 91í97, ëroh 90ë K. Rohr. Uber í die Modellierung und Identiækation charakteristischer Grauwertverlíaufe in Realwertbildern. Dans 12. DAGM-Symposium Mustererkennung, ëroh 92ë K. Rohr. Recognizing corners by ætting parametric. International Journal of Computer Vision, 9è3è: 213í230, ërom 94aë B. M. ter Haar Romeny. Geometry-Driven Diæusion in Computer Vision. Kluwer Academic Publishers, ërom 94bë B. M. ter Haar Romeny, L. M. J. Florack, A. H. Salden et M. A. Viergever. Higher order diæerential structure of images. Image and Vision Computing, 12è6è: 317í325, ëros 92ë L. Rosenthaler, F. Heitger, O. Kuebler et R. von der Heydt. Detection of general edges and keypoints. Dans Proceedings of the 2nd European Conference on Computer Vision, pages 78í86, ërot 92ë C.A. Rothwell, A. Zisserman, D. A. Forsyth et J. L. Mundy. Canonical frames for planar object recognition. Dans Proceedings of the 2nd European Conference on Computer Vision, pages 757í772, ërot 93ë C.A. Rothwell. Hierarchical object descriptions using invariants. Dans Proceeding of the DarpaíEsprit Workshop on Applications of Invariants in Computer Vision, pages 287í303, 1993.

124 Bibliographie 115 ërub 91ë J. Rubinstein, J. Segman et Y. Zeevi. Recognition of distorted patterns by invariance kernels. Pattern Recognition, 24è10è: 959í967, ësal 92ë A. H. Salden, B. M. ter Haar Romeny, L. M. J. Florack, M. A. Viergever et J. J. Koenderink. A complete and irreducible set of local orthogonally invariant features of 2-dimensional images. Dans Proceedings of the 11th International Conference on Pattern Recognition, pages 180í184, ësan 88ë T. Sanger. Stereo disparity computation using gabor ælters. Biological Cybernetics, 2è59è: 405í418, ësch 95ë H. Schulz-Mirbach. Anwendung von Invarianzprinzipien zur Merkmalgewinnung in der Mustererkennung. Thçese de doctorat, Technische Universitíat Hamburg, ësch 96ë B. Schiele et J. L. Crowley. Object recognition using multidimensional receptive æeld histograms. Dans Proceedings of the 4th European Conference on Computer Vision, pages 610í619, ësha 78ë S. D. Shapiro. Feature space transforms for curve detection. Pattern Recognition, 10è3è: 129í143, ësha 84ë M.A. Shah et R. Jain. Detecting time-varying corners. Computer Vision, Graphics and Image Processing, 28: 345í355, ësha 91ë L. Shapiro et K. Bowyer. Proceedings of the Ieee Workshop on Directions in Automated CAD-Based Vision, ësha 94ë A. Shashua. Trilinearity in visual recognition by alignment. Dans Proceedings of the 3rd European Conference on Computer Vision, pages 479í484, ësla 96ë D. Slater et G. Healey. The illumination-invariant recognition of 3D objects using color invariants. Ieee Transactions on Pattern Analysis and Machine Intelligence, 18è2è: 206í210, ëste 88ë J. Stewman et K. Bowyer. Creating the perspective projection aspect graph of polyhedral objects. Dans Proceedings of the 2nd International Conference on Computer Vision, pages 494í500, ëswa 91ë M. Swain et D. H. Ballard. Color indexing. International Journal of Computer Vision, 32è11è:11í32, ëtea 80ë M. R. Teague. Image analysis via the general theory of moments. Journal of the Optical Society of America, 70: 920í930, ëteh 88ë C.-H. Teh et R. T. Chin. On image analysis by the methods of moments. Ieee Transactions on Pattern Analysis and Machine Intelligence, 10è4è: 496í 513, ëtor 86ë V. Torre et T. A. Poggio. On edge detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 8è2è: 147í163, 1986.

125 116 Bibliographie ëtur 91ë M. A. Turk et A. P. Pentland. Face recognition using eigenfaces. Dans Proceedings of the Conference on Computer Vision and Pattern Recognition, pages 586í591, ëwan 92ë H. Wang et J. M. Brady. Corner detection with subpixel accuracy. Rapport technique OUEL 1925è92, Dept. Engineering Science, Oxford University, ëwei 91ë I. Weiss. Noise-resistant invariant of curves. Dans Proceeding of the Darpaí Esprit Workshop on Applications of Invariants in Computer Vision, pages 319í 344, ëwei 92ë I. Weiss. Noise resistant projective and aæne invariants. Dans Proceedings of the Conference on Computer Vision and Pattern Recognition, pages 115í121, ëwes 92ë C. J. Westelius, H. Knutsson et J. Wiklund. Robust vergence control using scale-space phase information. Rapport technique LiTH-ISY-I-1363, Linkíopings tekniska híogskola, Department of Electrical Engineering, ëwit 83ë A. P. Witkin. Scale-space æltering. Dans Proceedings of the 8th International Joint Conference on Artiæcal Intelligence, pages 1019í1023, ëwol 90ë H. J. Wolfson. Model-based object recognition by geometric hashing. Dans Proceedings of the 1st European Conference on Computer Vision, pages 526í 536, ëwu 95ë X. Wu et B. Bhanu. Gabor wavelets for 3D object recognition. Dans Proceedings of the 5th International Conference on Computer Vision, pages 537í542, ëzab 94ë R. Zabih et J. Woodæll. Non-parametric local transforms for computing visual correspondance. Dans Proceedings of the 3rd European Conference on Computer Vision, pages 151í158, ëzha 89ë J. Zhao. Extraction d'information tridimensionnelle par stçerçeovision. Thçese de doctorat, Universitçe Paul Sabatier, Toulouse, ëzha 95ë Z. Zhang, R. Deriche, O. Faugeras et Q.-T. Luong. A robust technique for matching two uncalibrated images through the recovery of the unknown epipolar geometry. Artiæcial Intelligence, 78: 87í119, ëzis 95ë A. Zisserman, D. A. Forsyth, J. L. Mundy, C. Rothwell, J. Liu et N. Pillow. 3D object recogntion using invariance. Artiæcial Intelligence, 78è1í2è: 239í288, ëzun 83ë O.A. Zuniga et R.M. Haralick. Corner detection using the facet model. Dans Proceedings of the Conference on Computer Vision and Pattern Recognition, pages 30í37, 1983.

126 Annexe A Rçepçetabilitçe des points d'intçer^et sur la scçene ëastçerix" Dans cette annexe, les dçetecteurs de points d'intçer^et sont çevaluçes pour la scçene ëastçerix". Cette annexe donne des rçesultats supplçementaires au chapitre 2. Dans la suite le taux de rçepçetabilitçe est donnçe pour les diæçerentes transformations considçerçees. Rotation image Fig. A.1 í ç A gauche l'image de rçefçerence pour la sçequence rotation image et ça droite l'image avec une angle de rotation de 154 degrçes. 117

127 118 Annexe A : Rçepçetabilitçe des points d'intçer^et sur la scçene ëastçerix" HarrisPrecis Foerstner Cottier Heitger Horaud HarrisPrecis Foerstner Cottier Heitger Horaud taux de repetabilite taux de repetabilite angle de rotation en degres angle de rotation en degres Fig. A.2 í Taux de rçepçetabilitçe pour la sçequence rotation image et la scçene ëastçerix". Pour le graphe de gauche " = 0.5 et pour le graphe de droite " = taux de repetabilite HarrisPrecis 0.2 Foerstner Cottier Heitger Horaud erreur de localisation Fig. A.3 í Taux de rçepçetabilitçe pour un angle de rotation de 93 degrçes et la scçene ëastçerix".

128 119 Changement d'çechelle Fig. A.4 í ça gauche l'image de rçefçerence pour la sçequence changement d'çechelle et ça droite la derniçere image de cette sçequence. Le changement d'çechelle entre les deux est de HarrisPrecis Foerstner Cottier Heitger Horaud HarrisPrecis Foerstner Cottier Heitger Horaud taux de repetabilite taux de repetabilite facteur d echelle facteur d echelle Fig. A.5 í Taux de rçepçetabilitçe pour la sçequence changement d'çechelle et la scçene ëastçerix". Pour le graphe de gauche " = 0.5 et pour le graphe de droite " = taux de repetabilite HarrisPrecis 0.2 Foerstner Cottier Heitger Horaud erreur de localisation Fig. A.6 í Taux de rçepçetabilitçe pour un changement d'çechelle de 1.5 et la scçene ëastçerix".

129 120 Annexe A : Rçepçetabilitçe des points d'intçer^et sur la scçene ëastçerix" Changement de la luminositçe Fig. A.7 í ç A gauche l'image de la sçequence changement uniforme de luminositçe avec un niveau de gris relatif de 0.6 et ça droite l'image avec un niveau de gris relatif de HarrisPrecis Foerstner Cottier Heitger Horaud taux de repetabilite taux de repetabilite HarrisPrecis Foerstner Cottier Heitger Horaud moyenne relatif de nivaux de gris moyenne relatif de niveaux de gris Fig. A.8 í Taux de rçepçetabilitçe pour la sçequence changement uniforme de luminositçe et la scçene ëastçerix". Pour le graphe de gauche " = 0.5 et pour le graphe de droite " = 1.5. Bruit taux de repetabilite taux de repetabilite HarrisPrecis Foerstner Cottier Heitger Horaud nombre d image HarrisPrecis Foerstner Cottier Heitger Horaud nombre d image Fig. A.9 í Taux de rçepçetabilitçe pour la sçequence bruit de la camçera et la scçene ëastçerix". Pour le graphe de gauche " = 0.5 et pour le graphe de droite " = 1.5.

130 121 Comparaison Harris et HarrisPrçecis Harris HarrisPrecis Harris HarrisPrecis taux de repetabilite taux de repetabilite angle de rotation en degres facteur d echelle Fig. A.10 í Comparaison de Harris et HarrisPrçecis. ç A gauche pour la sçequence rotation image et ça droite pour la sçequence changement d'çechelle. La scçene utilisçee est ëastçerix" et " = 1.5. Adaptation ça l'çechelle de HarrisPrçecis Fig. A.11 í Adaptation de HarrisPrçecis ça un changement d'çechelle. La scçene utilisçee est ëvan Gogh" et " = 1.5.

131 122 Annexe A : Rçepçetabilitçe des points d'intçer^et sur la scçene ëastçerix" Cadre multi-çechelle avec HarrisPrçecis 1 HarrisPrecis HarrisPrecis adapte 0.8 taux de repetabilite facteur d echelle Fig. A.12 í Utilisation d'un cadre multi-çechelle pour HarrisPrçecis. La scçene utilisçee est ëvangogh" et " = 1.5.

132 Annexe B çevaluation de l'appariement pour la scçene ësanja" Dans cette annexe l'appariement est çevaluçe pour la scçene ësanja". Cette annexe donne des rçesultats supplçementaire au chapitre 4. Dans la suite le taux d'appariements corrects est donnçe pour les diæçerentes transformations considçerçees. Rotation image % correct PointsPrecis HarrisPrecis Heitger angle de rotation en degres Fig. B.1 í Pourcentage d'appariements corrects pour la sçequence rotation image et la scçene ësanja". Les trois courbes correspondent aux diæçerents dçetecteurs de points d'intçer^et utilisçes : Heitger, HarrisPrçecis et les points prçecis. 123

133 124 Annexe B : ç Evaluation de l'appariement pour la scçene ësanja" % correct sigma=3 sigma=5 sigma= angle de rotation en degres Fig. B.2 í Pourcentage d'appariements corrects pour la sçequence rotation image et la scçene ësanja". Le dçetecteur utilisçe est Heitger. Les diæçerentes courbes correspondent ça diæçerentes tailles ç de gaussienne. Changement d'çechelle % correct PointsPrecis HarrisPrecis Heitger facteur d e chelle Fig. B.3 í Pourcentage d'appariements corrects pour la sçequence changement d'çechelle et la scçene ësanja" en utilisant une approche multi-çechelle. Les trois courbes correspondent aux diæçerents dçetecteurs de points d'intçer^et utilisçes : Heitger, HarrisPrçecis et les points prçecis. La taille moyenne de la gaussienne utilisçee est de 5.

134 HarrisPrecis Heitger 80 % correct facteur d e chelle Fig. B.4 í Pourcentage d'appariements corrects pour la sçequence changement d'çechelle et la scçene ësanja" sans utiliser une approche multi-çechelle. Les deux courbes correspondent aux diæçerents dçetecteurs de points d'intçer^et utilisçes : Heitger et HarrisPrçecis. La taille de la gaussienne utilisçee est de 5. Changement de la luminositçe 100 % correct avec V avec VT avec VA niveau de gris relatif Fig. B.5 í Pourcentage d'appariements corrects pour la sçequence changement uniforme de luminositçe et la scçene ësanja". Les trois courbes correspondent aux diæçerents vecteurs d'invariants utilisçes : ~ V, ~ V T et ~ V A.

135 126 Annexe B : ç Evaluation de l'appariement pour la scçene ësanja" Bruit de la camçera % correct image Fig. B.6 í Pourcentage d'appariements corrects pour la sçequence bruit de la camçera et la scçene ësanja".

136 Annexe C Quelques images de la base Cette annexe prçesente quelques images de la base utilisçee pour nos expçeriences. La ægure C.1 montre quelques images de tableaux et la ægure C.2 quelques images açeriennes. Plus de dçetails sur la base sont donnçe ça la section Fig. C.1 í Quelques images de tableaux de notre base d'images. 127

137 128 Annexe C : Quelques images de la base Fig. C.2 í Quelques images açeriennes de notre base d'images èpropriçetçe d'istarè.

138 Appariement d'images par invariants locaux de niveaux de gris Application ça l'indexation d'une base d'objets Cette thçese s'inscrit dans le domaine de l'appariement, un sujet fondamental en vision par ordinateur. Ce domaine recouvre des problçemes variçes allant de celui de l'appariement entre deux images ça celui de l'appariement d'une image et un modçele CAO. Notre approche permet d'apparier des objets s'ils sont observçes dans des scçenes complexes, s'ils sont partiellement visibles et s'ils sont aperçcus de points de vue diæçerents. Cette mçethode est çetendue ça l'interrogation de bases d'images et ça la reconnaissance d'objets. Notre approche est basçee sur une caractçerisation locale des niveaux de gris d'une image. Cette caractçerisation est calculçee en des points particuliers des images : les points d'intçer^et. Ces points sont dçetectçes automatiquement et sont reprçesentatifs de l'objet observçe. De ce fait, la caractçerisation obtenue reprçesente une information trçes riche. De plus, elle est invariante pour le groupe des similitudes image et permet d'apparier des images ayant subi de telles transformations. Comme le groupe des similitudes absorbe au premier ordre les variations dues ça un changement de point de vue lors d'une projection perspective, notre reprçesentation est quasi-invariante et donc robuste ça une telle transformation. La solution prçesentçee a çetçe appliquçee ça la recherche d'une image dans une volumineuse base d'images. Comme la multiplicitçe des correspondances ne permet plus d'avoir directement de rçeponse satisfaisante, une mçethode statistiquement robuste fait çemerger la solution. D'autre part, pour eæectuer une recherche rapide dans une large base un mçecanisme d'indexation a çetçe dçeveloppçe. La recherche d'image a çetçe çetendue ça la reconnaissance d'objet ça partir d'une seule image. Pour ce faire, un objet 3D est modçelisçe par une collection d'images reprçesentatives de l'objet. Pour obtenir une information 3D, des donnçees symboliques sont ajoutçees aux diæçerents aspects de l'objet stockçes dans la base. La relation trilinçeaire permet alors de retrouver ces donnçees sur une image recherchçee. Mots clçes : vision par ordiateur, appariements d'images, recherche d'images, reconnaissance d'objets, points d'intçer^et, invariants locaux de niveaux de gris. Image matching by local greyvalue invariants Applied to indexing an object database This thesis concerns matching, a fundamental subject in computer vision. Matching covers a variety of problems such as matching two images or matching an image with a CAD model. Our approach allows objects to be matched if they are observed in complex scenes, partially occluded or seen from diæerent viewpoints. The method is extended to image database consultation and object recognition. Our approach is based on a local characterization of the greyvalue signal. This characterization is calculated at particular ëpoints of interest". These are detected automatically and are representative of the observed object. Therefore, the characterization obtained has a high information content. In addition, it is invariant to the similarity group of transformations in the image and allows images that have undergone such transformations to be matched. To ærst order, the similarity group absorbs variations of perspective viewpoint changes, so our representation is quasi-invariant and therefore robust to such transformations. The method has been applied to the retrieval of images from a large database. When there are many images there are typically many possible matches for any given point, so a robust statistical technique has been developed to ænd the corresponding image. To reduce the amount of computation required for a large database and make rapid retrieval possible, an indexing mechanism has been developed. Our image retrieval scheme has been applied to 3D object recognition from a single image. Each object is modeled by a set of images taken from diæerent viewpoints chosen to be representative of the object. To obtain 3D information, the diæerent aspects of the objects stored in the database are annotated with symbolic data. The trilinearity constraint allows this data to be localized in the image. Keywords : computer vision, image matching, image retrieval, object recognition, interest points, local greyvalue invariants.

Montrer encore