Appariement d images par invariants locaux de niveaux de gris. Application à l indexation d une base d objets

Documents pareils
Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales

Quelques bases de donnçees d'çetoiles doubles et. Abstract. The increasing proportion of double stars makes necessary

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Traitement bas-niveau

Détection des points d intérêt et Segmentation des images RGB-D. Présentée par : Bilal Tawbe. Semaine de la recherche de l UQO

Dessin assisté par ordinateur en lycée professionnel

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

statique J. Bertrand To cite this version: HAL Id: jpa

AGROBASE : un système de gestion de données expérimentales

Program Analysis and Transformation: From the Polytope Model to Formal Languages

Peut-on perdre sa dignité?


Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Famille continue de courbes terminales du spiral réglant pouvant être construites par points et par tangentes

Compte-rendu de Hamma B., La préposition en français

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

modélisation solide et dessin technique

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

TP SIN Traitement d image

Les Champs Magnétiques

Étude des formes de pratiques de la gymnastique sportive enseignées en EPS à l école primaire

Jean-Luc Archimbaud. Sensibilisation à la sécurité informatique.

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Fête de la science Initiation au traitement des images

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Décompresser, créer une archive au format «ZIP»

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Les algorithmes de base du graphisme

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

Les intermédiaires privés dans les finances royales espagnoles sous Philippe V et Ferdinand VI

Ebauche Rapport finale

Détection et suivi d'objets dans une séquence d'images par contours actifs

Comptabilité à base d activités (ABC) et activités informatiques : une contribution à l amélioration des processus informatiques d une banque

CAPTEURS - CHAINES DE MESURES

Création de Sous-Formulaires

- un Sigma DP1 Quattro (

Date : Tangram en carré page

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Chapitre 1 : Introduction aux bases de données

McAfee Security-as-a-Service

Utilisation du logiciel ImageJ gratuit

Les déterminants du volume d aide professionnelle pour. reste-à-charge

Budget Constrained Resource Allocation for Non-Deterministic Workflows on a IaaS Cloud

Généralités sur le Langage Java et éléments syntaxiques.

Traitement numérique de l'image. Raphaël Isdant

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

Choisir entre le détourage plume et le détourage par les couches.

Programmation linéaire

Utilisation du visualiseur Avermedia

Guide pour la réalisation d'un document avec Open Office Writer 2.2

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Un SIG collaboratif pour la recherche historique Partie. Partie 1 : Naissance et conception d un système d information géo-historique collaboratif.

Par : Abdel YEZZA, Ph.D. Date : avril 2011 / mise à jour oct (ajout de la section 3 et augmentation de la section 1)

Utiliser Access ou Excel pour gérer vos données

Utilisation des Points d Intérêts Couleurs pour le Suivi d Objets

Conservation des documents numériques

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

LE PROBLEME DU PLUS COURT CHEMIN

Débuter avec OOo Base

Sylvain Meille. Étude du comportement mécanique du plâtre pris en relation avec sa microstructure.

TRACER LE GRAPHE D'UNE FONCTION

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

Conception d'applications de base de données ios plus rapides Guide Pratique FileMaker

Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris

Une réponse (très) partielle à la deuxième question : Calcul des exposants critiques en champ moyen


Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Immersion - Vision 3D dans la RV.

PROJET BIGDATART DOSSIER DE PRESENTATION

ORACLE TUNING PACK 11G

Pourquoi l apprentissage?

Géométrie discrète Chapitre V

Comment sauvegarder ses documents

Parcours FOAD Formation EXCEL 2010

Un exemple avec WORKSPACE d'interwrite

Introduction : Cadkey

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Freeway 7. Nouvelles fonctionnalités

VOS PREMIERS PAS AVEC TRACENPOCHE

Qlik Sense Cloud. Qlik Sense Copyright QlikTech International AB. Tous droits réservés.

Guide Draw. Chapitre 5 Combiner plusieurs objets

Logiciel XLSTAT version rue Damrémont PARIS

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Logiciel SCRATCH FICHE 02

Projet ISN - dossier réalisé par Randrianarimanana Stéphanie. Titre du projet : Site de rencontre. le nom de notre site de rencontre : Linkymeet

OPTIMISATION À UNE VARIABLE

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Introduction au Data-Mining

Fonctions de plusieurs variables

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

MANUEL TBI - STARBOARD

Transcription:

Appariement d images par invariants locaux de niveaux de gris. Application à l indexation d une base d objets Cordelia Schmid To cite this version: Cordelia Schmid. Appariement d images par invariants locaux de niveaux de gris. Application à l indexation d une base d objets. Human-Computer Interaction [cs.hc]. Institut National Polytechnique de Grenoble - INPG, 1996. French. <tel-00005019> HAL Id: tel-00005019 https://tel.archives-ouvertes.fr/tel-00005019 Submitted on 23 Feb 2004 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

THçESE prçesentçee par Cordelia SCHMID pour obtenir le titre de DOCTEUR de l'institut NATIONAL POLYTECHNIQUE DE GRENOBLE èarr^etçe ministçeriel du 30 mars 1992è Spçecialitçe INFORMATIQUE APPARIEMENT D'IMAGES PAR INVARIANTS LOCAUX DE NIVEAUX DE GRIS APPLICATION ç A L'INDEXATION D'UNE BASE D'OBJETS Soutenue le 2 juillet 1996 devant la commission d'examen : Prçesident: Rapporteurs : Examinateurs : Jan-Olof EKLUNDH Andrew ZISSERMAN Jean PONCE Luc VAN GOOL James L. CROWLEY Roger MOHR Thçese prçeparçee au sein du laboratoire Gravir - Imag - Inria sous la direction de Roger MOHR

Remerciements Je tiens tout d'abord ça remercier Andrew Zisserman et Jean Ponce qui ont acceptçe de juger ce travail et d'en rçediger les rapports. Je remercie çegalement Jan Olof Eklundh, Luc Van Gool et James L. Crowley pour l'intçer^et qu'ils portent ça ce travail en acceptant d'en ^etre les examinateurs. Je suis tout particuliçerement reconnaissante ça Roger Mohr de m'avoir accueillie dans son çequipe. Toujours porteur de nouvelles idçees, il a su donner ça cette thçese les bonnes orientations. Je voudrais çegalement souligner son encouragement lors de moments diæciles. Je n'oublie pas les membres de l'çequipe Movi pour la bonne ambiance qui a permis un travail agrçeable. Je tiens ça remercier tout particuliçerement Jer^ome Blanc comme relecteur patient de ce rapport. Parmi les stagiaires que j'ai encadrçes, je souhaite nommer Marianne Hardt pour les discussions et pour le tableau de Sanja ainsi que Christian Bauckhage pour avoir eæectuçe un travail remarquable et pris puis repris de nombreuses sçequences d'images. Cette thçese a dçebutçe au Lifia, j'ai donc une pensçee pour les personnes que j'ai pu y rencontrer et notamment les membres de l'çequipe Prima. Elle s'est terminçee dans les locaux de l'inria que je remercie pour son support et son ambiance. Merci ça la communautçe Europçeene pour avoir ænancçe deux ans de ce travail dans le cadre du programme Capital Humain et Mobilitçe. Merci çegalement ça Istar pour avoir mis ça ma disposition les images açeriennes utilisçees dans cette thçese. Enæn, merci beaucoup ça Philippe pour m'avoir supportçe pendant ces six derniers mois et pour nos nombreuses discussions.

Table des matiçeres 1 Introduction 1 1.1 Contexte...................................... 1 1.2 Approche proposçee... 2 1.3 Contributions................................... 4 1.4 Plan du mçemoire................................. 5 2 Dçetecteurs de points d'intçer^et 7 2.1 Choix de points d'intçer^et... 7 2.2 çetat de l'art.................................... 8 2.2.1 Mçethodes basçees sur les contours.................... 8 2.2.2 Mçethodes basçees sur le signal...................... 8 2.2.3 Mçethodes basçees sur un modçele thçeorique du signal.......... 10 2.3 Stabilisation du dçetecteur de Harris... 12 2.4 Mçethode d'çevaluation... 12 2.4.1 Critçeres d'çevaluation........................... 13 2.4.2 Dçeænition de la rçepçetabilitçe... 13 2.4.3 Mesure de rçepçetabilitçe... 14 2.4.4 Cadre d'çevaluation............................ 15 2.5 çetude comparative derçepçetabilitçe... 15 2.5.1 Exemples de dçetections et dçetecteurs considçerçes... 16 2.5.2 Rotation image.............................. 17 2.5.3 Changement d'çechelle... 18 2.5.4 Changement de luminositçe... 19 2.5.5 Changement de point de vue... 22 2.5.6 Bruit de la camçera... 23 2.6 Robustesse ça l'çechelle - une approche multi-çechelle... 24 2.7 Conclusion... 25 3 Caractçerisation locale 27 3.1 Mçethodes de caractçerisation locale... 28 3.1.1 Dçerivçees... 28 3.1.2 Descriptions frçequentielles........................ 29 3.1.3 Moments... 31 i

ii Table des matiçeres 3.1.4 Autres caractçerisations.......................... 32 3.2 Introduction aux invariants... 32 3.2.1 Dçeænition thçeorique d'un invariant... 32 3.2.2 Calcul des invariants... 33 3.2.3 Dçenombrement des invariants... 34 3.2.4 Thçeorçeme de Burns... 34 3.2.5 Quasi-invariants... 35 3.3 Invariance et transformations de l'image.................... 35 3.3.1 Rotation image.............................. 35 3.3.2 Changement d'çechelle... 37 3.3.3 Changement de luminositçe... 39 3.3.4 Autres transformations image...................... 40 3.3.5 Changement de point de vue... 40 3.4 Evaluation ç de la caractçerisation......................... 41 3.5 Conclusion... 41 4 Appariement entre images 43 4.1 Etat ç de l'art.................................... 43 4.1.1 Appariement basçe sur des donnçees photomçetriques.......... 43 4.1.2 Appariement ça partir de donnçees gçeomçetriques............ 44 4.2 Algorithme d'appariement... 44 4.2.1 Principe de l'appariement... 44 4.2.2 Distance entre images... 45 4.2.3 Procçedure d'appariement... 46 4.2.4 Contraintes semi-locales......................... 46 4.3 çevaluation de l'appariement... 48 4.3.1 Cadre d'çevaluation............................ 48 4.3.2 Rotation image.............................. 50 4.3.3 Changement d'çechelle... 51 4.3.4 Changement de luminositçe... 54 4.3.5 Changement de point de vue... 55 4.3.6 Bruit de la camçera... 56 4.3.7 Transformations complexes... 57 4.3.8 Inæuence des diæçerentes composantes du vecteur... 61 4.4 Conclusion... 61 5 Recherche d'image 63 5.1 Etat ç de l'art.................................... 63 5.1.1 Recherche basçee sur les donnçees photomçetriques... 64 5.1.2 Recherche basçee sur des donnçees gçeomçetriques... 64 5.2 Algorithme de recherche... 65 5.2.1 Principe de la recherche... 65 5.2.2 Structure de la base d'images...................... 66 5.2.3 Mesure de ressemblance......................... 66 5.2.4 Adaptation de l'approche multi-çechelle................. 68 5.3 Indexation..................................... 70 5.3.1 Changement de base........................... 70

Table des matiçeres iii 5.3.2 Table de hachage multi-dimensionnelle................. 71 5.4 Expçerimentation... 72 5.4.1 Cadre d'çevaluation............................ 72 5.4.2 Illustration de la recherche d'images... 73 5.4.3 ç Evaluation systçematique de la recherche... 77 5.4.4 Temps de recherche... 81 5.5 Conclusion... 81 6 Modçelisation 2D d'objet 3D 83 6.1 Etat ç de l'art.................................... 83 6.1.1 Modçele gçeomçetrique 3D... 83 6.1.2 Graphe d'aspect... 85 6.1.3 Ensemble d'images............................ 87 6.2 Modçelisation ça partir d'images 2D... 87 6.2.1 Principe.................................. 87 6.2.2 Exemple d'une modçelisation sur un cercle............... 88 6.2.3 Extension ça lamodçelisation sur une sphçere... 89 6.3 Rçesultats de reconnaissance........................... 90 6.3.1 Quelques exemples de reconnaissance.................. 90 6.3.2 Points sçelectionnçes... 90 6.3.3 Evaluation ç systçematique......................... 91 6.4 Localisation de donnçees symboliques 3D.................... 92 6.4.1 Ajout de donnçees symboliques... 92 6.4.2 Identiæcation des informations symboliques... 94 6.5 Rçesultats de localisation............................. 96 6.6 Conclusion... 98 7 Conclusion et perspectives 101 7.1 Une mçethode d'appariement robuste...................... 101 7.2 Une modçelisation 3D pour la reconnaissance.................. 102 7.3 Perspectives...102 7.3.1 Changement complexe de luminositçe...102 7.3.2 Large base d'images...103 7.3.3 Gçençeralisation...104 7.3.4 Applications...105 A Rçepçetabilitçe des points d'intçer^et sur la scçene ëastçerix" 117 B çevaluation de l'appariement pour la scçene ësanja" 123 C Quelques images de la base 127

Chapitre 1 Introduction Les travaux prçesentçes dans ce rapport s'inscrivent dans le domaine de l'appariement, encore appelçe mise en correspondance. Il s'agit d'un domaine fondamental et trçes vaste de la vision par ordinateur. Il recouvre des problçemes trçes variçes allant de celui de l'appariement entre deux images ça celui de la mise en correspondance d'une image avec un modçele CAO dçeæni par des primitives gçeomçetriques. L'approche proposçee dans cette thçese apporte une solution gçençerique aux problçemes liçes ça l'appariement. Dans ce chapitre, nous prçesentons d'abord le contexte dans lequel nous nous plaçcons. Ensuite, l'approche proposçee dans cette thçese est expliquçee et sa position par rapport aux mçethodes existantes est discutçee. Les contributions de ce travail puis un plan dçetaillçe de ce document terminent ce chapitre. 1.1 Contexte Les techniques utilisçees pour rçesoudre les problçemes d'appariement sonttrçes diæçerentes. En eæet, dans les approches existantes d'appariement entre une image et un modçele CAO, une recherche de ressemblance est eæectuçee entre quelques dizaines de primitives gçeomçetriques tridimensionnelles èsegments de droites, ellipses, etc.è dçeænies pour le modçele et des primitives extraites des images. En revanche, dans le cas de la recherche d'une image dans une base d'images, il faut mettre en correspondance plusieurs centaines de milliers de points. Trouver une solution gçençerale au problçeme de l'appariement a de trçes nombreuses applications comme par exemple : í savoir quel point d'une image correspond ça quel autre point d'une seconde image. Ceci est utile dans un contexte d'appariement stçerçeoscopique et permet de calculer la gçeomçetrie çepipolaire existant entre ces deux images. í retrouver une image dans une base d'images. La recherche dans une base d'images permet par exemple d'identiæer un tableau volçe ou de vçeriæer l'existence d'un copyright. Mais l'application la plus riche- et aussi la plus diæcile ça rçealiser - est la documentation : trouver l'image qui illustre 1

2 Chapitre 1 : Introduction tel çevçenement politique ou scientiæque par exemple. Cette aspect prend une dimension particuliçere avec les potentialitçes de consultation qu'oære maintenant le rçeseau Internet. í savoir quel objet est contenu dans une scçene et localiser ses parties. L'identiæcation de l'objet puis sa localisation peut ^etre utilisçee pour des t^aches d'asservissement visuel ou de navigation en robotique mobile. En crçeant une reprçesentation d'une rçegion ça partir d'images açeriennes, cette application permet de localiser la position d'un observateur. í savoir quelle partie d'une image correspond ça un çelçement d'un modçele CAO. Ceci permet par exemple de savoir quelle partie d'une image correspond ça l'anse d'une tasse ou au pied d'un dinosaure. De nombreuses solutions ont çetçe proposçees pour rçesoudre les diæçerents problçemes liçes ça l'appariement. Elles ont donnçe lieu ça des applications variçees. Cependant, elles prçesentent de fortes limitations : elles ne permettent pas de retrouver un objet dans une grande base d'objets sous des conditions gçençerales ; elles ne permettent pas non plus de mettre en correspondance deux images entre lesquelles il existe une forte rotation ou un changement de taille important. Enæn, les mçethodes proposçees sont fortement combinatoires et ne parviennent pas ça traiter des donnçees volumineuses ou complexes en un temps raisonnable ; elles nçecessitent parfois jusqu'ça plusieurs heures de calcul pour obtenir un rçesultat. L'objet de cette thçese a çetçe de proposer une mçethode innovante par rapport ça ces mçethodes et ça leurs limitations. 1.2 Approche proposçee Parmi les applications potentielle de l'appariement, nous nous intçeressons plus particuliçerement dans ce travail ça l'appariement entre deux images, ça la recherche d'une image dans une base et ça la localisation d'un objet ou d'une de ses parties dans une image. Pour ce faire, nous proposons une solution uniæçee qui permet de tenir compte des spçeciæcitçes de chacun de ces problçemes. Notre approche permet en outre de s'aæranchir des limites des approches existantes. Elle permet d'obtenir de trçes bons rçesultats dans des conditions oçu les approches classiques ne fonctionnent plus. Plus particuliçerement, nous nous plaçcons dans les conditions suivantes : mettre en correspondance des objets qui peuvent appara^çtre dans des scçenes complexes diæçerentes, et cela m^eme s'ils sont partiellement visibles et s'ils sont observçes de diæçerents points de vues. La visibilitçe partielle comprend la prçesence d'occultations et le fait qu'une partie de l'image est seulement observçee, par exemple une portion d'un tableau de ma^çtre. En outre, nous avons çetendu la solution de la mise en correspondance au problçeme suivant: retrouver ça partir d'une seule image l'image correspondant dans une volumineuse base d'images et ceci dans des dçelais raisonnables. Enæn, il est çegalement possible de localiser des parties d'un objet dans l'image recherchçee. L'approche que nous dçetaillons dans la suite modçelise les images ça partir de ce qui est vu et ne repose sur aucune reprçesentation abstraite. Cette modçelisation repose sur une caractçerisation particuliçere de l'image. Cette caractçerisation est discriminante du fait qu'elle est basçee sur les informations contenues dans le signal de niveaux de gris. De plus elle est locale et applicable dans un contexte d'appariement. Par ce biais, ce travail apporte quelques contributions au problçeme de la mise en correspondance. En outre, notre

1.2 Approche proposçee 3 approche est robuste, ce qui permet de traiter les incertitudes inhçerentes ça tout processus de vision par ordinateur. Il existe dans la littçerature d'autres mçethodes basçees sur les informations contenues dans le signal ècf. section 5.1è. L'avantage de ces mçethodes est qu'elles permettent de distinguer des objets de n'importe quelle classe sans faire d'hypothçese initiale. En eæet, les approches basçees sur des donnçees gçeomçetriques ne permettent pas de traiter des objets compliquçes ècf. ægure 1.1è. Toutefois les approches existantes basçees sur le signal sont globales et ne sont donc pas robustes aux occultations ni ça la prçesence d'arriçeres-plans complexes. En outre, elles ne sont invariantes ça aucune transformation. Notre approche s'aæranchit des limites de ces mçethodes. Notre mçethode de mise en correspondance se compose de trois çetapes. Celles-ci suivent le schçema classique de la vision par ordinateur : un traitement de bas niveau qui permet de traiter le signal et d'extraire des primitives, un calcul de grandeurs numçeriques ça partir des primitives extraites et ensuite une interprçetation des grandeurs obtenues. Dans notre travail, cette derniçere çetape consiste en l'identiæcation et la localisation d'un objet. Il s'est avçerçe que chacun des choix lors de ces çetapes est important ; c'est la combinaison de l'ensemble qui nous a permis d'obtenir un algorithme robuste. Revenons maintenant sur ces çetapes. Parmi les diæçerentes possibilitçes de traitement bas niveau existantes, nous avons choisi d'extraire des points d'intçer^et. Ils correspondent bien ça nos objectifs : localitçe et richesse de l'information contenue dans le signal en ces points. En outre, les expçeriences mençees par Zhang ëzha 95ë et dans notre çequipe ëcot 94ë ont montrçe l'intçer^et d'utiliser de tels points pour le calcul de la gçeomçetrie çepipolaire. En ce qui concerne l'çetape suivante de quantiæcation de l'information, plusieurs choix çetaient possibles. On aurait par exemple pu choisir d'utiliser des grandeurs gçeomçetriques, par exemple des rapports de longueurs entre diæçerents points d'intçer^et. Toutefois de telles caractçeristiques sont moins signiæcatives que l'information photomçetrique que nous avons choisi d'utiliser. En eæet, les grandeurs gçeomçetriques sont issues de primitives symboliques ce qui entra^çne inçevitablement une perte d'information. Le type d'information que nous avons retenu caractçerise un point localement. Cette information est calculçee aux points d'intçer^et et stockçee dans des vecteurs ècf. ægure 1.1è. Elle permet de caractçeriser localement le signal observçe. Le fait qu'elle soit calculçee aux points d'intçer^et la rend trçes signiæcative et particuliçerement discriminante. La caractçerisation utilisçee dans ce travail est basçee sur les travaux thçeoriques de Koenderink ëkoe 87ë. vecteur de caractéristiques locales Fig. 1.1 í Reprçesentation d'une image. La troisiçeme et derniçere çetape de la mçethode proposçee est la phase d'appariement

4 Chapitre 1 : Introduction proprement dite. Elle consiste ça retrouver les vecteurs les plus semblables entre images. L'ajout de contraintes semi-locales permet d'augmenter la robustesse de cette mise en correspondance. Dans le cas d'une mise en correspondance entre deux images, il suæt de rechercher les points les plus semblables. Dans le cas de l'appariement d'une image avec une base d'images, la multiplicitçe des correspondances ne permet plus d'avoir de rçeponse satisfaisante ; il faut faire çemerger la rçeponse par une mçethode de vote, mçethode simple et statistiquement robuste. Enæn, le volume d'informations nçecessite le dçeveloppement d'un outil de recherche rapide par un mçecanisme d'indexation. çetant en mesure de retrouver une image dans une base d'image, il est ensuite possible de modçeliser un objet 3D ça partir d'une collection d'images. Ces images sont prises de points de vue diæçerents et doivent ^etre reprçesentatives des diæçerents aspects de l'objet. Nous utilisons donc ce qui est perçcu pour modçeliser un objet 3D. Ceci facilite la reconnaissance d'un objet 3D. D'autre part l'ajout de donnçees symboliques 3D aux diæçerents aspects de l'objet stockçes dans la base permet ensuite la localisation de ces donnçees tridimensionnelles dans une nouvelle image. 1.3 Contributions La contribution principale de cette thçese est d'avoir dçeveloppçe une nouvelle mçethode de mise en correspondance. Cette mçethode est robuste, rapide et n'est pas restreinte ça une classe particuliçere d'images ou d'objets observçes. Les rçesultats prçesentçes prouvent la robustesse de la mçethode face aux transformations d'images importantes, aux occultations et en prçesence d'arriçeres-plans complexes. Le succçes de l'approche prçesentçee s'explique d'une part par l'utilisation d'un algorithme statistiquement robuste et d'autre part par les choix eæectuçes ça chaque çetape de notre algorithme. Par exemple quand nous avons observçe que l'instabilitçe des points d'intçer^et inæuence la stabilitçe de notre caractçerisation, une çevaluation de diæçerents dçetecteurs de points d'intçer^et a çetçe eæectuçee. La rçepçetabilitçe des points nous a permis de cerner le dçetecteur qui correspond le mieux aux besoins de notre mçethode. D'autre part nous avons montrçe que les invariants diæçerentiels peuvent ^etre appliquçes avec des tailles de fen^etre raisonnables. Ceci permet la mise en çuvre d'une approche multi-çechelle. Il a çetçe montrçe qu'une telle approche est rendue nçecessaire par la diæcultçe d'utilisation des invariants ça l'çechelle. Pour une telle approche nous avons montrçe qu'un espacement de 20è entre des çechelles consçecutives est nçecessaire. D'autre part la rçealisation d'un algorithme d'indexation a permis une recherche rapide. Une autre contribution de ce travail est d'avoir proposçe une nouvelle mçethode de modçelisation d'objet 3D qui autorise non seulement l'identiæcation d'objets, mais aussi la localisation d'information tridimensionnelle : nous utilisons les images pour modçeliser les objets plut^ot qu'une reprçesentation abstraite trop çeloignçee de la rçealitçe du signal et des performances des algorithmes de vision par ordinateur. Un objet 3D est alors modçelisçe ça partir de plusieurs images. Ensuite on ajoute une information symbolique ça chaque image de la base. Le tenseur trilinçeaire qui lie les coordonnçees des points entre diæçerentes images permet alors de retrouver cette information symbolique dans une nouvelle image. Ceci peut directement servir ça des t^aches de positionnement d'outils en commande rçefçerencçee vision.

1.4 Plan du mçemoire 5 1.4 Plan du mçemoire Ce rapport prçesente d'abord les trois çetapes de notre approche, puis il prçesente deux applications de la mçethode d'appariement dçeveloppçee : la recherche d'une image dans une base d'image et la modçelisation d'objet 3D. Le deuxiçeme chapitre dçecrit donc l'çetape de bas niveau : l'extraction des points d'intçer^et. Nous prçesentons d'abord l'avantage des points d'intçer^et par rapport ça d'autres caractçeristiques de bas niveau. Ensuite nous comparons diæçerents dçetecteurs de points d'intçer^et. Les critçeres de comparaison retenus sont la stabilitçe en prçesence du bruit de la camçera et la rçepçetabilitçe en prçesence de diæçerentes transformations. Cette rçepçetabilitçe signiæe que le point est retrouvçeçalam^eme position indçependamment de toute transformation de l'image. Une telle rçepçetabilitçe inæuence de façcon trçes importante la stabilitçe de la caractçerisation, l'çetape qui suit l'extraction de points. La caractçerisation locale du signal utilisçee par la suite est prçesentçee dans le troisiçeme chapitre. Cette caractçerisation est basçee sur des combinaison de dçerivçees invariantes aux rotations image. L'utilisation de ces invariants diæçerentiels dans un cadre multi-çechelle permet d'obtenir des invariants aux similitudes image. De plus, ces invariants sont des quasi-invariants ça une transformation perspective. Le quatriçeme chapitre dçecrit l'çetape de mise en correspondance. La mçethode d'appariement proposçee repose sur un calcul de distance entre deux vecteurs de caractçeristiques. L'utilisation de la distance de Mahalanobis permet de tenir compte des incertitudes sur les vecteurs ainsi que de la corrçelation çeventuelle de leurs composantes. L'ajout de contraintes semi-locales de voisinage augmente la robustesse de la mise en correspondance. Ce chapitre permet d'çevaluer la stabilitçe et l'invariance de la caractçerisation retenue au chapitre prçecçedent. La mise en correspondance entre deux images mçene directement ça la recherche d'image qui est un problçeme de mise en correspondance entre l'image recherchçee et les images stockçees dans la base. Le cinquiçeme chapitre aborde ce problçeme. La mçethode proposçee repose sur un algorithme de vote qui permet de gçerer la ressemblance entre images de façcon robuste. Toutefois un tel algorithme est fortement combinatoire. Nous introduisons donc un mçecanisme d'indexation via une table de hachage multi-dimensionnelle. Ceci nous permet de retrouver une image dans une base contenant plus de mille images en moins de cinq secondes avec un taux de reconnaissance supçerieur ça 99è. Le sixiçeme chapitre çetend la mçethode de recherche d'image ça des objets tridimensionnels et traite de la modçelisation d'un objet 3D ça partir de plusieurs images. Le problçeme est de dçeterminer le nombre de vues nçecessaires pour modçeliser un objet 3D. Ayant apportçe un çelçement de rçeponse ça ce problçeme, nous montrons que la modçelisation retenue permet de reconna^çtre correctement des objets 3D ça partir d'une image. Pour pouvoir obtenir une description symbolique de l'objet, des donnçees symboliques sont ajoutçees aux images de la base. Ces donnçees peuvent alors ^etre retrouvçees pour une nouvelle image en utilisant la contrainte trilinçeaire. La conclusion prçesentçee au chapitre 7 dçegage les perspectives ouvertes par ce travail.

Chapitre 2 Dçetecteurs de points d'intçer^et Dans ce chapitre nous prçesentons l'çetape initiale de notre algorithme d'appariement: l'extraction de points d'intçer^et. Le choix des points d'intçer^et comme primitives de basniveau est d'abord expliquçe ça la section 2.1. Ensuite un çetat de l'art des diæçerents dçetecteurs existants est prçesentçeça la section 2.2. La section 2.3 montre alors commentamçeliorer la qualitçe du dçetecteur de Harris. Aæn de choisir un dçetecteur, il est nçecessaire de les comparer. La section 2.4 prçesente la mçethode d'çevaluation utilisçee dans ce travail. Le critçere d'çevaluation utilisçe pour juger des rçesultats obtenus est la rçepçetabilitçe. Une çetude comparative pour ce critçere est mençee ça la section 2.5 en prçesence de diæçerentes transformations. Une approche multi-çechelle est ensuite prçesentçee ça la section 2.6. Elle rend la dçetection plus robuste ça un changement d'çechelle. 2.1 Choix de points d'intçer^et Parmi les diæçerents types de caractçeristiques bas-niveau, nous avons choisi d'utiliser les points d'intçer^et 1. Un point d'intçer^et correspond ça unchangement bidimensionnel du signal. Des exemples en sont les coins et les jonctions en T, mais aussi les endroits oçu la texture varie fortement. Ce choix repose sur le fait que le signal contient plus d'information en ces points qu'en des points correspondantça des changements unidimensionnels du signal èlignes de contoursè ou ça des rçegions homogçenes. L'utilitçe des points d'intçer^et a çetçe constatçee par Brady ëbra 87ë qui a remarquçe qu'ils imposent plus de contraintes sur les processus visuels que les contours. Selon lui, ces points fournissent des endroits de calcul æable. De m^eme, Dreschler et Nagel ëdre 82ë ont constatçe que le æot optique peut ^etre calculçe uniquement aux endroits des points d'intçer^et. On peut çegalement citer le travail de Zhang ëzha 95ë. Il a montrçe que l'utilisation de points d'intçer^et pour le calcul de la gçeomçetrie çepipolaire donne de bons rçesultats. Dans son travail, les points dçetectçes sont appariçes par corrçelation, donc par une mesure du signal. D'autre part, les points d'intçer^et sont locaux. Leur calcul est eæectuçe sur une fen^etre locale, au moins en ce qui concerne les mçethodes basçees sur le signal. En prçesence d'oc- 1: Points d'intçer^et et coins sont souvent utilisçes de maniçere çequivalente dans la littçerature. En fait, point d'intçer^et est plus gçençeral que coin et ne comporte pas de connotation symbolique. 7

8 Chapitre 2 : Dçetecteurs de points d'intçer^et cultation, de telles mçethodes sont donc robustes. Ceci est beaucoup moins vrai pour les algorithmes d'extraction de contours ou de rçegions, qui ont besoin d'une çetape de cha^çnage ou de fusion, çetape qui par expçerience reste trçes fragile. Les points d'intçer^et ont çegalement un caractçere gçençeral. Leur extraction fonctionne aussi bien pour des objets simples que pour les objets complexes. Un exemple d'objet complexe est le semeur de ëvan Gogh" èvoir ægure 1.1è. Pour un tel exemple, l'extraction de contour est pratiquement impossible du fait de la texture contenue dans cette scçene. 2.2 ç Etat de l'art Les dçetecteurs de points d'intçer^et peuvent ^etre classçes en trois catçegories. La premiçere contient les mçethodes basçees sur les contours, c'est-ça-dire ça partir de cha^çnes de contours les endroits avec une courbure maximale ou un point d'inæexion sont recherchçes. La deuxiçeme extrait le point d'intçer^et directement ça partir du signal de niveaux de gris et la derniçere approxime les points recherchçes avec un modçele thçeorique. 2.2.1 Mçethodes basçees sur les contours Le principe des mçethodes basçees sur les contours est soit de rechercher les points de courbure maximale le long des cha^çnes de contour soit d'eæectuer une approximation polygonale en vue d'en dçeduire des points particuliers èintersection, inæexion,...è. De telles mçethodes existent depuis longtemps, nous dçetaillerons dans la suite quelques unes des plus rçecentes. Asada et Brady ëasa 86ë extraient des points d'intçer^et pour des objets 2D ça partir de courbes planes. Ils constatent que les courbes planes ont des caractçeristiques signiæcatives : les changements de courbure. Ces changements sont classçes en plusieurs catçegories : coin, terminaison, etc. Pour pouvoir les dçetecter d'une maniçere robuste, l'algorithme est intçegrçe dans un cadre multi-çechelle. Une approche similaire a çetçe proposçee par Mokhtarian et Mackworth ëmok 86ë. Au lieu d'utiliser les changements de courbure d'une courbe plane, ils utilisent les points d'inæexion de celle-ci. Medioni et Yasumoto ëmed 87ë approximent les contours avec des B-splines. Les points d'intçer^et sont des maxima de courbure calculçes ça partir des coeæcients de ces B-splines. Horaud et al. ëhor 90ë recherchent des groupements dans une image de contours pour çetablir une reprçesentation intermçediaire. Cette reprçesentation repose sur la structuration de segments extraits dans l'image. L'intersection de ces segments donne les points d'intçer^et. 2.2.2 Mçethodes basçees sur le signal Les mçethodes basçees sur le signal ne dçependent pas des contours ni d'un modçele thçeorique du signal. La mesure qui indique s'il y a un point d'intçer^et ça un endroit donnçe est calculçee directement ça partir du signal. Beaudet ëbea 78ë a proposçe le premier dçetecteur de points d'intçer^et. Cet opçerateur utilise les dçerivçees deuxiçemes du signal pour calculer une mesure ëdet" : DET = I xx I yy, I 2 xy oçu Ièx; yè reprçesente la surface d'intensitçe de l'image.

2.2 ç Etat de l'art 9 Cette mesure est invariante en rotation et liçee ça la courbure gaussienne du signal. Les points oçu cette mesure est maximale sont les points d'intçer^et. Pour obtenir eæectivement les points d'intçer^et, la valeur absolue de cette mesure est seuillçee. Il faut noter que cet opçerateur dçetecte les points d'intçer^et prçes des coins mais pas sur les coins, pour autant que la notion de coin existe dans le signal. Moravec ëmor 79, Mor 81ë a proposçe un dçetecteur basçe sur la fonction d'auto-corrçelation du signal. Cette fonction mesure les diæçerences entre une fen^etre du signal et ses quatre fen^etres voisines. En eæet, le voisinage n'est considçerçe que de maniçere discrçete et dans les directions parallçeles aux lignes et colonnes de l'image. Lorsque le minimum de ces quatre diæçerences est supçerieur ça un seuil, ceci indique la prçesence d'un point d'intçer^et. Kitchen et Rosenfeld ëkit 82ë ont proposçe un dçetecteur de points d'intçer^et qui repose sur la courbure de courbes planes. Ils recherchent les maxima de courbure des isophotes du signal. Cependant, un isophote peut prçesenter une courbure importante du fait du bruit sans que cela corresponde ça un point d'intçer^et. Cela peut par exemple survenir sur une zone quasi-uniforme, d'autant plus que le calcul fait de la courbure est trçes approximatif. Kitchen et Rosenfeld proposent donc de multiplier la courbure par la magnitude de gradient de l'image. La mesure K qu'ils utilisent s'çecrit de la maniçere suivante : K = I xxi 2 y + I yy I 2 x, 2I xy I x I y I 2 x + I 2 y La magnitude du gradient est assez diæuse, aussi cet opçerateur est trçes imprçecis en localisation. Pour que les points d'intçer^et ne soient pas trop çepais, les maxima locaux de l'image de magnitude sont extraits avant d'eæectuer la multiplication. Dreschler et Nagel ëdre 82ë ont constatçe comme dçefaut ça l'approche de Beaudet que la courbure gaussienne peut devenir grande sur des contours marquçes, c'est-ça-dire sur des contours pour lesquels les deux niveaux de gris dçeænissant ce contour sont trçes diæçerents. Ceci est d^u au fait que la courbure gaussienne est le produit des deux courbures principales d'une surface, et sur un contour marquçe une des deux courbures devient trçes importante. En utilisant un modçele thçeorique d'un coin, ils constatent qu'autour d'un coin la courbure gaussienne change de signe et qu'elle possçede un maximum positif et un minimum nçegatif. Ils proposent donc de localiser un point d'intçer^et sur la ligne joignant ce minimum et ce maximum, notamment ça l'endroit oçu la pente du signal est maximale. A cet endroit la courbure s'annule et change de signe. Par la suite ënag 83ë et ësha 84ë ont montrçe que les approches de Nagel, Kitchen et Zuniga ëzun 83ë sont çequivalentes. Harris ëhar 88ë a amçeliorçe l'approche de Moravec en calculant une matrice liçee ça la fonction d'auto-corrçelation qui prend en compte les valeurs des dçerivçees premiçeres du signal sur une fen^etre. Ceci est une amçelioration par rapport ça Moravec, car la discrçetisation utilisçee pour calculer la fonction d'auto-corrçelation, due au dçeplacement et aux directions choisies, n'est plus nçecessaire. Il obtient donc la matrice suivante : exp, x2 +y 2 2ç 2 æ " I 2 x I x I y Les valeurs propres de cette matrice sont les courbures principales de la fonction d'autocorrçelation. Si ces deux courbures sont grandes, ceci indique la prçesence d'un point d'intçer^et. L'utilisation des courbures est plus prçecise que l'utilisation de la valeur minimale comme l'avait proposçe Moravec. Toutefois, pour ne pas extraire les valeurs propres, Harris I x I y I 2 y è

10 Chapitre 2 : Dçetecteurs de points d'intçer^et utilise une mesure reposant sur le dçeterminant et la trace de la matrice. Cette mesure est supçerieure ça zçero dans le cas d'un coin. Noble ënob 88ë a montrçe que l'approche de Harris est optimale uniquement pour des coins en forme de ël". Cottier ëcot 94ë a proposçe une autre rçealisation du dçetecteur de Harris. Pour amçeliorer la localisation des points dçetectçes, il applique ce dçetecteur uniquement sur les contours de l'image et utilise successivement deux tailles de support diæçerentes. Dans ëbau 96ë nous avons proposçe une amçelioration par l'utilisation de dçerivçees prçecises, on reviendra sur ce point en section 2.3. Fíorstner ëfíor 87, Fíor 94ë propose une approche basçee sur la statistique locale d'une image. Ceci lui permet d'estimer les paramçetres de son algorithme de maniçere automatique. La premiçere çetape de son algorithme est d'estimer la variance du bruit. Il utilise ensuite cette estimation pour restaurer le signal. Puis, les pixels sont classçes dans les catçegories rçegions, contours et points d'intçer^et. Pour ce faire, il utilise la fonction d'auto-corrçelation de la m^eme maniçere que Harris. Enæn, il classe les points d'intçer^et en jonctions ou points isolçes. De plus, il eæectue une estimation sous-pixellique. Heitger et Rosenthaler ëhei 92, Ros 92ë ont proposçe une autre approche inspirçee des mçecanismes neuro-biologiques. Leur approche consiste ça convoluer l'image avec des æltres directionnels pairs et impairs. Ces æltres sont des fonctions sinusoíçdales sur une enveloppe gaussienne de moyenne nulle. Ils ressemblent ça des æltres de Gabor. Les rçesultats des æltres pairs et impairs d'une m^eme direction permettent de calculer l'çenergie locale de l'image dans cette direction. Cette çenergie correspond aux caractçeristiques 1D de l'image. Pour obtenir les caractçeristiques 2D de l'image, leur approche consiste ça calculer pour chaque direction les dçerivçees premiçeres et deuxiçemes de cette çenergie. La mesure ainsi obtenue permet de dçetecter les caractçeristiques 2D mais aussi les fausses rçeponses sur les caractçeristiques 1D. Une mçethode reposant sur la nature systçematique des erreurs permet ensuite d'çeliminer les rçeponses sur les caractçeristiques 1D. Les rçeponses restantes sont seuillçees. Reisfeld et al. ërei 95ë ont proposçe un opçerateur motivçe par des çevidences psychophysiques. Cet opçerateur est basçe sur la notion de symçetrie. Ils calculent une carte de symçetrie qui contient pour chaque pixel une ë magnitude de symçetrie " et une orientation. Cette symçetrie est calculçee localement en regardant la magnitude et la direction des dçerivçees des points voisins. Cette carte de symçetrie peut ^etre appliquçee ça des t^aches diverses, notamment ça l'extraction de points d'intçer^et. Les endroits avec une symçetrie importante sont des points d'intçer^et, des lignes de symçetrie reprçesentent les axes de symçetrie. 2.2.3 Mçethodes basçees sur un modçele thçeorique du signal En ce qui concerne les mçethodes basçees sur un modçele thçeorique du signal, le but est d'obtenir une prçecision sous-pixellique en approximant le signal par un modçele thçeorique. De telles mçethodes ne sont utilisables que pour des types bien prçecis de points d'intçer^et, par exemple des coins. La ægure 2.1 montre un modçele thçeorique pour un coin avec un angle de 90 degrçes. Une telle approche est inutilisable dans un contexte gçençeral de dçetection de points d'intçer^et. Cercles, lignes etc. peuvent çegalement ^etre modçelisçes par une telle approche. Rohr ëroh 90, Roh 92ë modçelise les jonctions de plusieurs lignes. Pour ce faire, il convolue un modçele binaire de jonction avec une gaussienne aæn de modçeliser le æou. Dans le cas d'un coin les paramçetres du modçele sont l'angle dçeænissant l'orientation de l'axe de symçetrie, l'angle dçeænissant l'ouverture du coin, les niveaux de gris, la position du point et

2.2 ç Etat de l'art 11 Fig. 2.1 í Modçele thçeorique d'un coin. le æou. Ces paramçetres sont ajustçes pour que le signal thçeorique soit le plus proche possible du signal observçe. Cette recherche repose sur une minimisation au sens des moindres carrçes. Les coins obtenus par cette mçethode sont trçes prçecis. Toutefois, la qualitçe de l'approximation repose sur une bonne estimation initiale de la position. Rohr utilise les segments extraits pour dçeterminer les paramçetres initiaux du modçele : le type de coin, les angles initiaux ainsi que la position du coin. Deriche et Blaszka ëder 93bë ont proposçe une amçelioration de la mçethode de Rohr au niveau du temps de calcul en remplaçcant la fonction gaussienne de lissage par une fonction exponentielle. Deriche propose, en outre, une solution pour l'initialisation des paramçetres. Une fois que la position du coin a çetçe donnçee de façcon interactive par l'utilisateur, l'ouverture du coin est estimçee de façcon automatique ça partir du gradient sur les bords de la fen^etre. Le point donnçe par l'utilisateur est ensuite amçeliorçe avec une mçethode de descente de la variance des niveaux de gris. Deriche et al. ont montrçe la bonne prçecision en position des rçesultats en prçesence de bruit synthçetique. Cette çetude a aussi permis de voir que pour assurer la convergence de la minimisation, le support utilisçe doit ^etre assez grand. Ceci constitue un dçefaut de ces mçethodes, car lorsque le signal rçeel comporte plusieurs signaux sur ce support, la convergence est fortement aæectçee. Brand et Mohr ëbra 94ë proposent une implçementation diæçerente. Le modçele thçeorique est ajustçe au signal en utilisant une transformation aæne. L'importance de leurs travaux repose sur l'çevaluation de la qualitçe de la localisation d'une telle approche sur des donnçees rçeelles. Pour cette çevaluation ils mettent en place plusieurs tests : un test d'alignement, une reconstruction 3D et un calcul de la gçeomçetrie çepipolaire. Ces tests permettent de valider une prçecision de 0.1 pixel. Deriche et Giraudon ëder 90, Gir 91, Der 93cë ont prçesentçe une mçethode diæçerente pour amçeliorer la prçecision de la dçetection, tout en utilisant un modçele thçeorique pour un coin. ça partir de ce modçele ils analysent d'une maniçere thçeorique le comportement de diæçerents dçetecteurs. Ils constatent que la rçeponse de nombreux dçetecteurs varie suivant l'çechelle. Toutefois, il existe une relation entre la position de la vçeritable caractçeristique ça dçetecter et les rçeponses dans l'espace d'çechelle. Pour le dçetecteur de Beaudet, les rçeponses se situent, pour un coin donnçe, sur la bissectrice de l'angle dçeænissant ce coin. Ceci, et le fait que le Laplacien du signal s'annule ça l'endroit prçecis du coin indçependamment de l'çechelle considçerçee, leur permet de proposer la mçethode suivante : d'abord, un dçetecteur de Beaudet est appliquçe ça deux çechelles diæçerentes. Ensuite les points correspondant ça un m^eme coin sont recherchçes dans les deux images. La droite reliant ces deux points dçeænit la bissectrice de ce coin. La position exacte du coin est alors dçeterminçee sur cette droite ça

12 Chapitre 2 : Dçetecteurs de points d'intçer^et l'endroit le plus proche du point oçu le Laplacien s'annule. 2.3 Stabilisation du dçetecteur de Harris Le calcul des dçerivçees est mal conditionnçe dans le sens oçu il manque de robustesse visça-vis du bruit dans les donnçees d'entrçee. M^eme un bruit faible peut perturber ce calcul de façcon importante. Pour illustrer ce manque de robustesse, considçerons les fonctions f èxè et ^fèxè =fèxè+" sinè!xè. Elles sont similaires, si " est petit. Toutefois f 0 èxè peut diæçerer beaucoup de ^f 0 èxè pour un! grand è" éé!è. En consçequence un bruit de relativement haute frçequence dans une image peut modiæer considçerablement la premiçere dçerivçee et donc a fortiori les dçerivçees d'ordre supçerieur. Prçealablement ça tout calcul de dçerivation, il est donc nçecessaire d'eæectuer un lissage. Puisque la diæçerenciation commute avec la convolution : @ i èg æ fè =g æ @ i f = @ i g æ f, un tel lissage peut ^etre obtenu soit en lissant l'image soit en lissant l'opçerateur de dçerivation. Un moyen simple pour stabiliser les calculs de dçerivation est donc d'utiliser les dçerivçees d'une fonction de lissage. Le choix le plus communçement fait pour une telle fonction est la gaussienne ëwit 83, Tor 86, Rom 94a, Flo 93, Lin 94ë. La formule de la gaussienne Gè~x;çè pour un ~x de dimension 2 est : Gè~x;çè= 1 ~x2 expè, 2çç2 2ç 2 è è2.1è La dçerivçee n-içeme de cette fonction par rapport aux variables x ik èk =1:::nè est la suivante : @ n G i1 :::i n è~x;çè= Gè~x;çè n =0:::N è2.2è @i 1 :::@i n oçu i k indique l'axe du systçeme de rçefçerence et donc i k =1; 2 dans le cas d'un systçeme de dimension 2. Pour la nouvelle version du dçetecteur de Harris, nous utilisons de telles dçerivçees. Les convolutions avec les dçerivçees des gaussiennes intervenant dans le calcul sont implçementçees de maniçere rçecursive ce qui permet des calculs rapides ëder 93aë. Pour eæectuer ces calculs rçecursifs la gaussienne et ses dçerivçees sont approximçees de façcon trçes prçecise. La ægure 2.2 compare la version stabilisçee avec une implçementation standard qui utilise des dçerivçees ë-1 0 1ë. Le critçere de comparaison est le taux de rçepçetabilitçe qui est introduit dans la section suivante. La ægure 2.2 montre cette comparaison pour une rotation image ègraphe de gaucheè et pour un changement d'çechelle ègraphe de droiteè. La scçene utilisçee est ëvan Gogh". On peut observer que la version stabilisçee donne de meilleurs rçesultats. Dans le cas d'une rotation les rçesultats obtenus avec la version standard se dçetçeriorent pour un angle de 45 degrçes. Ceci est d^u au fait que cette implçementation standard du dçetecteur de Harris utilise des æltres trop discrets pour approximer de façcon prçecise et isotrope les dçerivçees gaussiennes. La ægure A.10 dans l'annexe A montre des rçesultats similaires pour la scçene ëastçerix". 2.4 Mçethode d'çevaluation Prçecçedemment, nous avons vu qu'il existe beaucoup de travaux sur les dçetecteurs de points d'intçer^et. Toutefois la mçethode d'çevaluation la plus rçepandue a çetçe de vçeriæer

2.4 Mçethode d'çevaluation 13 1.2 Harris HarrisPrecis 1 Harris HarrisPrecis 1 0.8 taux de repetabilite 0.8 0.6 0.4 taux de repetabilite 0.6 0.4 0.2 0.2 0 0 20 40 60 80 100 120 140 160 180 angle de rotation en degres 0 1 1.5 2 2.5 3 3.5 4 4.5 facteur d echelle Fig. 2.2 í Comparaison de Harris et HarrisPrçecis. ça gauche pour la sçequence rotation image et ça droite pour la sçequence changement d'çechelle. La scçene utilisçee est ëvan Gogh" et " = 1.5. visuellement la qualitçe des rçesultats. Ceci n'est pas systçematique et risque en plus de donner des rçesultats subjectifs : on compare le rçesultat avec ce qu'on çevalue comme çetant un point d'intçer^et et non pas avec ce qui est important pour l'çetape qui suit l'extraction de ces points. Un exemple pour une çevaluation systçematique est le travail de Brand et Mohr ëbra 94ë mentionnçe dans la section prçecçedente. Nous prçesentons maintenant diæçerents critçeres d'çevaluation et en retenons un particulier : la rçepçetabilitçe. Une mçethode pour mesurer ce critçere est ensuite dçeænie et mise en çuvre. 2.4.1 Critçeres d'çevaluation D'une maniçere gçençerale un dçetecteur est caractçerisçe par sa rçepçetabilitçe et sa localisation. La rçepçetabilitçe signiæe qu'un m^eme point est dçetectçe dans une suite d'images. La localisation, par contre, signiæe qu'un point dçetectçe dans l'image correspond de façcon prçecise ça un point 3D de la scçene. Plusieurs travaux ont constatçe ëwan 92ë, ëder 93cë qu'il existe une contradiction entre rçepçetabilitçe et localisation. En eæet, un lissage amçeliore la rçepçetabilitçe, mais rend plus mauvaise la localisation, comme l'a constatçe Canny ëcan 86ë. Selon l'application pour laquelle sert la dçetection, les critçeres d'çevaluation diæçerent. Pour des applications qui ne nçecessitent pas de conna^çtre la position 3D, comme le calcul de la gçeomçetrie çepipolaire, l'appariement ou la reconnaissance d'objet, le seul critçere important est la rçepçetabilitçe. Par contre pour la reconstruction 3D ou le calibrage, la localisation et la rçepçetabilitçe sont toutes les deux nçecessaires. 2.4.2 Dçeænition de la rçepçetabilitçe Dçeænition 2.1 Rçepçetabilitçe Soient I 1 et I i deux images d'une m^eme scçene et M 1 et M i les matrices de projection correspondantes. La dçetection des points image p 1 et p i appartenant respectivement ça I 1 et I i est rçepçetable si et seulement si p 1 = M 1 P et p i = M i P. La ægure 2.3 illustre cette dçeænition. Pour mesurer la rçepçetabilitçe d'un dçetecteur, il faut çetablir une relation entre p 1 et p i ça partir des images. Dans le cas gçençeral, il n'existe

14 Chapitre 2 : Dçetecteurs de points d'intçer^et P I 1 I i ε p 1 p i H i1 Fig. 2.3 í Dçeænition de la rçepçetabilitçe. pas de telle relation. Toutefois, si I 1 et I i sont des images d'une scçene plane, cette relation est dçeænie par une homographie : p i = H i1 p 1 oçu H i1 = M i M,1 1 Dans le cas d'une rçepçetabilitçe parfaite entre I 1 et I i, on obtient pour les points dçetectçes sur ces images fpg 1 et fpg i : H i1 fpg 1 = fpg i Dans des conditions rçeelles, uniquement un sous-ensemble de points est rçepçetçe. En outre un point n'est souvent pas rçepçetable de façcon exacte, mais il est rçepçetable dans un voisinage. Nous allons dans la suite introduire une mesure de rçepçetabilitçe qui prend en compte ces deux faits. 2.4.3 Mesure de rçepçetabilitçe La mesure de rçepçetabilitçe compare les ensembles de points fpg i et fpg 1. Il faut tout d'abord noter qu'un certain nombre de points ne peuvent pas ^etre rçepçetçes, car ils correspondent ça une partie de la scçene qui n'est pas vue dans les deux images. Il faut donc tenir compte uniquement de la partie commune eæective des images, c'est-ça-dire de la partie de la scçene vue dans les deux images. Soient fdg 1 et fdg i les sous ensembles de points dçetectçes correspondant ça la partie commune : fdg 1 = fp 1 =H i1 p 1 2 I i g et fdg i = fp i =H 1i p i 2 I 1 g L'ensemble des points dçetectçes ça lam^eme position dans l'image I i est formellement: D = fèd i ;d 1 è=d i = H i1 d 1 g Le support de l'image çetant discret, cette intersection n'a pas de rçealitçe physique. Pratiquement, l'ensemble des points dçetectçes ça la m^eme position est dçeterminçe par un seuil de distance " èon parlera alors d'ë"-rçepçetabilitçe"è : Dè"è =fèd i ;d 1 è=distèd i ;H i1 d 1 è é"g

2.5 ç Etude comparative derçepçetabilitçe 15 Soient n i = jfdg i j et n 1 = jfdg 1 j le nombre de points dçetectçes dans les images respectives. Le taux de rçepçetabilitçe r i è"è pour l'image i est dçeæni par : r i jdè"èj è"è = min èn i ;n 1 è 2.4.4 Cadre d'çevaluation Pour nos expçeriences nous avons enregistrçe des sçequences d'images correspondant aux diæçerentes transformations ça examiner. Pour ces sçequences il faut estimer les homographies de façcon prçecise et indçependante des points dçetectçes. En eæet, si l'homographie est estimçee ça partir de points dçetectçes et que ceux-ci prçesentent un biais, l'homographie va^etre faussçee par ce biais. Ceci favorise le dçetecteur avec lequel ont çetçe dçetectçes les points. Nous avons donc besoin d'une dçetection indçependante et si possible sous-pixellique de points pour le calcul de l'homographie. Pour ce faire, deux images de la scçene sont prises pour chaque position de la camçera : une image de la scçene originale et une image de la scçene sur laquelle sont projetçees des cibles noires. La ægure 2.4 montre une telle paire d'images pour la scçene ëastçerix". Fig. 2.4 í Image ëastçerix" avec et sans cibles. Le processus de projection est illustrçe par la ægure 2.5. Des cibles noires sont projetçees sur la scçene par un rçetroprojecteur. Pendant toute la prise de vue, la scçene et le mçecanisme de projection des cibles sont æxes. Seule la camçera bouge. Dans la suite les images avec cibles sont utilisçees pour le calcul de l'homographie et la dçetection des points d'intçer^et est eæectuçee sur les images sans cibles. Pour le calcul de l'homographie on extrait d'abord les centres des cibles d'une maniçere prçecise en utilisant l'algorithme de Brand ëbra 95ë qui repose sur une approximation du modçele thçeorique du signal. ça partir de ces centres des cibles le calcul de l'homographie est eæectuçe avec une mçethode robuste de moindres carrçes mçedians. 2.5 ç Etude comparative derçepçetabilitçe ça la section 2.2 nous avons vu qu'il existe une grande variçetçe de dçetecteurs. Vu qu'il est impossible de les comparer tous, un sous-ensemble a çetçe choisi. L'çevaluation a çetçe eæectuçee par rapport ça diæçerentes transformations, notamment une rotation image, un changement d'çechelle, un changement de luminositçe et un changement de point de vue. La stabilitçe au bruit de la camçera a çegalement çetçe testçee. L'çevaluation est eæectuçee sur deux