Méthodes symboliques de reconnaissance d objets en vision par ordinateur. Thi Thanh Hai TRAN



Documents pareils
Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Traitement bas-niveau

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Détection des points d intérêt et Segmentation des images RGB-D. Présentée par : Bilal Tawbe. Semaine de la recherche de l UQO

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Fonctions de plusieurs variables

Opérations de base sur ImageJ

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

Fibonacci et les paquerettes

Projet de Traitement du Signal Segmentation d images SAR

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Leçon N 4 : Statistiques à deux variables

Module 16 : Les fonctions de recherche et de référence

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Systèmes de transmission

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Pop-Art façon Roy Liechtenstein

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

Relation entre deux variables : estimation de la corrélation linéaire

Fonctions de deux variables. Mai 2011

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Les algorithmes de base du graphisme

La fonction exponentielle

Formats d images. 1 Introduction

Techniques d interaction dans la visualisation de l information Séminaire DIVA

5.2 Théorème/Transformée de Fourier a) Théorème

Chapitre 0 Introduction à la cinématique

3 Approximation de solutions d équations

Optimisation, traitement d image et éclipse de Soleil

Représentation des Nombres

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

Nom : Groupe : Date : 1. Quels sont les deux types de dessins les plus utilisés en technologie?

Choisir entre le détourage plume et le détourage par les couches.

ÉPREUVE COMMUNE DE TIPE Partie D

Optimisation des fonctions de plusieurs variables

Université Paris-Dauphine DUMI2E 1ère année, Applications

Introduction au Data-Mining

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test


INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Infolettre #18 : Les graphiques avec Excel 2010

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Amélioration des sélections

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Transmission d informations sur le réseau électrique

Géométrie discrète Chapitre V

Correction du Baccalauréat S Amérique du Nord mai 2007

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Chapitre 2. Eléments pour comprendre un énoncé

LES TOUT PREMIERS PAS

Analyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

les Formulaires / Sous-Formulaires Présentation Créer un formulaire à partir d une table...3

modélisation solide et dessin technique

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Comment optimiser dans ImageReady?

Quantification Scalaire et Prédictive

Chapitre 2 Le problème de l unicité des solutions

LIVRE BLANC Décembre 2014

Fête de la science Initiation au traitement des images

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

Les atouts et faiblesses des caméras TEP dédiées, TEP corps entier, TEP-CT, TEMP pour la quantification

Guide de l approbateur de base

Principe de symétrisation pour la construction d un test adaptatif

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

LPP SAINT JOSEPH BELFORT MODE OPERATOIRE ACTIVINSPIRE. Bonne utilisation à toutes et tous! UTILISATION DES TBI LE LOGICIEL ACTIVINSPIRE

Chapitre 13 Numérisation de l information

données en connaissance et en actions?

Résolution d équations non linéaires

EXCEL TUTORIEL 2012/2013

GUIDE Excel (version débutante) Version 2013

SudoClick Reconnaissance de grilles de sudoku pour téléphones portables

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

Fonctions de plusieurs variables

Dérivation CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES

Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.

Galerie de photos échantillons SB-910

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Programmation linéaire

FÊTE DE LA SCIENCE 2005 (Village des Sciences)

Adobe Illustrator Logiciel de dessin vectoriel et de Cartographie Assistée par Ordinateur

DECOUVREZ Discover TYPE EDIT V12 Français

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Simulation d'un examen anthropomorphique en imagerie TEMP à l iode 131 par simulation Monte Carlo GATE

L espace de travail de Photoshop

Table des matières A. Introduction... 4 B. Principes généraux... 5 C. Exemple de formule (à réaliser) :... 7 D. Exercice pour réaliser une facture

Franck VAUTIER, Jean-Pierre TOUMAZET, Erwan ROUSSEL, Marlène FAURE, Mohamed ABADI, Marta FLOREZ, Bertrand DOUSTEYSSIER

INF6304 Interfaces Intelligentes

Sillage Météo. Notion de sillage

7. Exemples de tests pour détecter les différents troubles de la vision.

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

Bases de données documentaires et distribuées Cours NFE04

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

DURÉE DU JOUR EN FONCTION DE LA DATE ET DE LA LATITUDE

Transcription:

Méthodes symboliques de reconnaissance d objets en vision par ordinateur Thi Thanh Hai TRAN

INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE Numéro attribué par la bibliothèque THÈSE pour obtenir le grade de DOCTEUR DE L INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE Spécialité : Imagerie, Vision et Robotique Ecole Doctorale : Mathématiques, Sciences et Technologie de l Information présentée et soutenue publiquement par Thi Thanh Hai TRAN le jj mmmm yyyy METHODES SYMBOLIQUES DE RECONNAISSANCE D OBJETS EN VISION PAR ORDINATEUR Co-Directeurs de thèse : M. Augustin LUX et Mlle. Thi Hoang Lan NGUYEN JURY M. A A, Président M. B B, Rapporteur M. C C, Rapporteur M. D D, Examinateur M. E E, Examinateur M. F F, Examinateur Thèse préparée dans le laboratoire GRAVIR IMAG au sein du projet PRIMA INRIA Rhône-Alpes, 655 av. de l Europe, 38334 Saint Ismier, France.

Table des matières 1 Introduction 5 1.1 Reconnaissance d objets en vision par ordinateur................ 5 1.2 Objectif de la thèse................................ 5 1.3 Approche proposée................................ 5 1.4 Contributions................................... 5 1.5 Plan du mémoire................................. 5 2 Caractéristiques visuelles 7 2.1 Connaissance de base............................... 8 2.1.1 Signal d image et ses dérivées...................... 8 2.1.2 Echelle.................................. 9 2.1.3 Représentation multi-échelles...................... 10 2.1.4 Etude de l échelle des caractéristiques.................. 10 2.2 Quelques critères d évaluation d une caractéristique............... 14 2.3 Caractéristiques géométriques les plus utilisées dans la litérature........ 16 2.3.1 Point d intérêt.............................. 16 2.3.2 Contour.................................. 20 2.3.3 Segment de droit............................. 23 2.3.4 Région.................................. 23 2.4 Discussion..................................... 25 3 Détection de crêtes et vallées 27 3.1 Introduction.................................... 27 3.2 Connaissance de base............................... 28 3.2.1 Géométrie différentielle......................... 29 3.2.2 Invariants directionnels.......................... 30 3.3 Définitions de crête et méthodes de détection existantes............. 32 32 3.3.2 Définitions basées sur la courbure.................... 36 3.3.3 Remarques sur les définitions de crête existantes............ 40 3.4 Crête dans l image : problème d échelle..................... 41 3

4 TABLE DES MATIÈRES 3.4.1 Construction de l espace d échelle.................... 42 3.4.2 Définition de crête basée sur le Laplacien de Gaussien......... 43 3.4.3 Etude de comportement de Laplacien de Gaussien via l échelle..... 46 3.4.4 Fausses crêtes et solution d en éliminer................. 47 3.4.5 Algorithme de détection des points de crête............... 51 3.5 Chainage des points de crêtes........................... 54 3.6 Evaluation de détecteurs de crêtes........................ 54 3.6.1 Critères d évaluation........................... 54 3.6.2 Quelques mesures de crêtes utilisées pour la comparaison....... 56 3.6.3 Expérimentation............................. 56 3.7 Conclusion.................................... 62 4 Application à la détection de textes 67 4.1 Motivation..................................... 67 4.2 Définition du problème.............................. 68 4.3 Caractéristiques de textes............................. 69 4.3.1 Types de texte............................... 70 4.3.2 Texte en différents langages....................... 70 4.4 Textes dans un document imprimé et dans un document média......... 71 4.5 Méthodes existantes pour la détection de texte.................. 72 4.5.1 Méthodes basées sur la région...................... 72 4.5.2 Méthodes basées sur la texture...................... 74 4.5.3 Problèmes existants............................ 76 4.6 Méthode basée sur les caractéristiques structurelles............... 77 4.6.1 Détection de crêtes............................ 79 4.6.2 Vérification des régions de textes.................... 79 4.7 Evaluation..................................... 83 4.7.1 Critères d évaluation........................... 83 4.7.2 Résultat de détection de textes...................... 83 4.8 Conclusion de détection de texte......................... 91

Chapitre 1 Introduction 1.1 Reconnaissance d objets en vision par ordinateur En générale, la reconnaissance d objet consiste à... 1.2 Objectif de la thèse L objectif de ma thèse est de... 1.3 Approche proposée Pour obtenir cet objectif, nous proposons une méthode pour construire le modèle d objet basée sur... 1.4 Contributions Dans cette thèse, nos contributions sont : 1.5 Plan du mémoire Cette thèse est organisée de la manière suivante : 5

6 CHAPITRE 1. INTRODUCTION

Chapitre 2 Caractéristiques visuelles Les approches existantes de la reconnaissance dans la littérature se divisent en deux catégories : les approches basées directement sur le signal d image ; les approches utilisant des caractéristiques géométriques de l objet. Les approches utilisent l information de luminosité de l image ne s intéressent pas à ce qui doivent être vus dans l image (un point, une ligne, un rectangle...) mais plus tôt ce qui sont réellement vus dans l image pour caractériser un objet. Les premières idées étaient d utiliser l histogramme de couleur [?]. Pour rendre moins sensible au changement de luminosité, quelques auteurs ont proposé d utiliser le descripteur de l intensité []. Les descripteurs sont des filtres de Gabors [] ou des filtres steerables []. Avec ces descripteurs, la performance de la reconnaissance a été beaucoup augmentée par rapport à l utilisation originale de l histogramme de couleur. Autre idée est d utiliser une collection d images et ensuite les réduire dans un espace propre 1. Différentes réductions ont été proposées [] qui apprennent les caractéristiques décrivant le mieux l image. Toutes les approches basées sur la luminance de l image sont globales et par conséquent ont des difficultés quand l objet est partiellement caché ou l objet se contitue à partir de structures étranges 2. Bien au contraire aux approches précédentes, les approches utilisant des caractéristiques géométriques [] montrent ce qui doivent être vus dans l image : une ligne, un coin, un triable, etc. Ce type d approches donne une représentation intituive et compacte de l objet, ce qui est plus proche de la perception de l être-humain de l objet. Ces approches consistent généralement de 3 composantes : l extraction de caractéristiques, la construction de modèle et la mise en correspondance des modèles. La sélection de caractéristiques à extraire depend fortement du type de l objet à reconnaître, de la condition d acquisition d images et de l objectif de la reconnaissance. Cette thèse se concentre sur l utilisation des caractéristiques pour faire la reconnaissance générique des objets où on a besoin d une caractérisation abstraite de la forme. Les caractéristiques classiques sont : le point d intérêt, le contour, le segment de droit, la région. Pourtant, ces caractéristiques 1 eigenspace 2 extraneous 7

8 CHAPITRE 2. CARACTÉRISTIQUES VISUELLES ne sont pas applicables à représenter tous types d objets de formes géométriques différentes, mais plus tôt des CAD-objets. Ce chapitre a pour but de rappeler brièvement quelques caractéristiques les plus utilisées dans la littérature. Nous allons analyser sous quelques critères proposés leurs avantages et surtout leurs inconvénients dans la représentation de l objet d ou la motivation d introduire d autres types de caractéristiques répondant mieux à un système de reconnaissance générique. L organisation de ce chapitre est suivante : Dans la section 1, nous présentons quelques critères pour évaluer une caractéristique. Ces critères sont générales et donc utilisables pour évaluer des caractéristiques dans toutes les applications en vision par ordinateur. La section 2 introduit un cardre multi-échelles où l image est étudiée à différentes résolutions, ce qui permet de faire apparaître des structures de tailles différentes dans l image. Nous présentons et évaluons dans la section 3 quelques caractéristiques classiques utilisées pour la reconnaissance d objets. La dernière section discute sur la motivation d utiliser la caractéristique de type crête pour la représentation d objet à fin de faire la reconnaissance générique. 2.1 Connaissance de base 2.1.1 Signal d image et ses dérivées Nous commençons d abord avec quelques définitions de base. Une images définie dans le monde réel est considérée comme une fonction de deux variables réels, par exemple I(m, n), où I est l amplitude de l image à la position (m, n). L amplitude d une image donnée est en général un nombre réel ou entier. Ce dernier est en fait résult d une quatification qui convert un intervalle continu en un nombre de niveaux discrets. Une image numérique I(x, y) décrite dans un espace discret 2D est dérivée d une image I(m, n) dans un espace continue au travers d un processus d échantillonage??. Un traitement réalisé sur une image I(x, y) est en fait une fonction qui applique sur un pixel, une zone dans l image ou toute l image. On parle alors de l opération type point, local ou global. La complexité de l opération est la taille de la zone sur laquelle applique l opération. Par exemple, dans le cas un point, la complexité est constante, tant dis que dans le cas d opération local avec la zone est un carée de taille P xp, la complexité est de P 2. De même pour l opération globale, la complexité est N 2 où NxN est la taille d image. En générale, la détection de caractéristiques dans l image concerne souvent des dérivées de l image. Nous convenons I i (x, y), I ii (x, y) respectivement dérivées d ordre 1 et 2 de l image I(x, y) selon la direction i. I i = I i (2.1) I ii = 2 I i 2 (2.2)

2.1. CONNAISSANCE DE BASE 9 Le Gradient de la fonction d image est donné par le vecteur : [ I I = x, I ] y Le Laplacien est un donné par : (2.3) 2 I = 2 I x 2 + 2 I y 2 (2.4) Filtre de Gaussien et ses dérivées En vision par ordinateur, on lisse souvent l image originale avant de la traiter pour éviter des bruits. Le lissage est fait en convoluant l image avec le filtre de Gaussien. La fonction de Gaussien avec la variance σ 2 dans un espace 2D à un point x = [x, y] T R 2 est définie par : G(x, σ) = 1 x T x 2πσ 2 e 2σ 2 (2.5) La formule de lissage d image est : L(x, y, σ) = I(x, y) G(x, y, σ) (2.6) De cette manière, si on calcule la dérivée de l image lissée, il suffit de convoluer l image originale avec la dérivée de même ordre de Gaussien. La dérivée d ordre d de Gaussien selon la direction θ = 0 est définie par : Pour une direction quelconque θ, G θ d est définie par : G 0 d d (x, σ) = G(x, σ) (2.7) d x G θ d (x, σ) = G0 d (R θx, σ) (2.8) avec la matrice de rotation : [ cosθ sinθ R θ = sinθ cosθ ] (2.9) 2.1.2 Echelle Dans le monde réel, un objet (une structure) n existe qu à une ou quelques échelles []. Un exemple classique est le cas d un abre. Quand on est loin de l abre, on voit sa forme globale. Si on s approche, on voit les branches, les feuilles, et voire des celules si on est sous la loupe. Un problème fondamental de la vision par ordinateur est de décider à quelles échelles devrait on étudier l image donnée.

10 CHAPITRE 2. CARACTÉRISTIQUES VISUELLES Dans la plupart des applications, l information de l échelle n est pas disponible. La solution la plus simple est de considérer l image à plusieurs échelles et établir les relations des structures au travers des échelles. Nous présentons brièvement dans la suite la construction de la représentation multi-échelles et montrons comment étudier des caractéristiques à plusieurs échelles. Pour plus de détails, voir des travaux originaux sur l espace-échelle []. 2.1.3 Représentation multi-échelles La théorie de l espace d échelle [] fournit un cadre de travail mathématique pour l analyse de l image à multi-échelles. Une représentation dans l espace d échelle d une image est en fait une pile des images générées en lissant l image originale. Pour une image donnée I : R 2 R, la représentation dans un espace d échelle L : R 2 x R + R est définie comme la solution de l équation de diffusion : t L = 1 2 2 L = 1 2 (L xx + L yy ) (2.10) où L xx et L yy sont des dérivées d ordre 2 de L(x, y) avec la condition initiale : L(x, y; 0) = I(x, y). Dans [?], on a montré que le noyau Gaussien est la solution unique pour générer la représentation multi-échelles, c-a-d : L(x, y; t) = G(x, y; t) I(x, y), (2.11) où G(x, y; t) est le Gaussien avec le σ = t La figure 2.1 montre un ensemble d images lissées par des filtres Gaussiens. Plus σ est grand, plus l image est floue. Les structures de taille petite disparaissent quand l échelle augmente. Une représentation de l objet devrait tenir compte des structures globales ainsi que détails, d où la nécessité de travailler à plusieurs échelles. La figure 2.2 montre plus clairement la disparition des structure de petite taille quand l échelle augmente. Notons que pour rendre plus visible la représentation 3D, nous avons retourné un angle et avec un facteur de grandissement. 2.1.4 Etude de l échelle des caractéristiques Une structure dans l image n apparaît significativement qu à une ou quelques échelles intrinsèques[]. L échelle intrinsèque d un point dans l image est définie comme l échelle à la quelle la réponse d une certaine mesure admet un extremum local en ce point. La mesure utilisée dépend de type de point que l on veut détecter. Par exemple, le Laplacien est souvent utilisé pour détecter des blobs, le Gradient pour des points de contour, la courbure pour les coins, etc. La figure 2.3 montre un exemple des échelles intrinsèques d un point au centre de fleur. Deux extrema locaux du profil de Laplacien correspondent à deux structures présentes à cette position : le pistil de fleur présent à l échelle petite (le cercle rouge), l entour de fleur est à l échelle plus grande (le cercle blanc). Il est util de garder ces informations.

2.1. CONNAISSANCE DE BASE 11 FIG. 2.1 (a) Image originale. (b,c,d,e,f) sont des images lissées par les Gaussiens avec σ = 1, 2, 2 2, 4 respectivement. Nous trouvons que l image est de plus en plus floue. Les détails disparaissent. Cela est plus clair quand on voit la représentation 3D de ces images dans la figure 2.2.

12 CHAPITRE 2. CARACTÉRISTIQUES VISUELLES FIG. 2.2 Représentation 3D de l image 2.1.a aux échelles σ = 1, 2, 2 2, 4, 4 2, 8, 8 2, 16, 16 2, 32, 32 2 de gauche à droite, du haut vers le bas.

2.1. CONNAISSANCE DE BASE 13 FIG. 2.3 (a) Image d une fleur. Les cercles rouge et blanc représentent deux régions support de deux pics à deux échelles différentes en même position. A droit de la figure montre le profil de Laplacien calculé au point (133, 92) de l image à gauche. Nous constatons que le profil a deux maxima local à deux σ correspondant à deux rayons de cercles respectivement.

14 CHAPITRE 2. CARACTÉRISTIQUES VISUELLES Comme on a vue, un point peut avoir une ou plusieurs échelles intrinsèques. La plupart des travaux ne considèrent qu une seule échelle intrinsèque du point : l échelle à la quelle la mesure en ce point atteint une valeur maximale ou l échelle intrinsèque rencontré premièrement dans l intervalle d échelles considéré. En fait, quand un point a plus d une échelle intrinsèque, ce la correspond à l évenement y avoir plus d une structure. La façon la plus simple est de considérer toutes les échelles intrinsèques trouvées. Avec ça, on peut tenir compte tous les structures présentes dans l image. Ce la convients à des approches représentant chaque point par un vecteur de champs réceptifs [?,?,?]. Selon ces méthodes, un point ayant deux échelles intrinsèques pourra être représenté par deux vecteurs de champs réceptifs correspondant à deux structures y présentes. Nous venons d étudier des échelles d un point dans l image. Considérons maintenant une caractéristique qui n est pas un point, mais un ensemble de points tels que un contour, un segment de droit, une crête ou une région, existe encore la notion de l échelle de ces types de caractéristique? Dans la littérature, cette question n a jamais été explicitement posé et très peu de travaux traitent sur ce sujet. Dans [], Lindeberg propose de détecter séparément des points à leurs échelles caractéristiques et ensuite regrouper des points pour obtenir des crêtes. Avec cette méthode, les échelles peuvent varier le long de la crête. Cette approche apparaît logique, mais son inconvénient n a pas encore été étudié. Nous allons voir dans le chapitre suivant qu à cause de la quantification de l échelle ainsi que la discrétisation du signal image, les crêtes obtenues sont très discontinues. Or, quand on veut travailler avec une caractéristiques de type ligne, on la veut vraiment une ligne. Il n y a pas de trous au milieu de ces lignes. Avec cette raison, nous décidons de suivre l approche multi-échelles. De cette mainière, nous ne devons pas de faire face aux difficultés de sélections des échelles ainsi que le remplissage des trous dans une ligne. 2.2 Quelques critères d évaluation d une caractéristique La performance d un système de reconnaissance d objet basé sur les caractéristiques visuelles dépend fortement de caractéristiques. Les caractéristiques peuvent être différentes selon l application. Avec une application donnée, la sélection du type de caractéristiques pour représenter des objets est un problème fondamental. Une caractéristique est efficace pour certaines applications, mais mauvaise pour d autres. On évalue souvent une caractéristique (ou un ensemble de caractéristiques) en se basant sur le résultat final de l application. Par exemple, dans une application de reconnaissance d objets, les caractéristiques utilisées sont évaluées par le taux de reconnaissance, c-a-d, le ratio de nombre d objets reconnus correctement sur le nombre d objets au total à reconnaitre. En général, on souhait que les caractéristiques détectées doivent satisfaire quelques critères suivants : 1. Expressivité : L expressivité d une caractéristique est définie comme sa qualité expressive des objets dans l image. Si l ensemble de caractéristiques utilisé dans un système de

2.2. QUELQUES CRITÈRES D ÉVALUATION D UNE CARACTÉRISTIQUE 15 reconnaissance n est pas suffisamment expressif, la performance du système sera limitée. Si l ensemble de caractéristiques est trop expressif, le système de reconnaissance est approprié pour tous les problèmes. Prenons un exemple, avec un object manufacturé, le segment de droit est la plus expressive caractéristique pour le représenter. Pourtant, il est bien vu que le segment de droit n est pas une bonne caractéristique pour représenter des structures rondes. En réalité, nous ne voulons pas des caractéristiques spécifiques pour une application concrète dans lequels sont traités quelques types d objets particuliers. Nous cherchons ce qui sont générals, capables de décrire fiablement la plupart des images. Or le fait de trouver un tel type de caractéristique n est pas évident parce que les objets dans la réalité varient fortement en colour, en forme et en texture. 2. Répétabilité : La répétabilité est définie comme le fait qu un même point physique d un objet visible dans deux images soit détecté dans deux images [?]. La répétabilité est importante parce qu il rend stable la mise en correspondance. Plusieurs traveaux existent sur l évaluation de la répétabilté de caractéristiques utilisées, surtout les points d intérêt []. Ils l étudent dans des contexts d acquisition d image différents tels que la rotation, la translation, le changement d échelle ou de lumière. Dans la réalité, un point n est pas en général détecté exactement à la position attendu, ainsi on n obtient jamais l invariance (la répétabilité) à tels changements. Par conséquent, le terme répétabilité réference souvent à ɛ-répétabilité ou la robustesse aux transformations. 3. Robustesse au bruit : Une caractéristique dite robuste au bruit si elle est faiblement influencée par le bruit. Le bruit est défini ici comme tous ce qui pertubent la scène que l on veut capturer son image. Cette pertubation peut être causée matériellement ou logiciellement par une source externe, interne. Ces sources de bruit rendent mauvaise la qualité l image, quelques structures d objets sont floues ou cassés donc très difficiles à reconnaître même par l oeil humain. 4. Discriminalité : La répétabilté n assure pas une mise en correspondance de deux images est correcte. La discriminalité d une caractéristique est définie comme l inverse proportionnel de probalilité de présence de la caractéristique dans l image. Plus petite cette probabilité est, la prossibilité de mise en correspondance est plus correcte et donc plus discriminante la caractéristique. Le plus discriminante caractéristique dans une image permet de distinguer l une caractéristique de l autre. Intuitivement, la discriminance correspond à la rareté de la caractéristique. Plusieurs mesures qui formalisent cette définition ont été proposées telles que l information mutuelle 3 [?] ou la densité de probabilité dans l espace de caractéristique [?]. 5. Détectivité : La détectivité mesure si la caractéristique est facile à détecter. Il s agit de la simplicité algorithmique de détection de caractéristique. La réalisation d un système temps réel demande le calcul moins coûteux possible. 3 Mutual Information en Anglais

16 CHAPITRE 2. CARACTÉRISTIQUES VISUELLES 2.3 Caractéristiques géométriques les plus utilisées dans la litérature Les sections 2.1 et 2.2 ont présenté la connaissance de base et discuté sur différents propriétés désirées d une caractéristique pour des applications en vision par ordinateur. Nous présentons dans cette section quelques types de caractéristiques les plus utilisées dans la littérature. Nous introduisons tous d abord la théorie nécessaire concernant la caractéristique et ensuite montrons quelques exemples dans lesquels ces caractéristiques réussissent pour certaines applications mais échouent pour d autres. 2.3.1 Point d intérêt Plusieurs taches en vision par ordinateur sont basées sur les points d intérêt. Il s agit de : Reconstruction 3D[], Suivi [], Recherche d image basée sur la contenue [], Reconnaissance d objet[], Localisation de robot mobile [], etc. Ils ont montré que l utilisation de point d intérêt améliore énormément la robustesse de l algorithme, par exemple, par rapport à l occultation. Il réduit le flux de données et par conséquence réduit le temps de calcul. Pour cette raison, plusieurs chercheurs ont consacré à la recherche des algorithmes pour détecter des points de façons plus fiable, stable et invariant sous quelques transformations []. D une façon générale, un point d intérêt est défini comme un point ou le signal d image change fortement dans plusieurs directions??. Alors, un point d intérêt peut être un pic, un coin ou une jonction (voir figure 2.4a). En vision par ordinateur, le terme point d intérêt est souvent référencé au terme coin 4. Pour unifier la nommation, dans cette thèse, les points d intérêt comprennent des jonctions, des coins, des pics. Avec la projection d un scène 3D dans le monde réel en plan 2D (image), un coin dans l image ne correspond pas souvent à un coin physique et inverse. La figure 2.4 montre un exemple dans lequel quelques points dans l image correspondent à des coins réels des cubes ou de col de chemise du personnage, nous appelons dans ce cas des vrais coins ; d autres coins sont l origine de l ombre ou d un fait d une surface qui occluse une autre surface, nous les appelons des faux coins. Des faux coins devrait être enlevés parce qu ils provoquent de fausses correspondances des images, donc rendent moins fiable la reconnaissance. Une variété de détecteurs de coin a été proposée [?,?,?,?] et le plus connu est le détecteur d Harris []. Harris sélectionne des points telle que la fonction d auto-corrélation saute dans deux directions principales de la surface locale associé à ce point. Considérons la matrice suivante : [ ] L 2 M = g(x, y, σ 1 ) x (sσ 2 ) L x (sσ 2 )L y (sσ 2 ) L x (sσ 2 )L y (sσ 2 ) L 2 y (sσ (2.12) 2) où L i (σ 2 ) est une dérivée de I(x, y) en le convoluant avec une dérivée de Gaussien de variance σ 2. Notons que les facteurs de lissage pour calculer les dérivées σ 2 et pour le fenêtrage σ 1 4 corner en Anglais

2.3. CARACTÉRISTIQUES GÉOMÉTRIQUES LES PLUS UTILISÉES DANS LA LITÉRATURE17 FIG. 2.4 (a) Image des cubes, l une sur l autre ou occlude l autre. Les points entourés par le cercle vert sont des vrais coins tant dis que les points entourés par un cercle rouge sont des faux coins. (b) La visualisation 3D de Gaussien de l image à gauche à l échelle σ = 2 montre plus clairement le chagment de signal image aux points d intérêt.

18 CHAPITRE 2. CARACTÉRISTIQUES VISUELLES ne sont pas forcément égaux (σ 1 peut être différent à σ 2 ). Les vecteurs propres de cette matrice sont des courbures principales de la fonctions d auto-corrélation. Deux valeurs significatives indiquent la présence d un point d intérêt. Harris a proposé une mesure de réponse d un point d intérêt qui est une fonction de deux valeurs propres de la matrice M : R = detm k(tracem) 2 (2.13) Ici, k est une constante 0.04 k 0.06. Les coins sont indentifiés aux endroits ou R admet un extremum local. Des travaux précédents sur les points d intérêt ont montré que le détecteur de Harris était le plus répétable []. Ils ont aussi montré que cette répétabilité se dégrade rapidement en fonction d échelle. En présence un changement d échelle s entre deux images I 1 et I 2, [] a proposé de multiplier les facteurs de lissage σ 1 et σ 2 avec s pour rendre comparable les valeurs propres. Si on utilise la matrice 2.12 pour détecter des points dans I 1, alors la matrice pour la détection dans I 2 est : [ ] L M = s 2 2 g(x, y, sσ 1 ) x (sσ 2 ) L x (sσ 2 )L y (sσ 2 ) L x (sσ 2 )L y (sσ 2 ) L 2 (2.14) y(sσ 2 ) ici, s est le facteur d échelle entre deux images I 1, I 2 : I 1 (x) = I 2 (x) avec x = sx + c. La plupart dans la réalité, le facteur d échelle de deux images est inconnu, alors, les coins doivent être calculés à plusieurs échelle s i. L approche multi-échelle ne convient qu à une petite base d images. Quand le nombre d images est important, cette approche devient très couteuse. Dans [], les auteurs ont proposés d envisager ce problème en sélectionnant une échelle optimale pour chaque points dans l image. L échelle optimale est celle à la quelle la réponse de Laplacien admet un extremum local. Le point (x,y) ayant l échelle optimale σ sera ensuite vérifié s il est un point d intérêt selon le critère de Harris. On appele cette approche Harris-Laplacian. Une autre méthode de détecter des points d intérêt est de calculer des points extrema dans l espace-échelle construit par la différence de Gaussien (DoG 5 ). Cette approche produit des points invariants à la translation, la rotation, le changement d échelle, le changment léger de luminosité. Dans [], on est capable de déterminer la transformation affine subie des points dans l image I 2 par rapport à ceux dans l image I 1 en se basant sur les directions de vecteurs propres de matrice Hessienne. Alors, dans ce cas, on peut dire que les points sont invariants à la transformation affine. La figure 2.5 montre le résultat obtenu par le détecteur d Harris. La constante k utilisée est égale à 0.04, le facteur pour le fenêtrage σ 1 = 2.0 et pour calculer les dérivées σ 2 = 1.0. Les extrema de l image de réponse R sont déterminés dans une carée de taille 100 pixels. La figure 2.5a montre la réponse R calculée à tous les points dans l image. Les points noirs présentent une réponse très faible. Les points jaunes présentent une réponse forte positive et ceux en vert présentent une réponse forte négative. L image 2.5b est une superposition de points d intérêt détecté en gardant seulement des extrema de l image 2.5a. Nous constatons que les 5 Difference of Gaussian

2.3. CARACTÉRISTIQUES GÉOMÉTRIQUES LES PLUS UTILISÉES DANS LA LITÉRATURE19 FIG. 2.5 (a) La réponse R à chaque point de l image de la figure??a. (b) Superposition de points d intérêt (les extrema locaux de l image (a)) sur l image originale.

20 CHAPITRE 2. CARACTÉRISTIQUES VISUELLES points d intérêt sont bien détectés aux coins ou aux jonctions dans l image. De plus, comme nous avons parlé précédemment, quelques faux coins sont également détectés. Nous affichons seulement les 27 points ayant la réponse R la plus forte. En fait, le nombre de points détectés est grand. Dans cet exemple, nous avons seuillé les réponses des points à 20 pour enlever des points venant de bruit ou des effets de luminosité. Les points d intérêt par les détecteurs ci-dessous sont montrés invariants à des transformations telles que la rotation, la translation, le changement d échelles et luminosité. L évalution a été faite en utilisant la mesure de répétabilité [?]. Le détecteur Harris-Laplacian est montré le plus répétable (92%). Alors, toutes les utilisations directes ou indirectes de point d intérêt détectés par Harris-Laplacian sont invariantes à telles transformation. La discriminanité de point d intérêt a été proposée d être mesurée par l information mutuelle. Les traveaux [] montrent encore que le détecteur Harris-Laplacian donne des points les plus discriminants. Vue des méthodes de détections de points d intérêt, nous trouvons que les points d intérêt sont facilement détectés selon des critères donnés. La détection se fait justement en calculant des mesures (par exemple Laplacien, la courbure, etc), et détecter les extrema locaux de ces mesures. La localisation est également assurée. Nous faisons la détection de points d intérêt de l image ci-dessus, de taille 512x512. le temps de calcul pout un point d intérêt est lourd pour calculer des dérivées. Il nous faut 1.04 au total. Pour ce qui concerne l expressivité, nous trouvons que point est un élément le plus élémentaire de la géométrie. La représentation de l objet par des points qui le constituent apparaît la plus naturelle. Tous les types d objets peuvent être représentés par les points. Le problème unique est que si la représentation est efficace pour les applications telles que la reconnaissance d objet ou l indexation d image. Les méthodes actuelles utilisent des points d intérêt comme les locations informatives pour construire des descripteur de l image []. Une image est représentée par des vecteurs de description, chaque vecteur est composé de dérivées de signal image [] (champs réceptifs, local zet,...). Les résultats obtenus ont montré une excellente performance de la méthode (xx% pour la reconnaissance d objets et yy% pour l indexation d images). Pourtant, dans le context de reconnaissance générique, où on veut que la représentation soit plus tôt abstraite, ces approches de représentaion précise ne sont pas appropriés. 2.3.2 Contour Un des types de caractéristiques les plus étudiées est le contour. Comme un point d intérêt, un point de contour apparaît souvent à l endroi où il y a un changement fort de la valeur de luminance dans l image. Ainsi, Un point de contour ne correspond pas souvent d un point de contour dans la scènce mais il est peut-être produit par un sombre. L ensemble de point de contour produit à un contour dont la direction local à chaque point est celle du Gradient à ce point. Le contour a été introduit depuis des années 70 [] pour construire une description de bas niveaux de l image. Depuis, il existe plusieurs définitions de contour : le passage par zéro de

2.3. CARACTÉRISTIQUES GÉOMÉTRIQUES LES PLUS UTILISÉES DANS LA LITÉRATURE21 Laplacien [?] ; le maximum de la magnitude du Gradient selon la direction du Gradient [?] ; et d autres définitions []. La détection de passage par zéro de Laplacien est plutôt simple. Pourtant, il est difficile d extraire un descripteur de contour fiablement. Ce la était souvent expliqué par la sensibilité au bruit qui peut être réduite par le lissage du signal d image avant d appliquer le détecteur. En plus, la qualité de détection depend fondamentalement de structures dans l image. En fait, les objets dans la scène sont souvent constitués des types de structures à différentes échelles. Ainsi, la détection de contour est très subjective en quelque sort. La figure 2.6 montre le résultat sorti de la détection de contour en cherchant des passages par zéros de Laplacien. L image originale est un peu bruitée. Le fait de détecter tous les discontinuités dans l image originale ne nous donne pas un résultat parlant. En fait, à ce niveau, toutes les structures de taille d un pixel sont prise en compte. Alors, il est possible que le bruit va entrer dans le résultat. De plus, des structures de taille d un pixel ne sont pas très descriptives. Si nous lissons l image par un filtre Gaussien de σ quelconque, toutes les structures de taille inférieure à σ ne seront plus considérées (voir la figure 2.6c). De cette manière, nous pouvons capter des contours des structures de différentes tailles dans l image à différentes échelles σ. Cette approche est appelée approche multi-echelle. Elle est introduite premièrement dans le travail de [] et de plus en plus étudiée largement. Dans la littérature, le contour a été appliqué à la détection de route dans l image aérienne, de sanguin dans l imagerie, la segmentation d images, la reconnaissance d objets []. L utilisation de contour se divise principalement en deux catégories : L une utilise des points de contours directement et l autre les enchaîne avant d en utiliser. La première catégorie ne demande pas de chaînage. Ainsi, elle réduit l influence de bruit qui est origine principale de découpage du contour. Chaque point de contour est souvent modélisé par une fonction comme la tranformation de Fourier, l angle tournant, et encore plus sophistiqué comme par exemple un vecteur de champs réceptifs []. Ce type d approche est entièrement numérique. Elle fournit aucune information structurelle de l objet. Ainsi, elle n est pas très bien adaptée pour une représentation abstraite de la forme. De nombreuses applications utilisent le contour comme une séquence de points, pas des points discrets[]. Pour cela, le chaînage des points du contour et le regroupage des contours d un objet sont nécessaires. Comme nous avons précédémment parlé, un petit bruit peut casser complètement la structure de l objet. Une solution est de remplir des trous sur le contour avant d en enchaîner. Un opérateur éventuel est l érosion. Une autre difficulté se trouve dans le regroupage de contours d un objet. Sans aucune connaissance à priori de l objet ainsi que la scène, il est impossible de regrouper précisément quels contours appartenant à quels objets. Théoriquement, les contours sont invariants aux transformations telles que la rotation, la translation parce que l opérateur de détection utilisé, le Laplacien, est symétrique circulaire, donc y invariant. Pour ce qui concerne la capacité de représenter des objets, nous constatons que les méthodes numériques sont indépendantes de structures des objets, donc capables de modéliser théoriquement tous les objets dans le monde réel. Pourtant, si nous voulons une représentation plus proche

22 CHAPITRE 2. CARACTÉRISTIQUES VISUELLES FIG. 2.6 (a) Image d une avion. (b) Superposition de passage par zéro de Laplacien à niveau 0 sur le Laplacien. Le vert représente une valeur négative du Laplacien, le jaune une valeur positive, le rouge un passage par zéro. Nous constatons que très nombreux points rouges ne sont pas représentatifs d une structure de l objet. Les contours de l ombre de l avion sont détectés. Cette caractéristique n est pas stable pour la représentation de l avion. (c) Superposition de passage par zéro sur Laplacien à l échelle 4 2. Les contours sont plus informatifs. On voit bien qu il est difficile de regouper des contours appartenant à l avion.

2.3. CARACTÉRISTIQUES GÉOMÉTRIQUES LES PLUS UTILISÉES DANS LA LITÉRATURE23 possible de ce que nous imaginons de l objet, l approche symbolique est préférée. Les contours en général ne sont jamais les contours réels d objets à cause de lissage. De plus, il peut arriver qu un contour qui vient d un effet luminaire comme l ombre ne représente aucune structure de l objet. Tous cela rend non-fiable la représentation d objet par les contours. 2.3.3 Segment de droit Le segment de droit est un autre type de caractéristiques bien étudié dans la littérature[]. De mêmes faiblesses de la détection de contour (la sensiblité au bruit, la difficulté d enchaîner des points du segment et de déterminer précisément ses extrêmités). Ce type a encore deux points faibles considérables. Premièrement, c est dans l approximation de segment de droit à partir d un ensemble des points. Cette approximation demande souvent un algorithme de moindre carée, ce qui peut prendre du temps de calcul. La deuxième difficulté remarquable est que la représentation basée sur le segment de droit est limitée à des objets polyédriques simples présentés par les arêtes de leurs surfaces, qui sont en général des objets manufacturés. Or, dans le monde réel, les objets sont de formes très variées, ils ne sont pas obligés de contenir des segments de droits. 2.3.4 Région Région est caractéristique très connue. Une région se définit souvent comme un ensemble des points qui sont homogènes selon un critère quelconque. Les régions sont déterminées par la segmentation d image. Segmentation d image est un des problèmes fondamentales en vision par ordinateur. Plusieurs algorithmes ont été proposés tels que split-merge,... Un problème commun dans la segmentation est le critère de homogenité des points. Ce critère varie en fonction de l application. En fait, chaque application travaille sur une base d image différente. L objet à faire est différent. Par conséquent, une question difficile est de choisir un critère afin de bien segmenter pour obtenir des régions qui correspond à ce qu on cherche. Des fois, il faut regrouper des régions. Ce problème est aussi difficile que le regroupage des contours d un objets. Généralement parler, la segmentation d images est moins sensible au bruit que la détection de contour parce que la condition de homogenité des points est moins précise que le passage par zéro. Pourtant, comme l extension d une région s arrête au contour de l objet, nous ne pouvons pas nous échaper de ce boucle vicieux. Pour ce qui est la capacité de représenter des objets, à partir d une région correspondant à un objet, on peut exploiter des informations sur la couleur, textures et faires des statistiques là dessus. Ces riches informations peuvent nous permetre une représentation très informative. Mais, la forme de l objet proprement dire est très implicite. Ce type de caractéristiques a été largement utilisé pour détecter des objets tels que les voitures, les visages ou les personnes dans une scène complexe []. Issue d une idée très traditionelle est que la représentation des objets basée sur ses composantes spécifiques, bien distinctes et riches en information permet une fiable détection. Les approches de représentation d objets

24 CHAPITRE 2. CARACTÉRISTIQUES VISUELLES dans la littérature se différecient par la définition des composantes, la méthode pour les détecter et les combiner. Agarwall [] détecte d abord les points d intérêt dans l image de niveau de gris. Ensuite, il attache à chaque point d intérêt détecté une fenêtre de taille fixe. La fenêtre est caractérisée par son centre symétrique, sa largeur et sa longeur. Cette étape founit un ensemble de composantes intéressantes de la scène, appelé le vocabulaire. Une fois on dispose d une nouvelle image, elle sera transformée et représentée dans le terme de composantes présentes dans le vocabulaire. De cette manière, chaque image est représentée comme un vecteur binaire de taille égale à la cardinalité de vocabulaire. La composante j du vecteur ayant la valeur 1 indique que cette composante correspond à la jièm composante dans le vocabulaire. Les relations spatiales des composantes sont également prises en compte. La détection de l objet se fait par prendre une fenêtre dans l image, la représenter par un vecteur binaire de composantes et comparer ce vecteur avec tous ce qui dans la base de vecteurs appris. L objet est identifié comme objet dont la similarité entre deux vecteurs est la plus grande. L algorithme est répété en glissant la fenêtre dans l image. La représentation d objet selon cette approche permet une détection significativement correct de voitures. Elle est également robuste au différents changement de luminosité ou de rotation. Pourtant, cette approche n a pas compté le changement de la taille d objet, ce qui se passe très souvent dans la réalité. Cette approche peut adapter à changement d échelle par détecter des points d intérêts à échelle caractéristique et adapter la taille de fenêtre à cette échelle. Une approche basée aussi sur des composantes se trouve dans[]. Cette approche spécifique à la détection des personnes. représente une personne par ses composantes caractéristiques telles que sa tête, ses deux bras et son corp. Le système de détection d une personne commence par sélectionner des fenêtres de tailles 128x64 pixels. Cette fenêtre sera classifiée comme personne ou non personne. Quatres détecteurs spécifiques de tête, bras gauche, bras droit et corp sont appliqués à tous les pixels dans cette fenêtre. Cela résulte des régions canditates pour les composantes de la personne. La fenêtre est glissée de haut en bas, de gauche à droit de l image. Elle est traitée à différentes échelles. Cette approche est précise et détecte significativement mieux que celles qui détectent des personnes complètes dans l image par ce que dans cette approche, une personne n est pas obligée de contenir toutes 4 composantes. Pourtant, elle est très couteuse en calcul. Une similaire approche se trouve dans le travail de [?] mais la fusion de région est faite statistiquement. En résumé, la première approche présentée dans cette section est extensible à représenter des différents types d objets dans le monde réel. La seule exigence est de l adapter au changement d échelle. Les denières approches sont trop spécifiques, donc incapable de traiter de différents types d objets.

2.4. DISCUSSION 25 2.4 Discussion Nous venons de présenter quelques types de caractéristiques utilisées largement en vision par ordinateur. Ces caractéstiques peuvent être considérées comme des primitifs qui permettent de créer d autres plus sophistiquées. Un avantage commun d utilisation de ces caractéristiques est que nous pouvons hériter énormément des constributions de recherche de longues années. Pourtant, comme nous avons précédément parlé, ces caractéristiques sont souvent hautement sensibles au bruit, et ne donnent pas information suffisante de la forme. Dans [], les auteurs ont judgé qu un bon modèle pour représenter la forme d objets devrait suivre l idée de méthode basée sur la région ainsi que le contour. Alors, les caractéristiques utilisé pour construire le modèle de cette manière porteront l information sur la région et le contour. Depuis trentaines d années, Blum [?] a proposé d utiliser un type de caractéristiques qui est en quelque sort l axe médian de l objet. Cette caractéristique représente la squelette de l objet et en plus si on attache à chaque point de cet axe le rayon du cercle inscrit de l objet centré à ce point, le contour et la région associés sont facilement déterminés. Pourtant, l algorithme de construction de l axe médian de Blum marche seulement sur des images binaires en supposant que le contour de l objet est bien détecté et localisé. Cet algorithme ne peut pas être appliqué en pratique et subit encore tous les handicaps des méthodes de détection de contours. Plus tard, suivi de même idée précédente, quelques chercheurs [?,?,?,?] proposent d utiliser des types de caractéristiques sous les noms Pic et Crête. Ils ont aussi proposée des méthodes de détection sans aucune liaison avec la détection de contour. Ces caractéristiques sont des lieux où le signal de l image change fortement dans une ou plusieurs directions, donc très riches en information. En plus, elles sont des structures à l intérieur de l objet qui sont moins sensibles au bruit que le contour du point de vue de détection. Ce qui nous intéressent le plus chez ces caractéristiques est qu elles sont des entités géométriques qui représentent la forme des structures de l objet, à partir desquelles nous pouvons imaginer l objet et le reconnaître : une crête peut être considérée comme une approximation de l axe médian qui sert à représenter une structure longue tandis qu un pic représente le sommet d une structure assez ronde. Autrement dit, avec l utilisation de ces caractéristiques, nous obtiendrons une représentation intuitive et compacte de l objet dans l image. Convaincu par ces propriétés qu elles possèdent, nous decidons dans notre travail d utiliser des pics et crêtes pour construire le modèle de l objet. La robustess au bruit et aux différents changements de l environement et l apport de la desciption de forme de l objet de pics et crêtes seront validés plus tard dans ce chapitre et les chapitres qui suivent. =================================== Remarque : Je veux bien dévelloper des parties de caractéristiques classiques. Par exemple, pour le contour : plus de détail pour la définition, sur les méthodes de détections, de représentation, d application.

26 CHAPITRE 2. CARACTÉRISTIQUES VISUELLES

Chapitre 3 Détection de crêtes et vallées 3.1 Introduction La surface est un concept fondamental qui a été largement utilisé en plusieurs domaines tels que la physique, la mathématique, la géologie, etc. Tous les objets dans le monde ont une surface, qui peut varier en forme d une vague jusqu au plan. La représentation d objet nécessite de reconnaître les surfaces et leurs structures. Les mathématiciens modélisaient les surfaces en les décomposant en les éléments primitifs tels que le cercle, la boite, le convexe, etc. La modélisation de cette manière est formelle et générique à tous les types de surfaces. Pourtant, elle n est pas capable de caractériser la surface en gardant les informations structurelles importantes. Elle est plutôt appropriée au développement des techniques de CAD, mais pas une représentation abstraite de la forme. Les physiciens, au contraire, cherchaient à représenter les surfaces de sorte qu elle préserve le plus possible l information structurelle. Ils proposaient d utiliser les descripteurs compound tels que la vallée, le tertre, le réseau de drainage, etc. Cette approche de représentation apparaît beaucoup plus naturelle que celle proposée par les mathématiciens parce qu elle reflète plus intuitivement la formation de la surface, donc plus proche de jugement humaine. Pourtant, la pertinence de l approche est subjective. En vision par ordinateur, les premières approches de représentation de la forme d objet n ont pas analysée l image sous forme d une surface. La représentation d image est typiquement tombées en deux catégories : la représentation basée sur le contour et la représentation basée sur la région. Comme nous avons analysé au chapitre précédent, les approches basées sur les contours sont inefficaces quand la présence de bruit dans l image est importante. Le bruit rend difficile la détection de contour et la détermination de son orientation. D ailleurs, la caractérisation de la forme d objet par son contour dépend fortement de la précision de l analyse de connexité des points de contours. Les approches basées sur les régions semblent moins sensible au bruit grâce à la mesure de similarité entre les pixels dans la région qui est moins contrainte que le teste de passage par zéro pour identifier des points de contour. Pourtant, le grandissement de la 27

28 CHAPITRE 3. DÉTECTION DE CRÊTES ET VALLÉES région demande de s arrêter (aux points de contours par exemple). Par conséquent, l approche est sensible aux seuils. Pour éviter à faire faces aux problèmes ci-dessus, la caractéristique utilisée ne devrait pas être le contour ni la région. Pourtant, elle devrait contenir à la fois l information de contour ainsi que région. Suivi cette philosophie, Blum a développé une représentation pour les formes binaires appelée Medial Axe Transform (MAT) [4]. Cette représentation est intéressante parce que les composantes de la forme sont définies relativement à l axe médian de la forme. Malheureusement, la transformation fonctionne seulement sur les formes binaires qui introduit tous les problèmes concernant les techniques de seuillage. De plus, la transformation est définie seulement pour les formes continues, l extension en grille discrète est difficile et coûteuse. Afin de résoudre le problème rencontré dans le travail de Blum, il est important de définir une structure qui assure toutes les caractéristiques de l axe médian et qui est générique à tous les types d image. Celle-ci conduit à étudier l image en caractérisant la surface associée par les lignes caractéristiques, ce qui retourne au travail des physiciens. Les lignes de crêtes et vallées sur la surface de l image sont des structures intéressantes. D une part, la crête représente le changement important du signal d image parce qu elle passe tous les points stationnaires. D autre part, la crête est liée fortement à l axe central des structures. Pour ces raisons, il est utile d utiliser la crête à la représentation d image et de structures. La plupart des études sur les crêtes existantes sont théoriques. La détection de crête est effectuée sur les surfaces paramétriques prédéfinies, qui sont loin des surfaces réelles. Quelques approches ont mentionné l application de crête à l analyse d image. Mais, très peu d expérimentations sur les images réelles ont été réalisées. L objectif de ce chapitre est t expérimenter de différentes mesures de crêtes sur les surfaces construites à partir des images réelles. Dans la section 2, nous présentons quelques définitions de crêtes existantes. Ces définitions sont construites sur la surface générale. L application à l image nécessite de définir la surface associée à l image. La plupart des approches utilisent la surface du signal de l image ou de l image lissée à une échelle fixe. Les crêtes détectées sur ces surfaces représentent des structures minces de tailles uniformes. Les images en général contiennent plusieurs objets de différentes tailles. Pour capturer l information de la forme global ainsi que des détails, une approche multiéchelle est introduite. La crête est donc définie à une échelle quelconque et représente une structure quelconque. Dans section 3, nous définissons une crête dans un espace d échelle en utilisant le Laplacien de Gaussien. La comparaison de cette mesure avec d autres mesures de crêtes existantes sera effectuée dans la section 4. La conclusion du chapitre est dans la section 5. 3.2 Connaissance de base Les équations différentielles et la géométrie différentielle constituent une plate-forme qui permet d exprimer tous les processus physiques aussi que les propriétés géométriques. La définition de crête et l opérateur de détection de crête devrait se baser sur des propriétés géométriques de la surface et des courbures. Dans cette section, nous présentons une courte description