Détection des points d intérêt et Segmentation des images RGB-D. Présentée par : Bilal Tawbe. Semaine de la recherche de l UQO

Documents pareils

Traitement bas-niveau

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Géométrie discrète Chapitre V

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

N. Paparoditis, Laboratoire MATIS

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Fête de la science Initiation au traitement des images

TP SIN Traitement d image

Opérations de base sur ImageJ

Mesure agnostique de la qualité des images.

Introduction au Data-Mining

Les algorithmes de base du graphisme

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Reconnaissance de visages 2.5D par fusion des indices de texture et de profondeur ICI 12/12/12

CHAPITRE IX : Les appareils de mesures électriques

Choisir entre le détourage plume et le détourage par les couches.

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Société de Geo-engineering

Comme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Introduction au Data-Mining

La classification automatique de données quantitatives

Formats d images. 1 Introduction

Projet de Traitement du Signal Segmentation d images SAR

Guide de l'utilisateur de l'utilitaire d'installation de caméra Avigilon

Utilisation du logiciel ImageJ gratuit

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Intérêt du découpage en sous-bandes pour l analyse spectrale

LES CAPTEURS CCD/CMOS

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

Hiver 2013 IMN 259. Introduction à l analyse d images. Par Pierre-Marc Jodoin

INF6304 Interfaces Intelligentes

Traitement numérique de l'image. Raphaël Isdant

TITRE PARTIE TITRE SECTION. Faire des anaglyphes avec CatiaV5

IFO. Soleil. Antoine COUSYN 29/07/ /02/2015. Vidéo. Manipur, Inde. Saturation du capteur CMOS. 19 Juin h11 heure locale.

X-Rite RM200QC. Spectrocolorimètre d'imagerie portable

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Faire de la déformation interactive avec GIMP

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

Technique de compression des images médicales 4D

Par Richard Beauregard. Novembre 2011

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Approche par marquage pour l évaluation de la qualité d image dans les applications multimédias

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

VOS PREMIERS PAS AVEC TRACENPOCHE

Codage hiérarchique et multirésolution (JPEG 2000) Codage Vidéo. Représentation de la couleur. Codage canal et codes correcteurs d erreur

F210. Automate de vision hautes fonctionnalités. Caractèristiques. Algorithmes vectoriels

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Fonctions de plusieurs variables

L apprentissage automatique

modélisation solide et dessin technique

Université des Sciences et Technologies de Lille 1 UFR Informatique. Projet scientifique de Master 2 Image, Vision, Interaction.

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Synthèse d'images I. Venceslas BIRI IGM Université de Marne La

Object Removal by Exemplar-Based Inpainting

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Analyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1

Introduction au maillage pour le calcul scientifique

Rapport d'analyse des besoins

Immersion - Vision 3D dans la RV.

chapitre 4 Nombres de Catalan

Proposition d un model hiérarchique et coopératif agent pour la segmentation d image

Date : Tangram en carré page

Infolettre #18 : Les graphiques avec Excel 2010

Sujet. calculatrice: autorisée durée: 4 heures

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Recherche De Coalescences Binaires Étalonnage Du Détecteur

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

BACCALAUREAT GENERAL MATHÉMATIQUES

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

Publication Assistée par Ordinateur

Projet Matlab : un logiciel de cryptage

Réussir et traiter ses photos sous UV avec Photoshop

Ebauche Rapport finale

Chapitre 18 : Transmettre et stocker de l information

Audio pour HDSLR. «Comment obtenir un son professionnel en filmant avec un reflex numérique?»

- un Sigma DP1 Quattro (

Calage robuste et accéléré de nuages de points en environnements naturels via l apprentissage automatique

Travaux pratiques avec RapidMiner

La visio-conférence holographique : Pourquoi? Comment?

AOMS : UN NOUVEL OUTIL DE PHOTOGRAMMÉTRIE

Alarme domestique- Présentation

SLAM Visuel 3D pour robot mobile autonome

Big Data et Graphes : Quelques pistes de recherche

Exposition. VLR plongée e commission photo

Extraction d informations stratégiques par Analyse en Composantes Principales

données en connaissance et en actions?

Traitement d un AVI avec Iris

Éclairage naturel L5C 2009/2010. Aurore BONNET

Extraction et reconstruction de bâtiments en 3D à partir de relevés lidar aéroportés

Franck VAUTIER, Jean-Pierre TOUMAZET, Erwan ROUSSEL, Marlène FAURE, Mohamed ABADI, Marta FLOREZ, Bertrand DOUSTEYSSIER

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Analyse Sémantique de Nuages de Points 3D et d Images dans les Milieux Urbains

Transcription:

Détection des points d intérêt et Segmentation des images RGB-D Présentée par : Bilal Tawbe Semaine de la recherche de l UQO 25 Mars 2015

1. Introduction Les méthodes de détection de points d intérêt ont commencées avec la forme 2D et étaient utilisées en 3D. Nous allons présenter plusieurs approches de détection des points d intérêt en 2D et 3D Comme : Harris (Sipiran, et al., 2010) : Pour la détection de coins SIFT (Scale Invariant Features Transform, Mayo, et al., 2009) : Pour la détection des régions SURF (Speeded Up Robust Features, Knopp et al., 2010) : Pour de détection invariante à la rotation et à l échelle. Nous allons présenter les résultats que nous avons obtenu en applicant ces méthodes sur la base de données de Kevin et Lai 2013. Une comparaison entre les méthodes est présentée. La segmentation d'image est une méthode fondée sur des critères de similarité d'indices individuels dits <<attributs>> correspondant à des point d'intérêts ou à des zones. Plusieurs méthodes de segmentation se sont développées ces dernières décennies et les chercheurs ont ressenti le besoin d'avoir une mesure de qualité de la segmentation pour l'évaluation des résultats de la segmentation. Dans cette présentation nous allons voir plusieurs techniques de segmentation. Nous avons appliqué ces techniques sur notre base de données qui était prise en utilisant la Kinect caméra. Nous utilisons ces techniques pour reconnaitre la nature des objets qui sont dans la base de données. Dans ce travail nous allons voir des méthodes de segmentation fondées sur les contours, autres fondées sur les régions et des autres méthodes en combinant plusieurs techniques ensembles.

2. Représentation du contenu visuel des images La performance des systèmes de recherche par le contenu dépend pour une grande partie du choix des descripteurs utilisés et des techniques associées à leur extraction. De nombreux descripteurs sont utilisés dans les systèmes de recherche pour décrire les images comme les descripteurs de couleur, les descripteurs de texture et les descripteurs de forme, leur pouvoir de discrimination étant limité au contenu visuel de l image. 2.1. Les couleurs RGB Le système le plus couramment utilisé est le système RGB (Red-Green-Blue). Il associe à chaque couleur trois composantes. Le blanc correspond à la valeur maximale pour chaque composante et le noir correspond à la valeur minimale pour chaque composante. La Figure 2.1 représente une illustration de cet espace. Figure 2.1. L espace de couleurs RGB 2.2. Les couleurs CIE-Lab Pour élimine l effet de la lumière. L est la luminance. Les deux autres paramètres a et b décrivent la couleur. La composante a permet de parcourir l axe de couleur rouge-vert et la composante b parcourt l axe de couleur jaune-bleu. La Figure 2.2 représente une illustration de cet espace. Figure 2.2. L espace de couleurs CIE-Lab

3. Descripteurs de couleur Le fort pouvoir de discrimination de la couleur en fait un attribut très important dans la grande majorité des systèmes d indexation et de recherche par le contenu. De nombreux descripteurs sont proposés dans la littérature. L approche la plus courante et la plus rencontrée dans la littérature est l histogramme couleur. De très nombreux auteurs ont proposé diverses manières d utiliser l histogramme comme descripteur, ainsi que diverses distances associées qui permettent de mesurer la similarité entre deux histogrammes.

4. Image de profondeur Une image de profondeur (range image) ou image 2.5D est une image en niveau de gris dans laquelle l intensité est inversement proportionnelle à la distance des points de la scène vue sous un seul angle. Les techniques de mesure de profondeurs (distances) sont multiples. Par exemple on peut calculer la distance entre la surface de l'objet étudié et la caméra en mesurant le temps nécessaire au trajet d aller-retour du faisceau laser réfléchi. La technologie capteur de profondeur 3D (3D depth sensor) a base de caméra infrarouge comme le Kinect est un autre exemple et elle permet d'obtenir l image de profondeur. Le fonctionnement est similaire a celui d'une camera RGB sauf qu'uniquement les rayons infrarouges sont émis et filtrés. La scène est bombardée par les rayons infrarouges non visibles a l'œil. Une partie de ces rayonnements sera retournée par l'ensemble des objets de la scène. Plus l'objet est loin et plus la quantité de rayonnement infrarouge réfléchie est faible. La caméra infrarouge mesure la distance de l'objet en fonction de l intensité. (Voir Figure 4.1). Figure 4.1. L image RGB d une scène réelle à gauche et l'image de profondeur à droite (Kevin Lai et al. 2013). 5. Base de données d'objets RGB-D La base d objet RGB-D Object Dataset est parmi la plus grande base de données RGB-D et est composée de 300 objets communs. Ces objets sont organisés en 51 catégories rangées en relations. Par exemple la catégorie soda est divisée en des instances. Les captures sont faites avec la caméra 3D Kinect qui synchronise et aligne des images RGB 640x480 avec des images de profondeur. Chaque objet est placé sur un plateau tournant et une capture des trois séquences de vidéo sont prise sous trois angles différents 30⁰, 45⁰ et 60⁰. La caméra est placée à plusieurs hauteurs pour avoir différents angles de prise de vues. Chaque séquence de vidéo génère autour de 750 cadres donc pour trois séquences de vidéo nous avons autour de 750X3= 2250 cadres en format des images RGB, D et segmentées, aussi autour de 750 fichiers extension.loc, chaque fichier contient les coordonnées de coin supérieure du cadre.

La représentation des images dans la base de données est bien structurée, exemple si on prend : L image RGB Apple_1_1_1_crop.jpg représente le premier cadre de la première séquence de la pomme numéro 1 qui est la pomme rouge qui appartient à la catégorie pomme, Apple_1_1_2_crop.jpg représente le deuxième cadre de la première séquence de la pomme numéro 1 qui est la pomme rouge qui appartient à la catégorie pomme et ainsi de suite. La Figure 5.2 représente plusieurs objets de la base de données, chaque objet dans la figure vient d une catégorie différente. Figure 5.2, plusieurs objets de la base de données, chaque objet vient d une catégorie différente

6. Descripteurs de texture La texture est une caractéristique fondamentale des images, car elle concerne un élément important de la vision humaine (Exemple voir Figure 6.1). Elle traduit donc l aspect homogène d une zone et peut être décrite selon ses propriétés spatiales et fréquentielles. L approche basée sur la configuration spatiale de l image consiste à représenter la texture sous forme d un histogramme en niveau de gris. L une des méthodes de description de la texture les plus utilisées concerne les propriétés fréquentielles et s appuie sur la transformée de Fourier, la représentation de Gabor et les ondelettes. Figure 6.1 Deux images de texture 6.2. Transformée en ondelettes La transformée en ondelettes est à la base de nombreuses analyses de texture, telles que les filtres de Haar. Ces filtres sont fréquemment employés en apprentissage pour obtenir la description d'un objet (comme un visage ou une personne). La description de texture à base d'ondelettes est utilisée dans le système de recherche d'images par le contenu. Mallat considère l'analyse en ondelettes comme une décomposition du signal par une cascade de filtres, en utilisant une paire de filtres pour chaque niveau de résolution (un filtre passe-haut et un filtre passe-bas). Baaziz et al., 2010 expliquent La transformée en ondelettes discrète à deux dimensions (DWT) pour analyser les images dans un cadre multi-échelles. Le DWT est efficacement implémentée via l'algorithme de l'arbre de Mallat, 1989 qui applique de filtrage linéaire itérative sur l'image originale. En appliquant ce filtrage sur l image on obtient trois sous-bandes directionnelles à chaque niveau de l'échelle en plus d'une sous-bande basse fréquence généralement connu sous le nom de l'image approximative. Les sous-bandes directionnelles sont des sous-images présentant les détails de l'image en fonction des orientations horizontales, verticales et diagonales. Le processus de décomposition est présenté dans la Figure 6.2. L'image en haut est l image originale on la décompose pour générer trois sous-images (H1, V1, et D1), et une image approximative a basse fréquence (A1). Au second niveau de décomposition, l'image d'approximation (A1) subit le même procédé pour produire un second niveau d'échelle de détails de l'image, on obtient trois sous-images (H2, V2, et D2) et une nouvelle image approximative (A2). Le résultat obtenu est montré dans la Figure 6.3.

Figure 6.2. Décomposition en ondelettes à deux niveaux Figure 6.3. Image d un désert. Résultat des sous-bondes obtenues en utilisant les ondelettes à deux niveaux

7. Descripteurs de forme La forme est généralement une description très riche d un objet. De nombreuses solutions ont été proposées pour représenter une forme, nous distinguons deux catégories de descripteurs de forme : 1- Les descripteurs basés sur les régions : Ces descripteurs font référence aux moments invariants et sont utilisés pour caractériser l intégralité de la forme d une région. Ces attributs sont robustes aux transformations géométriques comme la translation, la rotation et le changement d échelle. 2- Les descripteurs basés sur les frontières : Ces descripteurs font référence aux descripteurs de Fourier et porte une caractérisation des contours de la forme. 2- Les détecteurs des points d intérêt. 7.1. Détecteurs des points d intérêt en 3D La région d intérêt est une partie de l image qui représente une propriété intéressante. Le point est un cas particulier des régions d intérêt. En remarquant que dans l image ils existent plusieurs points qui ont des caractéristiques plus significatives que d autres. H. Moravec, 1977 a introduit la notion de points d intérêts. Il utilise la fonction d auto corrélation afin de déterminer la meilleure position du point saillant, de façon à ce que toute position voisine contienne moins d informations. L efficacité des points d intérêt a été prouvée pour la reconnaissance d objets dans des images 2D. L approche de détection de points d intérêt 3D s inspire des techniques 2D. Les méthodes pour la détection de points d'intérêts 3D sont divisées en deux grandes classes: 1) Détecteurs à échelle fixe. 2) Détecteurs invariants à l'échelle. La problématique essentielle en détection de points d intérêt est de trouver des points d une façon automatisée et suffisante pour représenter l objet. Pour ce faire on doit respecter les points suivants : 1) La répétitivité des points sous plusieurs conditions de prise de vue. 2) Définir un voisinage autour de chaque point après son extraction. 3) Les représentations des modèles extraient sont comparées avec celles de la base en se basant sur des techniques comme le calcul de la distance Euclidienne.

Les détecteurs de points d intérêts sont commencés par le détecteur de coins et de contours comme Harris 1988 et le détecteur de régions comme le SIFT qui est invariant au changement d échelle Lowe 2004. 7.2. Détecteurs des coins Ces détecteurs localisent les points et les régions d intérêt qui présentent une structure importante dans l image et donc ne sont pas convenables pour la détection des régions uniformes. Les primitives des coins ont été utilisées dans plusieurs travaux dans la reconnaissance d objets. 7.2.1. Détecteur basé sur la matrice de Harris Ce détecteur est défini par Harris et Stephens. En se basant sur le calcul de la fonction d auto-corrélation, Harris et Stephens se ramenaient à l étude de valeurs propres de la matrice de Harris (matrice de moments de second ordre). Trois cas qui se présentent : 1) Région homogène, si les deux valeurs propres sont faibles. 2) Un contour (transition) si l une des valeurs propres est très grande par rapport à l autre 3) Un coin (point d intérêt), si les deux valeurs propres sont élevées. Donc le calcul des valeurs propres nous permet de ne garder que les structures en coins, c est à dire de courbure suffisamment grande (Figure 7.2.1 est un exemple de détection des coins par Harris). Figure 7.2.1 Détection de points d intérêt par la méthode de Harris. Nous avons appliqué cette méthode sur notre base de données (De gauche à droite, pâte à dents, pomme, bol, calculatrice, oignon et cane de pepsi). L algorithme de Sipiran et Bustos 2010 propose une extension de la méthode de détection de coins de Harris pour des maillages 3D. Deux façons pour sélectionner les points d intérêt: soit en prenant un nombre fixe de sommets ayant les plus grandes réponses, soit par une approche de regroupement pour avoir des points d intérêt bien distribués.

Figure 7.2.2 représente les points de Harris détectés sur trois modèles 3D, chaise, fille et chameau (H. Dutagaci et al., 2012). 7.3. Détecteurs des régions Ces détecteurs permettent de régler les lacunes du détecteur des coins, concernant les zones uniformes. Ce détecteur extrait les régions de l image qui sont des zones homogènes en termes d intensité. 7.3.1. Détecteur SIFT (Scale Invariant Features Transform) Une approximation du Laplacien par la fonction de différence de gaussiennes (DoG) qui calcule la différence des images convoluées avec des noyaux gaussiens à plusieurs échelles est utilisée par David Lowe 2004 pour introduire le SIFT (Figure 7.3.1). Voici les étapes suivies par le détecteur SIFT pour générer l ensemble de points d intérêts : 1) Détection des points d intérêt qui sont invariants par rapport à l échelle et à l orientation. 2) Localisation des points d intérêts: En chaque point, adapter un modèle détaillé pour déterminer la position et l échelle. Les points d intérêts sont sélectionnés en se basant sur la mesure de leur stabilité. 3) Obtenir une représentation invariante par rotation pour chaque point d intérêt. Ce détecteur est reconnu par son invariance à la translation, rotation et échelle de l image et son invariance aux déformations de l image. Figure 7.3.1 Processus de production des images de différence de gaussienne (Lowe 2004).

Figure 7.3.2 Détection de points d intérêt par la méthode de SIFT. Nous avons appliqué cette méthode sur une scène de notre base de données, on voit clairement les régions détectées. 7.4. Détecteurs à échelle fixe Les détecteurs à échelle fixe cherchent des points d intérêts à une échelle constante spécifiée en paramètre dans l algorithme. Ces approches calculent une mesure associée à chaque point (propriété de chaque sommet) ou à une région. Les points d intérêts sont sélectionnés en comparant la qualité de la mesure des ces points dans un espace de voisinage définie par l échelle. 7.5. Détecteurs invariants à l échelle Les détecteurs invariants à l'échelle recherchent des points d intérêt dans un espace d'échelles du maillage. Les points d intérêt sont détectés à différentes échelles. Comme dans les méthodes à échelle fixe, ces approches calculent une mesure de qualité qui est, par contre, associée à chaque position spatiale et à chaque échelle. Les points d intérêt sont sélectionnés en maximisant la mesure de qualité sur les niveaux des échelles. 7.4.1. Détecteur 3D SURF (Speeded Up Robust Features) Cette méthode est introduite par Knopp et al., 2010, selon Knopp la détection par SURF 3D est invariant à la rotation et à l échelle (Voir Figure 7.4.1).

Figure 7.4.1. Détection de points d intérêt par la méthode SURF en basant sur la fonction OpenSurf et OpenCV SURF appliquée sur notre base de données (De gauche à droite, boite de céréale, bol, calculatrice, cartable et casque) Figure 7.4.2. Détection de points d intérêt par la méthode de SURF en basant sur la fonction OpenSurf et OpenCV SURF que j ai appliqué sur une scène de notre base de données

Figure 7.4.3. Selon plusieurs auteurs, la meilleure façon de détection de points d intérêt en combinant plusieurs techniques, exemple combinaison Harris et SIFT. Voici une comparaison entre plusieurs détecteurs : Détecteur Catégorie Invariance Niveau de détection Harris Coins Rotation Important Harris-Laplacien Coins Echelle Moyen Hessienne Régions Rotation Moyen SIFT Régions Echelle et Rotation Important SURF Régions Echelle et Rotation Important 8. Segmentation La segmentation d'image est une opération de traitement d'images qui a pour but de rassembler des pixels entre eux des critères prédéfinis. Les pixels sont ainsi regroupés en régions, qui constituent une partition de l'image. Il peut s'agir par exemple de séparer les objets du fond. La segmentation est une étape primordiale en traitement d'image. À ce jour, il existe de nombreuses méthodes de segmentation, que l'on peut regrouper en trois classes principales: 1. Segmentation fondée sur les contours (edge-based segmentation). 2. Segmentation fondée sur les régions (region-based segmentation). On y trouve par exemple : la croissance de région (region-growing) et la décomposition/fusion (split and merge). 3. Segmentation fondée sur classification ou le seuillage des pixels en fonction de leur intensité.

8.1. Segmentation fondée sur les contours Cette approche cherche à exploiter le fait qu'il existe une transition détectable entre deux régions connexes. Les méthodes les plus anciennes utilisent des opérateurs de traitement d'images, tels que le filtre de Canny, pour mettre en évidence les pixels qui semblent appartenir à un contour Pour commencer le processus, on recherche des points remarquables de l'image, tels que des points à l'intersection de trois segments au moins. De tels points sont appelés des graines. 8.1.1. Filtre de Roberts Le filtre Contour Roberts est utilisé pour détecter les contours en appliquant un filtre horizontal et vertical dans l'ordre. Les deux filtres sont appliqués à l'image et additionnés pour former le résultat final. Les deux filtres sont: Filtre Horizontal Filtre Vertical [ 1 0 0 1 ] et [ 0 1 1 0 ] L avantage de cet opérateur est sa rapidité. L inconvénient de cet opérateur est son extrême sensibilité au bruit du fait de sa petite taille. Figure 8.1.1. Image originale plusieurs objets de notre base de données et l image résultante détection de contour par le filtre de Roberts. 8.1.2. Filtre de Prewitt Le filtre de Prewitt est composé de deux matrices 3x3 que l'on convolue avec l'image originale pour calculer une approximation de sa dérivée en tout point. Si nous définissons comme étant l'image source, et et les deux images dérivées horizontales et verticales de l'intensité lumineuse de l'image (Figure 8.1.2), nous pouvons les calculer ainsi avec l'opération de convolution :

Image originale Image horizontale Image verticale Contours Figure 8.1.2. Détection de contours en utilisant le filtre de Prewitt. 8.1.3. Filtre de Kirsch La méthode proposée (Kirsch 1971), consiste à filtrer l image avec 8 masques directionnels. Cette méthode se caractérise par sa grande rapidité et son faible coût, du fait de l'aspect local de ces filtres. Figure 8.1.3. Image originale plusieurs objets de notre base de données et l image résultante détection de contour par le filtre de Kirsch.

8.2. Segmentation par régions Les méthodes appartenant à cette famille manipulent directement des régions. Soit elles partent d'une première partition de l'image, qui est ensuite modifiée en divisant ou regroupant des régions. Les algorithmes de type décomposition/fusion exploitent les caractéristiques propres de chaque région (surface, intensité lumineuse, couleur, texture, etc.). Les algorithmes par croissance de régions partent d'un premier ensemble de régions, qui peuvent être calculées automatiquement. Les régions grandissent ensuite par incorporation des pixels les plus similaires suivant un critère donné, tel que la différence entre le niveau de gris du pixel considéré et le niveau de gris moyen de la région. 8.2.1. Segmentation d'images par division Elle consiste à diviser l'image, en régions de plus en plus homogènes. Le processus est répété jusqu' à ce que le critère d'homogénéité soit atteint. Comme exemple de segmentation par divisions successives de régions, nous pouvons citer l'arbre quaternaire (QUADTREE). 8.2.2. Arbre Quaternaire L arbre quaternaire est une structure hiérarchique construite par divisions récursives de l espace en quatre quadrants disjoints (SAMET 1984). Cette structure est très utilisée pour représenter les images. Pour être représentée par un arbre quaternaire, une image est récursivement décomposée en quatre quadrants disjoints de même taille, en fonction d un critère de découpage (ex. homogénéité de la couleur) de telle sorte que chaque nœud de l arbre quaternaire représente un quadrant dans l image. Le nœud racine de l arbre représente l image entière (Figure 8.2.2). Figure 8.2.2 Deux niveaux de séparation, l image originale est divisée en quatre carrée, et chaque carrée est divisée en quatre nouveaux carrées.

9. Détection d'objets par segmentation de couleur et profondeur avec un capteur Kinect Afin d'optimiser les mouvements d'un robot, chaque objet trouvé dans l'environnement de travail ne doit pas seulement être identifiée, mais localisé pour le robot lui-même. Habituellement, la segmentation d'une image est obtenue en utilisant la segmentation par couleur. Cette segmentation peut être obtenue par traitement des composantes RGB. Cependant, cette méthode présente un inconvénient, elle très sensible aux changements de l'éclairage. Convertir l'image RGB en CIE-Lab couleurs permet d'éviter ce problème. Mais malheureusement, si plusieurs objets de la même couleur sont présentés dans la scène, c est impossible d'identifier l'un de ces objets à l'aide de cet espace des couleurs. Par conséquent, nous devons considérer une source de données supplémentaire qui est la profondeur pour régler ce problème. José-Juan Hernandez-Lopez et al., 2012 abordent ce problème, ils détectent les objets en utilisant les couleurs CIE-Lab et la profondeur des images fournie par le capteur Kinect. 9.1. Homographie L homographie est un concept dans la science mathématique de la géométrie utilisé lorsqu il existe deux images qui ont été prises par la même caméra mais avec un angle différent. La relation d'homographie est indépendante de la structure de scène (G. Kayumbi et al., 2007). Nous pouvons estimer l'homographie en utilisant: X = RX + T (1) où R est la matrice de rotation 3X3, T est le vecteur de translation. 9.2. Algorithme de segmentation globale Cet algorithme est présenté par le diagramme suivant : Figure 9.3 Diagramme de l algorithme de segmentation globale

9.4. Les composantes de profondeur connectées (DCC) Une application immédiate de données de profondeur pour la segmentation d'images est l'identification des composants de profondeur connectée. Nous disons deux pixels de profondeur sont connectés, si il y a un chemin qui les relie, où la différence de profondeur entre ces deux pixels est inférieur à un seuil fixe (20 mm). L'identification de la DCC est une idée importante et presque parfaite pour l'extraction de l'objet chaque fois que l'objet ne soit pas adjacent à un autre élément quelconque de l'image (Figure 9.4.1). Dans le cas où l objet est adjacent avec un autre objet, la détection à partir de la DCC est réduite, et il est nul lorsque l'image est une composante unique. Dans de tels cas on doit trouver une autre solution. b) c) d) Figure 9.4.1 a) Image originale, contour graphique, d) Détection de l objet par DCC. 10. Notre Algorithme :

10. Conclusion Dans ce rapport nous avons étudié plusieurs techniques de détection de points d intérêt en 2D et 3D qui étaient présentés dans la littérature. Plusieurs techniques 2D étaient utilisées en 3D et plusieurs autres techniques utilisent 3D directement. Nous avons étudié aussi les techniques de détection à échelle fixe et les techniques invariantes à l échelle. Chaque méthode présentée a des avantages et des lacunes, donc la meilleure façon est de combiner plusieurs méthodes ensemble pour trouver une meilleure détection comme dans le cas de combinaison entre Harris et SIFT. Il y a beaucoup des applications qui utilisent les techniques de détection de points d intérêt surtout dans la reconnaissance des objets. Ces techniques de détection de points d intérêt restent vagues et incomplètes surtout en 3D. Nous avons étudié plusieurs récentes méthodes de segmentation, le travail futur ca va être de régler plusieurs problèmes comme l élimination de l effet de lumière, la détection des objets adjacents parce que la détection à partir de la DCC est réduite, aussi la détection si l image est uniforme.