Quelques propriétés et limites des sacs de mots visuels 1, Vincent Claveau 1, Patrick Gros 2 1 CNRS-IRISA, 2 INRIA Rennes 9 juin 2009
Recherche d'images
Vocabulaire visuel [SZ03, CDF + 04]
Modèle vectoriel [SZ03, CDF + 04]
Plan 1 2 3 4
Caltech Caltech-6 5415 images 6 catégories 200 requêtes Caltech-101 8197 images 101 catégories 200 requêtes
Nister 10200 images 4 images pertinentes par requête 300 requêtes
Oxford buildings 5063 images 55 requêtes
Plan 1 2 3 4
Distance de Minkowski avec k < 1 [AHK01] Réduction des eets de la malédiction de la dimension Robustesse au bruit Ecace sur les vecteurs creux [HR05]
- Precision
- MAP
Plan 1 2 3 4
locales l1(ti, dj) Term frequency TF tf ( ij 1 + log(tf l2(ti, dj) ij ) if tf ij > 0 Frequency logarithm 0 otherwise ( tf a Augmented + (1 a) ij if tf max (tf l3(ti, dj) kj ) ij > 0 t d normalized frequency k j 0 otherwise ( 1 if tf l4(ti, dj) ij > 0 Binary 0 otherwise l5(ti, dj) DFR-like normalization tf ij lavg l j l6(ti, dj) Squared TF tf 2 ij k1+1 l7(ti, dj) BM25 TF tf ij l withk1 = 1.2, b = 0.75 tf ij.k1(1 b+b. j lavg )
globales g 0 (t i ) No weigth 1 g 1 (t i ) Inverse document frequency (IDF) log( N df i ) g 2 (t i ) Probabilistic IDF max(0, log( N df i df i )) g 3 (t i ) Squared IDF log( N df i ) 2 g 4 (t i ) (Mean TF) * IDF tf i log( N df i ) g 5 (t i ) Squared (mean TF) * IDF [tf i log( N df i )] 2
- Précision
- MAP
Plan 1 2 3 4
Limites des sacs de mots visuels Inuence du type d'images utilisé Sur les paramètres à employer Sur l'évaluation Bruit dû à la quantication des descripteurs Faiblesse des algorithmes de clustering Problème des bases d'images très variées
Charu C. Aggarwal, Alexander Hinneburg, and Daniel A. Keim. On the surprising behavior of distance metrics in high dimensional space. In Lecture Notes in Computer Science, pages 420434. Springer, 2001. Gabriela Csurka, Christopher R. Dance, Lixin Fan, Jutta Willamowski, and Cedric Bray. Visual categorization with bags of keypoints. In ECCV: Workshop on Statistical Learning in Computer Vision, Prague, Czech Republic, May 2004. Peter Howarth and Stefan Rüger. Fractional distance measures for content-based image retrieval. In In 27th European Conference on Information Retrieval, pages 447456. Springer, 2005. Josef Sivic and Andrew Zisserman.
Video Google: A text retrieval approach to object matching in videos. In Proceedings of ICCV, volume 2, pages 14701477, Nice, France, 2003.