PERCEPTUALLY DERIVED LOCALIZED LINEAR OPERATORS: APPLICATION TO IMAGE SEQUENCE COMPRESSION THESE No 1 O28 (1 992) PRESENTEE AU DEPARTEMENT D'ELECTRICITE ECOLE POLYTECHNIQUE FEDERALE DE LAUSANNE POUR L'OBTENTION DU GRADE DE DOCTEUR ES SCIENCES TECHNIQUES PAR TOURADJ EBRAHlMl lnghieur Olecîricien diplôme EPF de nationalité iranienne acceptée sur proposition du jury : Prof. M. Kunt, rapporteur Prof. P. Delogne. corapporteur Prof. D. Mlynek, corappoiteur Prof. F. Rocca, corapporteur Lausanne, EPFL 1992
Remerciements Je tiens à exprimer ma reconnaissance au Professeur Murat Kunt pour m'avoir accepté au sein de son groupe et pour avoir dirigé cette thèse. Pendant cette période de trois ans et demi, il n'a jamais hesité à suivre le bon déroulement de ce travail, qui sans son aide precieuse et son soutien illimité, n'aurait jamais pu être mené à terme. Je le remercie également pour m'avoir initié à sa méthode de recherche et à sa vision profonde dans le domaine du traitement numérique des signaux et plus particulièrement de la compression des données. De plus, grâce à lui, j'ai pu entrer en contact avec la communauté internationale à travers des conférences et des réunions diverses qui m'ont apporté une grande expérience à la fois sur le plan humain et scientifique. Enfin, je le remercie pour son soutien continu au delà de l'execution de ce travail. Un sincère remerciement au membres du jury, Messieurs les Professeurs Daniel Mlynek, Paul Delogne, Fabio Rocca et Martin Hasler pour avoir bien voulu évaluer ce travail et pour leur commentaires. Mes profondes gratitudes vont à Alexander Geurtz, au Professeur Todd Reed et à Riccardo Leonardi pour la lecture de la première version de cette thèse et pour leur comment aires. J'adresse également mes remerciements aux membres de l'équipe de codage de la télévision dont j'ai fait partie durant cette période. Plus particulièrement, je voudrais exprimer ma gratitude à fiédéric Dufaux, Iole Moccagatta, Pierangela Cicconi, Emmanuel Reusens et Bruno Rouchouze pour une forte interaction et leur collaboration intense qui m'a apporté une expérience scientifique inestimable. Je les remercie également pour l'amitié qu'ils m'ont témoignée pendant ces années. Un grand merci à tous les membres du Laboratoire de traitement des signaux pour m'avoir aidé directement ou indirectement. li n'est pas possible d'accomplir une thése sans un support informatique. Je voudrais remercier notre ingénieur système, Gilles Auric, qui a fait l'impossible pour toujours mettre à ma disposition l'environnement informatique nécessaire pour mener à bien ce travail de recherche. Je remercie également les anciens membres du Laboratoire de traitement des signaux, Dr. Caspar Home, Dr. Michel Kocher, Dr. George Campbell, Dr. Philippe Salembier, Ferran Marquès et Jose Vidal à la fois pour leur amitié et leur soutien.
Je tiens à remercier plus particulièrement mes parents pour m'avoir soutenu pendant toute la période de mes études et pour m'avoir aidé sans hésitation, à chaque fois que j'avais besoin d'eux. Je suis très reconnaissant envers Monsieur le Professeur Jean-Pierre Stucky sans qui je n'aurais jamais eu l'occasion de poursuivre mes études à 1'Ecole Polytechnique Fédérale de Lausanne. Je voudrais enfin temoigner toute ma gratitude à Raffaella Luchessa, qui m'a toujours soutenu moralement pendant ce travail et pour m'avoir incité à poursuivre mes recherches au Japon. Je ne trouverai jamais les mots justes pour lui exprimer mes chaleureux remerciements pour tout ce qu'elle a fait pendant cette période.
Résumé La théorie des opérateurs linéaires couvre un large domaine d'applications en mathématiques appliquées et en traitement des signaux. Trois classes d'opérateurs linéaires sont discutées dans cette thèse, en particulier la transformée de Fourier apodisée, la transformation en ondelettes, et la décomposition en sous-bandes. Les aspects communs et les différences existant entre ces approches sont examinés dans le cadre de la compression des séquences d'images. L'expansion de Gabor des signaux, comme sous-classe importante de la transformée de Fourier apodisée est traitée en particulier. Une nouvelle technique performante est introduite pour effectuer l'expansion de Gabor des signaux. Cette technique est ensuite comparée à d'autres méthodes déjà utilisées pour l'expansion de Gabor en termes de complexité de calcul. La décomposition en sous-bandes et la théorie des ondelettes sont deux sous-classes importantes des opérateurs linéaires, développées daas deux disciplines différentes. Il existe pourtant une grande similarité entre ces deux approches. Après une brève introduction de la décomposition en sous-bandes et la théorie des ondelettes, les similarités et les différences entre ces deux techniques sont discutées dans le cas orthonormal et biorthonormal. La formulation sous l'aspect d'une représentation des données en multirésolution est traitée en particulier. Une nouvelle approche pour la conception de bancs de filtres dans le domaine temporel utilisant la formulation matricielle est proposée. A l'aide cette approche, un nouveau banc de filtre ayant une complexité réduite et une bonne réponse frequentielle a été concu. Les différentes caractéristiques de ce banc de filtres sont ensuite comparées avec celles d'autres bancs de filtres fréquemment utilisés dans des applications de compression de séquences d'images. Le codage générique est une composante très importante dans tout système de communications avancé. Dans cette thèse un système de codage générique capable de fournir des débits variables pour des séquences de formats différents sans aucun changement dans son architecture est proposé. L'approche est basée sur la représentation en multirésolution des données, obtenues à partir de banc de filtres conçu dans ce travail. Les différentes composantes de ce système sont examinées en détail. L'emploi d'une structure en multirésolution en conjonction avec d'autres composantes de système comme l'estimation de mouvement, permet une implantation simple et efficace. Des simulations sur des séquences d'images typiques montrent qu'il est possible d'effectuer un codage générique à complexité réduite tout en gardant une bonne qualité sur les images obtenues.
Abstract The theory of linear operators covers a large number of applications in applied mathematics and signal processing. This thesis discusses three commonly used linear operators, namely, the short time Fourier transform, the wavelet decomposition and the subband decomposition. Common features and differences between the above operators are examined in the frame work of image sequence compression. In particular, the Gabor expansion, as a special case of short time Fourier transform in discussed in details. A new and efficient technique to perform Gabor expansion of signals is introduced. A comparative study between the above approach and other commonly used techniques for Gabor expansion of signals is given in terms of computational complexity. The subband decomposition of signals and the wavelets theory are two sub-classes of linear operators which were developed in two different disciplines. However, there exist big similarities between the two approaches. After a brief introduction of subband decomposition and wavelet theory, the equivalence and differences between them are discussed, in both orthonormal and biorthonormal cases. The multiresolution representation of data is considered in particular. A new approach to filter bank design in time domain, using matrix formulation is introduced. Using this approach, an efficient filter bank with low complexity and good frequency response is designed. The characteristics of this filter bank are compared with that of other commonly used short kemd filter banks, for video compression applications. The generic coding is an important component in any modem communication system. In this thesis, a generic video codec is introduced which is able to cornpress efficiently image sequences with any format at desired bitrate, without any change in its architecture. The approach is based on multiresolution representation of data, which is generated by the Glter bank proposed in this work. The use of multiresolution data structure in conjunction with other components of the system such as multiresolut ion motion estimation, allows a simple and efficient implementation. Simulations on typical image sequences show that it is possible to perform genexic coding with reduced complexity and good efficiency.
Contents 1 Introduction 1 1.1 Definition of the problem... 2 1.2 Investigated approach... 3 1.3 Organization of the thesis... 4 1.4 Main contrubutions... 6 2 Short time Fourier transform and Gabor expansion 7... 2.1 Introduction 8 2.2 Windowed Fourier transform... 9 2.3 Discrete Gabor expansion... 12 2.3.1 Discrete Gabor expansion by Zak-transform... 17 2.4 Discrete time Gabor expansion... 19 2.4.1 Discrete time Gabor expansion using the discrete time Zaktransform... 24 2.5 Gabor expansion by neural network... 25 2.6 Matrix formulation of the Gabor expansion... 31
2.6.1 Gabor expansion with finite precision... 33 2.6.2 The frequency resolution of biorthogonal functions... 36 2.6.3 Discrete Gabor expansion of real signais... 40 2.6.4 2-D separable real and complex Gabor expansions... 41 2.7 Computational complexity of Gabor expansion... 48... 2.8 Conclusion 58 3 Subband-discrete wavelet decomposition 60... 3.1 Introduction 61 3.2 Subband decomposition... 62... 3.2.1 General formulation 62 3.2.2 N-band parallel uniform subband decomposition... 67 3.2.3 Two band subband decomposition... 70 3.2.4 Quadrature minor filter basks... 72 3.2.5 Conjugate quadrature mirror filters... 75 3.2.6 Short kernel filter banks... 76 3.3 The domain formulation of filter bank design... 77 3.4 Wavelet decomposition... 83 3.4.1 Introductory remarks... 83 3.4.2 Discrete wavelet traasfonn... 86 3.4.3 Multiresolution orthogonal representation of signals... 89... 3.4.4 Discrete t he orthonormal wavelet transform 91... vlll
3.4.5 Multiresolution biorthogonal representation of signals... 93 3.4.6 Discrete time biorthononnal wavelet transform... 95 3.5 Concluding remarks... 97 4 Optimal subband decomposition and filter bank design for image compression 99 4.1 Introduction... 100 4.2 Desired filters characteristics for image compression... 100 4.3 Localieation... 104 4.3.1 Localization by Heisenberg principle... 104 4.4 Regularity... 107 4.5 Filters with coe&cients in powers-of-two... 112 4.6 Orthogonality... 114 4.7 Computational complexity... 118 4.8 bume of characteristics of the proposed filter bank... 120 4.9 Extension to multidimensional signals... 121 4.10 Conclusion... 123 5 Application to image sequence compression 126... 5.1 Introduction 127 5.2 Temporal redundancy reduction... 128 5.3 Motion compensated subband coding... 129 5.4 The input signal format... 131 ix
5.5 Intraframe coding... 133 5.5.1 Quantization of coefficients and rate-distortion... 136 5.5.2 Address-amplitude coding... 139 5.5.3 Adaptive entropy coding... 142 5.5.4 The importance of scan path... 143 5.5.5 Experimental results... 144 5.5.6 Compatison between the proposed wavelet transform and the DCT... 147 5.6 Predictive and interpolative coding modes... 147 5.7 Motion estimation... 151 5.7.1 Block matching... 151 5.7.2 Hierarchical motion estimation... 151 5.8 Multiresolution block matching... 152 5.8.1 Multiresolution structure... 152 5.8.2 Two-step searcb block matching... 153 5.8.3 Resolution of the vector field and subsarnpling inside the measurement window... 153 5.9 Motion compensated prediction and interpolation... 154 5.9.1 Experimental rdts... 155 5.10 Adaptive subband decomposition... 158 5.10.1 Packet wavelets... 158 5.10.2 Experimental results... 161
5.11 Performance of the codec... 162 5.12 Concluding remarks... 164 6 Conclusion 167 6.1 Conclusion... 168 6.2 Possible extensions... 171