Comression scalable d'images vidéo ar ondelettes 2D+t Madji Samia, Serir Amina et Ouanane Abdelhak Université des Sciences et de la Technologie Houari Boumediene, Laboratoire de traitement d images et rayonnement (LTIR), aculté d électronique nformatique B.P. 32 El Alia Bab Ezzouar, Alger 6, Algérie madjisamia@gmail.com, aserir@usthb.dz Résumé Dans cet article nous résentons deux méthodes de comression scalable utilisant une comensation de mouvement hiérarchique à travers la transformée en ondelettes trois dimensions (TO3D). La remière aroche exloite la TO3D our estimer le mouvement entre des images successives, la seconde ar contre, utilise le même rincie de reconstruction que la TO3D ; le mouvement est estimé entre les différentes décomositions de la TOD. La différence entre les deux méthodes réside dans l exloitation des données de la transformée en ondelettes dans l estimation de mouvement et la reconstruction des images de la séquence vidéo. Ce document décrit un certain nombre de règles tyograhiques à resecter lors de la rédaction des communications our les ateliers TAIMA. L'objectif visé ar ces consignes est de garantir une unité de résentation des actes qui contribuera à la qualité générale des ateliers. Mots clés Estimation de mouvement, Comression vidéo, Transformée en ondelettes, Scalabilité. Introduction La comression d image et de séquence d images constitue un cadre alicatif naturel d un grand nombre de techniques déveloées. De nombreuses études ont orté sur des techniques de comression d images vidéo. D arès [], les remiers schémas roosés dans la littérature aliquent une TO3D séarable sur la séquence vidéo en considérant de la même manière les trois axes de la vidéo [2], [3] et [4]. Dans [5], les auteurs étendent le schéma roosé dans [4] à l'utilisation d'un modèle de comensation en mouvement dans l'étae de transformée temorelle. Dans [6] et [7], les auteurs résentent un schéma de codage vidéo ar transformée en ondelettes 2D+t. Les images de la séquence vidéo sont d'abord alignées sur une grille de référence à l'aide d'une comensation en mouvement global. Les images alignées sont ensuite décomosées à l'aide d'une transformée en ondelettes satiale suivie d'une transformée en ondelettes temorelle. L'utilisation d'un mouvement global limite l'efficacité de la décorrélation ar transformation en ondelettes car il ne rend as en comte les mouvements locaux dans la scène, la transformation temorelle ne décorréle as au mieux les informations. Les schémas roosés resectivement ar Ohm [8] et Choi et Woods [9] alique une transformée temorelle sur les blocs délacés des images, mais l'utilisation d'un mouvement ar blocs fait aaraître des ixels déconnectés ou doublement connectés qui doivent être gérés différemment.
2 S. Madji, A. Serir et A. Ouanane Le schéma lifting a été introduit ar Sweldens [0]. Le rincie est le même que our la transformée en ondelettes classique. Elle exloite les redondances du signal our aboutir à un ensemble d'information comacte et réduit l'entroie du signal. Ceendant cela imlique un coût de codage imortant our le mouvement. Une autre aroche a été roosée dans [] utilisant une transformation temorelle basée sur le lifting et un cham de mouvement bidirectionnel. La transformation en ondelettes temorelle est effectuée à l'aide d'un filtre 5/3 tronqué. Cela a ermis de diminuer le nombre de chams de mouvement. Nous roosons dans cet article deux aroches de détection de mouvement à travers la transformée en ondelettes 2D+t. 2 Méthodes roosées Le schéma de base des deux méthodes "3DT" et est illustré en figure. ig.. Schéma de rincie des méthodes "3DT" et our la comression d'une séquence vidéo. Nous aliquons en remier une TO2D à une seule résolution une sur toutes les images du aquet (huit images). Puis nous aliquons une TOD à la résolution trois sur les images aroximées résultant de la TO2D. Le mouvement est estimé à artir des images «détail» résultant de la TOD. L'estimation et la comensation de mouvement se fait ar l'algorithme de "Block Matching Hiérarchique : four stes search" en renant une taille de bloc de 8X8 ixels, une zone de recherche de 24X24 ixels et une récision d'un ixel. La différence entre les deux méthodes "3DT" et réside dans l'exloitation des données de la transformée en ondelettes dans l'estimation de mouvement et la reconstruction des images de la séquence vidéo. 2. Méthode «3DT» Arès l'alication de la TO3D (TO-2D à la résolution et TO-D à la résolution 3) sur un aquet de huit images ( P, P2,..., P8 ) nous obtenons huit images issues de la TO-2D ( I, I 2,..., I 8 ) et quatorze images issues de la T.O-D. Comme le montre la figure 2. Nous aliquons l'algorithme de "Block Matching" hiérarchique sur l'image (D 234,5678 ). Nous obtenons les coordonnées des blocs suscetibles d'avoir eu un mouvement dans les images aroximation A 2,34, A 56,78 et entre les images (I 4 ) et (I 5 ). Avec l'information collectée de l'image (D 234,5678 ) nous traitons: l'image D 2,34 our avoir les coordonnées des blocs qui ont eu un mouvement entre les images A,2 et A 3,4, et l'image D 56,78 our avoir les coordonnées des blocs qui ont eu un mouvement entre l'image A 5,6 et A 7,8.
Comression scalable d images vidéo ar ondelettes 2D+t 3 Le traitement des images (D,2 ) et (D 3,4 ), (D 5,6 ) et (D 7,8 ) nous donne les coordonnées des blocs qui ont eux un mouvements entre les images (I ) et (I 2 ), (I 3 ) et (I 4 ), (I 5 ) et (I 6 ) et (I 7 ) et (I 8 ). Cet algorithme nous ermet d'une art l'obtention des vecteurs mouvements entre des transformées en ondelettes I successives et d'accélérer la recherche de ces derniers. j ig. 2. Résultat de l alication d'une TO3D sur un aquet de huit images. 2.2 Schéma 3DT2 Dans la méthode citée ci-dessus, la reconstruction de l'image déend seulement de l'image récédente et des vecteurs mouvements. Ce qui la rend eu robuste. Pour remédier à cela nous roosons une autre aroche qui exloite les différences D k,l Avec k={,3,5,7,{2},{56},{234}} et l={2,4,6,8,{34},{78},{5678}}) our l estimation du mouvement entre I k l, et entre les aroximations A et A. En effet, l'image n'est lus reconstruite à artir de l'image récédente k l uniquement mais à artir d'un ensemble d'images. L algorithme comorte lusieurs étaes : - La remière image du aquet est comressée en mode intra. L image décomressée est notée Î. La seconde Î 2 est déduite ar comensation de mouvement MC. d où ^ ^ ^ ( ( I 2 = I+ MC I ) ). () A ˆ = ( Iˆ + ˆ ) α (2) 2 I 2 avec α : Le coefficient du filtre de Haar ( α = 0,707. ). 2- Estimation du aquet A 34, I 3 4 A ˆ = Aˆ + MC( ˆ ). (3) 34 2 A2 L estimation de I 3 4 ar la rocédure itérative résentée ci-arès. 3- Estimation du aquet A5678 à artir de A 234
4 S. Madji, A. Serir et A. Ouanane A ˆ = ( Aˆ + ˆ ) α (4) 234 2 A34 A ˆ = Aˆ + MC( ˆ ). (5) 5678 234 A234 4- Estimation du aquet A 56 et A78 en utilisant la rocédure itérative. 5- Estimation de I 5, I 6, I 7 8 en utilisant la rocédure itérative. Procédure itérative : Soit (k ) rerésentant l image I ou l aroximation de aquet A à l itération k. () Initialisation :, k=. Itérer = ( k ) ( k ) = + MC( + '( k ) + Aˆ = α, + Aˆ, = α ( k ) ( k ) ( k + ) + ( k ) + k=k+.. ). ( k ) '( k ) Jusqu à + < ε. ε étant un seuil fixé. En ratique cette rocédure itérative a donné de bons résultats our k=2. 3 Résultats La figure 3 illustre le PSNR des deux aroches our chaque image des séquences vidéo "Coast Guard" et "Salesman". La dernière image du aquet des séquences vidéo reconstruite ar les deux méthodes est illustrée ar la figure 4. D'arès les résultats, les deux méthodes offrent une bonne qualité d image reconstruite, nous ne constatons resque as de différence de qualité entre les images "Coast Guard" reconstruites ar les deux aroches. Ceendant, la remière aroche est visiblement lus erformante our la séquence vidéo "Salesman". Afin de mesurer la robustesse des deux aroches, nous avons causé des ertes d'information (tous les vecteurs mouvement entre la remière et la deuxième image ainsi que des ertes au niveau des images d'erreur de rédiction) selon un ourcentage de 0%, 20% et 50%. Les PSNR moyen des images reconstruites ar les deux méthodes avec ertes d'information sont résentées en figure 5. La dernière image du remier aquet (huitième image) des deux séquences reconstruite avec 20% de ertes d'information est illustrée ar la figure 6.
Comression scalable d images vidéo ar ondelettes 2D+t 5 (a) (b) igure 3: PSNR des images reconstruites des séquences vidéo «Coast Guard»(a) et «Salesman»(b) à un debit de 642 Kbs. "3DT" "3DT" igure 4: Huitième image de la séquence vidéo "Coast Guard" reconstruite ar les deux aroches. Nous avons calculé la variation relative du PSNR moyen (PSNRm) en fonction de la erte d information (P) et l avons résumé dans le tableau. D'arès les résultats obtenus, la méthode est la lus robuste face aux ertes d'information our la séquence vidéo «Coast Guard», mais our celle de «Salesman» la méthode 3DT est sensiblement meilleure.
6 S. Madji, A. Serir et A. Ouanane (a) (b) igure 5: PSNR moyen des images reconstruites des séquences vidéo "Coast Guard" (a) et «Salesman» (b) en fonction du ourcentage d erreur. "3DT" "3DT" ig. 6. La dernière image du aquet reconstruite ar les quatre aroches avec erte de 20%. La huitième image "Coast Guard" reconstruite avec une erte d'information de 20% ar l'aroche est de bonne qualité contrairement à celle reconstruite ar l'aroche "3DT". Ceendant, our la séquence vidéo "Salesman", l aroche "3DT" est meilleure.
Comression scalable d images vidéo ar ondelettes 2D+t 7 4 Conclusion Dans cet article nous avons résenté deux méthodes scalables basées sur une décomosition en ondelettes 2D+t. Les erformances obtenues our la remière méthode «3DT» sont suérieures à celles de la deuxième méthode «3DT2» our une séquence vidéo ou l arrière lan est fixe. Par contre our une séquence d images ou l arrière lan est mobile, bien que «3DT» donne une meilleure qualité d images reconstruite, elle est moins robuste face aux erreurs de transmission, que «3DT2». Comme ersectives, nous roosons d améliorer nos schémas de comression ar l exloitation des coefficients haute fréquence our une détection de mouvement hiérarchique et adatative selon l imortance des coefficients. Tableau : Variation relative du PSNR moyen en fonction de la erte d information. Sequences Coast Guard Coast Guard Sequences Salesman Salesman P "3TD" "3TD2" P "3TD" "3TD2" 0 7 0 3.6 20 2.5 8 20 2.6 5. 50 5.3 0.7 50 7.4 9 Références [] N. Cammas. Codage vidéo scalable ar maillages et ondelettes 2D. Thèse de doctorat, Université de Rennes, Rennes, Novembre 2004. [2] C. I. Podilchuk, N.S. Jayant & N. arvadin. Three Dimensional Subband Coding of Video. IEEE Transactions on Image Processing, vol. 4, no. 2, ages 25{39, ebruary 995. [3] G. Karlsson & M. Vetterli. Three Dimensional Subband Coding of Video. In IEEE International Conference on Acoustics, Seech and Signal Processing, ICASSP'88, ages 00{03, 988. [4] B.J. Kim & W.A. Pearlman. An Embedded Wavelet Video Coder Using Three-Dimensional Set Partitioning in Hierarchical Trees (SPIHT). In IEEE Data Comression Conference DCC'97, ages22{260, 997. [5] B-J. Kim, Z. Xiong & W. A. Pearlman. Low Bit-Rate, Scalable Video Coding with 3D Set Partitioning in Hierarchical Trees (3DSPIHT). IEEE Transactions on Circuits and Systems for Video Technology, vol. 0, no. 8, 2000. [6] D. Taubman & A. Zakhor. Multirate 3-D Subband Coding of Video. IEEE Transactions on Image Processing, vol. 3, no. 5, ages 572{588, setember 994. [7] A. Wang, Z. Xiong, P.A. Chou & S. Mehrotra. Three-dimensional wavelet coding of video with global motion comensation. In IEEE Intl. Conf. on Data Comression, DCC'99, ages 404{43, March 999. [8] J.R Ohm. Three-Dimensional Subband Coding with Motion Comensation. IEEE Transactions on Image Processing, vol. 3, no. 5, ages 559{57, Setember 994. [9] S-J. Choi & J.W.Woods. Motion- Comensated 3-D Subband Coding of Video. IEEE Transactions on Image Processing, vol. 8, no. 2, ages 55{67, february 999. [0] W. Sweldens. The Lifting Scheme: A Construction of Second Generation Wavelets. Raort technique 995/6, Industrial Mathematics Initiative, Deartment of Mathematics, university of South Carolina, 995. [] L. Luo, J.Li, S.Li, Z.Zhuang & Y-Q.Zhang. Motion-Comensated Lifting Wavelet And Its Alication In Video Coding. In IEEE International Conference on Multimedia and Exo, August 200.