Optimisation des performances d un encodeur suivant la norme Advanced Video Coding pour une machine vectorielle

Transcription

1 Faculté des Sciences Département d Informatique Optimisation des performances d un encodeur suivant la norme Advanced Video Coding pour une machine vectorielle Javier MARTINEZ GONZALEZ Mémoire présenté sous la direction du Prof. Philippe VAN HAM en vue de l obtention du grade de Licencié en Informatique Année académique

2 Université libre de Bruxelles Faculté des sciences Ce mémoire intitulé: Optimisation des performances d un encodeur suivant la norme Advanced Video Coding pour une machine vectorielle présenté par: Martinez Gonzalez Xavier a été évalué par un jury composé des personnes suivantes: Roggeman Yves, Van Ham Philippe, Milojevic Dragomir, Cardinal Jean, président-rapporteur directeur de recherche codirecteur membre du jury Mémoire accepté le:

3 REMERCIEMENTS Un travail de cette envergure ne s accomplit pas en un jour. Même s il est porté par le dynamisme de son auteur, il est le résultat des nombreuses influences, proches ou lointaines, qui ont accompagné un esprit avide de connaissances dans sa découverte des sciences de l informatique. Si ce travail constitue pour l auteur une première ouverture sur le monde du travail, il est aussi et surtout, l aboutissement de plusieurs années d étude. Qu il me soit donc permis de remercier les professeurs qui m ont accompagné dans ce cheminement, parfois sévèrement, souvent justement, et plus particulièrement le professeur Raymond Devillers. Je remercie également ceux qui m ont fourni tant d informations lors de l analyse des algorithmes, et tout particulièrement Alex Izvorski, concepteur d x264, pour ses longues explications sur les techniques SIMD et Xiaojie Huang, licencié de l Hong Kong Science and Technology University, pour ses éclaircicements sur la compensation du mouvement. Je tiens à remercier le professeur Flavio Fontanelli de l università degli studi di Genova pour sa pédagogie et son assistance dans la compréhension profonde des architectures machines. Ma gratitude va encore à Jorge Grazina qui dans une autre vie a bien connu les processeurs SIMD, pour ses remarques judicieuses. Je voudrais aussi témoigner de mes remerciements à Dragomir Milojevic, mon coordinateur de mémoire qui a bien voulu me fournir conseil et assistance ainsi qu au Professeur Philippe Van Ham, mon promoteur. Je remercie les professeurs Yves Roggeman et Jean Cardinal qui ont bien voulu se joindre au jury. Ma gratitude va ensuite à ma soeur Cristina, pour sa relecture attentive et ses nombreuses corrections. Je n oublie pas, pour finir, les proches qui m entourent depuis toujours, qu ils soient famille ou amis, pour leur affection et leur soutien sans faille.

4 TABLE DES MATIÈRES REMERCIEMENTS iii TABLE DES MATIÈRES iv CHAPITRE 1 :INTRODUCTION Cadre général Objectifs de ce mémoire Méthodologie Contraintes du travail Structure de ce mémoire CHAPITRE 2 :LA COMPRESSION VIDÉO Introduction Besoins Contraintes Codification Espace colorimétrique Format Vue globale d un encodeur-decodeur Modèle Temporel Compensation du mouvement Modèle Spatial Transformation

5 v Quantification Encodeur d entropie Réorganisation Codage à longueur variable Codage arithmétique CHAPITRE 3 :ADVANCED VIDEO CODING Introduction Hiérarchie des données Baseline Profile Tranche Prédiction inter Prédiction intra Trames de référence Filtres Transformation Quantification Réordonnancement Codeur d entropie Main Profile Tranches B Prédiction pondérée Video entrelacée CABAC

6 vi 3.5 Extended Profile Tranches SP et SI CHAPITRE 4 :ENVIRONNEMENT D EXÉCUTION Introduction Architecture ciblé Aperçu des microarchitectures Parallélisme des instructions Parallélisme des données Plateforme Code source Compilation Directshow CHAPITRE 5 :ESTIMATION DU MOUVEMENT Introduction Algorithmes de recherche Recherche exhaustive Méthodes multi-pas Méthodes prédictives Méthodes à critère de faible complexité Algorithmes dans le software de référence, JM Dynamic Search Range Fast Motion Estimation Simplified Fast Motion Estimation

7 vii Enhanced Predictive Zonal Search Algorithmes dans x Comparaison des performances des encodeurs-cibles Qualité des résultats Mesure des temps de calcul des algorithmes comparés Calibrage des codec Résultats CHAPITRE 6 :OPTIMISATION Introduction Approches possibles d optimisation et aboutisssement Implémentation Résultats Gain Analyse Extrapolation Remarque sur la portabilité Améliorations CHAPITRE 7 :CONCLUSION Cheminement Résultats Travaux futurs BIBLIOGRAPHIE

8 viii LISTE DES TABLEAUX LISTE DES FIGURES

9 CHAPITRE 1 INTRODUCTION 1.1 Cadre général Notre époque vit actuellement, grâce au numérique, une révolution caractérisée par l union de la télédiffusion, des télécommunications et des technologies de l information. La compression vidéo se place au coeur de cette mutation. La compression est pratiquement indissociable de la vidéo pour répondre aux limites inhérentes à la capacité de stockage et à la largeur de bande requise par les images vidéo ; qu il s agisse de la production, du stockage ou de la distribution de celles-ci. Récemment, d innombrables technologies de compression, propriétaires ou non, sont nées afin de distribuer des contenus digitaux sur des canaux de transmission à bande étroite. Soucieuses d établir des normes de compression plus efficaces, les instances internationales de normalisation ont conjugué leurs efforts pour mettre au point le système de codage nommé AVC (Advanced Video Coding). Néanmoins, bien qu excellent, ce standard requiert des capacités de calcul très élevées pour fonctionner en temps réel. Parallèlement à cela, les processeurs informatiques ont considérablement évolué. Les unités centrales de calcul se sont miniaturisées au-delà de l échelle nanométrique et l apparition du parallélisme des systèmes dans les années 60 connaît de nos jours un bond spectaculaire. La puissance de calcul des microprocesseurs universels est améliorée aujourd hui par la complexification de leur structure interne : architectures super-scalaires, techniques dites de super-pipelines, architectures SIMD, etc. Le renforcement du parallélisme dans l architecture des microprocesseurs impose donc que l on abandonne les algorithmes séquentiels au profit d une approche parallèle. Par ailleurs, un corollaire du progrès de l informatique est l augmentation croissante de sa segmentation en couches de services, couches dont les niveaux supérieurs se confrontent à l irruption des approches parallèles dans la couche inférieure. En effet, la plupart des compilateurs de langage de haut niveau actuels, soucieux avant tout de fournir du code interopérable, sous-exploitent les capacités réelles des processeurs.

10 1.2 Objectifs de ce mémoire 2 L idée de ce mémoire est née du constat que les besoins de plus en plus gourmands de la compression de données vidéo en temps réel, en général, et du processus d estimation de mouvement lors de l encodage vidéo de norme AVC, en particulier, sont mal servis par une approche séquentielle de la programmation. Nous pensons qu une solution pour optimiser l encodeur vidéo consiste peut-être à optimiser le processus de traitement de l information à l aide des unités de traitement parallèles. 1.2 Objectifs de ce mémoire Ce travail tente de répondre à deux objectifs principaux. Le premier objectif est d ordre scientifique et technique. Il consiste à analyser les différents niveaux de parallélisme d un type de processeur courant pour implémenter des solutions d optimisation de la compression vidéo et rendre possible l encodage en temps réel, en utilisant le standard AVC. Le second objectif avoue un penchant plus académique. Nous voulons démontrer qu une approche alternative moins classique de l optimisation, de type empirique, peut être avantageuse par rapport à une optimisation algorithmique pure ne tenant pas compte de l architecture d exécution. L apport in fine de ce travail est de fournir un encodeur standardisé qui soit utilisable en temps réel et qui, toutes choses étant égales par ailleurs, compresse dix fois plus vite que le système de départ uniquement par optimisation de ses étapes de compression. 1.3 Méthodologie La méthode employée pour optimiser l encodeur est essentiellement empirique. Elle consiste à analyser tous les services fournis par l architecture afin de mettre ceux-ci à disposition du programme lors de l exécution. Par ailleurs, les algorithmes de compression d image associés à la norme AVC seront étudiés en détail et comparés. Des algorithmes choisis pour leurs qualités intrinsèques seront ensuite optimisés à l aide des connaissances acquises. Ils seront enfin appliqués au problème de la compensation de mouvement dans l image, élément typiquement gourmand en puissance de calcul.

11 1.4 Contraintes du travail 3 Cette approche complète d optimisation privilégie un calculateur vectoriel dans une architecture ciblée. Elle devrait permettre l utilisation du meilleur standard de compression à l heure actuelle, la norme AVC, et permettre la vidéo en temps réel dans des conditions normales de traitement. Ce travail remet en question le concept d algorithme mathématique basé sur le principe de la machine séquentielle. Il va en cela se heurter à deux difficultés : (1) la diversité des modèles architecturaux parallèles et (2) la difficulté de programmation des machines vectorielles. 1.4 Contraintes du travail Tout naturellement, le choix du codec s est porté sur la norme AVC, adoptée par la plupart des fabricants parce qu elle surpasse tous les standards précédents en terme de qualité. Mais le software de référence pour l encodeur fournit par l UIT s est avéré peu optimal et nous avons préféré utiliser un autre code source existant, open source celui-ci. Puisqu il s agit de permettre la vidéo en temps réel, le taux d encodage imposé à l encodeur est sans surprise d au moins 25 images par seconde avec un débit de 150 Ko par seconde. S agissant d une application grand public, nous avons choisi de concentrer nos recherches autour du microprocesseur 32 bits d Intel (Pentium 4), parce que très répandu sur le marché de la micro-informatique. Ainsi, la recherche de performance de l encodeur est motivée par le respect de contraintes de temps (temps réel) et de ressources de calcul (microprocesseur). Dans ce travail, ces contraintes sont souvent abstraites pour être traduites en calculer le plus vite possible avec les ressources disponibles. Nous verrons tout au long du travail que la formalisation des contraintes matérielles est pratiquement impossible et que l approche choisie, la méthode empirique, est la plus réaliste. 1.5 Structure de ce mémoire Dans le premier chapitre de ce mémoire, nous introduisons la compression et les différents procédés de codage et de décodage de l image existants. Dans le deuxième chapitre, nous présentons la norme de codage vidéo AVC qui est la plus récente et aussi la plus efficace. Dans le troisième chapitre, nous offrons au lecteur un

12 1.5 Structure de ce mémoire 4 aperçu rapide des architectures et plateformes courantes afin de justifier le choix du microprocesseur et de présenter les contraintes environnementales présentes dans toute tentative d optimisation des algorithmes de compression. Dans le quatrième chapitre, l étude des algorithmes actuels pour l estimation du mouvement nous permet de pressentir lesquels sont les plus adaptés à nos objectifs et de choisir ceux qu il nous faudra améliorer. Dans le cinquième chapitre, enfin, nous dévoilons le cœur du travail proprement dit, soit l implémentation d algorithmes optimisés pour le traitement d images vidéo et les résultats obtenus.

13 CHAPITRE 2 LA COMPRESSION VIDÉO 2.1 Introduction Depuis l avènement des télécommunications, il est devenu aisé d accéder à l information. De nombreux média coexistent et la vidéo fait aujourd hui partie entière de notre quotidien : on peut de chez soi commander un film, télécharger les dernières nouvelles sur son téléphone portable ou faire de la vidéo conférence avec des amis à l autre bout de la planète. La maturité des équipements d aujourd hui nous permet de voir, transmettre, traiter et sauvegarder des signaux vidéo sur différentes plateformes et d interagir avec leurs contenus. Obtenir une vidéo digitale depuis la source filmée vers son lieu de distribution nécessite une longue chaîne de traitement. D un signal analogique nous sommes passés à une chaîne complète de traitement digital. Parmi les étapes importantes de ce traitement, on trouve les opérations de compression et de décompression du signal afin de minimiser la bande passante nécessaire à la distribution du signal. Cette étape porte le nom de compression vidéo. Elle peut comprimer l information avec ou sans perte. Le but de ce travail est d augmenter les prestations de la chaîne de traitement afin d obtenir la meilleure qualité possible pour une utilisation en temps réel dans un environnement (bien) particulier. Tout d abord, pour comprendre comment fonctionne la compression vidéo, nous allons passer en revue les grandes lignes de la chaîne de traitement vidéo, de son acquisition jusqu à son utilisation finale Besoins Lorsque nous regardons une séquence vidéo, nous observons une image qui change au fil du temps. Cette image est constituée de points élémentaires appelés pixels 1 ou pel. Ces pixels peuvent avoir des formes différentes (rond, point, ligne, 1 De l anglais picture element.

14 2.1 Introduction 6 Figure 2.1 Les grandes étapes lors d une acquisition vidéo. carré, etc.) et influencent la netteté de l image ; on parle de définition de l image. La résolution d une image est le nombre de pixels par image. Plus nous augmentons la résolution, plus l image devient précise et de qualité. En raison du fonctionnement de la vision humaine, la persistance rétinienne et l effet phi nous procurent un effet de mouvement fluide si nous soumettons notre vision à une scène échantillonnée à au moins vingt images par seconde [66]. La fréquence augmentant, la sensation de fluidité s accroît. Une séquence vidéo est une représentation d une scène visuelle naturelle échantillonnée temporellement et spatialement. Une scène est échantillonnée à un moment pour produire une image fixe (trame). L échantillonnage est répété à intervalles réguliers, typiquement fois par seconde. L échantillonnage est effectué à l aide d un appareil photosensible qui va acquérir la scène et produire un flux vidéo brut caractérisant la scène. Dans le cas de la vidéo digitale, les appareils photosensibles utilisées sont appellés transducteurs optoélectroniques digitaux. Les plus courants sont les CCD 2. Tout d abord, la lumière perçue est séparée en trois composantes à l aide d un filtre ou d un prisme. Ensuite, une matrice de cellules semi-conductrices quadrillant l entièreté de la fenêtre d acquisition évalue l intensité lumineuse et produit un signal électrique linéairement dépendant de l intensité perçue. Ce signal analogique est enfin converti en signal digital. Chaque cellule produit donc une composante d un pixel de l image fixe. Au final, le processus produit un flux de données égal à la résolution de chaque cellule ([1,48]bits) fois le nombre de cellules ([0.7,40] Mil- 2 De l anglais charge-couple device.

15 2.1 Introduction 7 lions). Souvent, les appareils optoélectroniques digitaux possèdent des filtres qui suppriment le bruit Gaussien (électronique) et Poissonien (lumineux). Nous devons ensuite acheminer le flux vidéo vers sa destination. Figure 2.2 Processus d acquisition d une scène vidéo à l aide d un CCD Contraintes Une vidéo contient une quantité importante de données, et malgré l augmentation de la puissance des processeurs et des capacités des périphériques de stockage, nous avons besoin de la représenter dans un format plus concis. Afin de maximiser la bande passante, des techniques de compression vidéo ont été inventées. Par compression vidéo, nous entendons le recodification des données sources, à travers une série d étapes, vers une taille de données plus compacte (= codage). Un système similaire de décompression nous permet de retrouver la vidéo originale (= décodage). Le procédé qui regroupe ces méchanismes s appelle le système codec (mot-valise construit d après les mots encodeur/decodeur). Pour un encodage sans perte d image fixe, à l heure actuelle le meilleur

16 2.2 Codification 8 standard est le JPEG-LS 3 [56]. Il nous permet d obtenir la même image de 3 à 4 fois plus compacte, la compression étant obtenue en enlevant de la redondance. Malgré le taux de compression honorable, il est nécessaire d avoir recours à des techniques avec perte. En effet, si nous considérons un film tv de 120 minutes codé en brut au format PAL, ce n est pas moins de 194,4 Giga-octets de données qui sont produites. La compression avec perte exploite la redondance subjective, c est-à-dire l élimination d éléments de l image n affectant pas ou peu la qualité perçue par le spectateur. Des taux d 1/50ème sont obtenus aujourd hui par l utilisation de codec tel que le standard MPEG-2 4. Les standards plus récents MPEG-4 et AVC se veulent plus ambitieux et permettent d obtenir des taux jusqu à deux fois meilleurs que le MPEG-2, mais leur coût en temps de calcul reste élevé. Nous verrons plus loin pourquoi nous avons choisi le standard AVC. La qualité d une vidéo compressée varie très grandement en fonction de la fréquence d entrée, de la résolution d entrée, du débit imposé en sortie et de la qualité exigée. Afin de mieux cerner le problème, nous étudierons des flux à une fréquence de 25hz. Ils garantissent un bon compromis entre taille et fluidité, et sont ceux utilisés par l industrie audiovisuelle. Nous imposerons également différentes résolutions à l entrée afin d observer les variations du débit et de la qualité en sortie. 2.2 Codification Nous avons vu qu une image est représentée par une série d éléments appelés pixels. Dans une image monochrome, un pixel prend une valeur discrète en fonction de la luminosité. En raison de la codification choisie, un pixel sera blanc, noir ou d un gris intermédiaire selon le pas de discrétisation ; on parle aussi de résolution du pixel. Dans une image couleur, nous avons besoin d au moins 3 informations par pixel pour pouvoir représenter la couleur. La méthode choisie pour représenter la luminosité (luminance ou luma) et la couleur (chromatique ou chroma) est décrite comme l espace colorimétrique. 3 Le JPEG (Joint Photographic Experts Group) est un groupe d expert associé à l organisation internationale de normalisation (ISO (International Organization for Standardization)), ils ont développé le standard JPEG-LS(LosslesS). 4 Par exemple le DVD (de l anglais Digital Versatile Disc) utilise ce standard.

17 2.2 Codification Espace colorimétrique Figure 2.3 Une image et sa représentation dans différents espaces colorimétriques. De nombreux espaces colorimétriques existent. Citons parmi eux le RGB, le CMYK, l HVS et le YUV. En RGB (rouge, vert, bleu), un pixel est représenté par trois nombres qui indiquent la proportion relative de rouge, de vert et de bleu. N importe quelle couleur est représentée par addition de ces trois couleurs dans différentes proportions ; on dit que cet espace est additif (voir Fig. 2.4(a)). Le RGB est très employé dans la capture et l affichage grâce à la facilité de séparation de la lumière en ces trois composantes. C est d ailleurs cette facilité qui a poussé l industrie à utiliser ce standard. Un autre espace beaucoup utilisé en imprimerie est le CMYK (cyan, magenta, jaune, noir). Ici l espace est soustractif (voir Fig. 2.4(b)), et la couleur perçue est celle qui n est pas absorbée par le mélange des 4 composantes. Les artistes quant à eux emploient souvent l HSV 5 (teinte, saturation, valeur) pour une raison de ressemblance à la vision humaine. La vision humaine est moins sensible aux couleurs qu à la luminosité [96]. En RGB, les trois couleurs possèdent la même importance, si bien qu il faut garder 5 De l anglais Hue, Saturation, Value.

18 2.2 Codification 10 (a) Synthèse additive (b) Synthèse soustractive Figure 2.4 Synthèse des couleurs. la même résolution pour chaque composante. Il existe des espaces qui séparent la luminosité des couleurs. Il est alors possible d augmenter la résolution de la luminance et de réduire celle de la chromatique, ce qui améliore la qualité du signal décodé. Le YUV et ses variations (aussi appelé YCbCr) représentent un pixel de couleur par une luminance Y et trois composantes chromatiques Cb, Cr et Cg. La luminance Y est un calcul pondéré des composantes rouge, verte et bleue. Y = k r R + k g G + k b B Cb = B Y Cr = R Y Cg = G Y (2.1) Où k est un coefficient pondéré. La description complète d un pixel nécessite donc 4 composantes. Heureusement, les composantes sont interdépendantes, si bien qu avec trois d entre elles nous obtenons la quatrième. Généralement seul Y, Cb et Cr sont transmis. L UIT 6 recommande l utilisation des coefficients k r = 0, 299 et k b = 0, 114. Ainsi nous obtenons la table de conversion RGB YUV : 6 Union Internationale des Télécommunications.

19 2.2 Codification 11 Y = 0.299R G B Cb = 0.564(B Y ) Cr = 0.713(R Y ) R = Y Cr G = Y 0.344Cb 0.714Cr B = Y Cb (2.2) L intérêt du YUV est double : il permet la compatibilité des vieux équipements noir et blanc avec un signal couleur et permet une meilleure utilisation de la bande passante en encodant plus d information sur la luminance au détriment de la chromatique. Différents formats d échantillonnage existent en YUV. Les plus communs sont le 4 : 2 : 0 (YV12), le 4 : 2 : 2 (YUY2) et le 4 : 4 : 4 (RGB). En mode 4 : 4 : 4 chaque composante (Y, Cb et Cr) aura la même résolution. Dès lors, chaque composante existe à chaque pixel. Le format 4 : 2 : 0 échantillonne pour quatre Y, un Cb et un Cr. Le lieu d échantillonnage sur l image varie en fonction du standard choisi. Dans la suite de ce travail nous adopterons uniquement le format YUV 4 : 2 : 0 avec une résolution de 8 bits par composante, soit une résolution moyenne de 12 bits par pixel. (a) 4 :4 :4 (RGB) (b) 4 :2 :2 (YUY2) (c) 4 :2 :1 (YV12) Figure 2.5 Trois modes d échantillonnage Y Cb. Cr Format Le standard de compression vidéo que nous étudierons (AVC) peut comprimer une grande variété de formats colorimétriques sous diverses résolutions. En pratique, le format CIF 7 est la base d une hiérarchie de formats (voir le tableau 2.1). Nous avons rajouté deux formats HDTV 8 car nous les utiliseront aussi dans le codec. Les normes PAL et NTSC définissent des vidéos en mode entrelacées à 50hz 7 De l anglais Common Intermediate Format 8 Un standard HDTV (High Definition TeleVision) pour l Europe n a pas encore été établi, néanmoins nous utilisons la dénomination courante employé par les constructeur de dalle LCD

20 2.3 Vue globale d un encodeur-decodeur 12 Format Résolution Luminance Bits par image (Horizontal Vertical) (YV12, 8bit) Application SQCIF Vidéo Mobile QCIF Vidéo Conférence CIF Monitoring Vidéo 4CIF TV, DVD 720i HD TV 1080i HD DVD Tableau 2.1 Résolutions d image au standard PAL. et 60hz respectivement, ce qui revient à des débits de 25 et 30 images par seconde [26]. Pour une utilisation plus pratique, un flux vidéo est encapsulé dans un conteneur (un type de fichier). Selon le conteneur choisi (avi, mp4, asf etc..), le flux est plus ou moins dépendant d une plateforme et contient des informations sur la manière dont la vidéo et l audio sont attachés entre eux, ainsi que sur les codecs utilisés. Le conteneur n impose pas le type de codec employé dans le flux. Pour des raisons pratiques, nous emploierons un conteneur avi. 2.3 Vue globale d un encodeur-decodeur Tous les codecs fonctionent selon le même principe et possèdent les mêmes étapes décisives. Une vue globale est fournie aux Figures 2.6 et 2.7. Figure 2.6 Schéma d un encodeur. L encodeur se compose de trois étages : le modèle temporel, le modèle spatial et le codeur d entropie. En entrée, nous fournissons un flux vidéo paramétré. Le

21 2.4 Modèle Temporel 13 modèle temporel exploite la redondance entre les trames voisines et construit une prédiction des trames suivantes. Les outputs du modèle temporel sont un résidu et un ensemble de vecteurs exprimant la compensation du mouvement. Ce résidu est formé par la différence entre la trame prédite et la trame successive. La trame résiduelle (inter-trame) forme l input du modèle spatial. Celui-ci utilise les propriétés de corrélation des pixels pour réduire la redondance spatiale. Les pixels sont décorrélés en transformant la trame dans un autre domaine. Cette transformation convertit une trame en coefficients. Ces coefficients sont ensuite quantifiés pour ne laisser en sortie qu une série de coefficients significatifs représentant de manière plus compacte la trame résiduelle d entrée. Les sorties du modèle temporel (les vecteurs de mouvement) et du modèle spatial (les coefficients) sont compressées par l encodeur d entropie. L encodeur d entropie utilisera la redondance statistique pour recoder les vecteurs et les coefficients de manière plus compacte. Une séquence compressée est donc constituée de vecteurs de mouvement, de coefficients de résidu et d un en-tête. Figure 2.7 Schéma d un décodeur. Le décodeur quant à lui reconstruit la vidéo à partir du flux de sortie de l encodeur. Les coefficients et les vecteurs de mouvement sont décodés par un décodeur d entropie, à la suite duquel le modèle spatial se charge de reconstruire la trame résiduelle à partir des coefficients. Ensuite à partir d une trame précédemment reconstruite, des vecteurs de mouvement et de la trame résiduelle, le décodeur obtient l image de départ. 2.4 Modèle Temporel Dans une séquence vidéo, deux images successives contiennent très probablement un grand ensemble d information semblables. Seules certaines parties de la première image vont être modifiées. Dans la figure 2.8 nous avons pris deux trames

22 2.4 Modèle Temporel 14 consécutives d une séquence vidéo. En définissant le résidu comme la différence entre nos deux trames, nous remarquons que les parties statiques (le fond de l image) ont des différences temporelles proches de 0 et qu elles interviennent peu dans le codage du résidu. Pour réduire l information du résidu, un mécanisme de compensation du mouvement à été créé. A l exception des changements de lumière, de l arrivée de nouveaux objets et des zones recouvertes par un objet en mouvement, une séquence vidéo représente un mouvement de pixel. Sur la Fig. 2.9 nous remarquons que l énergie du résidu se concentre autour de la bouche, des cheveux et du contour de la femme. L énergie résiduelle peut être réduite si arrivons à prédire la position dans la trame suivante des pixels en mouvement. Il nous suffirait d associer un vecteur à chaque pixel et d en décrire le déplacement. Ainsi, si ces vecteurs sont calculés de manière précise, nous pouvons reconstruire la prochaine trame à partir des vecteurs et du résidu. Figure 2.8 Deux trames consécutives. (a) Sans compensation de mouvement (b) Avec compensation du mouvement Figure 2.9 Résidus de la Fig. 2.8.

23 2.4 Modèle Temporel Compensation du mouvement Le but de la compensation du mouvement est de fournir une information supplémentaire afin d alléger l énergie résiduelle nécessaire à la prédiction de la trame future. Ce mécanisme est composé de l estimateur et du compensateur. L estimateur va associer des vecteurs de déplacement à la trame, quant au compensateur, il calculera le résidu. L estimation du mouvement est développée en profondeur au chapitre 5. Trois familles d estimateurs de mouvement (ME 9 ) existent : ceux basés sur les pixels, ceux basés sur les régions et ceux basés sur les blocs. Les techniques pixels fournissent un champ complet de vecteur de déplacement minimisant au mieux l énergie résiduelle, mais leur coût de calcul ainsi que la taille du champ n en font pas un outil adapté à la compression. Les techniques régions décomposent l image en objets, et effectuent des transformations sur ceux-ci. Ces techniques sont expérimentales mais seront à l avenir un solide concurrent des techniques blocs [20]. La principale difficulté reste le découpage adéquat des régions et leur encodage en forme compacte. Les techniques basées sur les blocs sont à l heure actuelle très efficaces en termes de qualité et de débit. Elles restent les techniques les plus adoptés dans les standards de compressions. Dans les techniques blocs une image est divisée en blocs rectangulaires NxM avec N,M {4, 8, 16} pixels. Chaque bloc dans la trame d origine est comparé avec des blocs de la même taille dans les trames de référence 10 dans le but de trouver le meilleur bloc qui satisfasse un critère d erreur basé sur une mesure particulière. Les coordonnées du bloc trouvé sont celles du premier pixel, soit le coin supérieur gauche. Le vecteur pointant vers le bloc trouvé est choisi comme vecteur de déplacement (MV 11 ). La différence résiduelle est calculée entre le bloc choisi et le bloc d origine par le processus de compensation de mouvement. Cette différence est codée et transmise avec les MV à l étage suivant de l encodeur. Deux critères d erreur sont couramment employés pour l estimation du mouvement : 9 De l anglais Motion Estimation 10 Trame déjà encodée, future ou antérieure par rapport à l ordre original. 11 De l anglais Motion Vector.

24 2.5 Modèle Spatial 16 la Somme du Carré des Différences (SSD) SSD(u, v) = N 1 M 1 i=0 j=0 (C i,j R i+u,j+v ) 2 (2.3) et la Somme de Différence Absolue (SAD) SAD(u, v) = N 1 M 1 i=0 j=0 C i,j R i+u,j+v (2.4) C i,j est la valeur du pixel de la trame courante et R i+u,j+v celle du bloc de référence. Les composantes du vecteur de déplacement sont (u,v). Ces deux critères offrent une bonne robustesse et restent facilement calculables [86]. SSD est un meilleur critère que SAD, mais sa complexité est plus grande. Pour un bloc de 16x16, SSD nécessite 2 8 multiplications et 2 9 additions. SAD n a besoin que de 2 9 additions. Dans ce travail, nous emploierons ces deux critères. Le vecteur de mouvement n est pas nécessairement composé d entiers. En effet, la recherche d un bloc peut se faire à un niveau plus petit que le pixel. Les valeurs subpixel peuvent être créées par une moyenne des valeurs environnantes, médiane ou d autres types d interpolations. Nous verrons à quel moment sont employées ces itérations et l impact qu elles peuvent avoir sur le MV dans la section 5.2. Une fois le bloc trouvé, le résidu est calculé et envoyé à l étage suivant, les vecteurs sont directement passés au dernier étage de l encodeur. 2.5 Modèle Spatial Le deuxième étage de l encodeur s attaque donc à la redondance spatiale. La trame résiduelle contient encore beaucoup de redondance spatiale. Si nous appliquons une transformation sur la trame, nous pouvons compacter l information sur un nombre restreint de valeurs. Ensuite, il nous faudra écarter les valeurs insignifiantes et, enfin, encoder le résultat pour réduire l ensemble.

25 2.5 Modèle Spatial Transformation Le choix d une transformée dans le cas d un codec sera dicté par ces critères : la transformée doit être inversible (le décodeur doit être capable de reconstruire les trames à partir des prédictions) ; les données dans le domaine de la transformée doivent être décorrélées (séparées en composants avec une interdépendance minimale) ; les données dans le domaine de la transformée doivent être compactes (la plus grosse partie de l énergie doit se concentrer sur un petit nombre de valeurs) ; la transformée doit être peu gourmande en calcul (requerrant peu d espace mémoire, contenant peu d opérations arithmétiques, ne dépendant pas de l epsilon machine, etc.) Beaucoup de transformées discrètes ont été proposées [13]. Les plus en vogues sont la transformée cosinus discrète (DCT 12 ) et la transformée ondelette discrète (DWT 13 ). La DCT est basée sur des blocs, la DWT sur une image entière. Bien que la DWT ait des performances supérieures à la DCT, sa demande en mémoire et sa compatibilité avec la compensation de mouvement (basé sur les blocs) n en font pas un outil adapté aux codecs d aujourd hui. DWT est la transformée utilisé dans le standard JPEG La DCT est une méthode transformant les données d une image du domaine spatial vers le domaine fréquentiel. Un bloc NxN (pour rappel, l étage précédant nous fourni des blocs de taille égale ou multiple) est transformé pour fournir des coefficients. Dans les codecs actuels, des blocs 8x8 sont choisis pour leur bonne corrélation inter-pixel et leur faible temps de calcul. L action de la DCT (et son inverse l IDCT) est un produit matriciel. La définition de la DCT à évolué au fil du temps et la dernière en date est donnée en équation 2.5 avec f le bloc original et F le bloc de coefficients transformés. F (u, v) = 2 N 1 N g(u)g(v) i=0 M 1 j=0 f(i, j) cos( 12 De l anglais Discrete Cosinus Transform. 13 De l anglais Discrete Wavelet Transform. 14 JPEG2000 est un standard de compression avec perte d images fixes. (2i + 1)uπ (2j + 1)vπ ) cos( ) (2.5) 2N 2N

26 2.5 Modèle Spatial 18 où g(x) = { 1 2 si x = 0 1 sinon La série de Fourrier définit une fonction périodique comme une somme infinie de sinus. Similairement, nous voyons notre bloc comme étant une somme finie de blocs de base (voir Fig. 2.10). Les coefficients obtenus représentent le poids de chaque bloc de base dans le modèle spatial. Un bloc de base est construit à partir d une fonction cosinus. Le coefficient F(0,0) représente la composante continue, les autres sont des coefficients réels de cosinus divers. Dans un scénario typique, les coefficients basse fréquence représentent la plus grosse partie de l information d origine. Figure 2.10 Les fonctions cosinus de base. La DCT requiert une multiplication matricielle coûteuse. En pratique, une version rapide, la FDCT (Fast DCT) est employée. La complexité passe ainsi de n 2 à n log 2 n (avec n le nombre de coefficients). De nombreuses versions existent, les plus courantes se basent sur des transformées rapides de Fourrier (FFT 15 ). La FDCT est une transformée unidimensionnelle ; elle est appliquée aux lignes, puis aux colonnes, afin d obtenir la transformée bidimensionnelle. En factorisant l équation 2.5, nous savons la réécrire comme un produit Eulérien. En se basant sur la propriété où W q = 1 (avec W = e i 2π N pour N = 2 q et q N), nous réduisons fortement le temps de calcul de la DCT. La Fig nous montre où se concentre l information après une DCT. 15 De l anglais Fast Fourrier Transform.

27 2.5 Modèle Spatial 19 (a) un bloc de couleurs (b) composantes luma (c) coefficients obtenus après une DCT Figure 2.11 Numérisation et transformée d un bloc 8x Quantification Suite à la transformation qui, pour rappel, ne perd pas d information, nous obtenons une matrice avec beaucoup de coefficients proches de 0. La quantification est utilisée pour écarter les coefficients insignifiants et pour regrouper les autres par seuils. La quantification est un processus irréversible ; les données d origine ne peuvent pas être récupérées après cette étape. La quantité d information écartée est choisie en fonction d un pas de quantification (QP 16 ). Une fonction typique est montrée en Fig Le pas et la forme de cette fonction peuvent varier en fonction du temps. Les mécanismes de régulation du débit du compresseur vont jouer un grand rôle sur cette fonction [104]. Le pas de quantification influencera grandement la qualité et le débit de compression final. 16 De l anglais Quantization Parameter. Figure 2.12 Fonction de quantification.

28 2.6 Encodeur d entropie Encodeur d entropie L encodeur d entropie représente l information de manière plus compacte et sans perte. Son principe est statistique ; il va assigner des codes courts aux symboles les plus courants et de plus longs à ceux qui le sont moins. L encodeur nécessite donc deux étapes : la première assignera des probabilités aux symboles, la deuxième encodera les symboles en fonction des tables obtenues. Nous définissons l entropie (H(x)) comme le nombre moyen de bits nécessaires pour coder un symbole dans un alphabet binaire de manière minimale. Ceci est la borne inférieure du codage de symboles. Un bon encodeur se doit d approcher cette borne. H(x) = N P i log 2 P i (2.6) i=1 L équation 2.6 nous donne l entropie H(x) avec P i la probabilité du symbole i. Il y a deux types d encodeurs à longueur variable employés dans un codec, l encodeur de Huffman modifié et l encodeur arithmétique. L encodeur de Huffman offre une simplicité de calcul pour de bonnes performances, mais les codes assignés (des entiers) empêchent cet encodeur d atteindre l entropie. Le codage arithmétique, quant à lui, approche mieux cette borne en utilisant des codes réels, mais est plus gourmand. Au final, l encodeur aura en input : des vecteurs de mouvement, des coefficients de transformée quantifiés, des marqueurs de synchronisation, des en-têtes et de l information secondaire extra, non vitale pour un décodage correct Réorganisation L output du modèle spatial est une matrice creuse contenant quelques valeurs non nulles. Avant l envoi vers l encodage d entropie, les coefficients nuls sont regroupés et recodés dans un ordre plus économique en terme de place. Avec un parcours de la trame en mode zig-zag 2.13, nous allons obtenir une longue série de 0. En utilisant une méthode RLE 17, nous regroupons les De l anglais Run-Length Encoding.

29 2.6 Encodeur d entropie 21 Par exemple, le string suivant [ ] peut être ré-écrit en tuples en utilisant un code bidimensionnel : (6,1) (2,3) (0,3) (1,2) (FIN). Dans un code tridimensionnel, nous aurions supprimé le code de FIN en le répartissant sur les codes internes, le 1 sur le dernier tuple indiquant le dernier coefficient non nul dans le bloc : (6,1,0) (2,3,0) (0,3,0) (1,2,1). De 17 symboles au départ, nous passons à 9 symboles dans le cadre d un code bidimensionnel. Figure 2.13 Parcours d une trame en zig-zag Codage à longueur variable Le codage de Huffman assigne un code à chaque symbole. Ce codage s inspire fortement des arbres trie 18. Les codes de sorties prennent des valeurs de 1 à plusieurs bits. Le code à la sortie peut même être plus grand que le code à l entrée si sa probabilité est très faible. Le nombre optimal de bits pour un symbole est log 2 P, avec P la probabilité de ce symbole. Le problème du codage de Huffman est qu un nombre de bit entiers est assigné à un symbole. Si un symbole a une probabilité de 0,9, l optimum serait de le coder sur 0,15 bit, le codage de Huffman le codera sur 1 bit. Une fois les probabilités d occurrence connues, l algorithme construit une table (un arbre) de codage. La construction se fait comme suit : 1. Chaque symbole est la racine d un arbre, trier les symboles par ordre de probabilité ; 2. Rechercher les deux symboles les moins probables et former un noeud père de poids égal à leur probabilité conjugue ; 3. Trier les arbres sur leur racine ; 4. S il ne reste plus qu une racine, terminer, sinon reprendre en De l anglais retrieval., un arbre où les données sont structurées de manière ordonnée sur les feuilles.

30 2.6 Encodeur d entropie 22 La Fig nous montre un arbre construit pour 7 symboles, ainsi que les codes attribués. Avec le codage, nous obtenons une moyenne de 2,65 bits par symbole ce qui est proche de l entropie qui est de 2,62. Figure 2.14 Arbre d Huffman (extrait de [26]). Deux problèmes interviennent dans l utilisation de ce codage : 1. La table de probabilité des symboles ne peut être calculée qu après avoir encodé au deuxième étage toute la vidéo (c est une contrainte insoluble dans le cadre d un codec travaillant en temps réel) 2. Le décodeur doit obtenir une copie de la table créé par l encodeur. Pour résoudre ces problèmes, des tables pré-calculées sont incluses dans l encodeur et le décodeur dès leur conception. Elles se basent sur des distributions de symboles de vidéos génériques Codage arithmétique L idée fondamentale du codage arithmétique est d utiliser une série de symboles plutôt qu un seul et de les regrouper dans un nombre réel compris entre 0 et 1. Ceci nous permet d approcher l entropie. Plus la série de symboles est longue, plus

31 2.6 Encodeur d entropie 23 l intervalle devient petit. Illustrons ce principe par un exemple utilisant un modèle de probabilité fixe sur l alphabet A,B,C,D,E,X. Symbole Probabilité Intervalle A 0.30 [0.00, 0.30[ B 0.20 [0.30, 0.50[ C 0.20 [0.50, 0.70[ D 0.15 [0.70, 0.85[ E 0.10 [0.85, 0.95[ X 0.05 [0.95, 1.00[ Tableau 2.2 Un modèle de probabilité sur un Alphabet de 6 symboles. Figure 2.15 Encodage arithmétique de BAAEX (extrait de [55]). Soit le string BAAEX, la Fig illustre son codage arithmétique. L algorithme est basé sur l itération suivante : Inf {n} = Inf {n 1} + fréquence cumulative(symbole) T aille Sup {n} = Inf {n 1} + fréquence cumulative(symbole+1) T aille T aille {n} = Sup {n} Inf {n} (2.7) avec Inf {0} = 0 Sup {0} = 1 T aille {0} = 1

32 2.6 Encodeur d entropie 24 L information sera codée par un nombre compris dans l intervalle final. On choisit un nombre nécessitant le moins de bits possibles. Des techniques de construction à la volée de la table des probabilités sont employées par ce type de codeur. Les tables sont affinées au fur et à mesure que les symboles passent. Le décodeur utilisant le même principe, cette technique est inversible. Un raffinement du codeur peut être fait en utilisant un alphabet binaire. Après avoir examiné la théorie de la compression vidéo, et les méthodes existant pour supprimer la redondance de l image, nous allons maintenant étudier le dernier standard de compression AVC disponible.

33 CHAPITRE 3 ADVANCED VIDEO CODING 3.1 Introduction L UIT 1 et l OSI 2, deux organisations de standardisation ont uni leur forces pour développer conjointement un nouveau standard de compression vidéo 3. Le but était de produire un codec obtenant de meilleures performances que le MPEG-4 et l H.263 dans le cadre de vidéos rectangulaires. Le standard, relativement récent 4, a été nommé Advanced Video Coding (AVC) et est publié conjointement sous les labels MPEG-4 part 10 et ITU-T Recommendation H.264. Pour plus d information, consulter la biographie en [39],[69] et [82]. Tous les standards de compression définissent la syntaxe d un flux compressé et les méthodes pour le décompresser. Si bien qu une foule de logiciels de compression existent avec des implémentations différentes. Certaines nouveautés sont apparues dans AVC, comme le filtre débloquant ; pour le reste, il s agit d un raffinement des étapes déjà expliquées au chapitre 2. AVC est divisé en trois sections (profiles) définissant une série de fonctionnalités (voir figure 3.1). Nous avons le profil baseline, main et extended. Tout décodeur qui veut se conformer aux exigences du standard doit au moins savoir décoder le baseline. Nous ne décortiquerons pas le standard dans son entièreté, mais résumerons les points importants et donnerons les formules nécessaires à la compréhension de l implémentation de l estimateur de mouvement dans le code source fourni par l UIT (le JM). 1 L Union Internationale des Télécommunications. 2 L Organisme de Standardisation International. 3 Les équipes dédiées à la vidéo dans chaque organisme ont fusioné en une seule ; le Video Coding Experts Group (VCEG,ITU-T) et le Moving Picture Experts Group (MPEG,OSI/IEC) pour se rassembler sous l appellation Joint Video Team (JVT). 4 Le standard AVC a été finalisé en 2003.

34 3.1 Introduction 26 Figure 3.1 Vue générale du standard AVC (extrait de [28]).

35 3.2 Hiérarchie des données 27 Fonctions supportées Baseline Main Extended tranches SI et SP Non partitionnement des données prédiction pondéré Non tranches B Oui codage CABAC Non codage entrelacé Oui tranches I et P codage CAVLC trames de références multiples filtre déblocant ordonnancement flexible des macroblocs Oui Oui ordonnancement arbitraire des tranches Non tranches redondantes 3.2 Hiérarchie des données Tableau 3.1 AVC et ses Profiles. Une séquence vidéo est une succession de trames, dont chacune contient un numéro (POC). Ce numéro sert au réordonnancement car les processus d encodage et de décodage peuvent traiter les trames dans le désordre. Les trames encodées précédemment (trames de référence) peuvent être utilisées pour de la prédiction inter. Les trames de référence sont organisées dans une liste (ou deux) par poc. Une trame 5 est constituée d un nombre de macroblocs (des blocks de pixels), chacun d eux contenant luma (Y) et deux 8x8 chroma (Cb et Cr). Dans chaque trame, les macroblocs sont ordonnés en tranches de gauche à droite et de haut en bas. La longueur d une tranche varie de un à tous les macroblocs de la trame. Une trame peut contenir de une à plusieurs tranches de différent types (I, P, B, SP, SI). Les tranches I ne contiendront que des macroblocs I, les tranches B que des macroblocs B et I, les tranches P que des macroblocs P et I. SP et SI sont développées plus bas (cf. section 3.5.1). Chaque macrobloc dans une tranche est prédit à partir de données déjà encodées et reconstruites (Quantification inverse, IDCT) ; on garanti ainsi l utilisation de la même prédiction que le décodeur. Le codeur d entropie va recevoir la différence (le résidu) entre le bloc courant et la prédiction. Les macroblocs I sont prédits en utilisant les blocs de la tranche cou- 5 En yuv 4 :2 :0.

36 3.3 Baseline Profile 28 rante, les macroblocs P sont prédits en utilisant une à plusieurs trames antérieures, les macroblocs B quant à eux, sont prédits à partir d une ou deux trames, futures et/ou antérieures. Afin d augmenter la robustesse de la séquence, les trames sont souvent regroupées dans un ordre récurrent de modes (GOP 6 ). Figure 3.2 Hierarchie des données dans un codec (extrait de [26]). 3.3 Baseline Profile Tranche Un flux vidéo conforme au profil baseline contient des trames I et P. Une trame sera marquée par un délimiteur afin de spécifier le type de tranches permises. Pour 6 De l anglais Group Of Pictures.

37 3.3 Baseline Profile 29 des raisons de robustesse, une tranche peut être marquée comme redondante. En cas de perte de la tranche (lors du transport, par exemple) on utilisera l information des tranches voisines. Deux autres fonctions sont prévues pour diminuer la sensibilité aux erreurs : l ordonnancement flexible des macroblocs (FMO) et l ordonnancement arbitraire des tranches (ASO) Prédiction inter En mode inter, la prédiction d une trame est faite à l aide d une à plusieurs trames de référence. Les améliorations d AVC par rapport aux anciens codec comportent l utilisation de blocs de taille plus petite (4x4) et l utilisation de vecteur de déplacement précis (jusqu au huitième de pixel sur les blocs chroma). Figure 3.3 Une trames et son résidu avec la suivante. Figure 3.4 Vecteur de déplacement de la figure 3.3.

38 3.3 Baseline Profile Choix de partitionnement Lorsqu un macrobloc est traité, il est partitionné en blocs de plus petite taille. Le mode défini le choix de partitionnement du macrobloc. Une fonction de choix de partitionnement examine tout les partitionnements possibles et choisi le mode minimisant le plus la taille du résidu par rapport aux surcoût de codage des vecteurs de déplacement (MV) (voir l annexe I). Le partitionnement est fait sur le bloc luma (les deux chroma suivront le même mode que celui choisi pour le luma, mais possèderont des MV propres). Un mode skipped définit un macrobloc qui ne sera pas traité. Figure 3.5 Modes de partitionnement pour un macrobloc et ses sous-macroblocs Interpolation de pixel Le standard AVC permet des recherches très fines dans les dernières itérations de l estimateur de mouvement. Le vecteur de déplacement peut être fractionnaire, atteignant une précision du quart de pixel pour le luma, soit jusqu au huitième de pixel pour les chroma. Il faut donc interpoler le bloc de référence jusqu au huitième de pixel. Un filtre FIR 7 possède une bande passante, dans laquelle le signal passe avec peu d atténuation, ainsi qu une bande de blocage dans laquelle le signal est fortement atténué. Entre ces bandes, on trouve les bandes de transitions. L obtention d un tel filtre se fait par convolution d une fonction linéaire avec plusieurs impulsions de dirac. Les demi-pixels d un bloc luma sont interpolés en utilisant un filtre FIR à 6 entrées, les quarts de pixels sont une moyenne des demis obtenus précédemment. 7 De l anglais Finite Impulse Response.

Montrer encore