Luce Morin. Modélisation 3D pour la communication vidéo

Transcription

1 HABILITATION À DIRIGER DES RECHERCHES présentée devant L Université de Rennes 1 Spécialité : Informatique par Luce Morin Modélisation 3D pour la communication vidéo soutenue le 19 mai 2006 devant le jury composé de : M. Guy Lorette Président M. Michel Barlaud Rapporteur M. Janusz Konrad Rapporteur M. Andrew Zisserman Rapporteur M. Mohamed Daoudi Examinateur M. Roger Mohr Examinateur Mme Christine Guillemot Examinateur M. Claude Labit Invité

2

3 Modélisation 3D pour la communication vidéo 1 à Paula

4 2 L. Morin

5 Modélisation 3D pour la communication vidéo 3 Remerciements Je tiens d abord à remercier les membres du jury, en particulier Andrew Zisserman, Professeur à l Université d Oxford, Janusz Konrad, Professeur à l Université de Boston et Michel Barlaud, Professeur à l Université de Nice-Sophia Antipolis pour avoir accepté d être rapporteurs et pour leur attention portée à mon travail. Je remercie ensuite Guy Lorette, Professeur à l Université de Rennes 1, pour avoir accepté de participer à ce jury et de le présider, Roger Mohr, Professeur à l Ensimag et Mohamed Daoudi, Professeur à l Enic, Christine Guillemot et Claude Labit, Directeurs de Recherches à l Inria, pour avoir accepté de participer à ce jury. J adresse ensuite un grand merci à Lionel Oisel, Franck Galpin, Raphaèle Balter, Mohammed Rziza et Gaël Sourimant, qui reconnaîtront dans ce manuscrit leur travail et parfois même des morceaux de leurs thèses, ainsi qu aux stagiaires et ingénieurs qui ont aussi apporté leur contribution à ces travaux : Éric Grün, Bertrand Gasnier, Marc Guillemot, Laurent Faussurier, Gilles Bruno, Guillaume Bataille, Bastien Peteuil, Benoît Le Callenec, Jonathan Delhumeau, Phillipe Coval, Éric Morillon, Benjamin Le Guen, Mathieu Maitre. Je remercie les projets Temis et Temics qui m ont fourni un environnement stimulant pour mon travail de recherche, en particulier Claude Labit et Christine Guillemot pour m avoir fait confiance en me confiant des encadrements et en m impliquant dans plusieurs projets de collaboration. Je remercie les chercheurs avec qui j ai eu l occasion de travailler et d avoir des échanges enrichissants, en particulier Étienne Mémin, Stéphane Pateux, Nathalie Cammas, Philippe Robert, Jürgen Stauder, Yannick Nicolas, Christian Bouville, Patrick Gioia, Ahmed Tamtaoui, Driss Aboutajdine, Hassan Ibn El Haj, Francisco Garcia-Ugalde, Victor Garcia-Garduño, Pierre Alliez et Kadi Bouatouch. Je remercie enfin tous ceux qui m ont apporté encouragement, aide et soutien, en particulier : les membres du projet Temics, Huguette pour l huile de coude dans les rouages, Laurent pour avoir scruté et déniché les fautes d orthographes, Kadi pour ses relectures et ses nombreux encouragements, Stéphane pour avoir bien voulu ne pas relire ce manuscrit, Catherine et Isabelle pour avoir soigné ma forme en courant, nageant et dansant avec moi, le minispateux pour m avoir offert ses services de factotum d élite, Benj pour ses conseils de coatch et pour son aide multidimensionnelle et multicolore, Eric pour son soutien au quotidien pendant dix années d enseignement et de recherche, Stéphane pour son affection, son aide et sa patience, tous les membres de ma famille pour leur affection et leur soutien.

6 4 L. Morin

7 Table des matières 1 Introduction 9 2 Estimation de mouvement contrainte pour la modélisation 3D Introduction Mouvement et disparité Estimation de mouvement contrainte Formulation Modélisation énergétique Schéma de minimisation multi-résolution Estimation des informations 3D Résultats Conclusion Contributions Limites et perspectives Représentation 3D d une séquence vidéo Introduction Représentation par flux de modèles 3D Hypothèses Principe de la représentation Analyse : construction de la représentation Notations Estimation du mouvement 2D Estimation des paramètres caméra Estimation des modèles 3D Images de texture Sélection des images clés Résultats de l analyse Synthèse : restitution de vidéo à partir de la représentation

8 6 L. Morin Reconstruction de la séquence originale Reconstruction de séquences virtuelles et navigation interactive Conclusion Contributions Limites et perspectives Modèle 3D évolutif Introduction Mise-en-cohérence a priori des modèles indépendants : ajustement glissant Principe Notations Fonctions de coût Résultats Mise-en-cohérence a posteriori des modèles indépendants : métamorphose Principe Continuité de la texture Continuité de la géométrie Continuité de la connectivité : métamorphose 3D Résultats Conclusion Mise en cohérence par maillage 3D évolutif et scalable Principe Maillage de connectivité unique Construction des modèles Encodage par ondelettes Résultats Application à la réalité augmentée Conclusion Contributions Limites et Perspectives Modélisation 3D pour la compression vidéo Introduction Compression de la représentation Images de texture Modèles 3D Paramètres de la caméra Adaptation du débit Paramètres du débit

9 Modélisation 3D pour la communication vidéo Principe d adaptation au débit Coût de codage de la représentation Résultats Compression du modèle 3D évolutif Maillage non uniforme Scalabilité géométrique Schéma prédictif Résultats Conclusion Contributions Limites et perspectives Conclusion Résumé des études présentées Perspectives Bibliographie 117

10 8 L. Morin

11 Chapitre 1 Introduction Grâce à l informatique, la représentation du monde réel par des images va aujourd hui bien au delà d une peinture ou d un film. On peut représenter la nature tridimensionnelle (3D) d un objet ou d une scène sous la forme d un modèle virtuel numérique. Ce modèle permet de créer par calcul des images correspondant à des vues de l objet ou de la scène. Cette nouvelle représentation apporte de nouvelles formes d observation : visualisation stéréoscopique, manipulation de l objet ou exploration de la scène, interaction avec le contenu de l image. L un des objectifs est de construire des modèles permettant d obtenir des images réalistes. De plus, avec le développement d Internet et des terminaux mobiles, on veut aussi pouvoir disposer de représentations que l on puisse visualiser à distance, voir même avec lesquelles on puisse interagir à distance. Les représentations proposées doivent enfin être compatibles avec tous les types de terminaux, de l ordinateur personnel disposant d un écran haute définition et d une connexion à haut débit au téléphone mobile. Il existe de nombreux domaines d application pour lesquels on peut bénéficier de représentations 3D que l on peut visualiser et manipuler à distance : la télé-médecine, le tourisme virtuel, l architecture pour les études d impact, les jeux ou l enseignement à distance. Réalisme et interactivité Dans le domaine de la synthèse d images, les techniques actuelles permettent de créer des images de synthèse de plus en plus réalistes, aussi bien en ce qui concerne la forme, la texture, le mouvement des objets que la simulation d éclairage, comme le montrent les plus récents films d animation. Il reste cependant des limitations : d une part les techniques utilisées ne sont pas toutes applicables directement dans le cadre d applications interactives (telles que les jeux vidéo par exemple, a fortiori les jeux en réseau), en raison de leur complexité algorithmique qui reste pour l instant incompatible 9

12 10 L. Morin avec le traitement temps réel que demandent les applications interactives 1. D autre part, les images obtenues n atteignent pas le degré de réalisme d une photo ou d une vidéo. De plus, la construction de ces environnement synthétiques hyper-réalistes requiert généralement un énorme travail d intervention manuelle de la part d infographistes professionnels. A l opposé, les images ou les vidéos acquises par une simple caméra offrent une représentation très réaliste du monde, avec une très grande simplicité d acquisition, mais par contre elles n offrent aucune des fonctionnalités d interaction apportées par les modèles 3D. On a vu ces dernières années des efforts convergents dans les communautés de la synthèse d image, de la vision par ordinateur et du codage vidéo pour obtenir à la fois le réalisme des vidéos et les fonctionnalités apportées par la modélisation 3D. Dans le domaine de la synthèse d images, de nombreux travaux ont porté sur l utilisation d images acquises par caméra pour la constructions de modèles 3D synthétiques. Les images réelles sont en premier lieu utilisées comme textures pour des objets synthétiques, que ce soit des images fixes [66] ou des vidéos [135]. L analyse des textures réelles permet leur modélisation et leur extrapolation [152] [91]. L utilisation conjointe d images et de modèles géométriques paramétriques permet de créer des modèles 3D réalistes pour des types d objets spécifiques, tels que les bâtiments [30] ou les visages [78]. Pour des objets génériques, l acquisition d un grand nombre de vues réparties autour d un objet permet de produire pour des petits objets des modèles très réalistes pour lesquels les caractéristiques de géométrie, couleur et parfois même les propriétés spéculaires sont estimées à partir des images [36] [90]. Enfin, les techniques de rendu basé images (IBR, Image Based Rendering) utilisent une représentation 3D non explicite, formée d un ensemble d images, éventuellement associées à des cartes de profondeur/disparité et prenant en compte des contraintes de cohérence géométrique, photométrique et même de texture [41] [157]. On peut citer dans cette catégorie les Lightfield [122] ou le Lumigraph [58]. Si les techniques de modélisation 3D basées images permettent actuellement de produire pour des petits objets des modèles très réalistes, elles requièrent généralement une acquisition contrainte, par des capteurs spécifiques et/ou des caméras parfaitement étalonnées et dont les positions sont choisies pour favoriser une bonne reconstruction 3D. Une intervention manuelle sur les images est également souvent requise. L extension du principe du rendu basé images à la vidéo (VBR, Video Based Rendering) a été abordée récemment. Il s agit alors de modéliser une scène réelle dynamique par acquisition multivues. Certaines approches aboutissent à un modèle 3D [148] qui peut être manipulé comme un objet 3D synthétique ; d autres approches utilisent les séquences vidéo associées à des cartes de profondeur estimées pour générer par transfert des points de vue virtuels [80]. Là aussi, l acquisition est spécifique et contrôlée : les caméras sont synchronisées, étalonnées et positionnées de façon à favoriser l extraction d information 3D, typiquement elles sont régulièrement réparties autour de la scène. 1 Les résultats impressionnants récemment obtenus grâce à l utilisation des processeurs graphiques programmables GPU (Graphic Process Unit) rendront peut-être rapidement cet argument obsolète.

13 Modélisation 3D pour la communication vidéo 11 Dans le domaine de la compression image et vidéo, les standards de compression image et vidéo fournissent des représentations permettant de conserver et de restituer le réalisme présent dans les données images et vidéo originales, mais ces représentations ne permettent généralement aucune interactivité. On a vu apparaître des nouvelles représentations permettant d ajouter des fonctionnalités de manipulation aux données images. Le format panoramique proposé par QtimeVR [5] [25] permet l exploration des images, mais selon un mode qui reste limité (rotation et zoom uniquement). Le récent standard de codage vidéo MPEG4 [73] introduit également une représentation par panoramique du fond, c est-à-dire les portions de la scène observée qui sont fixes (mode Sprite). Différentes méthodes ont été proposées pour construire un panoramique par une mosaïque d images extraites d une séquence vidéo [108] [117] [138] [25]. MPEG4 [73] introduit aussi la notion de VOP (Video Object Plane) qui permet de décrire une vidéo par un ensemble d objets, qui peuvent être manipulés indépendamment. Ces représentations ajoutent des possibilités d interaction avec le contenu de la vidéo, mais elles restent uniquement bidimensionnelles. L aspect tridimensionnel apparaît dans les représentations de type couches de profondeur LDI (Layered Depth Image) où une information de profondeur est ajoutée pour chaque pixel [137] [111]. Le codage basé modèles 3D est une autre approche qui utilise une représentation 3D explicite. Il consiste à transmettre un modèle 3D de l objet présent dans la séquence vidéo, associé à des paramètres de texture, position et animation [57] [98]. Il a été utilisé pour la compression de vidéos issues de la synthèse graphique, ou pour des vidéos de scènes réelles contenant des objets connus, par exemple des bustes ou des visages pour des applications de type visio-conférence [75]. Dans le cas des scènes réelles les paramètres de position et d animation ne sont pas connus a priori et ils sont donc estimés par analyse de la séquence vidéo. Dans certains cas, l analyse fournit également les paramètres de forme permettant d ajuster un modèle générique (de visage par exemple) à l objet contenu dans la séquence [125]. Le développement de la TV3D et des écrans stéréoscopiques et auto-stéréoscopiques a suscité de nombreuses études portant sur le traitement et la compression de séquences vidéos stéréoscopiques. Il s agit en particulier d extraire une information tridimensionnelle (profondeur ou disparité) afin de générer des vues virtuelles intermédiaires ou de comprimer les séquences plus efficacement. On peut citer en particulier sur ces sujets les travaux de Konrad et al. [96] [143] [84]. Dans cette lignée, de nombreux travaux récents portent sur le traitement et la compression de séquences vidéos multi-capteurs, en particulier dans le consortium MPEG4-3DAV [139]. L objectif est permettre la génération d un point de vue virtuel arbitraire de la scène filmée (Free View-point Video, FVV ou Free-Viewpoint Television, FTV), afin de réaliser des applications interactives de visualisation 3D, éventuellement à distance, telles que la TV3D (en particulier avec écrans auto-stéréoscopiques demandant un grand nombre de points de vues), ou la télévision interactive (modification interactive du point de vue par le téléspectateur), la télé-réalité (interaction 3D à distance avec une scène réelle), les effets spéciaux (changement de point de vue lors d un arrêt sur image), ou la visioconférence en 3D. Les problématiques rencontrées rejoignent celles du VBR cité précédemment. Il s agit en parti-

14 12 L. Morin culier d extraire, transmettre et restituer une représentation permettant la génération de points de vue (FVV), éventuellement en temps réel si l application visée est interactive. Les solutions proposées s appuient soit sur l acquisition et la transmission d un grand nombre d images [145] [159], soit sur l extraction de l information 3D à partir des vues, sous forme de cartes de profondeurs [80] [40] ou sous forme d un modèle 3D explicite associé à une représentation volumique, surfacique ou basée points [149] [104] [61] [158] [140]. Dans le cas des représentations 3D implicites, où on conserve les informations images ou vidéo, éventuellement associées à des cartes de profondeur, on dispose alors d une représentation volumineuse et très redondante. La compression efficace et le streaming, éventuellement en temps réel [155], des séquences vidéo multi-vues ont fait l objet de plusieurs travaux, que ce soit pour des ensembles de vues réelles [82] [161] [104] [86] [127] ou synthétiques [94]. Une telle représentation est en cours de normalisation dans le consortium MPEG4-3DAV [139]. Les approches qui ont été décrites ci-dessus et qui utilisent des images pour estimer l information 3D sont fondées sur les méthodes et outils de reconstruction 3D développés en vision par ordinateur. En effet, l extraction de modèles 3D de scènes statiques à partir d images et de vidéos calibrées ou non calibrées a été étudiée depuis longtemps en vision par ordinateur [63] [121] [122] [93]. A l origine les applications visées étaient du domaine de la métrologie et de la robotique. L objectif principal était donc de restituer des informations 3D précises, avec éventuellement l utilisation de marqueurs dans la scène, d une intervention manuelle pour les phases délicates de mise-en-correspondance, et l utilisation de systèmes d acquisition contrôlés. De nouvelles applications telles que la synthèse d images, la réalité virtuelle, l indexation par le contenu de grandes bases de données, ou le codage basé modèles 3D ont imposé des traitements entièrement automatiques, sans possibilité d intervention sur la scène observée ni sur l acquisition [37] [3], et parfois avec des contraintes de calcul en temps réel [27] [124]. De plus, pour ces applications, le photoréalisme du modèle 3D extrait est généralement un objectif prépondérant sur la précision géométrique. Applications à distance et scalabilité Enfin, dans un contexte d applications à distance, les représentations proposées doivent pouvoir s adapter aux contraintes de transmission sur des réseaux. La première contrainte est l encodage des informations sous une forme compacte, par suppression des redondances. Il est de plus nécessaire de pouvoir comprimer l information à différents débits pour s adapter aux ressources disponibles. L objectif est alors d optimiser le rapport débit-distorsion pour une large gamme de débits. La deuxième contrainte est l obtention d une représentation scalable. En effet, dans des applications de visualisation à distance, les capacités du réseau et du terminal de visualisation peuvent être différentes selon le récepteur, par exemple en termes de débit, de puissance de calcul, de mémoire ou de résolution d affichage. De plus, le débit disponible sur le canal de communication peut varier au cours du temps. Dans des applications interactives ou de visualisation temps réel, il n est pas acceptable d introduire

15 Modélisation 3D pour la communication vidéo 13 un délai pour compenser un faible débit : une visualisation de moins bonne qualité est préférable. Pour ces différentes raisons, il est donc nécessaire de disposer simultanément du même contenu codé à des débits différents. Pour éviter de générer plusieurs flux binaires correspondant à des débits différents, la solution actuellement la plus satisfaisante est la génération d un unique flux binaire ayant la propriété de scalabilité (scalability), c est-à-dire que le flux produit est décomposable en sous-parties correspondant au même contenu codé à différents débits. Dans ce cas on parle de scalabilité SNR, mais on recherche également les propriétés de scalabilité en résolution (contenu décodable à différentes résolution d écran), et de scalabilité temporelle (contenu décodable à différentes fréquences temporelles). Les méthodes classiques pour produire un flux binaire scalable sont celles codant l information sous la forme d un flux de base correspondant au contenu codé à bas débit, associé à des flux complémentaires contenant des raffinements successifs. D autre part, les méthodes utilisant la transformation en ondelettes associée à un codage par ordonnancement des coefficients ondelettes (de type EBCOT, Zero-Trees) permettent de produire un flux binaire à granularité fine ou FGS (pour Fine Granularity Scalability ). Pour un flux FGS, toute troncature arbitraire de la fin du flux produit une information cohérente décodable (l adaptation au débit est alors possible au bit près). Une telle représentation par couche de base et raffinements apporte naturellement la propriété de progressivité. Les informations des couches de base sont d abord transmises puis celles des couches de raffinement. Le flux d information peut être alors décodé et affiché à la volée : une représentation grossière est rapidement disponible pour la visualisation, puis elle est progressivement raffinée. Dans le domaine de la compression image et vidéo, ces problématiques ont été largement étudiées. En ce qui concerne l optimisation débit-distorsion, le nouveau standard commun JVC H264-AVC des consortium MPEG et ITU, semble atteindre les limites de performance pour le codage vidéo. En ce qui concerne la scalabilité, les solutions proposées s appuient généralement sur une représentation multirésolution et incrémentale de l information. Les transformations en ondelettes sont largement utilisées dans le domaine de la communication vidéo car elles offrent une représentation naturellement scalable associéee à un très bon pouvoir de décorrélation [16]. Un codeur scalable standard existe pour les images fixes JPEG2000 [147], et un codeur vidéo scalable est à l étude dans le consortium MPEG4-SVC [76]. Dans le domaine des images de synthèse, le codage efficace et scalable des modèles 3D synthétiques a également été étudié, afin de permettre leur transmission et affichage progressifs [2] [146] [131] [81] [118]. Des approches similaires pour des modèles 3D issus de données réelles ont également été proposées [154] [56]. Des standards de codage existent également pour les modèles 3D synthétiques, en particulier les modèles 3D maillés dans la partie 3DMC (3D Mesh Model Coding) de MPEG4-SNHC (Synthetic Natural Hybrid Coding) [75]. Ces études portent généralement sur le codage sans pertes de la géométrie de modèles 3D et elles ne s intéressent pas au codage de la texture, qui peut être considéré comme ayant un coût marginal si celle-ci est paramétrique. En revanche, dans le cas de textures réelles, c est l information dont le coût de codage est majoritaire. Ces problèmes sont abordés dans les études s intéressant à la transmission et visualisation de modèles numériques de terrain ou d environnements urbains [7], où la qualité du

16 14 L. Morin rendu dépend beaucoup de la qualité de la texture. Par ce bref panorama, nous voyons donc qu on peut observer des efforts convergents dans les domaines de la vision par ordinateur, de la synthèse d images et de la compression d images pour proposer des représentations ayant les caractéristiques suivantes : information tridimensionnelle, photoréalisme, interactivité, éventuellement à distance, scalabilité. Nous allons à présent situer nos recherches dans ce contexte et donner le plan de ce mémoire. Problématique abordée Nos recherches se placent dans ce cadre général de la conception de représentations visuelles numériques qui soient à la fois réalistes, permettent des fonctionnalités d interactivité, et soient adaptées à la visualisation à distance. Nous recherchons de plus des approches qui ne requièrent pas de dispositif d acquisition spécifique. Plus précisément, nous avons étudié la modélisation 3D de contenus vidéo, c est-à-dire l introduction d informations 3D dans les schémas d analyse pour la compression et la transmission de contenus vidéo. Notre objectif est d obtenir une modélisation de contenus vidéos qui soit adaptée à la transmission du contenu par des performances intéressantes en compression, des propriétés de scalabilité, et qui offre également des fonctionnalités de manipulation du contenu. Acquisition vidéo Analyse Synthèse Monde réel Caméra Séquence vidéo originale Modèle 3D Séquence vidéo reconstruite FIG. 1.1 Principe de la modélisation 3D de vidéos. Cette modélisation se base sur le fait que les images d une vidéo sont des projections 2D d une scène 3D. Une séquence vidéo peut donc être représentée par la description de la scène 3D (forme, texture et mouvement) et les paramètres de projection pour chaque image. Il est ensuite possible de recréer la séquence vidéo à partir de ces informations par un algorithme de rendu : les images de la séquence reconstruite sont estimées par projection de la scène 3D pour chacun des points de vue de la séquence d origine (voir figure 1.1).

17 Modélisation 3D pour la communication vidéo 15 L intérêt d une telle représentation est en premier lieu sa nature tridimensionnelle. Elle permet de réaliser simplement des applications de réalité virtuelle et augmentée en modifiant la description de la scène 3D ou les paramètres de projection. Par exemple, pour insérer un objet synthétique dans la vidéo, il suffit de l inclure dans la description de la scène 3D. Les occultations produites entre l objet synthétique et le contenu de la vidéo seront alors automatiquement générées lors du rendu. De manière similaire, on peut réaliser des changements d illumination en insérant de nouvelles sources de lumière dans la description de la scène 3D. Les effets d illumination et d ombrage sont automatiquement produits par l algorithme de rendu. D autre part, en modifiant les paramètres de projection, en particulier la position et l orientation de la caméra, on peut créer des points de vue dits virtuels, c est-à-dire des images non présentes dans la vidéo d origine. Ceci permet par exemple de modifier la fréquence vidéo en ajoutant ou supprimant des positions sur le trajet original de la caméra ; de stabiliser une vidéo acquise avec un capteur en mouvement instable en effectuant en lissage de la trajectoire d origine ; de créer une séquence stéréoscopique à partir d une séquence monoculaire en générant deux trajectoires parallèles proches de l original, une pour la vue gauche, une pour la vue droite. Enfin, la description 3D peut être utilisée pour la navigation virtuelle, c est-à-dire l exploration interactive par un utilisateur du contenu de la vidéo. Cette dernière application utilise la génération en temps réel des points de vue virtuels spécifiés par la position de l observateur, et elle implique donc que la description 3D puisse être rendue en temps réel. D autre part, comme on le verra dans le chapitre 5, l autre intérêt d une présentation 3D de la vidéo est de modéliser implicitement les redondances inter-images. Elle permet de ce fait la compression vidéo à bas débit sur le principe du codage basé modèles 3D. Nous avons en particulier cherché à répondre aux questions suivantes : Est-il possible d extraire automatiquement une représentation 3D à partir d une séquence vidéo?, avec quelles hypothèses sur les données d entrée? Sous quelle forme introduire l information 3D? Les fonctionnalités attendues par une telle représentation sont elles effectivement obtenues? Peut-on concevoir et réaliser un schéma de codage/compression basé sur une telle représentation? Quelles sont les performances obtenues par un tel schéma? Comment se comparent-elles aux schémas classiques de compression vidéo? Ce mémoire est organisé de la façon suivante : les chapitres décrivent les différentes études que nous avons réalisées sur la modélisation 3D de séquences vidéo, dans un ordre globalement chronologique. le chapitre 2 concerne l étude d une méthode d estimation dense de la disparité par flux optique contraint par la géométrie épipolaire ; le chapitre 3 présente une modélisation 3D de séquences vidéos par flux de modèles 3D indépendants ;

18 16 L. Morin le chapitre 4 présente une extension de cette représentation sous la forme d un modèle 3D évolutif ; enfin, le chapitre 5 présente une méthode de compression vidéo basée sur la modélisation 3D par flux de modèles. Une version électronique de ce manuscrit est disponible en ligne sur le site de la documentation de l Irisa, ainsi que les transparents de la soutenance et les vidéos de résultats associés à ces travaux [103].

19 Chapitre 2 Estimation de mouvement contrainte pour la modélisation 3D 2.1 Introduction Ce chapitre présente les travaux de thèse de Lionel Oisel, réalisés en collaboration avec Etienne Mémin. Plus de détails pourront être trouvés dans la thèse de Lionel Oisel [114] et les principales publications associées [115] [112] [113]. Nous avons développé dans cette étude une méthode d estimation d un champ dense de disparité à partir de deux images extraites d une séquence vidéo. Nous avons proposé d adapter une méthode d estimation de mouvement apparent dans les séquences d images [106, 105]. L estimation de la disparité réalise l étape fondamentale de mise-en-correspondance dans la construction d un modèle 3D et elle conditionne en grande partie la qualité de l information tridimensionnelle extraite. Dans le cadre que nous nous sommes fixé, nous cherchons à obtenir une modélisation 3D qui sera utilisée pour restituer des images, soit celles de la vidéo initiale, soit des points de vue virtuels. Une modélisation 3D est valide pour restituer des images si elle fournit une valeur de luminance (ou couleur) en chaque pixel. Il est donc nécessaire d avoir une représentation 3D continue et donc d estimer une carte de disparité dense. Cette carte est ensuite combinée avec des techniques de calibration faible ou forte pour produire une carte de profondeur qui pourra être manipulée pour la synthèse de vues [38, 79]. Pour faciliter la visualisation, il est intéressant d obtenir in fine un modèle 3D à facettes polygonales. Il peut être obtenu soit directement par une modélisation polygonale, soit par polygonalisation d un modèle dense. Les modélisations polygonales supposent que la scène est constituée d un ensemble de facettes planes polygonales. Elles s appuient sur l extraction, la mise-en-correspondance et la reconstruction 17

20 18 L. Morin de primitives éparses (points ou segments) qui sont ensuite triangulées pour former des facettes [38] [65]. Cependant l une des limitations principales de ces techniques est que les facettes ainsi générées ne correspondent pas nécessairement à des points coplanaires dans la scène. Pour assurer la planarité des facettes, une intervention manuelle est généralement nécessaire pour indiquer des points coplanaires fiables. L approche alternative est d estimer une carte de disparité dense puis de la segmenter en régions coplanaires pour obtenir un modèle 3D à facettes. Dans [83], Koch et al. proposent d utiliser les propriétés différentielles de la carte de disparité pour segmenter l image en régions coplanaires. Le point difficile est alors l estimation d une carte de disparité dense qui soit à la fois fiable et précise et prenne en compte les zones d occultation et les discontinuités spatiales. De nombreuses études ont été menées pour l estimation d une carte de disparité dense entre deux images. Les méthodes discrètes (block-matching [153], corrélation [6] [144], programmation dynamique[28], [20]) intègrent généralement la contrainte épipolaire en restreignant la recherche du correspondant sur la droite épipolaire ou dans son voisinage. Cependant elles fournissent une correspondance pixel à pixel et donc une précision de l estimation du mouvement limitée au pixel. De plus elles modélisent difficilement la cohérence spatiale du champ de disparité. Les approches d estimation robuste du flot optique produisent au contraire un champ de mouvement réel, et continu par morceaux [19] [106] [105]. Nous proposons une méthode basée sur ce type d approche, mais où l estimation de la disparité est contrainte par la géométrie épipolaire associée à la paire d image. Ainsi le champ de mouvement estimé est explicitement contraint à être cohérent avec le modèle de projection perspective et avec l hypothèse d une scène fixe. De plus, cette contrainte permet une réduction importante de la complexité algorithmique (le problème d estimation d un champ de mouvement 2D est réduit à un problème 1D). On peut citer des travaux proches d estimation de disparité par flot optique contraint [34] [116] [156] [129]. Pour obtenir un modèle polygonal dont les facettes sont bien des zones planes de la scène, le champ de disparité estimé est segmenté par une triangulation itérative basée sur un modèle de mouvement homographique. Dans la suite de ce chapitre, on présente d abord les similitudes et différences entre l estimation du mouvement et l estimation de la disparité (section 2.2). On décrit ensuite la méthode que nous avons proposée (section 2.3) et les résultats obtenus sur des séquences synthétiques et réelles (section 2.4). 2.2 Mouvement et disparité L estimation du mouvement entre deux images issues d une séquence et l estimation du champ de disparité (ou mise-en-correspondance dense) entre deux vues d une même scène sont des problèmes très proches. En effet, dans les deux cas, il s agit d associer les points de chacune des images qui correspondent au même point physique de la scène. On parle de points en correspondance, point appariés ou points homologues. Pour les identifier, on suppose que ces deux points ont la même couleur (où

21 Modélisation 3D pour la communication vidéo 19 le même niveau de gris) : c est l hypothèse de nullité de la DFD (Displaced Frame Difference). Ce critère étant insuffisant pour lever les ambiguïtés, on rajoute généralement une contrainte de régularisation : on suppose alors que des points voisins ont un mouvement voisin. Cependant, dans le cas de la disparité, le champ peut aussi être contraint par la géométrie épipolaire. Cette contrainte est issue d une part de l hypothèse de rigidité, c est-à-dire que la scène 3D observée est identique pour les deux images, et d autre part de la modélisation de la prise de vue par une projection perspective. Nous avons donc intégré cette contrainte dans la formulation énergétique de l estimateur de mouvement. Une autre adaptation a dû être effectuée pour concilier l estimation de disparité et l estimation de mouvement. L estimation de mouvement s effectue généralement entre deux images successives d une séquence. On peut alors supposer que le mouvement estimé est de faible amplitude (de l ordre d un ou deux pixels) afin d appliquer une méthode de résolution différentielle et permettre une linéarisation de la fonctionnelle à minimiser. Au contraire, dans le cas de l estimation de la disparité, les images doivent être éloignées pour permettre une reconstruction 3D fiable et précise. L hypothèse de petit mouvement n est alors plus valide. Pour lever cette incompatibilité, une approche multi-échelle et multi-résolution a été proposée et mise en œuvre. Dans la section suivante on présente brièvement la méthode d estimation de disparité proposée. 2.3 Estimation de mouvement contrainte Formulation Soient I 1 et I 2 les deux images considérées. I i (s) désigne la valeur de la luminance de l image I i au point s. On cherche à estimer d s, le déplacement du point s entre les images I 1 et I 2. L hypothèse de la conservation de la luminance entre les deux projetés d un même point de l espace induit la contrainte de nullité de la DFD [43]. DFD(s) =I 1 (s) I 2 (s + d s )=0 (2.1) Soient deux points p 1 I 1 et p 2 I 2 en correspondance ; la contrainte épipolaire s écrit [64] : p T 2 Fp 1 = p T 2 l 2 =0 (2.2) avec F la matrice fondamentale entre I 1 et I 2. La contrainte épipolaire signifie que le point p 2 appartient à la droite épipolaire l 2 = Fp 1. La droite épipolaire associée au point s est l s = Fs et la contrainte épipolaire indique que le point s + d s appartient à l s. On choisit une représentation paramétrique de la droite l s par son vecteur directeur unitaire V s et par le vecteur normal N s issu du point s (voir figure 2.1). Ainsi le point s + d s s écrit : s + d s = s + N s + λ svs (2.3)

22 20 L. Morin et l équation de la DFD devient : DFD(s) =I 1 (s) I 2 (s + N s + λ s Vs )=0 (2.4) La position du correspondant de s (ou de manière équivalente le déplacement d s ) est à présent définie par le scalaire λ s, qui donne sa position sur la droite épipolaire l s. Ainsi, l introduction de la contrainte épipolaire permet de résoudre un problème unidimensionnel par l estimation du paramètre scalaire λ s, plutôt qu un problème bidimensionnel par estimation des deux composantes du vecteur déplacement d s. u l s = Fs V s v s v u N s ds λ s V s s + d s = N s + λ s Vs I 1 I 2 FIG. 2.1 Décomposition du vecteur déplacement. Sous l hypothèse que λ s Vs est petit devant s + N s, un développement autour de la position s + N s peut être réalisé. La relation (2.4) s écrit alors, en posant I 2 (s + N s )=Ĩ2(s) : DFD(s) =λ s Vs. Ĩ2(s)+Ĩ2(s) I 1 (s) où est le vecteur représentant le gradient spatial Modélisation énergétique Nous nous plaçons maintenant dans un cadre markovien (des détails sont donnés dans [126]). Estimer le meilleur champ de disparité en accord avec le critère bayésien du M.A.P. (Maximum A Posteriori), revient à un problème de minimisation globale de la fonction d énergie suivante : H(λ) =H 1 (λ s )+αh 2 (λ s ) (2.5) avec α coefficient fixe de pondération. H 1 est un terme lié aux observations dans les images (DFD linéarisée) : H 1 = ρ[λ svs. Ĩ2(s)+Ĩ2(s) I 1 (s)] 2 s S

23 Modélisation 3D pour la communication vidéo 21 H 2 est un terme de lissage sur le voisinage : H 2 = α ρ λ svs + N s λ rvr N r 2 <s,r> où <s,r>est l ensemble des couples formés par s et ses 4-voisins. H 2 tend à minimiser la différence entre les vecteurs de disparité voisins d s et d r où d s = λ s Vs + N s et d r = λ r Vr + N r. ρ désigne un estimateur robuste de type M-estimateur [67, 126] qui permet d autoriser des déviations soit par rapport au modèle (zones d occultation) soit par rapport au lissage (discontinuités de profondeur). L introduction de cet estimateur robuste se traduit par une pondération des termes H 1 et H 2 par des facteurs de pondération respectifs δ s et β sr, fonctions de s. Une forte déviation par rapport au modèle ou au lissage entraîne une faible pondération de l énergie associée. Ainsi dans les zones d occultation, seul le terme de lissage H 2 est pris en compte dans le fonction d énergie, et dans les zones de discontinuité du mouvement, le terme de lissage H 2 est au contraire désactivé Schéma de minimisation multi-résolution Comme on l a mentionné dans la section 2.2, dans la grande majorité des cas, les disparités atteignent des valeurs trop importantes pour que le développement limité de la DFD puisse être valide. Ce problème est résolu par l utilisation d un schéma multi-résolution. La matrice fondamentale F k associée à un niveau de résolution k est calculée à partir de la matrice fondamentale F obtenue au niveau de résolution le plus fin par le changement de base associé à la matrice M. Pour un changement de résolution diadique : F k = M kt FM k avec M = La matrice F k permet alors de calculer les vecteurs N s k et V s k pour chaque position s. Le champ de vecteurs de disparité obtenu au niveau de résolution k +1est alors projeté au niveau de résolution k afin d en initialiser le processus de minimisation énergétique (voir figure 2.2). Pour chaque niveau de résolution k, on cherche donc à effectuer une minimisation globale de H(λ k ) à savoir trouver l ensemble des λ k pour lequel la valeur de H est minimale. La fonction d énergie étant convexe, H(λ k s) admet un minimum qui est le point de dérivée nulle : H(λ k s) λ k s =0 La résolution du problème est effectuée par minimisation alternée sur les poids δ s et β sr associés aux M-estimateurs et sur le champ des λ k. Pour cela un schéma déterministe de Gauss-Seidel multirésolution associé à une formulation incrémentale est mis en œuvre : en chaque point s on cherche

24 22 L. Morin u droite épipolaire l s V s N s ˆλ k s V s initial v d k+1 s projeté I 2 FIG. 2.2 Projection du vecteur déplacement d k+1 selon la géométrie épipolaire au niveau k. le minimum de H(λ k s) en figeant les autres variables. La fonction étant quadratique, on obtient une expression analytique et directement calculable de ce minimum : dλ (n) s = τ 1 δ s (Ĩ2(s) I 1 (s)) V s. Ĩ2(s) +ατ 2 ( V s.ω n 1 s λ s βs ) τ 1 δ s ( V s. Ĩ2(s)) 2 + ατ 2 βs, (2.6) où ωs n 1 est la moyenne pondérée des vecteurs de disparité voisins à l itération n 1 et β s est la somme des poids associés aux variables de discontinuité entre s et ses voisins. Après convergence, les poids associés à chaque pixel δ s et β sr sont réévalués. Ces deux étapes sont itérées jusqu à convergence finale Estimation des informations 3D La matrice fondamentale F doit être connue pour l estimation de la disparité. Une estimation robuste de F est réalisée à l aide de points d intérêts extraits et appariés entre les deux images. La reconstruction du modèle 3D utilise également cette estimation de la matrice fondamentale. A partir d un jeu de paramètres intrinsèques arbitraires mais réalistes (calibration faible) et de la matrice fondamentale F, on calcule la matrice essentielle. Celle-ci est décomposée pour estimer la translation et la rotation relative des deux caméras. On peut alors calculer par triangulation des lignes de vue une position 3D de tout point de l image, exprimée dans le repère de la première caméra, et à un facteur d échelle global près. Pour une représentation du modèle 3D au format VRML, la carte de disparité est itérativement triangulée sur la base d un critère de coplanarité des facettes. On renvoie aux références déjà citées pour plus de précisions sur ces étapes de l algorithme.

25 Modélisation 3D pour la communication vidéo Résultats La méthode proposée a été appliquée sur différents types de séquences d images : des séquences réelles et des séquences synthétiques pour lesquelles on dispose d un champ de mouvement réel. La première séquence testée est la séquence de référence yosemite (figure 2.4) dans laquelle une majeure partie du ciel a été supprimée pour respecter la contrainte de rigidité. Deux paires d images ont été testées. Les deux images consécutives (11 et 12) présentent des déplacements inférieurs à 4 pixels, ce qui est critique pour l estimation de la géométrie épipolaire. La paire d images éloignées (3 et 12) présente des déplacements pouvant atteindre 30 pixels, ce qui constitue une difficulté certaine pour l aspect différentiel de la méthode. Pour la paire d images consécutives (images 11 et 12), la disparité estimée (figure 2.5(a)) est conforme à la géométrie réelle de la scène. On produit sur la figure 2.3 des résultats comparatifs des déviations angulaires (moyenne et écart type) par rapport au champ de mouvement réel, d après [17]. Notre méthode est comparée à des algorithmes similaires (estimateurs denses basés sur une approche énergétique). Les résultats obtenus ne sont pas les meilleurs mais ils restent satisfaisants. De plus, grâce à son caractère unidimensionnel, notre méthode est beaucoup plus rapide que les autres. Pour la paire d images éloignées (images 3 et 12), les estimateurs non contraints ne convergent pas vers une solution acceptable, même si ils sont intégrés dans un schéma multirésolution. Comme le montre la figure 2.5(b), notre méthode produit au contraire des résultats cohérents. Le champ de disparité calculé entre les images 3 et 12 a été triangulé itérativement pour obtenir un modèle 3D maillé de la scène. Un modèle 3D pseudo-euclidien a été calculé en fixant arbitrairement la focale à Les figures 2.6 présentent des vues virtuelles générées à partir de ce modèle. Des résultats de reconstruction pour une scène statique acquise par un caméscope numérique du commerce sont montrées sur les figures 2.8, 2.9, 2.10 et Deux reconstructions sont montrées ici pour les mêmes points de vue virtuels : l une est basée sur le logiciel image-matching, développé par Zhang [160], qui produit une liste de points d intérêt en correspondance et respectant la contrainte épipolaire. Ces points sont triangulés et rétro-projetés pour obtenir un modèle 3D maillé. Les images 2.9(a), 2.10(a) et 2.11(a) sont reconstruites à partir de 89 points d intérêts. La présence de faux appariements et la construction arbitraire des triangles produisent des artefact visuellement gênants. Les résultats obtenus avec notre algorithme présentent une meilleure qualité visuelle de reconstruction (figures 2.9(b), 2.10(b) et 2.11(b)). Cette comparaison montre bien la nécessité d une estimation dense de la disparité pour la synthèse de vues virtuelles. Une simple triangulation arbitraire des points d intérêts extraits ne permet pas une modélisation satisfaisante pour ce type d application.

26 24 L. Morin Technique Erreur moyenne Ecart type Horn and Schunck [17] 9.78 o o Black [19] 3.52 o 3.25 o Lai and Vemuri[85] 1.99 o 1.45 o Notre méthode 4.82 o 3.27 o FIG. 2.3 Résultats comparatifs sur la séquence yosemite. a b c FIG. 2.4 Images originales 3 (a), 11 (b) et 12 (c) de la séquence yosemite. a b FIG. 2.5 Carte de disparité pour les images 11 et 12 (a) et 3 et 12 (b) (plus le pixel est sombre, plus la disparité est faible)

27 Modélisation 3D pour la communication vidéo 25 a b FIG. 2.6 Simulations de translation le long de l axe Z. c a b c FIG. 2.7 Simulations de mouvement complexes : point de vue latéral sur la droite (a), point de vue latéral sur la gauche (b), et point de vue situé derrière la montagne du premier plan (c).

28 26 L. Morin FIG. 2.8 Deux vues originales d une séquence d intérieur. a b FIG. 2.9 Image gauche originale re-synthétisée : modèle obtenu par triangulation de points d intérêt extraits et appariés (a), modèle obtenu par notre méthode (b).

29 Modélisation 3D pour la communication vidéo 27 a b FIG Vues virtuelles pour le même point de vue : modèle obtenu par triangulation de points d intérêt extraits et appariés (a), modèle obtenu par notre méthode (b). a b FIG Vues virtuelles pour le même point de vue : modèle obtenu par triangulation de points d intérêt extraits et appariés (a), modèle obtenu par notre méthode (b).

30 28 L. Morin 2.5 Conclusion Contributions Nous avons proposé une méthode de reconstruction 3D d une scène complexe à partir d une paire de caméras faiblement calibrées. La méthode s appuie en particulier sur l estimation d un champ de disparité dense par une approche d estimation du flot optique. L estimateur proposé est contraint par la géométrie épipolaire et il inclue un estimateur robuste. Cette approche a été validée sur des scènes synthétiques et réelles Limites et perspectives Cette première étude a validé l approche sur une paire d images. Dans le chapitre suivant, on verra son extension à la modélisation d une séquence vidéo complète. En particulier, il faudra veiller au compromis entre les contraintes 3D et celles de l estimation de mouvement pour le choix des images utilisées pour la reconstruction. Dans la méthode de triangulation itérative proposée, le résultat obtenu ne correspondait pas à une segmentation intuitive de la scène en facettes planes. D autres études on été menées sur ce point, en particulier dans la thèse de Mohammed Rziza [132] où la carte de disparité a été segmentée en utilisant un modèle affine par région, et dans le stage de Guillaume Bataille [18] et la thèse de Raphaèle Balter [8] où différents critères (homographique, 3D) ont été testés pour définir le maillage de la carte de disparité. D autres points initiés dans cette étude mériteraient d être poursuivis et approfondis. En particulier, pour l obtention d un modèle à facettes, nous avons procédé ici en deux étapes : d abord l estimation du champ de disparité puis la segmentation de celui-ci en facettes planes. Une approche directe d estimation des facettes planes pourrait être envisagée. En effet, la présence d une facette plane dans la scène se traduit par la présence d un mouvement homographique dans l image. Une segmentation au sens du mouvement avec un modèle homographique produit donc théoriquement une segmentation en zones de points coplanaires. Cependant ce modèle étant non linéaire, sa formulation et sa résolution sont complexes et délicates. De plus, les homographies fournissent des degrés de liberté supplémentaires par rapport aux transformations affines, ce qui peut rendre l estimation instable. On pourrait envisager là aussi de contraindre les mouvements homographiques admissibles par la géométrie épipolaire, par exemple en introduisant la contrainte proposée par Robert [130]. De plus, il existe des méthodes d estimation et segmentation conjointes du mouvement dans une séquence d images qui sont fondées sur des formalismes énergétiques similaires [107]. La prise en compte de la contrainte épipolaire dans de telles approches pourrait permettre de segmenter la séquence en régions cohérentes au sens de la contrainte épipolaire, et donc en objets soumis au même mouvement rigide. Il serait alors intéressant de comparer le résultat obtenu par rapport à la segmentation obtenue sans contrainte épipolaire.

31 Modélisation 3D pour la communication vidéo 29 Enfin, dans cette étude, nous avons traité deux images issues d une séquence, et choisies de façon arbitraire dans la séquence. Nous présentons dans le chapitre suivant l extension de ces travaux au traitement de la séquence complète.

32 30 L. Morin

33 Chapitre 3 Représentation 3D d une séquence vidéo 3.1 Introduction Dans ce chapitre on présente une représentation 3D originale d une séquence vidéo. Cette représentation a été proposée par Franck Galpin dans ses travaux de thèse [45]. L objectif est de pouvoir reconstruire la vidéo originale tout en disposant des informations 3D et des fonctionnalités associées (voir chapitre 1). L approche proposée se rapproche du principe du codage basé modèles 3D [57] [98]. Cependant, dans le codage basé modèles 3D classique, on suppose que le contenu de la scène est connu et qu un modèle 3D connu a priori est disponible au codeur et au décodeur (voir figure 3.1) ; par exemple, un modèle 3D de visage ou de buste pour les applications de vidéo-conférence [125] [123]. Dans notre cas, on suppose que le contenu de la scène est inconnu et qu on ne dispose pas d un modèle 3D a priori (voir figure 3.2). On va donc l estimer automatiquement à partir de la séquence vidéo en utilisant des techniques de reconstruction 3D développées en vision par ordinateur [64] [121] [122] [93]. Ces techniques ont généralement été conçues pour traiter des séquences acquises dans le but de réaliser une reconstruction 3D. Dans notre cas, nous devons au contraire les appliquer pour des séquences où l acquisition n est pas contrôlée. modèle 3D connu modèle 3D connu Analyse paramètres du modèle (position, orientation, déformations) Transmission Synthèse Séquence vidéo originale Séquence vidéo reconstruite FIG. 3.1 Principe du codage basé modèles 3D classique : on suppose qu un modèle 3D connu a priori est disponible au codeur et au décodeur. Seuls sont transmis ses paramètres. 31

34 32 L. Morin modèle 3D estimé + paramètres du modèle (position, orientation, déformations) Analyse Transmission Synthèse Séquence vidéo originale Séquence vidéo reconstruite FIG. 3.2 Principe de notre approche : le modèle 3D est estimé à partir de la vidéo et transmis avec ses paramètres. Notre premier objectif était de tester la validité et la faisabilité d une telle approche. Nous avons ensuite cherché à évaluer les performances et les limites de notre modélisation. Il faut noter que dans le cadre des applications de communication et manipulation vidéo visées, l objectif de la reconstruction 3D n est pas de retrouver un modèle géométrique exact et précis de la scène, mais d obtenir une autre représentation de la séquence vidéo. Le modèle 3D est donc une représentation intermédiaire entre la vidéo originale au niveau de l encodeur et la vidéo restituée au décodeur. Comme dans le principe des imposteurs en synthèse d image, le modèle 3D n a pas besoin d être conforme à la scène réelle, tant qu il permet de reconstruire fidèlement les images originales de la vidéo. Nous nous plaçons donc ici plutôt dans une problématique de type débit-distorsion : l objectif est de trouver la représentation compacte permettant de minimiser l erreur sur les images reconstruites. Dans cette optique, nous proposons d estimer un ensemble de modèles 3D partiels, plutôt qu un unique modèle 3D contenant toute l information contenue dans la séquence vidéo entière, comme c est le cas dans les schémas de reconstruction 3D automatique à partir de vidéos [42] [110]. Ce choix a plusieurs avantages : On ne recherche pas une cohérence globale de l information 3D extraite. Ceci permet de simplifier l estimation et d utiliser des paramètres de caméras approximatifs. Les changements d illumination globale au cours du temps sont modélisés et restitués. Des séquences de taille arbitraire peuvent être traitées, par l estimation et la transmission à la volée (streaming) des modèles 3D. Cette modélisation par flux de modèles 3D peut être vue comme un intermédiaire entre les approches de compression vidéo 2D et les approches de codage basées modèle 3D. D une part on conserve le principe d analyse-synthèse du codage basé modèles 3D, et d autre part on introduit le découpage de la séquence en sous-parties, comme c est le cas dans les schémas de codage vidéo 2D. En effet, dans les schémas de codage vidéo classiques par compensation de mouvement (MPEG1-2-4, H26X [26] [77] [74]), la modélisation du mouvement permet de prédire les images suivantes à partir de l image courante. Les paramètres du modèle de mouvement sont valides uniquement pour une portion de séquence (GOP) et ils sont remis à jour pour chaque GOP. De manière analogue, on peut considérer un modèle 3D comme un modèle de prédiction, dont la validité est locale et dont les

35 Modélisation 3D pour la communication vidéo 33 paramètres doivent être remis à jour régulièrement. Chaque nouveau modèle 3D peut être alors vu comme une mise-à-jour des paramètres du modèle de prédiction. Enfin, cette approche de type analyse-synthèse permet de décorréler l information de la séquence vidéo 2D. La modélisation 3D peut être considérée comme un espace de représentation intermédiaire, dans lequel on rend indépendantes les informations de mouvement (représentées par la géométrie du modèle) et les informations de texture. Cette décorrélation du mouvement et de la texture est particulièrement intéressante pour des applications de compression où chaque type d information peut être comprimé et transmis indépendamment. Dans ce chapitre, nous présentons d abord plus précisément le principe de la représentation par flux de modèles 3D proposée (section 3.2). La construction de la représentation est ensuite décrite dans ses grandes lignes (section 3.3). Nous présentons ensuite la restitution de la séquence originale ou de séquences virtuelles à partir de la représentation, et nous proposons deux modes de navigation interactive dans cette représentation (section 3.4). 3.2 Représentation par flux de modèles 3D Hypothèses On précise tout d abord les hypothèses de travail que nous nous sommes fixées. Dans un cadre de communication vidéo, on souhaiterait : que l extraction de la représentation soit entièrement automatique et générique, c est-à-dire qu elle n impose pas de contraintes sur le contenu de la vidéo, que l acquisition reste simple et non contrôlée. Cependant, l extraction de la représentation repose sur des méthodes de vision par ordinateur, qui imposent des limites théoriques et pratiques : la reconstruction 3D à partir d images n est possible que si l on dispose de plusieurs vues de la même scène ; sans a priori sur la forme des objets et/ou le type de mouvement des objets, les méthodes de reconstruction 3D ne peuvent séparer forme et mouvement des objets ; enfin les méthodes de mise-en-correspondance entre images font l hypothèse de conservation de l apparence : un même point physique a la même couleur et un voisinage similaire dans toutes les images utilisées. Pour rendre compatible les contraintes issues de la communication et de la vision, nous avons fait les hypothèses suivantes : la scène est fixe (ou alors les objets en mouvement ont été segmentés et supprimés) ; la vidéo respecte la contrainte de conservation de la luminance : elle ne contient pas de surfaces transparentes ou spéculaires (reflets), ou seulement sur des zones de petite taille ;

36 34 L. Morin la scène est acquise par une caméra en mouvement ; ce mouvement est supposé non dégénéré (les mouvements dégénérés, tels que les rotations pures autour du centre optique de la caméra sont ceux qui ne permettent pas la reconstruction 3D) en dehors de ces hypothèses, le contenu de la scène, le mouvement et les paramètres de la caméra sont supposés quelconques et non connus a priori Principe de la représentation Nous présentons à présent une description globale de la représentation par flux de modèles 3D que nous proposons. Le principe est de diviser la séquence en sous-parties que nous appelons GOP (Group Of Pictures) par analogie avec les schémas de codage standards, et d estimer un modèle 3D pour chaque GOP (voir figure 3.3). Le modèle 3D associé à un GOP permet de représenter et reconstruire toutes les images de ce GOP. Séquence originale I 0 I1 I2 I3 I 4 Images clés K 0 K2 K3 GOPs GOP 0 GOP 1 Modèles 3D M 0 M 1 FIG. 3.3 Principe du découpage de la séquence vidéo en groupes d images (GOP). Le schéma proposé est un schéma de type analyse-synthèse : la phase d analyse est l extraction de la représentation à partir de la séquence et la phase de synthèse est la reconstruction de la séquence vidéo à partir de la représentation. Analyse Lors de la phase d analyse (voir figure 3.4) : la séquence est découpée en GOPs ; deux GOPs successifs ont une image commune appelée image clé ; un modèle 3D est reconstruit pour chaque GOP ; les paramètres de caméra sont estimés pour chaque image de la séquence.

37 Modélisation 3D pour la communication vidéo 35 Séquence originale I 0 I 1 I 2 I 3 I 4 I 5 Images clés GOP0 K 0 K 1 Positions caméras R 0 t 0 (Id 0) R 1 t 1 R 2 t 2 R 3 t 3 R 44 t R 5 t 5 (Id 0) Modèles 3D M 0 FIG. 3.4 Analyse : la représentation 3D est extraite à partir de l information vidéo 2D. Toutes ces étapes sont réalisées automatiquement. L analyse de la séquence fournit une représentation au flot, qui comprend pour chaque GOP : le modèle 3D sous la forme d un maillage 3D triangulaire, la texture associée au modèle 3D (i.e. la première image du GOP), les paramètres de position et d orientation de la caméra pour chaque image du GOP. Synthèse modèles 3D M 0 M1 Image de texture Position Camera K K 0 1 (Id 0) R 1 t 1 R 2 t2 R t R R t R t t R t (Id 0) Séquence recons truite FIG. 3.5 Synthèse : l information vidéo 2D est restituée à partir de la représentation 3D. Lors de la phase de synthèse : la reconstruction est faite à la volée, au fur et à mesure de la réception des informations ; chaque modèle 3D permet de reconstruire toutes les images du GOP associé ;

38 C2 36 L. Morin chaque image est reconstruite par projection du modèle 3D sur le point de vue associé, i.e. celui défini par les paramètres caméra associés à l image ; une méthode de rendu 3D classique est utilisée pour réaliser cette projection. Images clés, modèles indépendants et continuité visuelle modèle modèle C4 modèle C3 C image clé K image clé K image clé K3 GOP 1 GOP 2 FIG. 3.6 Modèles indépendants et images clés. Il faut remarquer que les modèles 3D produits par la représentation sont indépendants : différents modèles successifs peuvent représenter la même partie de la scène, mais avec une géométrie, une texture et même une échelle différentes. De plus, chaque modèle est exprimé dans un repère propre. Il n y a donc aucune continuité au niveau de la représentation 3D. Par contre, il existe une continuité au niveau 2D, grâce aux images clés. Les images clés sont celles qui sont situées à la jonction entre deux GOPs. Une image clé est commune à 2 GOPs : elle est à la fois la dernière image d un GOP est la première image du GOP suivant. Par construction, chaque image clé peut être reconstruite aussi bien à l aide du modèle 3D associé au GOP qu elle termine ou à l aide du modèle 3D associé au GOP qu elle débute (voir figure 3.6). Même si les deux modèles 3D successifs ont une géométrie différente, ils produisent la même image lorsqu ils sont projetés sur le point de vue correspondant à leur image clé commune. Cette propriété des images clés assure la continuité visuelle de la séquence reconstruite lors d un changement de GOP : alors que la représentation 3D est discontinue dans le temps, sa projection en 2D reste bien continue dans le temps.

39 Modélisation 3D pour la communication vidéo 37 Navigation virtuelle La continuité 2D reste valide pour la navigation virtuelle, à condition que la trajectoire virtuelle contienne les positions caméra associées aux images clés. 3.3 Analyse : construction de la représentation Les informations de la représentation sont extraites automatiquement à partir de la séquence, en utilisant des méthodes de vision par ordinateur. On en décrit brièvement les différentes étapes. Une description détaillée est disponible dans la thèse de Franck Galpin [45] et les publications associées [51] [48] [53]. La figure 3.7 montre un schéma général de l algorithme utilisé. vidéo : I 0...I m estimation mouvement ε n,n+p sélection images clés D k estimation profondeur D n,n+p P, P k k+1 ε k calibrage Z k P n...p n+p ε n,n+p estimation pose I n+p K k+1 retard K k construction maillage flux binaire encodage binaire M k modèles 3D texturé FIG. 3.7 Schéma global de construction du flux de modèles 3D Les étapes de l algorithme sont les suivantes : Pour chaque image I de la vidéo originale, une estimation du mouvement 2D (dense et éparse) est réalisée entre la dernière image clé K k et l image courante I. A partir du suivi de points éparses on détermine automatiquement si I est la prochaine image clé K k+1 qui termine le GOP courant. SiI est validée comme image clé K k+1, alors les paramètres R k et t k du mouvement caméra entre K k et K k+1 sont estimés. Le modèle 3D M k associé au GOP courant est ensuite calculé à partir du champ de mouvement dense D k et des matrices de projection P k et P k+1 issues de R k et t k. L image clé K k est utilisée pour texturer le modèle M k.

40 38 L. Morin Le mouvement caméra pour chaque image du GOP est enfin estimé par calcul de pose. Toutes ces étapes sont ensuite recommencées pour le GOP suivant, avec K k+1 comme première image du GOP Notations On définit les notations suivantes pour la suite de cette section : K k est la k-ème image clé, R k, t k désignent les paramètres de mouvement de la caméra pour le point de vue associé à K k, O k désigne le centre de projection de la caméra correspondante, i.e. O k = Rk 1.t k, u(m) est le vecteur directeur de la ligne de vue associé au pixel m dans l image K k (droite (O k,m)), les images clés K k et K k+1 délimitent le GOP d indice k, M k désigne le modèle 3D associé au GOP k, E k désigne un ensemble de points mis-en-correspondance entre K k et K k+1. On définit le résidu épipolaire associé à une matrice fondamentale F par : 1 N d(m i,f.m 2N i)+d(m i,f T.m i ) (3.1) i=1 où E =(m i,m i),i=1..n est un ensemble de points en correspondance entre les deux images considérées. Le résidu épipolaire est nul si tous les points de E vérifient la contrainte épipolaire définie par F. Nous dirons que F est cohérente avec E si le résidu épipolaire est faible (i.e. inférieur au pixel) Estimation du mouvement 2D L estimation des informations 3D repose sur une estimation dense du mouvement 2D et sur un suivi de points éparses. Estimation de mouvement dense L estimation du mouvement dense est réalisée entre la première image image du GOP courant (image clé K k ) et l image courante. Nous avons testé deux algorithmes d estimation de mouvement : d une part l algorithme basé sur le flot optique présenté dans le chapitre 2 ; et d autre part l algorithme d estimation de mouvement proposé par S. Pateux et basé sur un maillage triangulaire hiérarchique associé à un modèle de mouvement affine par maille [97] [44] [117]. Cet estimateur fournit le mouvement associé à chaque pixel de l image clé. La scène étant rigide, le champ de mouvement est également un champ de disparité qui donne le correspondant de chaque pixel de l image clé dans l image courante. Cet estimateur n étant pas contraint par la géométrie épipolaire, une rectification par projection des vecteurs mouvement sur les droites épipolaires est effectuée en fin d estimation.

41 Modélisation 3D pour la communication vidéo 39 Suivi de points éparses Un ensemble E de points saillants est également suivi entre l image clé de début de GOP et l image courante. Ces points sont sélectionnés parmi les sommets du maillage utilisé pour l estimation de mouvement dense. On choisit 200 points qui sont uniformément répartis dans l image clé et qui présentent une forte réponse au détecteur de Harris et Stefen [62]. Ainsi, E fournit un ensemble de paires de points en correspondance fiables, précis et uniformément répartis dans l image Estimation des paramètres caméra Les paramètres nécessaires pour la représentation sont les paramètres internes et externes de la caméra pour chaque image de la séquence. Ils sont estimés à partir de l ensemble des points éparses E. Paramètres internes Les paramètres internes n ont besoin d être connus que très approximativement (avec une précision d un ordre de grandeur). Ils sont donc choisis arbitrairement égaux pour toutes les images avec des valeurs arbitraires réalistes : centre optique projeté au centre de l image, pixels carrés, et focale donnée par le constructeur ou fixée par défaut à la valeur 500. Dans le cadre d un traitement automatique et générique, nous avons préféré ce choix arbitraire à un auto-calibrage qui peut s avérer très instable [21], afin de favoriser la robustesse plutôt que la précision. Paramètres externes Les paramètres externes (position et orientation de la caméra) sont estimés à partir de l ensemble des points suivis dans le GOP courant E k. On estime d abord le mouvement (R k,t k ) de la caméra entre les images extrêmes du GOP, i.e. entre les images clés K k and K k+1. L objectif est d obtenir un ensemble de paramètres internes A et des paramètres externes (R k,t k ) cohérents avec E k, c est-à-dire tels que la matrice fondamentale F k = A T.[t k ].R k.a 1 produise un résidu épipolaire sub-pixel. C est un point important dans notre cadre : en effet le résidu épipolaire représente également l erreur de reprojection pour les points de E k, lorsqu on utilise les paramètres A, (R k,t k ) pour la reconstruction du modèle 3D. Il est donc représentatif de la distorsion géométrique introduite par les erreurs dans la reconstruction 3D. Pour obtenir un modèle 3D qui permette de reconstruire au mieux les images de la séquence d origine, on cherche donc à estimer les paramètres (R k,t k ) qui minimisent le résidu épipolaire. La méthode de résolution utilisée est itérative. Les paramètres sont initialisés par une méthode de calibrage classique comprenant une estimation de F aux moindres carrés médians [150], puis une décomposition de la matrice essentielle E m = A T.F.A [39]. Ils sont ensuite raffinés itérativement par l algorithme d estimation de

42 40 L. Morin pose de Dementhon [35] appliqué à E k ; cet algorithme minimise l erreur de reprojection, et donc le résidu épipolaire pour les points de E k. A l issue de cette estimation on dispose de paramètres caméra et d un champ de disparité qui sont cohérents et visent à minimiser l erreur de reprojection. Une fois le mouvement (R k,t k ) estimé entre les images clés extrêmes du GOP K k et K k+1, les paramètres externes (R, t) sont estimés pour chaque image du GOP. On utilise également la méthode d estimation de pose appliquée aux points de E k ; l initialisation est fournie par une interpolation linéaire de (R k,t k ) entre les instants t k et t k+1. A l issue de cette étape, on dispose donc des paramètres de la caméra (A, R, t) pour chaque image de la séquence. Il faut rappeler que ces paramètres sont indépendants pour chaque GOP. La position de la caméra associée à une image d un GOP est exprimée dans le repère de la première caméra du GOP (i.e. la caméra associée à l image clé), et non dans un repère absolu Estimation des modèles 3D Chaque modèle 3D M k est reconstruit par stéréovision à partir de la première et de la dernière image du GOP k, c est-à-dire des images clés K k et K k+1. Le champ de mouvement dense fournit les appariements et les paramètres de caméra A, R k et t k déterminent les équations de projection. On obtient ainsi la carte de profondeur de l image clé K k. Plutôt que d exploiter directement l information 3D sous forme d une carte de profondeur, nous avons choisi de décrire le modèle 3D M k sous la forme d un maillage 3D triangulaire, compatible avec les technologies actuelles de rendu temps réel. Pour cela, un maillage triangulaire uniforme est défini dans l image K k. La profondeur de chaque sommet de ce maillage est déterminée par la carte de profondeur dense estimée. Le maillage 3D triangulaire M k est obtenu par élévation des sommets du maillage 2D le long des lignes de vue. Les modèles 3D obtenus sont donc les cartes de profondeur triangulées de chacune des images clés. Ils sont par construction des surfaces continues Images de texture Chaque maillage M k est texturé par l image clé K k. Pour cela, on définit comme coordonnées de texture d un sommet 3D de M k les coordonnées de son projeté dans K k. Pour compenser la distorsion perspective présente dans l image K k, nous avons proposé la construction d une image de texture où la distorsion est pré-compensée. Chaque facette triangulaire de l image est corrigée sans modifier la position de ses sommets. Ainsi on obtient une unique image de même taille que l image originale [45] [53]. La figure 3.8 montre le principe géométrique de la correction. La figure 3.9 montre un exemple de correction de texture réalisée sur une image synthétique.

43 Modélisation 3D pour la communication vidéo 41 B Z P1 A G X O Y C b b a g c a g c H image de référence image corrigée FIG. 3.8 Extraction-correction de la texture de chaque facette : la correction appliquée à la facette (a, b, c) est l homographie 2D H qui laisse inchangés ses sommets et envoie g en g,oùg est le projeté du centre de gravité G de la facette 3D (A, B, C), etg est le centre de gravité de la facette 2D (a,b,c )=(a, b, c). La texture corrigée correspond à la texture vue de face à une transformation affine près. En effectuant un plaquage affine classique de la texture corrigée, on obtient donc le même résultat qu avec un plaquage de la texture vue de face Sélection des images clés La reconstruction 3D à partir de deux images extraites d une vidéo est très sensible au choix de ces deux images : plusieurs critères doivent être vérifiés afin que l estimation soit stable numériquement et produise un résultat satisfaisant. C est la raison pour laquelle la taille des GOP ne peut pas être fixée a priori. Elle est donc variable et déterminée par le choix des images clés. La sélection des images clés est faite automatiquement et adaptativement en fonction du contenu des données vidéo. Nous avons proposé une méthode de sélection simple et robuste. La première image clé K 0 est la première image de la séquence. Les autres images clés sont sélectionnées au fur et à mesure de l analyse de la séquence. Une fois l image clé K k sélectionnée, on évalue pour chaque image I suivante des critères de sélection pour déterminer si elle sera l image clé K k+1. Les critères utilisés dépendent des informations de mouvement 2D et 3D entre les images K k et I : l amplitude du mouvement apparent dans les images, le nombre de points sortants, et le résidu épipolaire. Les objectifs visés par cette sélection sont les suivants : obtenir des GOPs de taille la plus grande possible, pour limiter la redondance de la représentation, et ainsi avoir une représentation plus compacte, assurer que la reconstruction d un modèle 3D valide est possible pour ce GOP. Les trois critères utilisés sont les suivants : C 1 évalue le mouvement apparent moyen. Tant que celui-ci est inférieur à un seuil (typiquement

44 42 L. Morin a b c d FIG. 3.9 Exemple de correction de texture. (a) Image d une scène synthétique (b) Scène reconstruite en VRML sans correction de texture en utilisant l image (a) comme image de texture : on observe des distorsions géométriques sur les textures (c) Image obtenue après correction de texture de l image (a) (d) Scène reconstruite en VRML à partir de l image (c) : le plaquage de texture est correct. de 10 pixels), le critère C 3 n est pas calculé. Ce critère évite de tenter une reconstruction 3D en présence d un mouvement de caméra insuffisant. C 2 teste le pourcentage de points sortants. Si celui-ci dépasse un seuil (typiquement de 40%), le GOP est terminé. Ce critère assure une large partie de scène commune entre les deux images clés, car seuls les points visibles dans les deux images peuvent être reconstruits en 3D. C 3 évalue le résidu épipolaire. Celui-ci doit être inférieur à un seuil (de 0.3 pixels typiquement) pour qu une image puisse être sélectionnée comme image clé. Ce critère assure que la reconstruction 3D s effectue correctement et que le modèle 3D obtenu permettra une restitution correcte des images par projection. Si ce critère n est pas vérifié pour 3 images successives, le GOP est terminé sur la dernière image vérifiant C Résultats de l analyse On présente ici les résultats obtenus par la méthode d analyse décrite dans la section précédente.

45 Modélisation 3D pour la communication vidéo 43 Estimation des paramètres caméra La figure 3.10 présente les résidus épipolaires obtenus avec les paramètres caméras estimés. Elle montre que la méthode proposée améliore nettement la cohérence des paramètres caméras avec les données image, par rapport à un simple calibrage par décomposition de la matrice essentielle. De plus elle s avère être une technique robuste car elle produit généralement une solution réaliste (résidu épipolaire sub-pixel) alors qu à l issue de la décomposition de la matrice essentielle, la solution est non valide (résidu épipolaire supérieur à 4 pixels). epipolar residual (pixel) 6 5 Fc Fd 4 keyframe image FIG Résidus épipolaires en fonction du temps pour la séquence escalier ; après l initialisation par calibrage (Fc), et après le raffinement par localisation (Fd). Sélection des images clés La figure 3.11 présente l évolution des 3 critères de sélection des images clé. C est généralement le pourcentage de point sortants (critère C 2 ) qui déclenche la fin du GOP. Pour la deuxième séquence, le mouvement de caméra est plus instable et les GOP sont parfois terminés par le critère de validité de la reconstruction 3D (critère C 3 ). La taille du GOP varie en fonction du contenu de la vidéo. Pour la séquence rue, on obtient des GOP réguliers de taille 40 images environ ; pour la séquence escalier, la taille des GOP varie entre 5 et 30 images, chaque GOP étant adapté au contenu de la scène et aux mouvements de la caméra. Reconstruction des modèles 3D La figure 3.12 présente quelques images originales de la séquence rue. La figure 3.13 présente une carte de profondeur extraite de cette séquence. L image clé correspondante présentée à sa gauche permet d apprécier la validité de la carte de profondeur. La figure 3.14 montre différentes vues du modèle 3D extrait de la carte de profondeur. Pour une meilleure lisibilité, on a texturé celui-ci par la carte de profondeur.

46 44 L. Morin motion (pixel) C1 threshold keyframe image motion (pixel) C1 threshold keyframe image outgoing points (%) C2 threshold keyframe image outgoing points (%) C2 threshold keyframe image epipolar residual (pixel) C3 threshold keyframe image epipolar residual (pixel) C3 threshold keyframe image FIG Évolution des 3 critères de sélection des images clé sur la séquence rue (à gauche) et sur la séquence escalier (à droite). La ligne horizontale indique la valeur du seuil pour chaque critère. Les figures montrent plusieurs résultats de cartes de profondeur obtenues. L algorithme a été testé sur des séquences contenant des contenus divers (intérieurs, extérieurs, environnement urbains ou naturels) avec différents types de trajet caméra (mouvement d avancée, mouvement latéral, mouvement d exploration). Ces résultats montrent que la géométrie globale des scènes est bien estimée. Les objets sont visibles, même si leur contours sont lissés. Les discontinuités de profondeur ne perturbent pas l estimation, bien que le modèle de mouvement utilisé soit continu. Les zones très éloignées et les zones uniformes sont parfois mal estimées ou bruitées. La zone de l épipôle, si elle se situe dans l image, peut créer des artefacts et doit être traitée par interpolation. De faibles violations de la contrainte de rigidité ne perturbent pas l algorithme : c est le cas par exemple des reflets sur les pare-brise des voitures ou de la fontaine dans la séquence escalier. L algorithme s avère assez robuste tant que la scène contient une composante 3D importante, et il a pu être appliqué sur des séquences longues de plusieurs centaines d images (entre 500 et 1000 images). 3.4 Synthèse : restitution de vidéo à partir de la représentation Après la phase d analyse, on dispose donc d une représentation 3D de la séquence. Cette représentation peut être codée et transmise. On verra au chapitre 5 comment une telle représentation peut être comprimée efficacement et adaptée pour les besoins de la transmission. Une fois reçue et décodée,

47 Modélisation 3D pour la communication vidéo 45 FIG Séquence originale rue : de gauche à droite et de haut en bas, images 0, 40, 80, 120, 160, 200 la représentation est utilisée au récepteur pour régénérer les images de la séquence. On va maintenant s intéresser à la phase de synthèse c est à dire la restitution d une séquence vidéo à partir de la représentation 3D Reconstruction de la séquence originale La représentation 3D fournit un flux d information organisé en GOPs. Pour le GOP k, la représentation contient : le modèle 3D maillé M k, la première image du GOP K k, qui est utilisée comme image de texture du modèle 3D, et les paramètres de la caméra pour chaque image du GOP. Pour régénérer chaque image entre K k et K k+1, le modèle 3D est texturé et projeté sur chacun des points de vue caméra. Ainsi pour l image courante I c, sa reconstruction est donnée par : Î c = Pr(M k,k k,c c ) (3.2) où Pr(M,K,C) désigne la projection sur la caméra C du modèle 3D M texturé avec l image K. Le modèle 3D M k ne représente que les portions de scènes visibles dans l image clé K k.dece fait, les zones entrantes ne sont pas régénérées. On propose de construire une mosaïque des modèles

48 46 L. Morin a b FIG (a) Carte de profondeur extraite de la séquence rue, mouvement global de translation en z (b) image clef correspondante. FIG Aperçu d un modèle 3D issu de la séquence rue.

49 Modélisation 3D pour la communication vidéo 47 a b FIG (a) Carte de profondeur extraite de la séquence escalier, mouvement global de translation en x (b) image clef correspondante. FIG Aperçu d un modèle 3D issu de la séquence escalier.

50 48 L. Morin a b FIG (a) Carte de profondeur extraite de la séquence glen, mouvement global de rotation autour de la statue (b) image clef correspondante. a b FIG (a) Carte de profondeur extraite de la séquence castle, mouvement global de rotation autour du bâtiment (b) image clef correspondante.

51 Modélisation 3D pour la communication vidéo 49 a b FIG (a) Carte de profondeur extraite de la séquence bureau, mouvement global de translation en x et de rotation autour de l axe y (b) image clef correspondante. a b FIG (a) Carte de profondeur extraite de la séquence thabor, mouvement global de translation en z (b) image clef correspondante.

52 50 L. Morin 3D : les modèles 3D M k+1 et M k sont rendus successivement pour reconstruire l image courante. Ainsi le rendu des zones non couvertes par le modèle courant est assuré par le modèle suivant (voir figure 3.21) a b FIG Apport de la mosaïque 3D. (a) sans extension (b) avec extension en utilisant le modèle 3D suivant. Le modèle M k+1 s avère plus valide que le modèle M k pour restituer les images de la fin du GOP k. Pour favoriser le modèle M k+1 en fin de GOP, on réalise une combinaison linéaire des deux modèles projetés, qui améliore la qualité objective des images en fin de GOP. Pour évaluer la qualité de la séquence reconstruite, on a utilisé la mesure de qualité objective classique en compression d image, le PSNR (Peak Signal to Noise Ratio) de chaque image reconstruite Ĩ par rapport à l image originale I : PSNR(Ĩ) =10. log 10 ( EQM ) p(i(p) (3.3) I(p)) 2 où N est le avec EQM, l erreur quadratique moyenne entre Ĩ et I : EQM = 1 N nombre de pixels p dans I. La figure 3.22 montre la courbe de PSNR obtenue pour la séquence rue. On observe que le PSNR est élevé pour les images clés et qu il décroît fortement pour les images internes au GOP. Il croît en fin de GOP grâce à la prise en compte du modèle suivant. Les faibles valeurs de PSNR obtenues s expliquent par plusieurs facteurs : les erreurs de géométrie, les erreurs de texture et le ré-échantillonage : les erreurs dans la géométrie du modèle 3D provoquent des décalages spatiaux de type erreur résiduelle de compensation de mouvement ;

53 Modélisation 3D pour la communication vidéo sequence Rec3D PSNR image FIG PSNR de la séquence rue reconstruite par la méthode proposée. Le PSNR est calculé uniquement sur les zones visibles. l hypothèse de texture constante au cours du GOP, qui n est pas entièrement valide (modification globale de l éclairage, reflets, petits objets en mouvement) provoque une baisse progressive du PSNR au cours du GOP ; enfin, notre approche par analyse-synthèse nécessite un re-échantillonage de la texture lors du rendu qui diminue fortement le PSNR, même si bonne la géométrie et la texture provoquent peu d erreurs, par exemple en début de GOP. Cependant la courbe de PSNR ne reflète pas la qualité visuelle obtenue, comme le montre la figure L image reconstruite présente une perte de netteté due au re-échantillonage, mais elle reste d une très bonne qualité visuelle. Par comparaison, une image de même PSNR, obtenue par compression JPEG de l image originale est de qualité visuelle nettement inférieure. De plus, la qualité visuelle de reconstruction est stable au cours de temps : les fluctuations de PSNRentre images clés et images intra-gop n apparaissent pas visuellement. En conclusion, les résultats obtenus montrent que la représentation proposée permet de reconstruire la séquence vidéo originale avec une très bonne qualité visuelle, et avec une qualité objective moyenne. Ils mettent en évidence l inadéquation du PSNR pour évaluer les distorsions de type géométrique Reconstruction de séquences virtuelles et navigation interactive Principe de la navigation Comme nous l avons vu dans le chapitre 1, l intérêt d une modélisation 3D est de pouvoir apporter des fonctionnalités 3D. La représentation proposée permet effectivement de reconstruire des séquences virtuelles ou de naviguer interactivement dans la scène. En effet, en spécifiant des paramètres caméra différents de ceux présents dans la trajectoire originale, on crée de nouveaux points de vues, ou vues virtuelles.

54 52 L. Morin a b c d FIG (a) Image 59 originale de la séquence rue - (b) image reconstruite par la méthode proposée (PSNR de 24.45) - (c) image d erreur entre (a) et (b) - (d) image compressée par JPEG (PSNR de 24.45).

55 Modélisation 3D pour la communication vidéo 53 Les figures 3.24 et 3.25 montrent des vues virtuelles obtenues par projection du modèle courant sur un point de vue caméra en dehors de la trajectoire d acquisition. On observe que les distorsions augmentent lorsque le point de vue s éloigne de la trajectoire, en particulier pour les zones découvertes, les facettes qui ne sont pas vues sous leur orientation originale, et les zones éloignées dont la géométrie est reconstruite avec une faible précision. a b c d FIG Exemples de vues virtuelles sur la séquence rue. (a) image originale servant de texture à la scène - (b) image relativement proche du point de vue original - (c) (d) images relativement éloignées du point de vue original. La génération de vues virtuelles peut-être faite en temps réel car la modélisation par maillages 3D est compatible avec les outils de rendu standards tels que OpenGl. Ceci permet d utiliser notre représentation pour des applications de navigation interactive. Dans ce cas, c est la position instantanée de l observateur qui définit le point de vue. Cependant, notre modélisation impose des limites lors d une

56 54 L. Morin a b c d FIG Exemples de vues virtuelles sur la séquence castle. (a) image originale servant de texture à la scène - (b) image relativement proche du point de vue original - (c) (d) images relativement éloignées du point de vue original. navigation virtuelle. De part le traitement au flux, la représentation intègre une composante temporelle : lors de la navigation, le déroulement du temps doit être respecté (avec éventuellement des interruptions de type stop/pause). Les modèles sont locaux : ils ne sont valides que pour des points de vues proches du trajet original. Lors d un changement de modèle, la continuité visuelle est assurée uniquement pour le point de vue correspondant à l image clé commune aux deux modèles. Un changement de modèle sur un autre point de vue produit un saut visuel car le changement de la géométrie (forme) et de connectivité est alors visible.

57 Modélisation 3D pour la communication vidéo 55 Navigation interactive contrainte Kp (position clef) chemin original chemin virtuel contraint zone de navigation possible modèle affiché M0 M1 M2 temps FIG Principe de la navigation contrainte : le chemin passe par les images clefs où s effectue le changement de modèles 3D. Nous avons donc proposé un mode de navigation interactive contrainte adapté à notre représentation. Son principe est le suivant (voir figure 3.26). Le temps se déroule lors de la navigation : l instant courant détermine quel est le GOP courant et le modèle 3D associé au GOP courant est affiché. L observateur est contraint de rester dans un rayon spatio-temporel autour de la trajectoire originale : il peut modifier la position et l orientation de la caméra, mais ses interactions sont interprétées comme des incréments par rapport à la position originale à l instant courant. En l absence d action de l observateur, c est la trajectoire originale qui est utilisée et l observateur visualise la séquence originale. La trajectoire de navigation contient toutes les images clés afin de garantir la continuité visuelle lors des changements de GOP. Cette navigation contrainte peut être comprise à travers une métaphore : la trajectoire originale peut-être vue comme un train qui avance sur une voie. L observateur est un passager du train qui peut se déplacer dans le train et regarder dans différentes directions, mais qui ne peut empêcher le train d avancer (i.e. la séquence temporelle de se dérouler) et le paysage de changer (i.e. les modèles successifs d être affichés). Dans ce mode de navigation, l observateur a la sensation d interactivité : ses actions sont répercutées en temps réel par un changement de point de vue. Cependant sa liberté d exploration est faible : il subit à la fois une contrainte spatiale et temporelle qui ne lui donne pas la sensation de guider la navigation.

58 56 L. Morin Navigation interactive libre Kp (position clef) centre des Kp ligne de séparation des modèles chemin original chemin libre M M M FIG Principe de la navigation libre : le chemin ne passe pas par les images clefs, le changement de modèles 3D s effectue sur la médiatrice des points I k. Pour s affranchir des contraintes spatiale et temporelle, un autre mode de navigation a été testé où le modèle affiché est déterminé non pas par l instant courant, mais par le point de vue de l observateur. Ce principe se rapproche de celui des cellules de vue (view-cell) en synthèse d images [99] [100] pour la visualisation de scènes synthétiques de grande dimension. Ceci nécessite un partitionnement de l espace des paramètres d observation, afin d associer à chaque point de vue le modèle 3D qui doit être affiché pour obtenir le meilleur rendu. Dans notre mise-en-œuvre, ce partitionnement est basé uniquement sur la position de l observateur (son orientation n est pas prise en compte) et il s appuie sur la trajectoire d origine (voir figure 3.27) : on considère pour chaque GOP son point de vue central défini comme le milieu des images clés. Les cellules de Voronoï associées aux points centraux définissent la partition de l espace des paramètres. Ainsi pour un point de vue virtuel V, on recherche le GOP k dont le point central I k est le plus proche de V : k = arg min k V I k avec I k = C k + C k+1 2 et le modèle 3D M k associé à ce GOP est affiché. Dans ce type de navigation, l observateur guide entièrement l exploration de la scène au lieu de la subir. Cependant, du fait que sa position n est pas contrainte, les changements de modèle ont généralement lieu en dehors des points de vue clé. La continuité visuelle n est donc pas assurée lors des changements de modèle. De plus lorsque l observateur s éloigne de la trajectoire d origine, la qualité du rendu se dégrade rapidement et le champ de vision peut contenir des zones non observées.

59 Modélisation 3D pour la communication vidéo Conclusion Contributions Nous avons présenté dans ce chapitre une approche originale de représentation de séquences vidéo par un flux de modèles 3D. L approche proposée s applique à des séquences vidéos de scènes fixes, sans hypothèses sur le contenu et la taille de la scène ; l acquisition est non contrôlée, sans limitation sur la taille de la séquence, et le traitement de la séquence vidéo est entièrement automatique. La représentation proposée permet la restitution de la séquence d origine, mais elle permet aussi d utiliser son caractère 3D pour créer des séquences virtuelles proches de la trajectoire originale, éventuellement pour une navigation interactive. Nous avons proposé deux types de navigation, une navigation contrainte et une navigation non contrainte. Cette représentation par un flux de modèles 3D présente plusieurs avantages par rapport à l approche classique qui consiste à reconstruire un unique modèle 3D de la scène observée à partir de l ensemble des images de la séquence. L indépendance des modèles 3D apporte une simplicité algorithmique et évite des étapes délicates de la reconstruction 3D : en effet, on ne requiert pas une cohérence globale des informations géométriques extraites de la séquence, ni pour la géométrie et la texture des modèles 3D, ni pour les positions caméras. Ainsi, il n y a pas d étape de recalage ni de fusion des géométries et des textures des modèles. Le problème délicat des dérives est également contourné car les estimations ne sont pas cumulées, et les erreurs d estimation restent limitées au GOP courant. Pour les mêmes raisons, une valeur précise des paramètres intrinsèques n est pas nécessaire et des valeurs approximatives sont suffisantes. L indépendance des modèles 3D apporte donc une plus grande robustesse à la méthode proposée, qui n est pas tributaire de la précision des estimations. L utilisation de plusieurs modèles plutôt que d un modèle unique introduit une possibilité d évolution au cours du temps. Les modifications des conditions d éclairage ou de la texture sont intégrées dans la représentation et restituées lors de la visualisation. L utilisation de plusieurs modèles permet une approche à la volée (streaming) : les étapes d analyse et de synthèse peuvent donc être effectuées sans hypothèse restrictive sur la taille de la scène observée ou sur la durée de la séquence vidéo. Ce format au flot est également très bien adapté pour une transmission progressive de la représentation dans le cas de grandes scènes. Enfin, les résultats obtenus ont montré que l approche proposée est robuste à de faibles violations de la contrainte de rigidité (la scène n est pas entièrement fixe et contient des zones de petite taille en mouvement) ou à la présence de reflets. En effet, ce mouvement est en partie modélisé comme des modifications de la forme, et il est ainsi restitué partiellement dans la séquence reconstruite. En conclusion, nous avons d une part montré la faisabilité d une telle approche, ce qui n était pas évident au départ. Nous avons d autre part montré que la méthode était suffisamment générique et

60 58 L. Morin robuste pour s appliquer sur des scènes ayant des contenus variés, avec des mouvements des caméras quelconques non contrôlées pour favoriser la reconstruction 3D Limites et perspectives Flux de modèles v/s modèle unique Le choix d utiliser plusieurs modèles apporte cependant des inconvénients et des limites par rapport aux fonctionnalités offertes par un modèle unique : La représentation par une suite de modèles est moins compacte qu un modèle unique puisque les modèles contiennent des parties communes de la scène et sont donc redondants. La modélisation étant locale, elle limite d avantage la navigation en dehors de la trajectoire d origine. Les trajectoires virtuelles doivent contenir les images clés pour assurer une transition visuelle douce entre les modèles 3D successifs. Des modèles indépendants ne sont pas adaptés pour les applications de réalité augmentée telles que l insertion d objets synthétiques ou de sources de lumières dans la vidéo. En effet la position de l objet 3D synthétique doit alors être spécifiée dans un repère valide pour l ensemble de la séquence, ce qui n est pas possible avec les modèles 3D qui ne sont pas recalés dans un même repère. Nous verrons dans la suite quelles solutions nous avons proposées pour une mise-en-cohérence des modèles (chapitre 4) et comment la redondance de la représentation peut être prise en compte pour un encodage compact (chapitre 5). Modélisation 3D On peut remarquer que les points délicats de notre approche et qui conditionnent la qualité du résultat final sont les traitements de bas niveau, en particulier l étape d estimation de la disparité. C est l estimateur de mouvement par maillage qui assure la qualité intrinsèque de l information 3D trouvée en offrant un bon compromis entre régularisation et précision. Cependant cet estimateur ne prend pas en compte a priori les contraintes 3D. Une étape finale de raffinement est donc nécessaire dans l algorithme actuel. Il serait intéressant d appliquer à ce modèle de mouvement par maillage le principe du chapitre 2 et d assurer la cohérence des paramètres 3D et du champ de mouvement dès son estimation. L utilisation d une unique image de texture limite la qualité des images reconstruites, en particulier à cause du re-échantillonage. Ce problème est bien connu en synthèse et il est généralement traité par une représentation multirésolution de la texture (pyramide mip-mapping). Dans le domaine de la synthèse de vues intermédiaires par transfert ou compensation de mouvement, on peut également citer les approches de type POCS (Projection on Convex Sets) [143] qui réa-

61 Modélisation 3D pour la communication vidéo 59 lisent un filtrage anti-aliasing adaptatif en fonction de la densité locale des échantillons. Dans notre cas, il s agirait de construire une représentation de la texture qui intégre les informations issues des différentes images, soit en conservant les différentes résolutions acquises, soit en les intégrant par une technique de super-résolution associée à une recalage telle que celle proposée par Capel et al. [24]. De manière plus générale, la prise ne compte dans la modélisation de plus de deux vues par GOP pourrait être approfondie. La représentation de la géométrie sous la forme d une carte de profondeur ne permet pas une représentation satisfaisante des discontinuités de profondeur. Le passage à un modèle 3D général pourrait offrir des possibilités pour mieux représenter et donc mieux restituer les discontinuités de profondeur Enfin, l extension de la modélisation 3D à des scènes plus génériques, contenant des reflets, des objets en mouvement est une perspective à long terme. Des études préliminaires ont été menées sur la modélisation et l estimation des reflets dans les séquences vidéo (stage de fin d études de Bastien Peteuil [120]), et sur la détection et la modélisation des objets rigides en mouvement propre dans la séquence (stage de DEA de Jonathan Delhumeau [32] [33]). De manière plus générale, l ambiguïté forme-mouvement ne permettra pas de modéliser de façon réaliste l ensemble des mouvements présents dans une séquence quelconque. Une piste pourrait être l utilisation de textures dynamiques modélisant les mouvements et les changements d illumination non pris en compte par la modélisation 3D. Les hypothèses sur l acquisition, i.e. une caméra en mouvement non dégénéré, devront également pouvoir être levées pour obtenir un schéma plus général. Une première approche consiste à proposer une modélisation 2D pour les portions de séquence vidéo pour lesquelles une modélisation 3D n est pas possible. En effet, la reconstruction 3D nécessite une composante translationnelle du mouvement de la caméra. Pour un mouvement de rotation pure, une modélisation 3D n est pas possible, mais par contre une modélisation 2D (mosaïque, panoramique, homographie 2D) est alors tout à fait adaptée. Nous avons mené une première étude pour détecter les portions de séquence où le mouvement est une rotation et pour les modéliser sous forme de mosaïques cylindriques ou sphériques compatibles avec les modèles 3D (pour l encodage et la visualisation) dans les stages de DEA de Eric Morillon [102] [101] et Gaël Sourimant [142] [141]. Cependant, il serait intéressant d étudier si une modélisation homogène peut être envisagée, par exemple un modèle 3D dégénérant gracieusement en modèle sphérique dans le cas où la modélisation 3D s avère impossible. Navigation interactive Dans notre représentation, la qualité de reconstruction d une vue virtuelle dépend du point de vue de l observateur. Ceci est commun à toutes les approches basées images : on ne peut pas espérer visualiser des portions de scène qui n ont pas été acquises, ou obtenir une bonne

62 60 L. Morin qualité pour des points de vue virtuels trop éloignés des points de vue acquis. On ne peut donc pas espérer offrir une bonne qualité de rendu tout en permettant à l utilisateur une liberté complète de navigation. Il est donc nécessaire de contraindre la navigation pour assurer une qualité acceptable. De plus, une navigation contrainte peut de plus être bénéfique d un point de vue ergonomique : pour un utilisateur peu averti, une liberté complète n est pas forcément souhaitable car il peut être rapidement perdu dans le modèle 3D. Il semble donc intéressant de contraindre la navigation, à la fois d un point de vue ergonomique et pour assurer une bonne qualité des images produites. Nous avons proposé une contrainte spatiale fondée sur une distance dans l espace des paramètres d observation. Cependant, cette approche n est pas satisfaisante car elle ne s appuie pas sur la qualité des images reconstruites. Dans l idéal, pour un ensemble de points de vue acquis, on souhaiterait associer une mesure de qualité pour chaque point de l espace des paramètres d observation. Ainsi, il serait possible de garantir une qualité de reconstruction en contraignant la trajectoire virtuelle dans l ensemble des points de vue dont la qualité est égale ou supérieure à celle spécifiée. Une telle mesure est délicate à définir puisqu il n y a pas d image de référence pour les points de vue virtuels. Une approche possible est de s appuyer sur la distorsion subie par la texture dans l image reconstruite. Yannick Nicolas a proposé dans sa thèse [109] une mesure de ce type fondée sur le rapport de résolution entre les textures d un même objet issues d images différentes.

63 Chapitre 4 Modèle 3D évolutif 4.1 Introduction Comme on l a vu dans le chapitre précédent, la représentation par flux de modèles 3D apporte des avantages par rapport aux représentations à l aide d un modèle 3D unique car elle permet une meilleure robustesse aux erreurs de calibrage et d estimation 3D, ainsi qu une plus grande généralité des scènes traitées, des conditions d acquisition et de la longueurs des séquences vidéo traitées. Cependant, l utilisation de modèles 3D indépendants provoque des artefacts visuels et apporte des limitations : Lors de la reconstruction de la séquence originale, on observe des sauts visuels au moment des changements de GOP, car la validité du modèle 3D et de l image de texture décroît au cours du GOP, entraînant une baisse progressive de la qualité des images reconstruites. Pour la reconstruction de séquences virtuelles ou pour la navigation interactive, le passage imposé par les points de vue clés limite considérablement la navigation. Enfin, des modèles entièrement indépendants ne permettent pas d intégrer des objets ou des sources de lumière synthétiques qui doivent être exprimés dans un repère global valide pour l ensemble de la séquence. Pour lever ces contraintes et limitations, en conservant les bénéfices du flux de modèles, nous avons proposé une mise-en-cohérence locale des modèles 3D, c est-à-dire uniquement pour deux modèles 3D successifs, ou pour des groupes de modèles 3D successifs. Cette mise-encohérence vise à obtenir une continuité de la géométrie, de la connectivité et de la texture lors du passage entre deux modèles 3D successifs, sans pour autant nécessiter une cohérence globale de l ensemble des modèles. On obtient finalement un modèle évolutif, c est-à-dire qui évolue continûment au cours du temps. La mise-en-cohérence a été mise en œuvre à différentes étapes de l algorithme. On propose 61

64 62 L. Morin d abord une mise-en-cohérence a priori, c est-à-dire réalisée lors de la phase d analyse ; une mise-en-cohérence a posteriori, c est-à-dire réalisée lors de la phase de rendu, a également été proposée pour assurer la continuité visuelle ; enfin, on verra qu elle peut être remplacée avantageusement par une mise-en-cohérence par modèle évolutif au moment de l encodage. Mise-en-cohérence a priori La mise-en-cohérence a priori, c est-à-dire réalisée lors de la phase d analyse a pour objectif d estimer une géométrie du GOP courant (modèle 3D et paramètres de caméras) cohérente avec celle des GOPs voisins. Elle est fondée sur la méthode d ajustement de faisceaux [151] qui permet d estimer l ensemble des paramètres 3D qui minimisent l erreur de projection pour un ensemble de points 2D préalablement mis en correspondance. Cependant la méthode proposée se distingue de l ajustement classique par les points suivants : la méthode proposée est appliquée sur une fenêtre glissante ; elle fournit un modèle par GOP et non pas un modèle unique ; Ainsi en sortie de l algorithme, les modèles 3D sont exprimés dans un même repère 3D et leurs facteurs d échelle sont cohérents, mais la cohérence n est imposée que sur la durée de la fenêtre glissante. On conserve ainsi les avantages d une cohérence locale et la possibilité d un traitement au flot. Mise-en-cohérence a posteriori La mise-en-cohérence a priori ne suffit pas cependant pour assurer la continuité visuelle lors de la reconstruction des images. On propose donc également de réaliser une mise-en-cohérence a posteriori, c est-à-dire au moment du rendu des modèles. Elle se base sur des techniques de métamorphose (morphing). La métamorphose est une méthode classique en synthèse d images pour réaliser une transition continue entre deux modèles 3D distincts [87, 1]. Le principe est celui du fondu-enchaîné : les deux modèles sont combinés pour produire une séquences de modèles 3D intermédiaires qui réalisent une déformation progressive au lieu d un saut brutal. La métamorphose comprend deux étapes : une mise en correspondance des deux modèles à partir d un ensemble de points d ancrage généralement spécifiés manuellement, puis une interpolation de la géométrie et des textures des modèles. En ce qui concerne la texture, cette méthode peut être rapprochée du plaquage de texture basé point de vue (view-dependent texture mapping) [30]. La métamorphose implique le plus souvent un changement de connectivité. Pour qu il s effectue sans entraîner de discontinuité géométrique, les techniques de l état de l art tels que MAPS [89, 88] réalisent une paramétrisation de la surface puis une fusion des maillages source et cible. Cependant, les techniques classiques de métamorphose ne sont pas directement adaptées à nos données, en particulier du fait que dans notre cas, la correspondance doit être établie de façon entièrement automatique. Elle doit aussi assurer une parfaite superposition des

65 Modélisation 3D pour la communication vidéo 63 textures des deux modèles sur les zones représentant des parties communes de la scène. Nous avons donc proposé des méthodes adaptées de métamorphose de modèles d élévation : d une part avec interpolation de l information de profondeur, et d autre part avec une paramétrisation commune préalable des deux modèles. De plus, l interpolation est linéaire non pas en fonction des indices temporels, mais en fonction de la position 3D de la caméra. Mise-en-cohérence par modèle évolutif Enfin, nous avons proposé une nouvelle représentation scalable des données conçue pour assurer par construction la continuité du rendu. Cette représentation s inspire des méthodes utilisées pour le codage et la transmission d objets 3D synthétiques [56]. D une part elle est basée sur des maillages triangulaires non uniformes, avec une connectivité commune et cohérente des maillages successifs : les sommets de deux modèles successifs correspondent aux mêmes points physiques dans la scène et sont identifiés par le même indice. Grâce à cette connectivité commune et cohérente, la métamorphose entre deux modèles successifs est réalisée directement par une simple interpolation entre les sommets de même indice. Les étapes délicates et coûteuses de mise-en-correspondance et fusion de maillage sont donc supprimées. D autre part, on propose une représentation hiérarchique et scalable de la géométrie des modèles par décomposition en ondelettes de seconde génération [29] [92]. Ce type d approche a montré son intérêt pour le codage et la transmission des modèles 3D synthétiques car il permet de comprimer efficacement l information et d obtenir un flux binaire progressif [81]. Nous l avons adapté au modèle évolutif. Grâce à la cohérence temporelle des sommets du modèle évolutif, la décomposition en ondelettes est également cohérente dans le temps. On présente dans ce chapitre la mise-en-cohérence a priori par ajustement glissant dans la section 4.2, puis les méthodes de de mise en cohérence a posteriori dans la section 4.3, et enfin la mise en cohérence par maillage évolutif scalable dans la section 4.4. Enfin nous montrons dans la section 4.5 des applications à la réalité augmentée de la représentation par modèle évolutif. 4.2 Mise-en-cohérence a priori des modèles indépendants : ajustement glissant Principe Nous présentons dans cette partie la méthode d ajustement glissant que nous proposons pour réaliser la mise-en-cohérence a priori des modèles, c est-à-dire au moment même de leur estimation. L ajustement glissant a pour but d obtenir une cohérence locale entre le GOP courant et les GOP voisins afin d une part de les exprimer dans un même repère et d autre part d éviter les sauts de géométrie

66 64 L. Morin importants aux changements de GOP. On cherche pour cela le modèle 3D M k et les paramètres caméra (R k,t k ) qui minimisent l erreur de reprojection non seulement pour le GOP courant, mais aussi pour les GOP précédent et suivant. La mise-en-cohérence est réalisée à l aide d une méthode d ajustement de faisceaux [151] appliquée sur une fenêtre glissante et adaptée à notre cas : Contrairement à l ajustement de faisceaux classique qui fournit un modèle unique, la méthode d ajustement glissant fournit un modèle 3D pour chaque GOP. Cependant ces modèles sont exprimés dans un même repère et leurs facteurs d échelle sont cohérents. L ajustement glissant fournit également des paramètres caméra pour chaque image clé, exprimés dans ce même repère. La cohérence entre modèles 3D, paramètres caméras et informations 2D n est garantie que sur la durée limitée de la fenêtre, i.e. sur trois GOP successifs. Afin de garantir la reconstruction sans distorsion des images clés, les modèles 3D obtenus doivent être des cartes d élévation de chaque image clé. Seule la profondeur des points 3D peut être modifiée par l ajustement : un point est contraint de se déplacer sur sa ligne de vue associée à l image clé. La méthode proposée est décrite brièvement dans les sections suivantes. Plus de détails pourront être trouvés dans la thèse de Franck Galpin [45] et l article [53] Notations Nous utiliserons les notations suivantes : E k est un ensemble de points caractéristiques extraits dans l image K k et suivis jusqu à l image K k+1. m k i est un point de E k extrait dans l image K k. m k,l i est un point extrait dans l image K k et suivi jusqu à l image clef K l. P k = A.(R k t k ) est la matrice de projection associée à l image clé K k. {Mi k } est l ensemble des points de E k reconstruits en 3D en utilisant les matrices de projection P k et P k+1. {Mi k } peut être vu comme un sous-ensemble du modèle 3D M k. u(m k i ) est le vecteur directeur de la ligne de vue passant par m k i Fonctions de coût Pour chaque image clef K k, une fonction de coût f = f 1 + f 2 + f 3 est minimisée. Comme dans l ajustement de faisceaux classique, elle correspond à une erreur de reprojection obtenue en projetant les ensembles de points 3D estimés à l aide des paramètres de caméra estimés. Cependant, certains paramètres estimés lors des étapes précédentes ne sont pas remis en cause et des contraintes sont imposées. À l étape k :

67 Modélisation 3D pour la communication vidéo 65 On minimise les erreurs de projection : des modèles M k 1 et M k sur K k+1, des modèles M k et M k+1 sur K k+2. Les paramètres qui sont estimés sont : les ensembles de points 3D {Mi k } et {Mi k+1 } (modèles M k et M k+1 ), les matrices de projection P k+1 et P k+2. Les paramètres qui ont été estimés à l étape précédente et qui ne sont pas remis en cause sont : les ensembles de points 3D {Mi k 1 } (modèle M k 1 ), les matrices de projection P k 1 et P k. Les contraintes imposées lors de l estimation sont : la reprojection parfaite de M k sur K k (i.e. les points {Mi k } sont contraints sur leur ligne de vue issue de la caméra C k ), la reprojection parfaite de M k+1 sur K k+1 (i.e. les points {M k+1 i } sont contraints sur leur ligne de vue issue de la caméra C k+1 ). À la fin de l étape k, le modèle 3D final M k est calculé à l aide des matrices P k et P k+1 et il est conservé ; la matrice de projetion P k+1 estimée est conservée ; les points 3D {M k+1 i } et la matrice P k+2 sont pris comme initialisation pour l étape k +1. Nous décrivons maintenant chaque terme de la fonction de coût f et son interprétation géométrique. terme f 1 f 1 (P k+1, {M k i }) = i m k,k+1 i P k+1.m k i 2 (4.1) Le premier terme f 1 assure que le modèle M k se projette correctement sur l image clef K k+1, sous la contrainte que chaque point Mi k doit appartenir à la ligne de vue issue de la caméra associée à K k. Cette contrainte s exprime par : M k i = O k + λ k i. u(m k i ) (4.2) Les inconnues de f 1 sont donc les {λ k i } qui définissent chaque point {M k i } et les matrices (R k+1,t k+1 ) qui définissent P k+1. terme f 2 f 2 (P k+1) = i m k 1,k+1 i P k+1.m k 1 i 2 (4.3) Le deuxième terme f 2 assure que le modèle M k 1 se projette correctement sur l image clef K k+1. L ensemble de points {Mi k 1 } ayant déjà été déterminé à l étape précédente, les

68 66 L. Morin inconnues de f 2 sont donc les matrices (R k+1,t k+1 ) qui définissent P k+1. La minimisation de f 1 + f 2 assure que les paramètres du GOP k (points 3D {M k i } et matrice de projection P k+1 ) sont cohérents avec ceux du GOP k 1. terme f 3 f 3 (P k+2, {Mi k }, {Mi k+1 }) = i m k,k+2 i P k+2.mi k 2 + i m k+1,k+2 i P k+2.m k+1 i 2 (4.4) Le troisième terme f 3 assure de façon similaire que les paramètres du GOP k sont cohérents avec ceux du GOP k +1en projetant les ensembles de points 3D {Mi k } et {Mi k+1 } sur l images clé K k+2, sous la contrainte que {Mi k+1 } se reprojette parfaitement sur K k+1 : La fonction de coût finale est alors : M k+1 i = O k+1 + λ k+1 i. u(m k+1 i ) (4.5) f(p k+1, {M k i },P k+2, {M k+1 i }) =f 1 (P k+1, {M k i })+f 2 (P k+1 )+f 3 (P k+2, {M k i }, {M k+1 i }) (4.6) Le nombre de points projetés étant sensiblement le même pour chaque image, une pondération des fonctionnelles n est pas nécessaire. Cette fonctionnelle produit un grand système creux qui est résolu est par un estimateur itératif classique. Les valeurs initiales des paramètres sont fournies soit par la sortie du GOP précédent si elle est disponible, soit par une première estimation indépendante pour chaque GOP, complétée par une mise à l échelle approximative des modèles (via leur centre de gravité) Résultats Pour évaluer de manière quantitative le bénéfice de la mise-en-cohérence par ajustement glissant, nous avons testé la validité d un modèle 3D pour reconstruire le GOP précédent ou le GOP suivant. Plus précisément, chaque image située entre les images clefs K k et K k+1 est générée à l aide du modèle 3D M k 1 (modèle 3D précédent) ou du modèle 3D M k+1 (modèle 3D suivant). La qualité des images reconstruites est mesurée en terme de PSNRpar rapport aux images originales (le PSNR est calculé uniquement pour les zones où le modèle 3D se projette). Les figures 4.1 et 4.2 donnent des résultats typiques obtenus sur la séquence escalier. L ajustement glissant produit une nette augmentation du PSNR, et donc de la qualité des images reconstruites. Il est intéressant de noter que cette amélioration du PSNR est obtenue avec une méthode basée uniquement sur un critère géométrique (la minimisation de l erreur de reprojection sur un sousensemble de points).

69 Modélisation 3D pour la communication vidéo 67 PSNR frames number with bundle without bundle keyframes FIG. 4.1 Valeur du PSNR pour la reconstruction de la séquence escalier. Chaque GOP k est reconstruit à l aide du modèle 3D M k 1. La méthode par ajustement glissant procure une meilleure qualité car le modèle précédent est plus cohérent avec le GOP courant. PSNR with bundle without bundle keyframes frames number FIG. 4.2 Valeur du PSNR pour la reconstruction de la séquence escalier. Chaque GOP k est reconstruit à l aide du modèle 3D M k+1. La méthode par ajustement glissant procure une meilleure qualité car le modèle suivant est plus cohérent avec le GOP courant.

70 68 L. Morin Ces résultats montrent donc que l ajustement glissant permet d étendre la durée de validité des modèles 3D. De plus il fournit une cohérence géométrique des modèles 3D sur une fenêtre temporelle locale. Plus précisément, le facteur d échelle commun et la compatibilité avec les matrices de projection associées aux GOPs voisins réduit les sauts de géométrie aux changements de GOP, et rend compatible les repères géométriques des GOPs voisins. On résout ainsi partiellement les limites rencontrées par la navigation interactive avec une suite de modèles indépendants : le passage par les images clés n est plus indispensable et un modèle 3D peut être utilisé de façon cohérente pour reconstruire des points vues appartenant aux GOPs voisins. La mise-en-cohérence a priori des modèles 3D a d autres bénéfices : du fait qu elle fournit des modèles 3D exprimés dans un même repère global, il est alors possible d insérer des objets synthétiques dont la position reste valide sur plusieurs GOPs (voir section 4.5). 4.3 Mise-en-cohérence a posteriori des modèles indépendants : métamorphose Principe La mise-en-cohérence a priori par ajustement glissant permet d assurer une cohérence locale des informations 3D entre GOP successifs. Cependant, malgré cette mise-en-cohérence, des sauts visuels sont présents aux changements de GOP, que ce soit pour des trajets virtuels ou lors de la reconstruction de la séquence originale, avec les causes suivantes : Erreurs d estimation Sur la trajectoire originale, le saut visuel est dû aux erreurs d estimation provenant de chaque étape de l analyse. Rappelons que les paramètres de caméra, la géométrie et la texture du modèle 3D sont estimés afin de s approcher au mieux du champ de mouvement 2D estimé entre les deux images clés extrêmes du GOP. Ainsi la projection du modèle 3D texturé réalise la compensation de mouvement. De ce fait, les erreurs sur l estimation du mouvement 2D produisent un résidu lors de la compensation. De plus, les erreurs d estimation sur les paramètres de caméra et le modèle 3D, ainsi que l approximation de la surface 3D par un maillage triangulaire, produisent des distorsions géométriques dans les images reconstruites. Zones entrantes Le modèle 3D est texturé avec la première image clé du GOP. Les zones entrantes pendant le GOP ne dont donc pas présentes sur le modèle courant et ne peuvent donc pas être reconstruites par celui-ci. Les zones entrantes situées à l intérieur de l image (zones découvertes) produisent des étirements de texture. Les zones entrantes situées sur les bords de l image produisent des bandes noires.

71 Modélisation 3D pour la communication vidéo 69 Sauts de géométrie et de connectivité La mise-en-cohérence a priori assure un recalage global des modèles 3D successifs dans un même repère, mais elle n assure pas une stricte égalité de leur géométrie. De plus, la connectivité du maillage 3D est remise à jour à chaque changement de GOP. Sur la trajectoire originale, ces sauts de texture et de géométrie ne sont pas visibles : ils se traduisent par un changement de la profondeur des sommets le long des lignes de vue, ce qui ne modifie pas l image projetée. Par contre, sur les trajectoires virtuelles, ces sauts de la géométrie et de la connectivité sont visibles aux changements de GOP. L objectif de la mise-en-cohérence a posteriori est d atténuer les sauts visuels aux changements de GOP au niveau du décodeur, au moment de la reconstruction des séquences. Nous avons proposé d utiliser pour cela des techniques de métamorphose que nous avons adaptées au cas que nous considérons, en prenant en compte les points suivants : le traitement doit être entièrement automatique, sans mise-en-correspondance manuelle ; la mise-en-correspondance entre les deux modèles doit assurer un recalage correct entre leurs textures sous peine de provoquer des effets fantômes ; les modèles considérés sont des cartes d élévation ; deux modèles successifs contiennent des zones communes, mais aussi des zones présentes uniquement dans l un des modèles et non dans l autre. Plusieurs techniques ont été proposées et testées pour réaliser cette modification progressive de la texture, de la géométrie et de la connectivité. On en décrit brièvement le principe dans les sections suivantes. Plus de détails peuvent être trouvés dans les thèses de Raphaèle Balter [8] et Franck Galpin [45], le rapport de stage de Benjamin Le Guen [59], ainsi que les publications associées [53] [9] [15] [60] [9] [14] Continuité de la texture Nous avons proposé une méthode de fondu de texture permettant de supprimer les sauts visuels les plus gênants, qui proviennent de la discontinuité de la texture : étirement de texture puis apparition brutale dans les zones découvertes et passage de l image de texture K k à l image de texture K k+1. Le fondu de texture consiste à utiliser comme image de texture une combinaison linéaire de la texture K k du modèle courant et de la texture K k+1 du modèle suivant. L image courante I c est alors reconstruite par : Î c = Pr(M k,t c,c c ) (4.7) avec l image de texture T c = (1 α)k k + α K k+1 (4.8) On rappelle que Pr(M,K,C) désigne la projection sur la caméra C du modèle 3D M texturé avec l image K. Le facteur de pondération α n est pas défini par rapport au temps, mais par rapport à

72 K k+1 K k+1 70 L. Morin des positions géométriques. Plus précisément α est défini par la position courante du point de vue, relativement à la translation totale entre la première et la dernière image du GOP : α = t c t k (4.9) t k+1 t k où t k est la valeur du vecteur translation pour la caméra associée à l image clé K k et t c est le vecteur translation pour la caméra associée à l image courante I c. Pour assurer une superposition correcte des textures K k et K k+1 lors de leur addition, l image de texture K k+1 est auparavant rectifiée par rapport au point de vue C k : Kk+1 = Pr(M k,k k+1,c k ). La rectification équivaut à calculer l image K k par compensation de mouvement de l image K k+1 à l aide du champ de mouvement 2D estimé. M k T c texturation combinaison projection K k Î c rectification FIG. 4.3 Fondu de texture : K k+1 est rectifiée et combinée avec K k pour produire l image de texture associée au point de vue courant T c. Le modèle 3D M k est texturé avec T c et projeté sur le point de vue courant pour obtenir l image reconstruite Îc. Cette méthode assure une transition douce de la texture quelque soit le chemin de la caméra (original ou virtuel). En pratique, le fondu de texture, ainsi que le rendu par mosaïque (voir chapitre 3, section 3.4.1) sont implémentés grâce au tampon d accumulation de OpenGL (voir figure 4.5) Continuité de la géométrie La continuité de la géométrie est nécessaire uniquement pour les trajectoires virtuelles. En effet, pour un changement de GOP sur un point de vue clé, une modification de la géométrie n est pas visible

73 Modélisation 3D pour la communication vidéo 71 (section 4.3.1). Par contre elle est nécessaire pour assurer une transition douce lors d un changement de GOP en dehors des points de vue clés. Pour assurer la continuité de la géométrie nous avons proposé une métamorphose entre chaque paire de modèles 3D successifs M k et M k+1. Comme dans les méthodes classiques de métamorphose, elle comprend une étape de mise-en-correspondance puis une interpolation. Pour chaque image à reconstruire, un modèle intermédiaire M c est donc calculé par interpolation linéaire entre M k et M k+1. Le facteur de pondération est celui utilisé pour la texture (eq. (4.9)). Le modèle M c est texturé par la texture courante T c, et éventuellement complété pour les zones non décrites par les modèles M k et M k+1 (voir figures 4.4 et 4.5). a b c d e f FIG. 4.4 Projection des maillages M k (a), M k+1 (b), M c (c) et la superposition des trois (d) dans l image K k (α =1). Images de texture associées, T k (e) et T k+1 (f). Le point délicat est la mise en correspondance car les sommets de deux modèles successifs ne correspondent pas aux mêmes points physiques de la scène. Un r lage d au moins un des modèles s avère donc nécessaire avant l interpolation. Deux méthodes ont été proposées et testées. Métamorphose prédictive La première méthode est la métamorphose prédictive. Un r lage de M k+1 en M i k+1 est effectué, afin que chaque sommet de M k ait un correspondant dans M i k+1. Les correspondants sont définis par intersection des lignes de vue issues de C k et passant par les sommets de M k avec le modèle M k+1 (voir figure (4.6)). Les modèles sont calculés pour chaque point de vue intra-gop par interpolation

74 72 L. Morin Figure Action Chargement de M k Chargement de M k+1 Chargement de M c Accumulation de M c texturé avect k texturé avezc T k+1 Facteur de pondération 1 1 α 1-α FIG. 4.5 Superposition des modèles M c, M k et M k+1 par le tampon d accumulation d OpenGL afin de réaliser la métamorphose de la géométrie, le fondu de texture et la mosaïque des modèles. Les chargements correspondent à un écrasement du contenu du tampon contrairement aux accumulations qui superposent avec un coefficient de transparence. linéaire : M c =(1 α) M k + αm i k+1 (4.10) Ce modèle est texturé par l image de texture courante T c telle que définie dans la section 4.3.2, et complété par mosaïque au rendu pour la restitution des zones entrantes sur les bords. Le r lage M i k+1 est obtenu à partir de la carte de profondeur associée à M k+1, par projection sur le point de vue C k. On utilise les algorithmes classiques du Z-buffer et du coloriage 2D basé triangles, suivis d un r lage régulier de la carte de profondeur obtenue (voir la figure 4.7). Métamorphose bidirectionnelle Dans la métamorphose bidirectionnelle, des correspondants sont définis pour l ensemble des sommets des modèles M k et M k+1. L interpolation se fait également le long des lignes de vues respectives (voir la figure (4.8)). Les modèles 3D intermédiaires ne sont plus alors des cartes d élévations issues du point de vue C k comme dans la métamorphose prédictive, et ils permettent ainsi une modélisation de la géométrie des zones découvertes. Cependant, cette interpolation selon deux familles de lignes de vue n assure pas que la connectivité du maillage reste cohérente, et elle peut provoquer des retournements de face.

75 Modélisation 3D pour la communication vidéo M i n M n M c M n M i n Légende: Sommet Modèle d entrée Modèle de correspondants Ligne de vue Kn+1 Kn Cn Cn+1 FIG. 4.6 Modèle courant M c obtenu par la métamorphose prédictive pour α =0.5. Projection Interpolation R lage 2D Elévation M k+1 E k = Pr(M k+1,c k ) Zmap(M k+1,c k ) Z k k+1 M i k+1 Sommets irréguliers issus de la projection Carte dense profondeur de M k+1 Sommets réguliers de M k avec une des sommets dem k+1 avec une prodondeur vu de C k profondeur de M k+1 par rapport à C k FIG. 4.7 Principe de la construction de M i k+1.

76 74 L. Morin i Mn+1 Mn+1 Mn Mn i Légende: sommet modèle ligne de vue Kn+1 Kn Cn Cn+1 FIG. 4.8 Principe de la métamorphose bidirectionnelle : modèles M i k et M i k+1 utilisés pour l interpolation Continuité de la connectivité : métamorphose 3D Comme le montre la figure (4.6), le r lage effectué avant l interpolation peut modifier localement la géométrie du modèle, car ce ne sont plus les mêmes sommets qui sont utilisés comme support de la surface triangulée. Là encore, cette modification n est pas visible si le changement de GOP a lieu sur un point de vue clé, car elle n affecte que la profondeur. Par contre, elle peut créer une discontinuité visuelle gênante en navigation libre. De plus une modélisation satisfaisante des zones découvertes nécessite de considérer les modèles 3D M k et M k+1 comme des surfaces 3D générales et non pas comme des surfaces d élévation (ou carte de profondeur) puisqu ils ne sont pas issus du même point de vue. On a donc proposé un algorithme de métamorphose 3D avec fusion de connectivité pour assurer une continuité géométrique même lors d un changement de connectivité. Dans cette méthode, la mise-en-correspondance de M k et M k+1 est obtenue par une paramétrisation commune des deux modèles 3D. Une fusion des maillages est réalisée dans le plan de paramétrisation, pour fournir deux modèles F k et F k+1 ayant même géométrie que M k et M k+1 respectivement, et ayant tous deux pour connectivité la connectivité fusion. Ainsi, comme le montre la figure (4.9), lors d un changement de connectivité, il n y a aucune modification de la géométrie. En effet les sommets et arêtes supprimés ou ajoutés sont situés à l intérieur des faces définies par les sommets restants. Ici lors du changement entre M k et F k, les sommets rouges sont ajoutés mais la géométrie reste celle de M k ; entre F k+1 et

77 Modélisation 3D pour la communication vidéo 75 M k+1 les sommets bleus sont supprimés mais la géométrie reste inchangée et c est exactement celle de M k+1. Pour tous les modèles F c interpolés entre F k et F k+1 la connectivité est constante et la géométrie évolue continûment. Les algorithmes de paramétrisation et fusion de maillage ont dû être adaptés à nos données : Les épingles fixant habituellement les conditions aux limites de la paramétrisation et généralement spécifiées manuellement doivent être définies par le champ de mouvement pour assurer une superposition correcte des textures des deux modèles, une paramétrisation à bords libres a dû être utilisée, la nature bruitée de la géométrie des modèles a dû être prise en compte pour obtenir une paramétrisation admissible (sans retournement de triangles), l ensemble des cas particuliers a dû être considéré lors de la fusion des connectivités, Cette méthode permet en outre d éviter le rendu par mosaïque puisque le maillage fusion contient l union des sommets et arêtes des maillages M k et M k+1. Les zones entrantes sont donc également modélisées par le maillage courant F c. M k+1 F k+1 Fc F k M k FIG. 4.9 Métamorphose avec continuité de la géométrie et de la connectivité grâce à la fusion de maillages. Modèles successifs : M k et M k+1 ; modèles obtenus par fusion des connectivités : F k et F k+1 ; modèle courant F c obtenu par interpolation linéaire entre F k et F k+1 pour α =0.5. Note : sur la figure, les modèles M k et F k (respectivement F k+1 et M k+1 ) sont décalés pour plus de clarté. Ils sont en réalité superposés. De même les trajectoires d interpolation sont schématiquement figurées parallèles Résultats La figure 4.10 montre l effet du fondu de texture. Il est particulièrement visible sur la zone découverte par le mur de gauche. Sans fondu de texture, seule l image de texture T k est disponible et les zones découvertes sont reconstruites de manière erronée par étirement des textures. Cette effet d étirement est croissant avec l avancée dans le GOP et produit une baisse progressive de la qualité des images reconstruites.

78 76 L. Morin Par comparaison, le fondu de texture permet d intégrer progressivement l image de texture T k+1, qui contient les zones découvertes. La qualité des images reconstruites est nettement améliorée, surtout en fin de GOP. a b FIG Évaluation de l effet du fondu de texture en fin de GOP pour la séquence rue (image 240) (a) sans fondu de texture (b) avec fondu de texture. L apport des méthodes de métamorphose est montré sur la figure La continuité de la géométrie permet d éviter les effets fantômes et/ou sauts brutaux aux changements de GOP. C est le cas en particulier sur les trajectoires virtuelles. La mesure de qualité objective (PSNR) confirme l amélioration de la qualité par ces techniques. Sans fondu de texture ni métamorphose, elle décroît progressivement dans le GOP (voir figure 4.1 ). Après leur mise en œuvre, la qualité augmente en fin de GOP (voir chapitre 3 figure 3.22) Conclusion Les approches de mise-en-cohérence a posteriori présentées ci-dessus améliorent la qualité objective des images reconstruites et elles apportent un net gain de qualité visuelle : lepsnr décroît toujours en début de GOP, mais il croît en fin de GOP, les sauts visuels aux changements de GOP sont supprimés quel que soit le type de trajectoire (originale ou virtuelle), les zones entrantes sur les bords sont reconstruites, les zones découvertes sont mieux modélisées, aussi bien pour la géométrie que pour la texture : en particulier, les effets d étirement de texture sont largement atténués. Cependant les méthodes de mise en cohérence a posteriori présentent plusieurs limites : Un effet de persistance peut subsister dans les zones découvertes,

79 Modélisation 3D pour la communication vidéo 77 a b c d FIG Image originale de la séquence Thabor (a). Image reconstruite par reprojection des modèles courant et suivant (b), avec métamorphose bidirectionnelle de cartes de profondeur (c) et avec la métamorphose 3D (d).

80 78 L. Morin Elles sont difficilement compatibles avec une visualisation interactive ; en effet, la rectification de l image de texture, ainsi que le r lage des modèles avant leur interpolation entraînent un coup de calcul important, en particulier dans le cas de la métamorphose 3D avec fusion des connectivités. Alternativement, ces calculs peuvent être réalisés au niveau de l encodeur, mais dans ce cas, cette information supplémentaire et redondante doit être transmise, au détriment des performances de compression. En conclusion, la représentation des modèles 3D par des maillages triangulaires dont la connectivité est arbitrairement définie par un maillage uniforme de l image clé a plusieurs inconvénients. Pour assurer la continuité temporelle de la séquence reconstruite, on doit alors appliquer des posttraitements qui alourdissent soit l étape de rendu, soit le flux d information à transmettre. Nous avons donc proposé de prendre en compte cet aspect dès la construction des maillages 3D triangulaires. Une telle approche est présentée dans la section suivante. 4.4 Mise en cohérence par maillage 3D évolutif et scalable Dans cette section, on présente une nouvelle représentation du flux de modèles 3D, qui prend mieux en compte les contraintes de rendu et de transmission et qui a été proposée par Raphaèle Balter dans ses travaux de thèse, réalisés en collaboration avec Patrick Gioia et Christian Bouville [8] [14] [12] [13]. Cette représentation a pour objectif de permettre un rendu rapide (temps réel) des modèles tout en assurant la continuité visuelle, et également d être adaptée pour un codage compact et scalable des modèles 3D. D une part la représentation est basée sur des maillages triangulaires non uniformes, avec une connectivité commune et cohérente des maillages successifs : en particulier, les sommets de deux modèles successifs correspondent aux mêmes points physiques dans la scène et sont identifiés par le même indice. Grâce à cette connectivité commune et cohérente, la métamorphose entre deux modèles successifs est réalisée directement par une simple interpolation entre les sommets de même indice. D autre part, on définit une représentation hiérarchique des maillages 3D basée sur cette connectivité commune, et utilisant une décomposition en ondelettes de seconde génération. La représentation par ondelettes apporte la propriété de scalabilité sur la géométrie du maillage et elle est adaptée au rendu temps-réel des modèles 3D Principe Les données d entrée sont celles issues de l analyse de la séquence. Plus précisément, pour chaque GOP on dispose d une carte de profondeur correspondant à la première image du GOP, et des paramètres de la caméra pour chaque image du GOP. L objectif est de construire à partir de chaque carte de profondeur un maillage 3D hiérarchique, dont la connectivité est cohérente avec celle des maillages

81 Modélisation 3D pour la communication vidéo 79 FIG Représentation hiérarchique proposée 3D associés aux GOPs voisins. Un schéma général de la représentation est présenté sur la figure On définit pour le GOP k, l lage de base B k qui en est sa représentation la plus grossière et le maillage fin F k qui est le maillage de résolution la plus élevée, équivalente à la résolution de la carte de profondeur. Le maillage hiérarchique est ensuite codé à l aide d une décomposition en ondelettes de seconde génération. Les coefficients d ondelettes r k i représentent les raffinements entre B k et F k,et les coefficients d échelle e k i représentent la géométrie du modèle de base B k. Du fait de la cohérence temporelle de la décomposition, on peut également envisager un codage différentiel exprimé par des raffinements temporels d k i entre deux maillages successifs au même niveau de résolution Maillage de connectivité unique Pour assurer une connectivité commune des modèles alors que leur géométrie est différente, on sépare la connectivité et la géométrie. Un graphe bidimensionnel, dénommé maillage de connectivité unique (MCU) contient l information de connectivité de tous les maillages de base. Un indice unique est attribué à chaque sommet du MCU, ce qui permet d identifier directement les sommets de deux modèles correspondant au même point physique : ils ont même indice dans le MCU. Comme elle s appuie sur le MCU, la décomposition en ondelettes est cohérente au cours du temps. Ainsi, deux maillages 3D successifs peuvent être codés par des coefficients différentiels d k i, à tout niveau de résolution.

82 80 L. Morin Construction des modèles Pour chaque GOP, on définit d abord le maillage de base B k. Pour le premier GOP (k =0),le maillage de base B 0 est défini à partir d un ensemble de points d intérêt de Harris détectés dans la première image du GOP (image clé), et d une triangulation de Delaunay contrainte par les bords de l image. Le maillage de base 3D B 0 est obtenu par élévation de ce maillage 2D à l aide de la carte de profondeur associée. Pour les GOPs suivants le maillage de base B k est construit avec les contraintes suivantes : les sommets comprennent les correspondants des sommets du maillage B k 1 encore visibles dans K k, de nouveaux sommets sont ajoutés dans les zones entrantes et sur les bords de l image K k, les arêtes du maillage précédent B k 1 sont conservées, Ceci est réalisé par une triangulation de Delaunay contrainte par les arêtes du maillage précédent. La hiérarchie de modèles 3D est ensuite obtenue par subdivision régulière du maillage de base. Chaque niveau de résolution est obtenu par quadrisection des faces du maillage du niveau de résolution inférieur. La subdivision est réalisée jusqu à obtention du maillage fin F k dont la résolution équivaut à celle de la carte de profondeur (taille des arêtes inférieure au pixel) Encodage par ondelettes La géométrie des maillages hiérarchiques est encodée grâce à une décomposition en ondelettes de seconde génération ou ondelettes géométriques. Les ondelettes de seconde génération sont nécessaires ici car les ondelettes classiques dites de première génération sont limitées aux espaces linéaires et ne s appliquent donc pas à des données définies sur un échantillonnage irrégulier. Les filtres linéaires d analyse et de reconstruction sont définis à partir du filtre de reconstruction passe-bas P j. Celui-ci réalise la subdivision par quadrisection et la prédiction des sommets au niveau de résolution j +1 à partir des sommets au niveau de résolution inférieure j. Le filtre passe-haut de reconstruction Q j produit le résidu de prédiction. Les filtres d analyse correspondants sont définis par la contrainte de reconstruction parfaite. La géométrie du maillage au niveau de résolution j +1est donc définie par : ( ) e e j+1 =(P j Q j j ) (4.11) où les coefficients e j définissent le maillage au niveau de résolution j et et les coefficients r j sont les résidus de prédiction. Les fonctions d échelle ψ j i et d ondelette φ j i associées à chaque sommet i du niveau j sont directement déduites des filtres. Ainsi, le maillage fin F se décompose sur cette base comme : F = r j i φ j i + e 0 i ψi 0 j 0 i i r j

83 Modélisation 3D pour la communication vidéo 81 Les coefficients e 0 i sont donc les coefficients d échelle définissant les sommets s 0 du maillage de base. Dans notre cas, les maillages étant des cartes d élévation, leur géométrie est définie par la profondeur de chaque sommet le long de sa ligne de vue. La décomposition est donc réalisée sur une grandeur scalaire. On utilise la transformation en ondelettes lazy. Ce choix est justifié par sa simplicité algorithmique qui permet un décodage temps réel. D un point de vue géométrique, cette décomposition consiste à prédire un nouveau sommet apparaissant sur une arête par le milieu de l arête (voir figure 4.13). M M j+1 p M M j m j n j n M j+1 p p j M nm M j m C k j n MM M M C k : maillage à la résolution : maillage à la résolution j+1 j m: arête mère à la résolution j j n : sommet à la résolution j j+1 p : sommet à la résolution j+1 : position de la caméra j FIG La prédiction du nouveau sommet Mp j+1 est donnée par le point Mnm j milieu de l arête (Mn,M j m). j Le résidu de prédiction est alors la différence de profondeur p. La décomposition est adaptative : toutes les faces ne sont pas décomposées avec le même nombre de subdivisions. Chaque face est subdivisée jusqu à ce que toutes les faces du maillage respectent un critère de subdivision donné Résultats Nous avons testé deux critères de subdivision, l un basé sur l aire 3D de la face, l autre basé sur l erreur de reprojection 2D des sommets de la face (voir figure 4.14). Différents seuils produisent les différents niveaux de résolution avec lesquels le maillage est encodé. Ces maillages ne sont pas directement comparables, car ils ne s appuient pas sur les mêmes sommets ni sur le même critère d erreur.

84 82 L. Morin a b c FIG Décomposition adaptative basée sur le critère sur la taille des facettes pour la séquence Thabor : maillage de base (234 sommets et 425 faces) (a), maillage obtenu avec un seuil sur l aire 3D de 0.15 (10783 sommets et faces) (b) et maillage obtenu avec un seuil sur l erreur 2D de 0.15 (13765 sommets et faces) (c). On montre sur la figure 4.15 les maillages et les images reconstruites correspondantes pour 3 niveaux de résolution. On peut remarquer qu il est nécessaire d appliquer la correction perspective de texture (voir partie 3 section 3.3.5) sur le maillage de base, en raison de la grande taille des triangles : le résultat obtenu sans correction de texture est montré en arrière-plan du maillage de base (figure 4.15 (a)). 4.5 Application à la réalité augmentée La mise en cohérence permet d envisager des applications de réalité augmentée où on visualise simultanément des informations synthétiques et réelles. On montre ici les résultats de reconstruction d image pour des applications de réalité virtuelle et augmentée. Les figures 4.16 et 4.17 montrent des exemples d incrustation d objets synthétiques dans la scène. On observe que l objet apparaît bien situé au même endroit dans les deux modèles successifs, ceci grâce à la mise-en-cohérence par ajustement glissant. Dans la figure 4.17, on peut voir que la modélisation 3D de la scène permet de gérer correctement les effets d occultation de l objet synthétique sur la scène réelle. Ceci serait bien sûr impossible avec une modélisation 2D. On peut également modifier l illumination de la séquence vidéo en ajoutant des sources de lumière dans la scène 3D. Celles-ci sont automatiquement prises en compte lors du rendu par OpenGL (voir figure 4.18). Une autre application de la représentation 3D est la génération d une séquence stéréoscopique à partir de la séquence monoculaire. Pour cela on génère pour chaque image deux points de vue virtuels légèrement décalés horizontalement (i.e. sur l axe x du repère caméra) respectivement à gauche et à droite du centre optique. Ainsi on génère deux séquences vidéo, l une pour l œil gauche et l autre pour l œil droit. Cette application de rendu stéréoscopique a été mise en œuvre dans la salle de réalité virtuelle de l IRISA.

85 Modélisation 3D pour la communication vidéo 83 a b c FIG Séquence Saint Sauveur : maillages et images reconstruites à différents niveaux de géométrie : niveau 0 : maillage de base (a), niveau 2 adaptatif (b), et niveau 3 adaptatif (c).

Montrer encore