Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 1. Johan Brulez Promotion 2010



Documents pareils
Chapitre 2 Les ondes progressives périodiques

LES DIFFÉRENTS FORMATS AUDIO NUMÉRIQUES

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Chapitre 18 : Transmettre et stocker de l information

Chaine de transmission

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

ACOUSTIQUE 3 : ACOUSTIQUE MUSICALE ET PHYSIQUE DES SONS

Didier Pietquin. Timbre et fréquence : fondamentale et harmoniques

modélisation solide et dessin technique

Caractéristiques des ondes

SDLV120 - Absorption d'une onde de compression dans un barreau élastique

«Tous les sons sont-ils audibles»

La prise de son 5.0 en Haute Résolution Spatiale

MASTER 2 IMAFA. Informatique et Mathématiques Appliquées à la Finance et à l'assurance

Environnement logiciel open source pour la création d œuvres artistiques interactives

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

PRODUIRE DES SIGNAUX 1 : LES ONDES ELECTROMAGNETIQUES, SUPPORT DE CHOIX POUR TRANSMETTRE DES INFORMATIONS

Export vers le format WAV dans ArtemiS SUITE

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

PROBABILITES ET STATISTIQUE I&II

Logiciel CATT-Acoustic v9 code de calcul TUCT Présentation détaillée

Chapitre I La fonction transmission

TP 03 B : Mesure d une vitesse par effet Doppler

Cours d Acoustique. Niveaux Sonores Puissance, Pression, Intensité

Enregistrement et transformation du son. S. Natkin Novembre 2001

PRESENTATION DU BUREAU D'ETUDES ALTIA

Traitement numérique de l'image. Raphaël Isdant

«Le Dolby Digital 5.1 et les tests en champ libre par ordinateur»

Chapitre 13 Numérisation de l information

Transmission d informations sur le réseau électrique

TRAVAUX PRATIQUES SCIENTIFIQUES SUR SYSTÈME

EIP 2012 Projet Livepad. Documentation technique 1.5

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

CHAP 08-COURS Son et architecture

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Rapport d'analyse des besoins

MS PROJECT Prise en main. Date: Mars Anère MSI. 12, rue Chabanais PARIS E mail : jcrussier@anere.com Site :

Une fréquence peut-elle être instantanée?

INTRODUCTION. A- Modélisation et paramétrage : CHAPITRE I : MODÉLISATION. I. Paramétrage de la position d un solide : (S1) O O1 X

Analyse des bruits de clavier d ordinateur

5.2 Théorème/Transformée de Fourier a) Théorème

LA SURVEILLANCE ET LE SUIVI DE L'ENVIRONNEMENT. Pierre Guimont Conseiller en environnement Unité Environnement Division Équipement, Hydro-Québec

Reaper : utilisations avancées

La prise de son en Format B Horizontal. Julien Bréval

Régler les paramètres de mesure en choisissant un intervalle de mesure 10µs et 200 mesures.

Projet audio. Analyse des Signaux ELE2700

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Développement d'un projet informatique

Numérisation du signal

BACCALAURÉAT GÉNÉRAL SÉRIE SCIENTIFIQUE

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

Chapitre 2 Caractéristiques des ondes

BULLETIN D INSCRIPTION

SONS. Dossier pédagogique. Enseignants Niveau lycée

La visio-conférence holographique : Pourquoi? Comment?

POLITIQUE SUR LA SÉCURITÉ LASER

Chapitre 1 : Introduction aux bases de données

Production de documents audio-numériques

Utilisation du Bluetooth headset avec le hub sans fil Logitech

La chanson lumineuse ou Peut-on faire chanter la lumière?

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

Choix d'enceintes de monitoring et autres...

Résumé non technique. Tableaux d estimation

Firewall. Souvent les routeurs incluent une fonction firewall qui permet une première sécurité pour le réseau.

Guide de l'utilisateur de l'utilitaire d'installation de caméra Avigilon

Observer TP Ondes CELERITE DES ONDES SONORES

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

LABO 5 ET 6 TRAITEMENT DE SIGNAL SOUS SIMULINK

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

La (les) mesure(s) GPS

Cours Informatique 1. Monsieur SADOUNI Salheddine

claroline classroom online

G.P. DNS02 Septembre Réfraction...1 I.Préliminaires...1 II.Première partie...1 III.Deuxième partie...3. Réfraction

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

Logiciel d analyse et de gestion du bruit OUIE2000

Réseau : Interconnexion de réseaux, routage et application de règles de filtrage.

Outils permettant la diffusion de l information. Un point sur le droit numérique

Champ électromagnétique?

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

TEXT MINING von 7

Référentiel d'activités professionnelles et référentiel de certification Diplôme d'état de professeur de musique

Chapitre 22 : (Cours) Numérisation, transmission, et stockage de l information

BACCALAURÉAT PROFESSIONNEL EPREUVE DE TRAVAUX PRATIQUES DE SCIENCES PHYSIQUES SUJET A.1

DETERMINER LA LARGEUR DE PAGE D'UN SITE et LES RESOLUTIONS d'ecran

Master Information et communication spécialité Produits et services multimédia

Immersion - Vision 3D dans la RV.

Q6 : Comment calcule t-on l intensité sonore à partir du niveau d intensité?

2. Activités et Modèles de développement en Génie Logiciel

Qui ont toujours à mon côté pour me soutenir et me guider au long de ce projet.

Evaluation de la variabilité d'un système de mesure

Traitement numérique du son

Nb. De pages : 24 MANGO. Manuel d'utilisation. Version 1.2. décembre 2010

DIFFRACTion des ondes

En mars 2001, à l occasion d une journée

Réseaux : Wi-Fi Sommaire. 1. Introduction. 2. Modes de fonctionnement. 3. Le médium. 4. La loi. 5. Sécurité

Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte»

Business Intelligence avec SQL Server 2012

Transcription:

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 1 Johan Brulez Promotion 2010 Ecole Centrale de Marseille Troisième année Parcours d'approfondissement «Acoustique, Sons et Environnement» Filière métier «Recherche et Développement» Master «Mécanique, Physique et Ingénierie» Deuxième année Recherche Spécialité «Acoustique» Projet de Fin d'etudes Stage Master II du 29 mars au 24 septembre 2010 Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé Laboratoire d'informatique pour la Mécanique et les Sciences de l'ingénieur

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 2

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 3 Remerciements J'aimerais exprimer toute ma gratitude à Monsieur Patrick Le Quéré, Directeur du Laboratoire d'informatique pour la Mécanique et les Sciences de l'ingénieur (LIMSI), pour m'avoir permis d'effectuer mon Projet de Fin d'etudes dans son établissement ; Monsieur Brian F.G. Katz, Chargé de Recheche au LIMSI, mon responsable de Projet de Fin d'etudes pour ses riches et nombreux conseils ; Les doctorants et stagiaires de l'équipe «Audio et Acoustique» pour leur bonne humeur ; Les permanents, doctorants et stagiaires du LIMSI pour leur ouverture scientifique. Enfin, je tenais à remercier l'ensemble du personnel du LIMSI.

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 4 Résumé A partir des caractéristiques géométriques et des matériaux de la salle, la prédiction acoustique tente de simuler numériquement la réponse impulsionnelle de la salle étudiée. Il s'agit de la fonction de transfert dans le domaine temporel entre deux points de la salle : la source et le récepteur, respectivement musicien et auditeur dans le cas de salles de concerts. La réponse impulsionnelle traduit la transformation sonore par la salle sur le son issu de la source avant qu'il arrive au récepteur. L'auralisation de l'effet de salle consiste à rendre audible les simulations numériques de l'acoustique de salles. Cette restitution sonore justifie l'utilisation de logiciels en temps réel pour la prédiction acoustique. En effet, des éléments comme la position d'un auditeur ou celle des sources peuvent être amenés à varier au cours de la restitution. Un outil complet de restitution ambisonique du troisième ordre à dix-huit haut-parleurs, dont deux simulés, a été mis en place et calibré en vue de l'auralisation spatialisée de l'effet de salle. La prédiction acoustique a utilisé les logiciels EVERTims (temps réel) et CATT-Acoustic (temps différé). En ce qui concerne CATT-Acoustic, il a été nécessaire de réaliser l'outil de convolution qui traite les réponses impulsionnelles fournies par le logiciel en vue de réaliser l'auralisation. Quant à EVERTims, il s'agit d'un logiciel libre dont le module d'auralisation présente quelques imprécisions. Des modifications ont été réalisées en vue d'assurer la communication entre les différents modules qui le composent, d'afficher les contributions des différentes parties de la réponse impulsionnelle ou encore de contrôler la réverbération tardive à partir de temps de réverbération. Après avoir étudié les techniques de qualification de l'acoustique de salles, des réponses impulsionnelles de salles simulées ont été mesurées par l'intermédiaire du système de restitution. Une comparaison d'indices objectifs a ainsi été mise en place entre les deux logiciels tout en évaluant la fidélité du système de restitution ambisonique. L'étude comparative a permis de dégager des directions d'amélioration des outils ainsi que de nouvelles problématiques comme la mise en regard de mesures objectives avec des tests perceptifs ou encore le besoin de mesures en salle réelle pour disposer d'une référence.

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 5 Glossaire Acoustique des salles : science des comportements acoustiques d'une salle visant à offrir la meilleure qualité possible d'écoute à différents lieux Ambisonie : technique de captation, synthèse et reproduction d'environnement sonore Auralisation : processus de rendu audible de simulations numériques Convolution : opération qui consiste en la combinaison de deux fonctions, généralisant la notion de moyenne glissante Réponse impulsionnelle : fonction de transfert, dans le domaine temporel d'un système ; dans le cas de l'acoustique des salles, il s'agit de la fonction de transfert entre une source et un récepteur ; elle traduit la transformation sonore par la salle sur le son émis par la source et avant qu'il arrive au récepteur Système temps réel : système informatique qui contrôle un procédé physique à une vitesse adaptée à l'évolution du procédé contrôlé

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 6 Table des matières Introduction 8 Première partie 9 Chapitre I : Environnement du Projet de Fin d'etudes 9 I.1. Le LIMSI, laboratoire du CNRS 9 I.2. L'auralisation au sein de l'équipe «Audio et Acoustique» 10 I.3. Découvertes, ouverture et rencontres 11 Chapitre II : Objectifs et panorama général 12 II.1. Prédiction d'acoustique de salles 12 II.1.a. Le besoin de la prédiction 12 II.1.b. Les moyens pour prédire 12 II.1.c. Prédiction en temps réel et en temps différé 13 II.2. Auralisation spatialisée de l'effet de salle 14 II.2.a. Auralisation 14 II.2.b. Restitution spatialisée et ambisonie 14 II.2.c. Le système de restitution proposé 15 II.3. La mission du Projet de Fin d'etudes 15 II.3.a. Prédiction acoustique 15 II.3.b. Restitution spatialisée 16 II.3.c. Comparaison d'indices objectifs 16 Seconde partie 17 Chapitre III :Prédiction acoustique 17 III.1. Des techniques de prédiction en acoustique des salles 17 III.1.a. Acoustique géométrique 17 III.1.b. Technique des sources images 17 III.2. Les outils utilisés pour la prédiction 18 III.2.a. CATT-Acoustic 18 III.2.b. Pure Data, EVERTims et compagnie 19 III.2.c. Vue d'ensemble des outils de prédiction 20 III.3. Utilisation de l'existant 21 III.3.a. Conception de modèles de salles avec CATT-Acoustic 21 III.3.b. Génération de réponses impulsionnelles avec CATT-Acoustic 21 III.3.c. Conception de modèles de salle pour EVERTims 22 III.4. Modification d'evertims 22 III.4.a. Interface de déplacement des sources, récepteurs et caméra 22 III.4.b. Communication entre EVERtims-pd et Max/MSP 23 III.4.c. Affichage du niveau des sons direct, précoce et diffus 23 III.4.d. Contrôle de la réverbération tardive à partir de temps de réverbération 24 III.5. Création d'outils de convolution 25 III.5.a. Convolution de signaux discrets 25 III.5.b. Quelques outils de convolution et leurs inconvénients 26 III.5.c. Architecture des programmes créés et utilisés 26

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 7 Chapitre IV : Restitution sonore spatialisée 28 IV.1. L'ambisonie, une restitution sonore spatialisée 28 IV.1.a. Quelques restitutions sonores spatialisées 28 IV.1.b. Vue d'ensemble du processus ambisonique 29 IV.1.c. Encodage et décodage 30 IV.2. Répartition homogène des dix-huit haut-parleurs 30 IV.2.a. De Bulatov à Leopardi 30 IV.2.b. Coordonnées de Hoop 31 IV.2.c. Contraintes et disposition choisie 32 IV.3. Outils nécessaires 34 IV.3.a. Vue d'ensemble de la restitution sonore 34 IV.3.b. Matériel audio et câblage 35 IV.3.c. Interface informatique pour le filtrage 37 IV.4. Calibration et filtrage des haut-parleurs 38 IV.4.a. Calibration en niveau 38 IV.4.b. Filtres inverses et calibration en fréquence 38 IV.4.c. Calibration en retard 40 Chapitre V : Comparaison d'indices objectifs 41 V.1. Qualification d'acoustique de salles 41 V.1.a. Histoire et indices subjectifs 41 V.1.b. Réponse impulsionnelle et indices objectifs 42 V.2. Mesures de réponses impulsionnelles 44 V.2.a. Norme et traitement du signal 44 V.2.b. Ballon et salle d'expérience 45 V.2.c. Microphone et salles simulées 45 V.3. Conditions et paramètres des mesures 46 V.3.a. Bandes de fréquences de l'étude 46 V.3.b. Indices objectifs mesurés 46 V.3.c. Salles étudiées 47 V.3.d. Paramètres des logiciels 47 V.3.e. Etapes d'auralisation 48 V.4. Résultats et conclusions 48 V.4.a. Paramètres de CATT-Acoustic 48 V.4.b. Paramètres d'evertims 51 V.4.c. CATT-Acoustic et EVERTims 53 V.4.d. Modes de salle et différence perceptible 54 V.5. Perspectives 55 V.5.a. Comparaisons objectives 55 V.5.b. Comparaison subjectives 55 V.5.c. Campagne de mesures en salle réelle 55 Conclusion 56 Bibliographie 57 Table des figures 59 Tables des annexes 60

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 8 Introduction Prédire l'acoustique d'une salle avant sa construction permet d'évaluer si le bâtiment pourra répondre aux attentes des constructeurs en ce qui concerne ses fonctions acoustiques. Majoritairement réalisée par informatique avec des logiciels à temps différé, la prédiction acoustique en temps réel est légitime lorsqu'elle est accompagnée d'une restitution sonore. En effet, des éléments comme la position d'un auditeur ou celle des sources peuvent être amenés à varier au cours de la restitution. En outre, lors de l'évaluation de l'acoustique d'une salle, l'importance des réflexions latérales est un facteur déterminant. Ainsi, il est judicieux d'avoir recours à une restitution sonore spatialisée de l'acoustique d'une salle. Comparer ces éléments entre eux et différentes de leurs versions, tout en évaluant leur fidélité à la réalité, est au centre de la mission du Projet de Fin d'etudes de l'ecole Centrale de Marseille et du stage de master 2 «Acoustique» de l'université de Provence intitulée «Auralisation spatialisée de l'effet de salle : synthèse en temps réel VS synthèse en temps différé» et réalisée au Laboratoire d'informatique pour la Mécanique et les Sciences de l'ingénieur entre le 29 mars et le 24 septembre 2010. Une problématique double est posée par cette mission. D'une part, elle se devra d'articuler les attentes d'un Projet de Fin d'etudes de centralien avec celles d'un stage de master recherche en acoustique. D'autre part, il sera nécessaire de disposer du matériel approprié en vue de procéder aux comparaisons des méthodes de prédiction acoustique en temps réel ou à temps différé. Afin de répondre à cette double problématique, le présent rapport est articulé en deux parties. La première présente l'environnement de travail (chapitre I) puis une vision d'ensemble du projet (chapitre II). La seconde partie suit l'ordre chronologique de l'auralisation : la prédiction acoustique (chapitre III) permet de diffuser l'acoustique d'une salle au moyen d'un système de restitution sonore (chapitre IV) grâce auquel des comparaisons objectives ont été mises en place (chapitre V).

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 9 Première partie Chapitre I - Environnement du Projet de Fin d'etudes Le Projet de fin d'etudes s'est déroulé entre avril et septembre 2010 au sein du Laboratoire d'informatique pour la Mécanique et les Sciences de l'ingénieur (LIMSI). La mission s'articulait plus particulièrement dans le groupe «Audio et Acoustique» sur le thème «Son et espace» et la problématique de l'auralisation en acoustique des salles. Le cadre et le rythme de travail, riches, intenses et favorisant les échanges correspondent à ce qu'on attend d'une mission de recherche. I.1. Le LIMSI, laboratoire du CNRS La recherche en France est assurée par les universités et différents organismes de recherche. Dans ces deux cadres, près de 200 000 personnes y contribuent. Le Centre Nationale de la Recherche Scientifique (CNRS) est un organisme public de recherche sous la tutelle du Ministère de l'enseignement Supérieur et de la Recherche. Il réunit plus de 32 000 employés dont 26 000 statutaires (11 600 chercheurs et 14 400 ingénieurs, techniciens et administratifs). Le budget de plus de trois milliards d'euros se repartit au sein de 1 100 unités de recherche et d'une centaine d'unités de service.

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 10 Le LIMSI est une unité propre de recherche du CNRS, associée aux Universités Pierre et Marie Curie (UPMC) et Paris-Sud 11. Environ 120 permanents et une soixantaine de doctorants y mènent des recherches pluridisciplinaires, en Mécanique et Energétique et en Sciences et Technologies de l'information et de la Communication (STIC). Les thèmes de recherche couvrent un large spectre disciplinaire, allant du «thermodynamique au cognitif», en passant par la mécanique des fluides, l'énergétique, l'acoustique, l'analyse et la synthèse vocale, le traitement de la langue parlée et du texte, la vision et la perception, la réalité virtuelle et augmentée, etc. I.2. L'auralisation au sein du groupe «Audio et Acoustique» Le groupe Audio et Acoustique réunit les activités du LIMSI autour du son. Le son est étudié avec une triple approche STIC (aspects audio-numérique, informatique et traitement du signal audio), acoustique (approche de type physique, acoustique des salles, audition) et perceptive (aspects perceptifs et cognitifs de l'expression sonore, en particulier dans la parole). Le son est considéré dans l'espace, qu'il soit réel ou virtuel. Le groupe s'intéresse au son expressif, voix, parole, instruments, musique, ainsi qu'à la production et au contrôle du son par des dispositifs temps réel. Les sujets de recherches abordés sont groupés selon trois axes : le son et l'espace (spatialisation du son et audio 3D, audition spatiale, réalité virtuelle audio, acoustique des salles), la prosodie expressive (production et perception d'affects et leurs relations avec le langage et la culture, analogies entre expression vocale et musicale), l'analyse et synthèse audio (analyse du signal audio, analyse de la source vocale, synthèse à partir du texte, synthèse temps réel et contrôle gestuel, voix chantée, organologie et acoustique, instruments de musique à clavier). L'acoustique des salles est envisagée sous différents aspects : avec des outils de simulation et de mesure, autour du problème inverse (estimation de géométries à partir de paramètres acoustiques), de l'étude des volumes couplés pour les salles de spectacle ou encore de l'auralisation. L'auralisation consiste à rendre audible (en analogie avec la visualisation) des simulations. Elle est utilisée en archéologie acoustique (reconstruction numérique et étude acoustique de salles détruites) ou pour comparer des logiciels de prédiction acoustique. Le Projet de Fin d'etudes a porté sur cette dernière facette.

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 11 I.3. Découvertes, ouverture et rencontres Un laboratoire de recherche du CNRS est un nœud d'interactions pour des projets de recherche. Chaque échange permet aux protagonistes d'envisager leur projet d'une nouvelle manière. La participation à des expériences collaboratives, à des démonstrations de réalité virtuelle autant que des expériences autour de la représentation d'émotions offrent une grande richesse pour découvrir de nouveaux domaines et enrichir celui du projet personnel. Au sein de l'équipe et par l'intermédiaire de réunions hebdomadaires, la découverte de notions comme la Wave Field Synthesis (précisée dans le chapitre IV), l'étude de volumes couplés grâce à des maquettes à échelle réduite, la recherche sur le flou audio ou encore le guidage pour les personnes mal voyantes ont également été un apport riche. Le partage des avancées et des problèmes de chacun offre un plus pour la motivation personnelle.

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 12 Chapitre II - Objectifs et panorama général II.1. Prédiction d'acoustique de salles II.1.a Le besoin de la prédiction Détaillée dans le chapitre III, la prédiction acoustique tente d'évaluer la réponse d'une salle lorsque du son y est produit. Parmi d'autres, les intérêts principaux de la prédiction acoustique sont l'archéologie, la prévision et la comparaison. L'archéologie acoustique consiste à reconstruire numériquement l'acoustique de salles particulières qui ont été détruites ou détériorées. La prévision est utilisée pour évaluer l'acoustique d'une salle en amont de sa construction, à partir des plans d'architecte par exemple. Enfin, la prédiction acoustique peut permettre de comparer des salles entre elles sans être présent dans les lieux qui peuvent alors se situer à des milliers de kilomètres. II.1.b Les moyens pour prédire La prédiction d'acoustique de salles est très majoritairement réalisée par informatique. Détaillées dans la section III.1, les techniques utilisent notamment l'acoustique géométrique en faisant une analogie entre le son et la lumière, deux phénomènes ondulatoires, le premier mécanique et le second électromagnétique. L'idée générale est de prédire la réponse impulsionnelle à un endroit précis de la salle (lieu du récepteur) lorsqu'un autre endroit est excité par une impulsion (lieu de la source). La salle peut être complexe, à volumes couplés mais également contenir de multiples sources et récepteurs (orchestre et public nombreux, par exemple). La réponse impulsionnelle est la fonction de transfert, dans le domaine temporel, d'un système. Dans le contexte de l'acoustique des salles, il s'agit de la fonction de transfert entre deux points : la source et le récepteur. Elle traduit la transformation sonore par la salle sur le son avant qu'il arrive au récepteur.

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 13 Les rayons acoustiques dans l'approximation de l'acoustique géométrique sont présentés sur la figure suivante : Figure II.1.b.1 : Rayons acoustiques pour la prédiction acoustique La réponse impulsionnelle peut être schématisée de cette manière : Figure II.1.b.2 : Réponse impulsionnelle de salle Les réflexions dites «précoces» appartiennent à la partie de la réponse impulsionnelle dans laquelle les différentes réflexions sont distinctes. A contrario, à la fin de la réponse, les réflexions sont diffuses, elles ne peuvent plus être distinguées les unes des autres : il s'agit des réflexions tardives. II.1.c Prédiction en temps réel et en temps différé Deux catégories de méthodes de prédiction sont à rapprocher des logiciels qui les utilisent. Il s'agit des méthodes utilisables en temps réel et de celles qui ne le sont pas : les méthodes de prédiction à

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 14 temps différé. Un procédé en temps réel contrôle un phénomène physique à une vitesse adaptée à l'évolution de ce phénomène. En acoustique des salles, une méthode de prédiction sera «temps réel» si elle évolue assez rapidement pour déterminer l'acoustique de la salle suite à des modifications de positions des sources ou des récepteurs. Un des objectifs du Projet de Fin d'etudes consiste à évaluer des différences entre un logiciel de prédiction en temps réel (EVERTims) et d'un second, utilisant la prédiction en temps différé (CATT-Acoustic). Des différences sont présentées dans le chapitre V. En plus des résultats numériques et en vue de comparaisons subjectives sur le ressenti de l'auditeur dans une salle, la possibilité d'une diffusion de l'acoustique «comme si on y était» devient légitime. II.2. Auralisation spatialisée de l'effet de salle II.2.a Auralisation L'auralisation est la technique de création de sons à partir de données numériques, que ces dernières soient simulées, mesurées ou synthétisées. [17]. Une fois la prédiction de la réponse impulsionnelle réalisée, il est intéressant de pouvoir écouter d'autres sons que des impulsions associées à leurs diverses réflexions dans la salle. L'auralisation consiste donc à créer un son, convolution entre la réponse impulsionnelle et un autre son qui sera entendu dans la salle modélisée. Cette notion est détaillée au paragraphe III.5. Une fois la convolution réalisée, il est nécessaire de diffuser ces informations pour les rendre audibles. L'auralisation, au même titre que la visualisation pour des données numériques visuelles, consiste donc à «rendre» audibles des données numériques. II.2.b Restitution spatialisée et ambisonie En auralisation de l'acoustique des salles, l'impression d'espace est très importante. En effet, les réflexions latérales et leur perception jouent un grand rôle dans la qualité donnée à une salle de concerts ou d'opéra. [4]. Ainsi, il est légitime d'utiliser une restitution sonore spatialisée lors de l'auralisation de l'effet de salle. Quelques méthodes de restitution sonore spatialisée sont présentées dans la section IV.1. L'ambisonie est une restitution sur haut-parleurs par encodage et décodage. Le processus utilise la base des harmoniques sphériques (ou transformées de Fourier spatiales) en tant qu'intermédiaire

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 15 entre la scène sonore à reproduire et l'ensemble des haut-parleurs à disposition pour la diffusion. Plus d'harmoniques sphériques sont utilisées pour la décomposition, plus la précision et l'ordre du système sont élevés. La reproduction ambisonique peut être utilisée en deux ou trois dimensions avec des haut-parleurs respectivement disposés en cercle dans le plan d'écoute ou en sphère autour de l'auditeur. II.2.c Le système de restitution proposé La théorie ambisonique recommande une répartition homogène des haut-parleurs autour de l'auditeur. [8]. Pour le Projet de Fin d'etudes, un système du troisième ordre a été choisi, devant la précision de son rendu ; il impose un nombre minimal de seize haut-parleurs. Détaillé dans la section IV.2, le choix de la répartition des haut-parleurs a finalement conduit à utiliser dix-huit parleurs dont deux simulés par l'intermédiaire des seize autres. Présenté dans le chapitre V, un des objectifs du Projet de fin d'etudes est d'évaluer la pertinence d'un tel système de restitution en vue d'une auralisation spatialisée de l'effet de salle. Plus précisément, il s'agit de déterminer dans quelle mesure la fidélité avec la salle d'origine est affectée par la restitution ambisonique du troisième ordre. II.3. La mission du Projet de Fin d'etudes II.3.a Prédiction acoustique Détaillée dans le chapitre III, la prédiction acoustique a été étudiée. Les techniques utilisées par EVERTims et CATT-Acoustic sont différentes. En ce qui concerne CATT-Acoustic, il a été nécessaire de réaliser l'outil de convolution qui traite les réponses impulsionnelles fournies par CATT-Acoustic en vue de réaliser l'auralisation. Il s'agit de réponses impulsionnelles à seize canaux dans le cas du troisième ordre ambisonique qu'il a chacune fallu convoluer avec un son anéchoïque. Quant à EVERTims, il s'agit d'un logiciel libre donc le module d'auralisation présente quelques imprécisions. Des modifications, précisées au paragraphe III.4, ont été réalisées en vue d'assurer la communication entre les différents modules qui le composent, d'afficher les contributions des différentes parties de la réponse impulsionnelle ou encore de contrôler la réverbération tardive à partir de temps de réverbération et non de caractéristiques géométriques et de matériaux de la salle. Ainsi, EVERTims est une plateforme de recherche encore en

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 16 développement dont de nombreuses erreurs ont été trouvées et modifiées. Certaines demeurent encore au moment de la rédaction de ce présent rapport. D'ici le 24 septembre et la fin du Projet de Fin d'etudes, il sera tenté de les résoudre. II.3.b Restitution spatialisée Un outil complet de restitution ambisonique du troisième ordre à dix-huit haut-parleurs a été mis en place. Abordée dans la chapitre IV, l'installation a été précédée d'une répartition homogène des hautparleurs sur une sphère et suivie d'une calibration en niveau, en fréquence et en retard. II.3.c Comparaison d'indices objectifs Après avoir étudié les techniques de qualification de l'acoustique de salles (chapitre V.1), des réponses impulsionnelles de salles simulées ont été mesurées par l'intermédiaire du système de restitution. L'étude comparative a permis de dégager des directions d'amélioration des outils ainsi que de nouvelles problématiques comme la mise en regard de mesures objectives avec des tests perceptifs ou encore le besoin de mesures en salle réelle pour disposer d'une référence. Prédiction acoustique Auralisation CATT-Acoustic VirChor EVERTims EVERTims-pd Convolution Matlab EVERTims-pd Décodage Amibsonique & Diffusion Modèle de la salle : géométrie et matériaux Réponses impulsionnelles ambisoniques Figure II.3.c : Vue d'ensemble des modules de prédiction et d'auralisation Enregistrement Comparaisons d'indices

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 17 Seconde partie Chapitre III -Prédiction acoustique III.1.Des techniques de prédiction en acoustique des salles III.1.a Acoustique géométrique De manière générale en acoustique, les techniques de prédiction peuvent être basées sur la résolution de l'équation des ondes ou sur l'acoustique géométrique. En ce qui concerne la résolution numérique de l'équation des ondes, elle n'est pas efficiente pour les phénomènes large bande et à grande dynamique tels que ceux de l'acoustique des salles. En revanche, l'acoustique géométrique et son approximation hautes fréquences semblent plus adaptées. [16]. III.1.b Technique des sources images En acoustique géométrique, qui fournit les chemins acoustiques, on distingue une nouvelle fois deux familles de méthodes de prédiction : le tracé de rayons et le modèle de source image. La première utilise les procédés aléatoires de Monte-Carlo et exige de longs temps de calcul tandis que la seconde, plus rapide pour permettre de travailler en temps réel, détermine l'ensemble des réflexions dites spéculaires pour prédire l'acoustique. [16].

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 18 Une réflexion spéculaire est l'onde émise par une source dite image. Cette image est celle de la source réelle par un miroir plan confondu avec la surface de réflexion. La prédiction détermine les différents ordres de réflexions sur chaque surface, illustrés sur les schémas suivants : 4 Ordre 1 1 2 Ordre 2 3 1 4 1 2 1 3 2 4 2 4 Source réelle Source image (ordre 1) Source image (ordre 2) 3 4 Figure III.1.b.1 : Premier et deuxième ordres des réflexions spéculaires 3 1 2 3 III.2.Les outils utilisés pour la prédiction CATT-Acoustic est un logiciel commercial développé par la société suédoise CATT. Il peut, par exemple, utiliser AutoCAD pour la définition des géométries de la salle. En revanche, EVERTims est développé en Open Source par plusieurs laboratoires de recherche (LIMSI-CNRS et Aalto University School of Science and Technology, en Finlande). III.2.a. CATT-Acoustic La méthode de prédiction de CATT-Acoustic est une méthode hybride. En effet, le son direct et les premières réflexions spéculaires (son très précoce) sont déterminés par un modèle de sources images. Pour le complément (fin du son précoce et son réverbéré) et en superposition au son très précoce, une méthode de tracé de cône aléatoire à queue corrigée (RTC, en anglais Randomized Tail-corrected Cone-Tracing) est utilisée. Cette seconde méthode présente l'avantage de traiter les sons précoce et réverbéré par le même algorithme. Ainsi et contrairement aux méthodes de sources images, RTC offre la possibilité de traiter les réflexions diffuses sur toute la réponse impulsionnelle et non au choix entre le son précoce et le son réverbéré. [6]. Au cours du projet de fin d'études, une nouvelle version de CATT-Acoustic a été mise sur le marché. Elle comporte un nouveau code de calcul : The Universal Cone Tracing (TUCT). Les réponses impulsionnelles sont entièrement construites sur la base de tirs de cônes énergétiques sans

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 19 avoir recours aux considérations statistiques qui corrigent la queue de réverbération. Dans un premier temps, cette version ne fournissait pas de réponses impulsionnelles ambisoniques du troisième ordre ; il a donc fallu utiliser les anciens algorithmes de calcul de CATT-Acoustic. Après contact avec le directeur de la société CATT, Bengt-Inge Dalenbäck, une version d'essai du troisième ordre ambisonique a pu être utilisée à partir du cinquième mois du projet de fin d'études. [7]. Pour compléter l'auralisation, il est nécessaire de développer des programmes de convolution de sons anéchoïques et des réponses impulsionnelles fournies par CATT-Acoustic. Ils sont précisés dans ce chapitre, dans la section III.5. Décodage et diffusion sont abordés dans le chapitre IV. III.2.b Pure Data, EVERTims et compagnie En ce qui concerne EVERTims qui veut prédire l'acoustique en temps réel, il est nécessaire de diminuer le temps de calcul et des techniques similaires ne sont pas envisageables. Une technique de sources images est utilisée. L'itération en ordre de sources images est définie par la position de la source (réelle pour le premier ordre, image pour les suivants) et les polygones visibles dans le modèle : seuls les polygones dans le faisceau de réflexion sont utilisés pour construire l'ordre suivant. EVERTims est accompagné d'un système de visualisation des chemins acoustiques dans Virtual Choreographer (VirChor). On peut également y déplacer la source sonore et l'auditeur. [16]. Ce couple VirChor-EVERTims fournit alors les positions et ordres des réflexions à un outil d'auralisation nommé EVERTims-pd, développé par Markus Noisternig sous Pure Data, équivalent libre de Max/MSP : logiciel de programmation graphique pour la création musicale et multimédia en temps réel. Chaque couple récepteur-source (image ou réelle) fournit alors une réponse impulsionnelle qui est convoluée avec un son choisi par l'utilisateur. Les sons directs et précoces sont donc traités suivant la distance parcourue et l'absorption cumulée lors des multiples réflexions. En ce qui concerne la réverbération tardive, elle est contrôlée par une méthode statistique à partir de la donnée des dimensions de la salle, de l'absorption de l'air et de celle des murs. EVERTims-pd fournit le son encodé en ambisonie du troisième ordre. Pour compléter l'auralisation, le décodage et la diffusion sont abordés dans le chapitre IV. Il est important d'insister sur le fait que la prédiction avec EVERTims n'est pas encore complète grâce au modèle de source image : la réverbération tardive est réalisée par EVERTims-pd. Les développeurs préparent une prédiction de la réverbération tardive directement à partir d'evertims.

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 20 III.2.c Vue d'ensemble des outils de prédiction La prédiction centrée autour de CATT-Acoustic est la suivante : CATT-Acoustic MATLAB Paramètres géométriques et acoustiques Son anéchoïque Conception de l'espace sonore Calcul RTC ou TUCT Génération de réponses impulsionnelles ambisoniques Convolution. Salle Source Récepteur Figure III.2.c.1 : Vue d'ensemble de la prédiction acoustique avec CATT-Acoustic Celle basée sur EVERTims se présente comme telle : VirChor EVERTims EVERTims-pd Paramètres géométriques Paramètres acoustiques Son anéchoïque Conception de l'espace sonore Calcul de position des sources images Calcul des réponses impulsionnelles pour chaque source image Convolution. Salle Source Récepteur Figure III.2.c.2 : Vue d'ensemble de la prédiction acoustique avec EVERTims Ces deux prédictions aboutissent à la génération de réponses impulsionnelles ambisoniques qui seront ensuite convoluées avec un son anéchoïque. Il sera montré plus loin que pour caractériser les indices de qualité de l'acoustique d'une salle, un signal particulier est utilisé : le sweep, sinus modulé à croissance logarithmique en fréquence.

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 21 III.3.Utilisation de l'existant III.3.a Conception de modèles de salles avec CATT-Acoustic Un outil ce conception de salles est intégré au logiciel CATT-Acoustic. La conception commence par l'entrée de tous les nœuds de la géométrie, continue par la définition des plans à partir des nœuds et se termine en précisant les différents coefficients d'absorption et diffusion de chaque plan. Ces paramètres acoustiques peuvent faire partie des librairies du logiciel ou être définis manuellement. Des modèles de salles peuvent être importés de logiciels plus conviviaux dans la conception graphique en trois dimensions tels qu'autocad de la société Autodesk ou encore SketchUp de l'omniprésent Google. L'export peut également être envisagé à partir d'un modèle conçu comme dans le paragraphe précédent. Les salles utilisées pour la comparaison d'indices objectifs sont précisées dans le chapitre V ; cependant il est judicieux de noter que des salles ont été utilisées et d'autres créées pour prendre en mains le logiciel : le Fogg Art Museum, reconstruit numériquement ([12]) et des salles parallélépipédiques constituées de matériaux différents tels que des fenêtres, du bois ou du marbre. Les modèles utilisés dans le projets sont précisés dans la section V.3.c. III.3.b Génération de réponses impulsionnelles avec CATT-Acoustic Les indices objectifs sont calculés à partir de la réponse impulsionnelle de la salle ; il est donc nécessaire, après le calcul de prédiction acoustique, d'exporter cette réponse. En fonction de l'utilisation qui en sera faite, le choix du format d'export est important. Différentes versions de CATT-Acoustic ont été utilisées, notamment face à ce problème d'export de réponse impulsionnelle. Pour la restitution ambisonique du troisième ordre à trois dimensions, il est nécessaire de générer des réponses impulsionnelles pour chacun des 16 canaux ambisoniques. La première version de TUCT permettait uniquement l'export en ambisonie du premier ordre. C'est pourquoi il a été envisagé un retour à la version précédente qui utilise l'algorithme RTC. Après contact avec Bengt-Inge Dalenbäck, il a pu fournir une amélioration de TUCT qui génère la réponse en 16 canaux ambisoniques. Il est possible d'exporter les réponses en fichier Matlab ou en extension.wav, le format audio de Microsoft. Dans ce second cas, il est possible d'avoir 16 fichiers différents ou un seul fichier à 16 pistes. En fonction de l'utilisation qui suit, le besoin est différent : un fichier.wav 16

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 22 pistes pour le décodage ambisonique et la diffusion sur haut-parleurs ou un fichier Matlab pour la convolution. Il a été développé des programmes Matlab qui permettent les différentes conversions. III.3.c Conception de modèles salles pour EVERTims VirChor, au sein duquel est conçue la salle dans le cas de l'utilisation d'evertims, nécessite des fichiers.xml pour la géométrie ; EVERTims nécessite un fichier.dat qui contient les paramètres d'absorption et de diffusion de la salle. Un convertisseur de modèle d'autocad vers.xml était à disposition et a été utilisé pour la conversion des salles. La procédure était de concevoir la salle avec CATT-Acoustic, de l'exporter en format.cad (d'autocad) en veillant à générer une liste des propriétés de surface (absorption et diffusion) puis d'utiliser le convertisseur «CATTCAD2EVERTimsXML». Ce dernier, développé sous Matlab, lit le fichier.cad puis le convertit en.xml et fournit un fichier.dat contenant les paramètres acoustiques de la salle. III.4.Modifications d'evertims III.4.a Interface de déplacement des sources, récepteurs et caméra A terme, le déplacement des sources et récepteurs se fera par un système dit de «tracking» qui capte la position des objets et les suit en temps réel. Cependant, pour les mesures, il a été nécessaire développer une interface de contrôle en utilisant le protocole UDP déjà mis en place entre VirChor et EVERTims-pd. Le protocole de datagramme utilisateur (User Datagram Protocol ou UDP en anglais) permet la transmission rapide par le réseau, du LIMSI dans le cas présenté. Comparé au protocole TCP, UDP ne vérifie pas les envois d'informations pour être moins coûteux en temps de transmission. Une interface du contrôle de déplacement dans l'interface graphique de la salle (dans VirChor) a été réalisée ; elle est présentée en annexe C1. Il est désormais possible de déplacer, dans EVERTims-pd, la caméra, la source et le récepteur présents dans la salle. Les trois déplacements en translation sont possibles par l'intermédiaire d'un curseur en deux dimensions pour la profondeur et la largeur et d'un curseur vertical pour la hauteur. Les trois rotations sont contrôlées par trois curseurs angulaires. En fonction des salles utilisées, les dimensions, les limites, les pas de déplacements ne sont pas les mêmes : ces paramètres ont été adaptés à chacune des salles étudiées.

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 23 Figure III.4.a : Interface de contrôle des déplacements de source, récepteur et caméra III.4.b Communication entre EVERTims-pd et Max/MSP Comme précisé dans le deuxième chapitre, les modules de prédiction d'evertims et de diffusion sont situés sur deux ordinateurs différents. VirChor, EVERTims et EVERTims-pd fonctionnent sous le système d'exploitation Linux Ubuntu tandis que le décodage et la diffusion prennent place sous Microsoft Windows XP. Il est donc nécessaire de faire communiquer ces différents modules. La communication entre les deux ordinateurs et plus particulièrement entre Pure Data (Evertims-pd) et Max/MSP (décodage ambisonique et diffusion) est réalisée grâce aux outils netsend~et netreceive~ développés par Olaf Matthes pour la Société des Arts et Technologie de Montréal, au Canada. Il permet d'envoyer un signal audio, jusqu'à 32 voies (16 dans le cas de l'ambisonie du troisième ordre) par les protocoles UDP ou TCP (UDP dans le cas présent pour la rapidité de transfert imposée par le temps réel). Le programme est présenté en annexe C2. Il est important de remarquer l'obligation de communiquer en 16 bits avec l'utilisation des outils netsend~ et netreceive~. III.4.c Affichage du niveau des sons direct, précoce et diffus La prédiction avec EVERTims fournit les sons direct, précoce par calcul des sources images et diffus ou tardif par calcul statistique. Concernant le calcul de la réverbération tardive, des réglages sont possibles dans EVERTims-pd. La vérification de l'effet sur la réponse impulsionnelle et ses trois composantes est donc nécessaire. Ainsi, un programme qui détecte les niveaux des différentes composantes de la réponse

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 24 impulsionnelle, présenté en annexe C3, a été élaboré ; il affiche par l'intermédiaire d'un curseur graphique le niveau en temps réel des sons direct, précoce et diffus en présentant également une moyenne temporelle de ces trois valeurs. Figure III.4.c.1 : Affichage du niveau des sons direct, précoce et diffus III.4.d Contrôle de la réverbération tardive à partir du temps de réverbération Pour rappel, la réverbération tardive est réalisée dans EVERTims-pd et non directement par l'intermédiaire du calcul de sources images. A l'origine EVERTims-pd était un module de création de réverbération tardive pour un son anéchoïque. A partir de dimensions d'une salle cubique, de ses paramètres d'absorption et de réglages manuels il était possible de simuler une réverbération tardive. De ce programme sont restés de nombreux paramètres à régler manuellement pour EVERTims-pd. Une procédure plus appropriée à la prédiction acoustique en vue de l'auralisation a été mise en place au cours du projet. Notamment, la réverbération tardive était calculée à partir d'un temps de réverbération estimé pour trois bandes de fréquences : basse, moyenne et haute. Cependant l'interface dans EVERTims-pd présentait un contrôle de ce temps de réverbération par l'intermédiaire des dimensions de la salle et de l'absorption des murs de la salle. Le temps de réverbération était calculé par la formule de Sabine : T reverbération = 0,161 V salle S salle avec α un coefficient d'absorption moyen des surfaces de la salle. Cette technique présente plusieurs inconvénients. D'abord, il est difficile d'évaluer l'absorption de parois de salles ; de plus, elle considère que l'ensemble de la salle est constitué d'un seul matériau.

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 25 Présenté en annexe C4, un contrôle par temps de réverbération est proposé. L'idée est de calculer les temps de réverbération par l'intermédiaire de CATT-Acoustic puis de les entrer suivant six bandes de fréquence (125 hertz, 250 Hz, 500 Hz, 1 000 Hz, 2 000 Hz et 4 000 Hz). Ces valeurs sont moyennées pour fournir les trois bandes utilisées par EVERTims-pd : basse (125 et 250 hertz), moyenne (500, 1 000 et 2 000 hertz) et haute (4 000 hertz). Ce contrôle a nécessité de nombreuses modifications de programmes qui participaient à la prédiction de la réverbération tardive. III.5.Création d'outils de convolution III.5.a Convolution de signaux discrets L'acoustique d'une salle peut-être considérée comme un filtrage du son émis en une position et reçu aux oreilles d'un auditeur : une autre position. Ainsi, le signal entendu dans la salle est le produit de convolution entre le signal anéchoïque d'origine et la réponse impulsionnelle de la salle. Pour l'auralisation, il est donc nécessaire de disposer de la réponse impulsionnelle de la salle puis de la convoluer avec le son anéchoïque. suivante : La convolution de deux signaux x(t) et y(t) à temps continu est définie suivant la formule x t y t = x u. y t u du. Lorsque les signaux sont échantillonnés, donc à temps discret, le produit de convolution s'écrit sous la forme : x n y n = x k. y n k. k Z Une propriété fondamentale du produit de convolution est la suivante : la transformée de Fourier du produit de convolution de x(t) et y(t) et le produit des transformées de Fourier des signaux x(t) et y(t). Soit : Signal anéchoïque avec TF, la transformée de Fourier, SALLE X f =TF x t et Y f =TF y t, alors : TF x t y t =TF x t.tf y t. Son entendu

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 26 Il en est de même pour des signaux à temps discret : TFD x t y t =TFD x t.tfd y t, avec TFD, la transformée de Fourier discrète. En utilisant l'algorithme de calcul rapide de la transformée de Fourier discrète, on a : FFT x t y t =FFT x t. FFT y t, avec FFT, la Fast Fourier Transform. Dans le cadre du projet, la convolution devra être réalisée entre les 16 réponses impulsionnelles ambisoniques et le son anéchoïque à déterminer suivant l'utilisation. Le calcul est donc a priori plus lourd que dans le cas d'une convolution entre une seule réponse impulsionnelle et le son anéchoïque. III.5.b Quelques outils de convolution et leurs inconvénients Thomas Musil de l'institut pour Musique électronique et acoustique (IEM, Graz, Autriche) a développé un outil de convolution pour Pure Data : FIR~. Cet outil réalise la convolution entre une réponse impulsionnelle et un son anéchoïque. Présenté en annexe C5, un programme a été développé pour réaliser les convolutions entre chaque canal ambisonique et le son anéchoïque. Il consiste à ouvrir les réponses impulsionnelles de tous les canaux, d'en réaliser la convolution avec le son anéchoïque puis d'écrire un fichier audio 16 canaux qui pourra ensuite être diffusé. Cependant, cet outil est plus destiné à être utilisé en temps réel : il peut réaliser la convolution avec une réponse impulsionnelle limitée à quelques centaines d'échantillons lorsqu'une réponse impulsionnelle de salle en contient plutôt quelques dizaines de milliers. Matlab possède également une fonction de convolution «conv» qui réalise le produit de convolution. De même que pour FIR~, conv est très gourmand en temps de calcul, bien qu'il permette la convolution de fichiers plus volumineux. Pour résoudre ce problème de longueur, des algorithmes de convolution partitionnée peuvent être envisagés ; ils segmentent la réponse impulsionnelle en plusieurs signaux de tailles variables ou égales pour réaliser la convolution du signal anéchoïque avec chaque signal issu de la réponse impulsionnelle. Avec une mise en place de retard et d'addition de signaux, le signal attendu est reconstruit. III.5.c Architecture du programme créé et utilisé Le produit de convolution dans le Projet de Fin d'etudes a été utilisé pour convoluer les réponses impulsionnelles issues de CATT-Acoustic avec un sweep en vue d'une diffusion par l'intermédiaire

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 27 du système de restitution ambisonique. Il n'y avait donc aucun besoin de calcul en temps réel pour la détermination de ces produits de convolution. En vue à la fois d'une meilleure compréhension de la convolution et pour une connaissance et une maîtrise complète des étapes de calculs, un outil de convolution sous Matlab a été mis en place. Détaillées en annexe C6, la vision d'ensemble et les étapes du programme de convolution sont les suivantes : ouverture des 16 canaux de la réponse impulsionnelle de la salle ouverture du fichier anéchoïque détermination de la longueur des FFT calcul des FFT des réponses impulsionnelles et du signal anéchoïque produit de chaque FFT des canaux ambisoniques avec la FFT du signal anéchoïque calcul des FFT inverses de chaque produit précédemment calculé écriture du fichier audio (.wav) de 16 canaux ambisoniques convolués au son anéchoïque. Remarque sur la détermination des longueurs de FFT : pour tirer profit de la rapidité de calcul de transformée de Fourier discrète par FFT, il est nécessaire d'utiliser une longueur de calcul en puissance de 2. Ainsi, il a été choisi d'utiliser la première puissance de 2 supérieure à la longueur du signal initial. Cependant le produit de convolution doit être d'une longueur égale à la somme des deux longueurs des signaux initiaux plus 1. Ainsi, la première puissance de 2 supérieure à cette somme a finalement été utilisée pour l'ensemble des calculs de FFT et FFT inverse.

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 28 Chapitre IV - Restitution sonore spatialisée IV.1. L'ambisonie, une restitution spatialisée IV.1.a Quelques restitutions sonores spatialisées Avant toute chose, il est important de préciser que le terme «stéréophonie» désigne un son dans un volume de l'espace. Il regroupe donc tous les systèmes de rendus comprenant au moins deux canaux. La stéréophonie du grand public est plus justement appelée biphonie en tant que système de reproduction sur deux canaux. En jouant sur des variations d'intensité ou de retard, entre les deux haut-parleurs, on simule une source sonore virtuelle située entre les deux sources réelles. [9]. Le terme «surround» illustre le fait d'être entouré par le son grâce aux caractéristiques de la salle, de l'ambiance ou d'effets spéciaux reproduites par le système de restitution. Plus que de restituer une localisation, les systèmes surround commerciaux, comme ceux du cinéma, visent donc à immerger l'auditeur dans un environnement sonore particulier. Les techniques binaurale, transaurale, WFS et ambisonique visent à restituer les indices de localisation plus précis et plus nombreux que les méthodes présentées ci-dessus. Binaural (au casque) et transaural (avec deux haut-parleurs) tentent de reconstruire le champ sonore au niveau des oreilles de l'auditeur. Le principe est de filtrer le son par des fonctions de transfert (les HRTF) qui prennent en compte les effets de propagation, diffraction et réflexion par le corps, la tête et le pavillon auditif, c'est-à-dire le chemin qu'aurait pris le son dans l'environnement naturel. La WFS (Wave-Field Synthesis) est la technique associée à l'holographie qui vise à reconstruire le champ sonore par interférences de multiples sources sonores individuelles. Enfin la restitution ambisonique permet la localisation en décrivant, par transformée de Fourier spatiale (aussi nommée décomposition en harmoniques sphériques), le champ de pression au voisinage d'un point. Ce lieu sera la «place du prince» pour l'auditeur qui ne devra pas s'en éloigner pour conserver l'écoute spatialisée.

Auralisation spatialisée de l'effet de salle : synthèse temps réel VS synthèse temps différé 29 IV.1.b Vue d'ensemble du processus ambisonique Le principe de la restitution ambisonique ([2], [5] et [8]) est une technique de synthèse utilisant une décomposition des champs de pression considérés : celui à créer au niveau de l'auditeur celui émis par l'ensemble des haut-parleurs. Le développement mathématique de la théorie ambisonique étant assez lourd, il lui a été préféré quelques explications des principales étapes du raisonnement, présentées ci-dessous. D'une part, on décompose la pression p aud à obtenir au niveau de l'auditeur : p aud = B mn Y mn où B mn sont les coefficients dela décompostion et Y mn les éléments de la base orthonormée des harmoniques sphériques D'autre part, on décompose la pression émise par un haut-parleur p HPi d'où on déduit la pression émise par l'ensemble des N haut-parleurs p NHP : G mn Y mn p HP i = oùg mn sont les coefficients de la décomposition N puis p NHP = i=1 p HP i. Les deux décompositions donnent des expressions des coefficients de décomposition différents pour chaque champ : ces expressions dépendent de la position et de l'intensité des haut-parleurs ainsi que de la position de l'auditeur. Visant à reproduire une image sonore pour l'auditeur, on égalise ces coefficients. Ainsi, on a accès à l'intensité à fournir aux différents haut-parleurs en fonction de leurs positions respectives et de celle de l'auditeur. Très utilisée en deux dimensions en travaillant dans un plan horizontal, la technique ambisonique se voit également prolongée en trois dimensions comme le permet sa théorie. Le nombre de canaux (N) induit l'ordre (o) du système de restitution ambisonique : en deux dimensions : N =2o 1 en trois dimensions : N = o 1 2. Dans le cas de l'étude, un système ambisonique du troisième ordre à trois dimensions avec un décodage pour 18 haut-parleurs a été choisi pour l'auralisation spatialisée de l'effet de salle..