Préservation de la qualité sonore Benoît Courribet CICM, MSH Paris Nord, Université Paris 8, 2009
Table des matières Introduction:...3 1.Opérations de traitement du signal...5 1.1.Conversion de formats de fichiers...5 1.1.1.PCM ->PCM...5 1.1.1.1.Modification de la fréquence d'échantillonnage:...5 1.1.1.2 Modification de la résolution:...6 1.1.2. Conversion dans un format compressé (compression destructive)...7 1.2 Traitements audionumériques...7 1.2.1 Les traitements spectraux...7 1.2.2 Les traitements de dynamique...8 1.2.3 Les traitements spatiaux...8 1.2.3.1. La balance ou panoramique d'amplitude...8 1.2.3.2. Réverbération et écho...9 1.2.3.3. Upmix et downmix...9 1.3 Conversions analogique/numérique et numérique/analogique...9 2. Environnement de travail...9 2.1. Outils de traitements utilisés...9 2.1.1.Traitements numériques...10 2.1.2 Traitements analogiques...10 2.2 Acoustique des lieux et dispositif d'écoute...10 2
Introduction: Dans le cadre du projet HD3D-iio, le lot C2.2 s'intéresse à la cohérence et à la continuité de la perception sonore. Ce document présente les résultats de l'étude de ce sujet. Au cours de cette étude, nous avons confronté, lorsque cela était possible, aspects théoriques et retours d'expérience, en enquêtant auprès des professionnels et en recueillant des informations sur des sites d'échange entre professionnels (forums publics). Afin de préciser le cadre de cette étude, détaillons les principaux termes du sujet: Cohérence La notion de cohérence appelle un jugement de haut niveau et s'applique à une entité composite. Elle décrit l'absence de contradiction entre les parties composant cette entité. Par «bas niveau», on se réfère à une évaluation qui peut être effectuée automatiquement, à l'aide de méthodes d'analyse et sans avoir recours à l'interprétation. Par exemple, la taille d'un fichier ou le niveau sonore moyen sont des paramètres de bas niveau. «Haut niveau» renvoie alors à un jugement d'une plus grande complexité, et dans lequel l'interprétation humaine, voire le jugement esthétique peuvent tenir une part importante: qualifier le timbre d'un instrument, ou l'adéquation entre plusieurs sources sonores sont des jugements de «haut niveau» et plus difficilement mesurables. Ainsi, dans le cadre de notre étude, les problèmes liés à la cohérence de la perception sonore d'un programme audiovisuel peuvent être présents soit dans la relation image-son, soit à l'échelle de la bande-son. En effet, dans le premier cas, la perception sonore est conditionnée par la perception visuelle (et inversement) et l'articulation entre ces deux composantes est à étudier, notamment dans les cas suivants: -cohérence de la perception spatiale (espace perçu, localisation spatiale d'évènements sonores); -cohérence de la perception temporelle (synchronicité ou décalage entre les évènements sonores et visuels); -cohérence de sens (au sens de la vraisemblance... son qui ne correspond pas à ce que l'on voit à l'écran). Dans le second cas, on s'intéresse à la bande-son elle-même. La bande-son correspond à un assemblage de matériaux sonores d'origines diverses (sons d'ambiance du plateau, voix post-synchronisées, musique, sound design...). Ici, la notion de cohérence renvoie à un jugement sur l'unité de la bande-son. Cela correspond à un jugement qualitatif sur la réalisation de la bande-son. Continuité La notion de continuité décrit l'absence de saut quantitatif (ou qualitatif) dans l'évolu tion d'un objet d'étude (il peut s'agir d'un système, d'un paramètre, d'une grandeur physique...). 3
Ici, cette notion peut s'appliquer soit à l'échelle d'une bande-son, au cours de son déroulement dans le temps (l'enchaînement des plans), soit de manière plus globale par rapport à l'évolution de qualité audio, à chaque étape de la chaîne de production. Dans le premier cas, on peut ainsi s'intéresser à l'évolution de paramètres sonores (dynamique, balance spectrale, espace...) tout au long du déroulement de la bande-son. Il est évident que la continuité ne peut alors pas être considérée comme un critère de qualité: l'écriture cinématographique pouvant reposer sur des ruptures de continuité. Dans le second cas, en revanche, la notion de continuité peut se rapprocher de celle de préservation de la qualité audio. A chaque étape de la chaîne de production, on s'intéresse alors à la possibilité de préserver la qualité du programme audio et de ne pas introduire de dégradation des signaux traités ou à la minimisation de ces dégradations. Dans le cadre du projet HD3D-iio, c'est ce dernier point que nous avons jugé le plus pertinent de traiter en détail ici. En effet, les autres cas de figure adressent davantage des problématiques relevant de l'écriture cinématographique. Nous présenterons donc un exposé détaillé des différents cas de figure pouvant faire apparaître des problèmes de perte de qualité audio. Nous séparerons ces cas de figure en deux catégories: la première concerne les opérations de traitement du signal audio, la seconde concerne l'influence de l'environnement de travail sur la préservation de la qualité. Remarque: la notion d' «audibilité» d'une dégradation est complexe, elle est systématiquement le résultat d'une écoute comparative entre une source et une version dérivée. On peut s'interroger sur la pertinence d'une telle notion en regard de l'appréciation générale et subjective de la qualité audio d'un programme. 4
1.Opérations de traitement du signal. 1.1.Conversion de formats de fichiers 1.1.1.PCM ->PCM 1.1.1.1.Modification de la fréquence d'échantillonnage: Lorsqu'un fichier audio est lu à une fréquence d'échantillonnage différente de celle à laquelle il a été créé ou sauvegardé, 2 cas de figure se présentent: -on peut lire les données du fichiers telles quelles, sans calcul supplémentaire, le fichier apparaît donc comme lu avec une vitesse de lecture modifiée, cette vitesse de lecture correspondant au rapport entre la fréquence d'échantillonnage de lecture et la fréquence d'échantillonnage du fichier. A la variation de vitesse de lecture est associée une variation de la hauteur perçue du fichier son: pour une vitesse de lecture supérieure à 1, le fichier est transposé vers l'aigu. Exemple: un fichier de fréquence d'échantillonnage 44.1 khz est lu à une fréquence d'échantillonnage de 48 khz, cela correspond à une lecture à une vitesse de 48/44.1=1.088 -on peut effectuer une conversion de fréquence d'échantillonnage (ou «sample rate conversion», soit SRC). Dans le cas d'une conversion vers une fréquence d'échantillonnage supérieure à la fréquence d'échantilllonnage d'origine (appelée «upsampling»), on peut éviter l'apparition d'artefacts. La qualité de la conversion dépend des filtres d'interpolation utilisés. Les expériences effectuées sur le sujet ne rendent pas compte d'une dégradation audible sur le signal (sources: sites web uniquement...). En revanche, dans le cas d'une conversion vers une fréquence d'échantillonnage inférieure à la fréquence d'échantillonnage d'origine (appelée «downsampling»), la dégradation du signal peut être perçue dans les cas suivants: -lorsque le filtre anti-repliement (voir le livrable sur les formats audionumériques pour des informations sur le repliement) utilisé lors de la conversion élimine des composantes audibles du signal d'origine: par exemple, une conversion du contenu d'un CD audio à une fréquence d'échantillonnage de 22050 Hz élimine les composantes du signal supérieures à 11025 Hz et fera ainsi perdre de la brillance au signal sonore. -lorsque le filtre anti-repliement utilisé génère lui-même des artéfacts: s'il n'est pas assez sélectif, les composantes fréquentielles repliées (il s'agit de composantes fréquentielles parasites) peuvent être audibles. La distorsion de phase induite par l'emploi du filtre antirepliement peut théoriquement conduire à une dégradation audible. Un site web propose une comparaison de la plupart des procédés de SRC: http://src.infinitewave.ca. 5
Comparaison de 2 méthodes de SRC (sonagrammes de «sweeps»). Source: http://src.infinitewave.ca Il est important de noter ici que le procédé de downsampling introduit forcément une dégradation du signal d'origine. La question est de savoir si cette dégradation est perceptible ou non. Cela dépend fortement des conditions d'écoute: un système de monitoring dont la réponse fréquentielle présente des irrégularités permettra-t-il de laisser transparaître cette dégradation? Il est également important de noter que si une opération unique de re-échantillonnage n'introduit pas de dégradation audible, on est en droit de s'interroger sur l'effet d'une application successive de procédés d'upsampling ou downsampling. 1.1.1.2 Modification de la résolution: Le paramètre de la résolution d'un fichier audio PCM, exprimé en bits, est directement relié à la plage dynamique reproductible par ce fichier (voir le document Formats audionumériques). Dans le cas d'une augmentation de la résolution d'un fichier audio, aucun artefact n'est introduit et l'opération est complètement réversible, il n'y a ni dégradation de la qualité, ni augmentation de celle-ci. En effet, on peut donner une illustration de ce cas de figure en prenant l'exemple d'un nombre décimal auquel on rajouterait des zéros: 1.24 et 1.240000000 sont le même nombre, on n'augmente pas la précision en augmentant le nombre de chiffres significatifs. On notera cependant que la plupart des traitements audio produisent de meilleurs résultats lorsque la résolution du fichier a été augmentée avant d'appliquer le traitement. En effet, chaque traitement audio appliqué peut introduire une erreur de calcul qui, dans le cas de traitements répétés peut s'avérer gênante. Accroître localement, au cours des calculs du traitement, la précision permet de se prévaloir de ce problème. On peut reprendre l'exemple d'un nombre décimal que l'on divise, puis multiplie par 2 sans accroître la précision: 0.7/2 = 0.3; 0.3 x 2 = 0.6 Dans le cas de la réduction de la résolution d'un fichier audio, le problème est le même que pour le downsampling: chaque réduction de la résolution est accompagnée d'une erreur de quantification (voir le document Formats audionumériques à ce sujet). 6
Cependant, l'introduction de cette erreur n'est pas forcément audible, elle dépend à la fois du contenu du fichier audio et de la résolution finale. La réduction de la résolution de 32 bits à 24 bits ne s'accompagne d'aucun artéfact audible, (voir le document dithering) l'erreur étant trop faible pour être reproduite par les systèmes de restitution d'une part et trop faible pour être détectée par l'oreille humaine d'autre part. En revanche, le passage de 24 bits à 16 bits peut s'accompagner d'une perte de qualité audible. On utilise alors un procédé de dithering (voir le document du même nom) pour minimiser cette perte de qualité. 1.1.2. Conversion dans un format compressé (compression destructive) Par définition, la compression destructive d'un fichier audio en altère le contenu. L'audibilité de la dégradation dépend fortement des paramètres de conversion utilisés et du contenu du fichier audio. Ainsi, un signal contenant beaucoup d'énergie dans les hautes fréquences subira des dégradations plus audibles qu'un autre signal pour les mêmes paramètres de compression. De manière générale, les méthodes utilisées pour la compression destructive de données audio sont basées sur des phénomènes psychoacoustiques (liés à la perception auditive humaine). Aussi, si cette compression est censée être effectuée en préservant au maximum la qualité du programme audio, elle n'est pas prévue pour délivrer un format qui subira par la suite des traitements additionnels. Ainsi, toute modification du contenu spectral sur un signal ayant subi une compression pourra générer de nombreux artefacts audibles. 1.2 Traitements audionumériques Nous n'allons pas détailler la totalité des traitements audionumériques, mais allons nous intéresser à 3 types de traitements, dont l'utilisation est fortement répandue et qui interviennent quasi systématiquement lors d'un projet audiovisuel. 1.2.1 Les traitements spectraux Nous appelons traitement spectral un traitement audio destiné à modifier la balance spectrale d'un signal audio. La balance spectrale correspond à la répartition de l'énergie d'un signal audio suivant les différentes fréquences qui le composent. De manière plus générale nous nous intéresserons au traitement d'égalisation et aux égaliseurs. Les égaliseurs sont des dispositifs constitués de plusieurs filtres fréquentiels paramétrables individuellement. Chaque filtre peut être caractérisé par les paramètres suivants: -type de filtre (passe-haut, passe-bas, high-shelf, low-shelf, peak, etc...) -fréquence de coupure ou fréquence centrale (en fonction du type de filtre) -gain (en fonction du type de filtre) -Q facteur de qualité ou acuité à la résonance (en fonction du type de filtre). Une manière courante de représenter les caractéristiques d'un filtre est de présenter la courbe de réponse fréquentielle du filtre. Voici quelques exemples de réponses 7
fréquentielles: La fonction de transfert de l'égaliseur est alors la somme des contributions de chaque filtre: La principale cause de dégradation sonore due à l'utilisation d'un égaliseur est la distorsion de phase induite par chaque filtre: au voisinage de la fréquence de coupure ou fréquence centrale de chaque filtre, la phase du signal entrant va être modifiée, ce qui correspond à un très court décalage dans le temps, dépendant de la fréquence. Cette distorsion de phase est parfois «plaisante» et c'est ce que l'on va rechercher, mais dans d'autres cas, elle va se traduire par une perte de précision au niveau des transitoires d'attaques. Certains égaliseurs logiciels dits «à phase linéaire» n'induisent pas de distorsion de phase et peuvent se révéler très utiles dans le cas d'égalisation corrective (suppression de fréquences résonantes «gênantes»...), lorsque des réglages poussés (gain, facteur Q) sont nécessaires. Cependant, ils tendent à générer un «pre-echo» dans les fréquences aigues et ne constituent pas une solution systématique. 1.2.2 Les traitements de dynamique Les traitements de dynamique (en particulier la compression) sont particulièrement délicats à manipuler et peuvent être la source de nombreuses dégradations: «pompage», 8
perte de précision sur les transitoires d'attaque, remontée du bruit de fond... Un document a été consacré au fonctionnement des traitements de dynamique. 1.2.3 Les traitements spatiaux Nous appelons traitement spatial un traitement audio destiné à modifier l'espace perçu d'un signal audio (distance perçue du son par rapport à l'auditeur, positionnement dans un espace acoustique virtuel, etc.). Nous distinguerons 3 cas de figure: -la balance ou panoramique d'amplitude; -les procédés de type «réverbération» ou «écho» -les procédés d'upmix et de downmix. Ces derniers concernent les opérations qui permettent de changer de manière quasi automatique le nombre de canaux d'un signal audio et en modifient de fait, les attributs spatiaux. Ces traitements faisant l'objet d'un document à part, ils ne seront pas étudiés ici. 1.2.3.1. La balance ou panoramique d'amplitude La balance ou panoramique d'amplitude, si on la considère comme un traitement audio, consiste à régler conjointement le gain de chaque canal de sortie par rapport à un signal donné, le but étant de positionner ainsi la source sonore dans l'espace créé par le dispositif de diffusion. Ainsi sur un système à 2 enceintes, si le gain du canal de gauche est beaucoup plus élevé que celui du canal de droite, la source sonore associée au signal semblera provenir de la gauche. Le traitement effectué est (pour chaque canal) un simple réglage de gain, la dégradation de qualité associée est donc inexistante ou très fortement négligeable. Le cas de la balance d'un signal multicanal (stéréophonique, par exemple) est plus délicat: en effet en fonction de l'outil utilisé il pourra y avoir une perte d'information suite au réglage de la balance. Prenons l'exemple d'un signal comportant 2 canaux, restitué sur un dispositif à 2 canaux. Si l'on décide de régler le panoramique de ce signal entièrement à gauche, l'information contenue sur le canal de droite du signal original disparaît, son gain étant réglé à 0. 1.2.3.2. Réverbération et écho Il n'y a pas de recommandation spécifique concernant l'utilisation de procédés de réverbération ou d'écho, si ce n'est que leur utilisation entraînera forcément une perte de «focus», de précision sur le signal traité. Il convient donc toujours d'évaluer si l'apport du traitement en terme de sensation d'espace est supérieur à la perte de précision (voire d'intelligibilité pour les voix). 1.2.3.3. Upmix et downmix Les procédés d'upmix et de downmix ont fait l'objet d'un document séparé qui contient 9
des remarques concernant la dégradation potentielle de la qualité sonore. 1.3 Conversions analogique/numérique et numérique/analogique Il est possible d'avoir à convertir un signal de l'analogique au numérique ou du numérique à l'analogique au cours d'un projet (pour l'application de traitements analogiques, par exemple). La préservation de la qualité sera alors fortement liée à la qualité des convertisseurs utilisés, ainsi qu'à la calibration des niveaux lors de la conversion. Si, de manière générale, on doit noter qu'il ne faut pas faire saturer l'entrée d'un convertisseur analogique/numérique ou la sortie d'un convertisseur numérique/analogique afin d'éviter l'apparition de distorsions, il est difficile de donner des recommandations dans le choix d'un convertisseur ou dans la prise de décision concernant une conversion. Aussi, nous avons choisi de proposer une série de fichiers audio résultant de la mise en œuvre de conversions analogique/numérique et numérique/analogique. Dans le cas d'un traitement analogique à insérer dans un workflow quasi essentiellement numérique, l'apport de ce traitement par rapport à la dégradation due à la double conversion NA et AN doit être systématiquement évaluée par le technicien. 2. Environnement de travail. 2.1. Outils de traitements utilisés. Nous avons vu précédemment que l'utilisation de certains outils de traitement peut conduire à la dégradation de la qualité audio. Mais, de manière indépendante aux traitements eux-mêmes, les dispositifs qui sont le support de ces traitements peuvent également être la cause de dégradation du signal audio. 2.1.1.Traitements numériques Certains traitements numériques possèdent des particularités qui peuvent poser des problèmes lors de leur utilisation. En effet, certains traitements rééchantillonnent le signal entrant, ou effectuent des conversions qui affectent leur capacité (headroom) à accepter des signaux de fort niveau, il convient de se renseigner sur les spécifications de chaque traitement afin de prévenir d'éventuels problèmes lors de leur intégration dans le workflow. Enfin, il est capital de vérifier que tout système numérique est «transparent» lorsqu'aucun traitement n'est engagé. Des outils existent afin d'effectuer cette vérification (par exemple, le logiciel AuDIT: http://www.hyperspasm.com/audit/ ).Une procédure dite de null-test est aisée à mettre en œuvre et permet de vérifier la «transparence» d'un système: il s'agit d'enregistrer le signal de sortie d'un système, puis de l'ajouter au signal d'origine en inversant la polarité d'un des deux signaux. Si le système est «transparent», un signal nul en résultera. 10
2.1.2 Traitements analogiques Chaque équipement possède des caractéristiques correspondant au respect de l'intégrité du signal à traiter. Ainsi, il convient de vérifier que les paramètres de bande passante, taux de distorsion harmonique, permettent d'assurer une restitution fidèle du signal, et ce lorsqu'aucune modification n'est censée être effectuée (gain nul pour les bandes d'un égaliseur, seuil élevé ou taux de compression réglé à 1 pour un compresseur, etc.). Certains équipements permettent de contourner (by-passer) totalement le circuit effectuant le traitement, ce qui permet de les laisser connecter en permanence et de s'assurer qu'aucune dégradation n'intervient lorsqu'ils sont désactivés (en effet, le signal passe parfois tout de même par des transformateurs d'entrée et de sortie, même lorsque le traitement est désactivé, ce qui peut modifier le son). On dit alors qu'ils sont dotés d'un true bypass. 2.2 Acoustique des lieux et dispositif d'écoute Nous l'avons déjà évoqué aupravant, la préservation de la qualité sonore peut être fortement liée aux conditions d'écoute du technicien à son poste de travail. En effet, si des choix sur le paramétrage de traitements doivent être effectués, il convient de pouvoir évaluer avec précision les résultats de chaque modification du signal. On prétera attention tout particulièrement aux points suivants: -acoustique du lieu -positionnement des enceintes -qualité de la chaîne de monitoring: convertisseurs NA, amplificateurs, enceintes. -calibration des niveaux d'écoute 11