1 OBJECTIFS En télédiffusion, la problématique de synchronisation labiale (lip sync) est présente tout au long de la chaîne de production et de distribution, de l acquisition à l affichage sur l écran du téléspectateur. L industrie de la radiodiffusion est à la recherche de solutions et on voit graduellement apparaître des outils conçus pour aider à résoudre ce problème. Dans cette optique, Miranda Technologies Inc. a développé un appareil de mesure de délai audio-vidéo, la carte HLP-1801 au format de leur châssis Densité 2. Ce rapport présente les résultats de l évaluation fonctionnelle qui a d abord été réalisée sur une version en développement du produit (en mai 2009). L évaluation a ensuite été complétée avec la première version livrable (en juillet 2009) qui inclue plusieurs améliorations que nous avions proposées à la suite de l évaluation de la version en développement. 2 APPAREIL SOUS TEST v. Développement (mai 2009) v. Livrable (juillet 2009) Fabriquant Miranda Miranda Modèle HCO-1831 (Lip Sync Demo Card) HLP-1801 N o de série 088101-R20693157 Version firmware 2.05 1.0.0 3 DESCRIPTION La carte HLP-1801 comporte deux entrées SD/HD-SDI. Selon le manufacturier, les signatures du contenu vidéo et audio des deux entrées sont comparées afin d établir 1- le délai vidéo entre les deux entrées et 2- la relation temporelle entre chacun des canaux audio et la vidéo de la deuxième entrée par rapport à la première entrée dont l audio est considéré synchrone à la vidéo. Entrée 1 Entrée 2 DA Procédé en mesure Carte HLP-1801 Source vidéo + audio embarqué Ordinateur de contrôle client Châssis Densité 2 + Contrôleur CPU-ETH2 Réseau IP SD ou HD-SDI Figure 1 : Schéma bloc du système Par : Félix Poulin, ing. jr Août 2009 Page 2 de 8
L interface usager graphique (IUG) icontrol, ici en version client-serveur, permet d ajuster les paramètres et de lire les mesures. Le statut (Figure 2) donne la mesure du délai vidéo (Video Program Delay) ainsi que les mesures des délais audio-vidéo (Lip-Sync Delay - Current) pour chacun des 16 canaux embarqués, toutes en millisecondes. La mesure Lip-Sync Delay Last Valid est utile lorsque la valeur courante n est pas disponible (Unlocked ou Silence). L indicateur Match Level indique le niveau actuel de la corrélation entre les signatures ayant servi à calculer la mesure de délai à l aide de 5 segments ce qui permet à l usager d évaluer la fiabilité de la mesure actuelle. Les alarmes indiquent un dépassement des seuils qui sont fixés à l onglet Threshold. Figure 2 : IUG - Mesures Les seuils d alertes peuvent être définis asymétriquement (par exemple à la Figure 3, audio en avance de 40 ms et en retard de 120 ms) jusqu à 500 ms. De plus, il est possible de définir 2 groupes d audio (par exemple le groupe A peut être assigné au mix 5.1 et le groupe B au mix stéréo) ce qui permet de détecter des problèmes de synchronisation labiale entre les canaux d un groupe jusqu à 30 ms. Figure 3 : IUG Seuil des alertes À l onglet Audio Assignement (Figure 4), les 16 canaux audio embarqués du signal SD/HD-SDI de l entrée 1 peuvent êtres individuellement activés et assignés à n importe quel des 16 canaux de l entrée 2. C est également dans cet onglet que l on assigne le groupe d appartenance (A ou B) de chaque entrée. Figure 4 : IUG - Assignation des canaux audio Par : Félix Poulin, ing. jr Août 2009 Page 3 de 8
Il est également possible de restreindre la portion de l image qui est utilisée pour l analyse des signatures pour chaque entrée. Cela est utile pour améliorer la vitesse de réaction et le niveau de corrélation de la vidéo quand il y a eu un recadrage sur le signal à mesurer, par exemple le retour NTSC (en affichage lettre) par rapport à la sortie HD 16:9. Figure 5 : IUG Zones 4 TESTS ET MESURES 4.1 Interface HD-SDI Des mesures pour vérifier la conformité à la norme SMPTE 292 ont été effectuées sur les entrées et la sortie HD-SDI de la version finale: HD-SDI Input 1 Input 2 Output SMPTE 292 HD HD HD Parameter Units Limits Results Results Results Amplitude mv 720-880 - - 797 Overshoot % 10 - - 0 Undershoot % 10 - - 1,25 Rise time 20 %-80 % ps 270 - - 190 Fall time 20 %-80 % ps 270 - - 160 Rise - Fall time ps 100 - - 30 Timing Jitter, 10 Hz Filter UI 1 - - 0,263 Alignement Jitter (Filter) UI 0,2 (100 KHz) - - 0,137 Input Sensitivity (max cable length, Belden 1694A) pi 400 672 652 - RTN Loss (worst case, 5 MHz to Clock Freq.) db 15 (Fc = 1.5 GHz) 12,2 15,7 12,7(*) PASS / FAIL FAIL PASS PASS * Tolerable because 15 db to 1 GHz and 12 db to 1.5 GHz Le facteur d adaptation (Return Loss) de l entrée 1 ne respecte pas la norme (voir la Figure 6). Le facteur d adaptation de la sortie se situe dans un écart acceptable de la norme. Tous les autres paramètres respectent la norme. Figure 6 : Graphique du facteur d'adaptation en fonction de la fréquence du l'entrée 1 Par : Félix Poulin, ing. jr Août 2009 Page 4 de 8
4.2 Délai vidéo maximal, délai audio-vidéo maximal Afin de déterminer la plage de délais pris en charge, on a effectué des tests sur des paires de signaux ayant différents délais vidéo et on a introduit différents délais audio-vidéo. Il est possible de mesurer des délais totaux (programme + audio-vidéo) de plus de ±4.5 secondes. Ainsi, la deuxième entrée peut être indifféremment en avance (signe +) ou en retard (signe -) sur la première. Cela est généralement suffisant pour des applications de collecte et de distribution par satellite (2-3 secondes de délai total). Pour des applications de contrôle de redistribution, on pourrait avoir des délais avoisinants 4 ou 5 secondes par satellite et encore plus pour de l IPTV. Une augmentation de la plage à 10 secondes couvrirait toutes les applications courantes. Afin de ne pas rallonger le délai de réaction de la mesure, il serait acceptable de déplacer la plage prise en charge en acceptant que le signal de la deuxième entrée soit toujours en retard par rapport à la première (ex : -9 à +1 secondes). Également, la plage de délai pourrait être paramétrable par l usager ce qui permettrait d optimiser le temps de réaction selon le délai qui doit être pris en charge. Ce test n a pas été refait avec la version finale mais, compte tenu que le délai de réaction (4.3) est resté le même, ce comportement ne doit pas avoir changé. 4.3 Temps de réaction à un saut de délai Lors d un saut de délai (vidéo ou audio/vidéo), la mesure de délai peut prendre de 10 à 30 secondes pour refléter le changement. L indicateur Match Level prend également parfois plus de 20 secondes avant d indiquer une diminution de corrélation ce qui peut causer une mauvaise interprétation de la mesure durant le période où le niveau de l indicateur Match Level est élevé. Il faudrait que le niveau de l indicateur Match Level diminue plus rapidement (idéalement en 5 secondes) lors d une chute de corrélation des signatures (ce qui arrive lors d un saut de délai) afin que l usager puisse douter de la mesure et attendre qu elle se stabilise. On devrait pouvoir se fier à la mesure lorsque l indicateur Match Level est à un niveau vert. Ce comportement a été revérifié avec la version finale. 4.4 Réaction aux silences Une nouveauté bienvenue de la version finale est la détection des silences sur les pistes audio. Ainsi, lorsqu une piste audio est silencieuse, le «Lip-Sync Delay Current» indique Silence et l on peut alors se servir de la valeur de «Lip-Sync Delay Last Valid» comme mesure pour cette piste. Cela améliore l interprétation de la mesure par rapport à la version développement et particulièrement pour les mix 5 point 1 typiques dont les silences sont fréquents (ex : musique sur G + D, parole sur le C, effets occasionnels sur le LFE, ). On a remarqué un peu d instabilité dans la mesure au retour des silences alors que la séquence de valeurs suivante survient occasionnellement : Silence, Unlocked, (mesure valide), Unlocked, (mesure valide). Le délai de détection d un silence prend en moyenne 15 secondes et il serait préférable de réduire ce délai à 5 secondes. 4.5 Types de contenus Différents types de contenus ont été utilisés afin vérifier la stabilité de l algorithme en fonction de l image et du son : 1- Contenu général : Cassette «Assembly of HD PGM Footage Produced By CBC/Radio-Canada», en format HDCAM SR, 1080i59 qui est un montage d extrait d émissions tournées en vidéo légère incluant des infographies et du son 5.1+2.0. On a utilisé les premières 3:30 de cette bande pour effectuer les différents tests de cette procédure. En général, cette séquence ne pause pas de problèmes reconnaissance et l indicateur Match Level de la vidéo qui se maintien au vert. On remarque qu une scène, un panoramique lent et large de montagnes (à 10:02:15), cause parfois le passage au jaune de l indicateur Match Level de la vidéo. 2- Émission de variété : extrait du «Match des Étoiles» avec des plans rapides, des effets de lumières, beaucoup de mouvement et du son 5.1+2.0. Ce type de contenu est bien supporté. 3- Sport : un retour d antenne (ATSC) d un match de Hockey. Ce type de contenu est bien supporté. Par : Félix Poulin, ing. jr Août 2009 Page 5 de 8
4.6 Taux de compression maximum Un codec de compression a été ajouté à la chaîne l entrée 2 afin de vérifier la résistance de l algorithme aux artéfacts de compression. Les différents codecs et débits binaires vérifiés ont donné les résultats suivants : MPEG2 4:2:0 H.264 4:2:0 -à 12 Mb/s et audio à 128 Kb/s stéréo : mesures stable -à 8 Mb/s et audio à 128 Kb/s stéréo : mesures lisible avec quelques instabilités -à 7 Mb/s et audio à 128 Kb/s stéréo : mesures stable -à 3 Mb/s et audio à 128 Kb/s stéréo : mesures lisible avec quelques instabilités Ce test a été effectué avec la version en développement seulement. 4.7 Altération du niveau audio Les niveaux audio peuvent être atténués tant que le niveau reste au-dessus du plancher de bruit. Plus le signal est atténué et plus souvent certaines parties du signal se confondent dans le plancher de bruit et cela cause une augmentation des erreurs de mesure et des occurrences de baisse de corrélation. De même, le niveau audio peut être amplifié tant qu il n est pas saturé. Ce test a été effectué sur la version en développement seulement. 4.8 Programmation régulière Afin de vérifier la performance de la carte HLP-1801 en situation réelle, un scénario d utilisation potentiel a été réalisé sur une période de 10 heures, incluant une période de grande écoute en soirée (14h à 24h). La sortie de cabine de mise en onde HD du canal CBVT à Montréal a été mesurée à la réception à l antenne NTSC (convertie en SD pour la mesure). Le signal original a subi plusieurs altérations. La vidéo a été convertie en SD, recadrée en affichage lettre et encodée en NTSC. Le signal de mesure de cote d écoutes (PPM de Arbitron) a été ajouté au mix audio stéréo des pistes 7 et 8 qui a été traité dynamiquement avant la modulation MF. Une analyse des données recueillies lors de ce test nous fourni ces résultats : Paramètre Élément mesuré Valeur Video Program Delay Erreur de mesure < 1 % du temps Video Program Delay Durée des erreurs de mesure 63 % du t : 10 s 90 % du t : < 40 s 100 % du t : < 70 s Lipsync Delay Erreur de mesure < 1% du temps Lipsync Delay Durée des erreurs de mesure Habituellement 10 s Lipsync Delay Unlocked 0,2% du temps Lipsync Delay Variations +/- 1 ms Lipsync Delay Match Level (Niveau de corrélation) Différence entre les canaux audio d un groupe Normal (Vert) Minor (Jaune) Critical (Rouge) 77 % du temps : +/- 1 ms 100 % du temps : +/- 4 ms 95 % du temps 4 % du temps < 1 % du temps Ces chiffres indiquent que le système s avère stable. Toutefois, on a remarqué qu il y a occasionnellement des erreurs de mesures (ex : -2485 ms au lieu de -20 ms) momentanées (qui durent habituellement 10 s) qui surviennent environ 30 secondes après une diminution de la corrélation (Match Level = «Critical»). Par : Félix Poulin, ing. jr Août 2009 Page 6 de 8
Le graphique suivant montre les mesures sur une période de 2 heures. Les deux courbes «Lipsync Delay» donnent la mesure de délai audio-vidéo pour les canaux audio 7 et 8 de l entrée 1. Les courbes «Match Level» montrent quand le niveau de corrélation diminue. La courbe «Video Program Delay» donne le délai total. On voit que le délai total ainsi que les délais audio-vidéo varient progressivement. Par exemple le délai total augmente de 1 ms à chaque 20 minutes et jusqu à 33 ms (durée d une 1 image) avant de retourner à sa valeur initiale. Cela est typiquement causé par le mécanisme de synchronisation du codec de compression et n est donc pas attribuable à un problème de mesure de la HLP-1801. Mesures de synchronisation labiale Délai audio-vidéo (ms) 24 22 20 18 16 14 12 14:00:00 14:05:30 14:11:00 14:16:30 14:22:00 14:27:30 14:33:00 14:38:30 14:44:00 14:49:30 14:55:00 15:00:30 15:06:00 15:11:30 15:17:00 15:22:30 15:28:00 15:33:30 15:39:00 15:44:30 15:50:00 15:55:30 Heure Lipsync Delay CH7 Lipsync Delay CH8 Match Level CH7 Match Level CH8 Video Program Delay 3020 3010 3000 2990 2980 2970 2960 2950 Délai total (ms) 4.9 Autres fonctions La version finale comporte des nouvelles fonctionnalités complémentaires qui n ont pas été testées mais qui peuvent êtres utiles dans certaines applications. Il s agit de la détection de noirs et d image gelée ainsi que d une sortie qui est assignable à l une des deux entrées. 4.10 Limitations Vue graphique et log. Une visualisation graphique des mesures aiderait à l interprétation des problèmes. L exportation d un log en fonction de l horloge maison serait utile pour aider à diagnostiquer des problèmes qui sont rapportés après le fait. Miranda prévoit inclure ces fonctions. 1 seule carte. Le signal de référence ainsi que le signal mesuré doivent êtres présentés à la carte en bande de base (SD/HD-SDI) ce qui limite les applications ou l on doit mesurer les signaux entre différents sites (ex : camions remotes, station régionale, redistributeur, etc.). Miranda prévoit vendre un système dont le signal de référence et le signal mesuré peuvent êtres décentralisés et donc la transmission des signatures nécessaire à l analyse se ferait par réseau IP. Remix audio. Il faudrait pouvoir effectuer un mix des canaux audio de l entrée de référence afin de pouvoir mesurer des liens où un remix audio a été effectué. Le cas typique est la sortie stéréo d un «set top box» qui reçoit un canal distribué en 5 point 1. Miranda s est montré intéressé à inclure cette fonction sur une version future. Par : Félix Poulin, ing. jr Août 2009 Page 7 de 8
5 CONCLUSION La carte HLP-1801 de Miranda permet de mesurer le délai audio-vidéo d un signal SD ou HD-SDI réel de façon transparente ce qui en fait un outil pouvant détecter des problèmes de synchronisation labiale le long de la chaîne de production et de distribution. Cette évaluation a d abord été effectuée sur une version en développement a donné lieu à une première liste d améliorations proposées au manufacturier qui en a implanté plusieurs dans la version finale. Ce rapport tient compte de ces additions en plus de proposer ou de réitérer d autres améliorations souhaitées. Résumé des résultats Bonne stabilité générale des mesures sur du contenu diffusé et sur une variété de contenus en laboratoire Plage de délai total (programme + audio-vidéo) de plus de ±4.5 secondes, suffisant pour la plupart des applications Temps de réaction général de 10 à 30 secondes à un changement de délai, acceptable dans la plupart des applications mais ne permet pas de détecter des problèmes de synchronisation sur des courts segments (ex : promos, décomptes, etc.) Interfaces HD-SDI conformes à la norme SMPTE 292, sauf le facteur d adaptation de l entrée 1 qui est significativement non conforme Fonctionne quand un procédé de recadrage et de conversion vertical a été appliqué (Ex : HD à SD Letterbox) Fonctionne quand un procédé de conversion numérique à analogique a été appliqué (Ex : retour antenne NTSC) Résiste à des codec de compression vidéo et audio à des niveaux inférieurs à de la distribution (8 Mb/s MPEG2, 7 Mb/s H.264 et 128 Kb/s audio) Résiste à des altérations de niveau audio, tant que le signal n est pas saturé ou noyé dans le plancher de bruit Autres fonctions intéressantes qui n ont pas été testées lors de cette évaluation : détection de noir et détection d image gelée Améliorations souhaitées (* essentiel; + souhaité; secondaire) * Corriger le facteur d adaptation de l entrée 1 * Vue graphique des mesures de délai et de corrélation en fonction du temps, pour faciliter l interprétation et le diagnostique de problèmes de synchronisation labiale + Pouvoir mesurer des sources décentralisées à l aide d une seconde carte et d un réseau IP pour permettre d autres applications (camions remotes, liens de collecte, liens avec stations distantes, etc.) + Réponse plus rapide du «Match Level» à une diminution de corrélation (idéalement 5 secondes) + Réponse plus rapide de la détection de silences (idéalement 5 secondes) + Amélioration mineure de la stabilité (ex : au retour des silences et 30 secondes après un «Match Level» = «Critical») Plage de délai ajustable pour optimiser le délai de réaction vs délai maximal possible : o Plage asymétrique (-1 à +9 secondes) sachant que l entrée 2 sera toujours en retard par rapport à l entré 1 o Longueur de fenêtre réglable par l usager (par exemple total de 5, 10 ou 15 secondes) Fonction de remix intégré pour pouvoir effectuer des mesures sur des appareils qui font du 5.1 à 2.0, par exemple Applications possibles Retour d antenne et de redistribution comparée à l envoie Régies, cabine de mise en onde : entre le serveur et la sortie et à tous les points d insertion Alignement temporel d équipements lors d installations temporaires ou permanentes 6 REMERCIEMENTS Les personnes suivantes ont collaboré à la présente évaluation : Pierre Bolduc, Maître technicien de maintenance, Production Technique (PTRC) Jonathan Dupras, Technicien de maintenance, Nouvelles technologies de radiodiffusion Par : Félix Poulin, ing. jr Août 2009 Page 8 de 8