Sur la recherche d une analyse temps fréquence optimisée pour le codage de la parole

Documents pareils
Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Intérêt du découpage en sous-bandes pour l analyse spectrale

Enregistrement et transformation du son. S. Natkin Novembre 2001

Chaine de transmission

Technique de compression des images médicales 4D

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Transmission d informations sur le réseau électrique

Systèmes de communications numériques 2

ISO/CEI NORME INTERNATIONALE

LABO PROJET : IMPLEMENTATION D UN MODEM ADSL SOUS MATLAB

Expérience 3 Formats de signalisation binaire

La couche physique de l ADSL (voie descendante)

TP Modulation Démodulation BPSK

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Codage hiérarchique et multirésolution (JPEG 2000) Codage Vidéo. Représentation de la couleur. Codage canal et codes correcteurs d erreur

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

Quantification Scalaire et Prédictive

Errata et mises à jour

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

Les techniques de multiplexage

J AUVRAY Systèmes Electroniques TRANSMISSION DES SIGNAUX NUMERIQUES : SIGNAUX EN BANDE DE BASE

ADSL. Étude d une LiveBox. 1. Environnement de la LiveBox TMRIM 2 EME TRIMESTRE LP CHATEAU BLANC CHALETTE/LOING NIVEAU :

Systèmes de transmission

Travail en collaboration avec F.Roueff M.S.Taqqu C.Tudor

10ème Congrès Français d'acoustique Lyon, Avril 2010

Géométrie discrète Chapitre V

Bandes Critiques et Masquage

Contributions à l expérimentation sur les systèmes distribués de grande taille

Filtres passe-bas. On utilise les filtres passe-bas pour réduire l amplitude des composantes de fréquences supérieures à la celle de la coupure.

Mesures en réception télévision

Technologies xdsl. 1 Introduction Une courte histoire d Internet La connexion à Internet L évolution... 3

Projet de Traitement du Signal Segmentation d images SAR

Cours n 12. Technologies WAN 2nd partie

Digital Subscriber Line

Equipement. électronique

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

OSEO EXCELLENCE SONDAGE JUILLET Thème : CONJONCTURE ECONOMIQUE EXTENSION & REBRANDING OSEO CAPITAL PME ECONOMIE : FRANCE ALLEMAGNE

Calcul des indicateurs de sonie : revue des algorithmes et implémentation

Chap17 - CORRECTİON DES EXERCİCES

Data first, ou comment piloter l analyse par les données

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Un schéma de compression avec pertes efficace pour les images médicales volumiques

Téléinformatique. Chapitre V : La couche liaison de données dans Internet. ESEN Université De La Manouba

Signaux numériques : Multiplexage temporel : TDM

NORMES DE LIVRAISON DES MESSAGES PUBLICITAIRES ET MESSAGES D INTÉRÊT PUBLIC COMMERCIAUX APTN

Echantillonnage Non uniforme

Multimedia. Systèmes, Communications et Applications. Ahmed MEHAOUA

Université de La Rochelle. Réseaux TD n 6

Chapitre 6. Fonction réelle d une variable réelle

Contexte et motivations Les techniques envisagées Evolution des processus Conclusion

Analyse des trajectoires acceptables en approche de virage assistance aux conducteurs

Technique de codage des formes d'ondes

Architectures et Protocoles des Réseaux

Mode d emploi ALTO MONITOR PROCESSEUR D ÉCOUTE. Version 1.0 Juillet 2003 Français

Apprentissage Automatique

1. Situation actuelle... p. 1

Principe de symétrisation pour la construction d un test adaptatif

BIG DATA et EDISCOVERY

Votre Réseau est-il prêt?

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Représentation d un entier en base b

O, i, ) ln x. (ln x)2

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Signalisation, codage, contrôle d'erreurs

CLIP. (Calling Line Identification Presentation) Appareil autonome affichant le numéro appelant

CHAPITRE V. Théorie de l échantillonnage et de la quantification

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Traitement bas-niveau

Les algorithmes de base du graphisme

Codage vidéo par block matching adaptatif

Numérisation du signal

I- Définitions des signaux.

TV NUMERIQUE MOBILE : DU DVB-T AU DVB-H

SIMULATION HYBRIDE EN TEMPOREL D UNE CHAMBRE REVERBERANTE

DEVANT L UNIVERSITE DE RENNES 1

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Les Réseaux sans fils : IEEE F. Nolot

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Etude des convertisseurs statiques continu-continu à résonance, modélisation dynamique

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

Internet et Multimédia Exercices: flux multimédia

Le multiplexage. Sommaire

VISUALISATION DE NUAGES DE POINTS

Rapport de stage. Implantation en virgule fixe d un codeur audio. Romain Serizel

TELEVISION NUMERIQUE

Druais Cédric École Polytechnique de Montréal. Résumé

Modélisation de la Reconfiguration Dynamique appliquée à un décodeur LDPC Non Binaire

V corr Jacques Ferber. LIRMM - Université Montpellier II 161 rue Ada Montpellier Cedex 5

Information. BASES LITTERAIRES Etre capable de répondre à une question du type «la valeur trouvée respecte t-elle le cahier des charges?

Réseaux grande distance

Détection et suivi d'objets dans une séquence d'images par contours actifs


Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

Algorithme. Table des matières

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Chapitre 2 Les ondes progressives périodiques

Transcription:

Sur la recherche d une analyse temps fréquence optimisée pour le codage de la parole Souhir Bousselmi et Kaïs Ouni Unité de Recherche Traitement du Signal, Traitement de l Image et Reconnaissance de Formes Ecole Nationale d Ingénieurs de Tunis (ENIT), BP.37, Le Belvédère, Tunis, Tunisie souhir.bousselmi@laposte.net kais.ouni@enit.rnu.tn Résumé Ce papier présente une étude pour la recherche d une analyse temps fréquence optimisée pour le codage de la parole. Nous avons considéré, pour cela, deu variantes d analyse tempsfréquence : la transformée d ondelettes et la transformation par paquets d ondelettes. Nous avons choisi deu familles d ondelettes, la famille de Daubechies et la famille Symlet. L évaluation de ces analyses a été faite en utilisant deu critères obectifs, le gain de codage et le rapport signal sur bruit segmental RSBseg. Les résultats obtenus montrent l intérêt des paquets d ondelettes de la famille Daubechies pour le codage de la parole. ots clés Analyse temps-fréquence, Codage par Transformée de la parole, Paquets d ondelettes. Gain de codage, RSBseg Introduction L analyse par transformations temps-fréquence constitue un outil puissant dans le domaine du traitement et codage de la parole [7] [8] [5]. En effet, une décomposition dans le plan tempsfréquence du signal de départ est incluse dans l architecture de tout codeur par transformée. Cette décomposition vise à transformer le signal sous formes de cœfficients moins corrélés que le signal lui-même et à concentrer l énergie du signal sur un petit nombre de ces coefficients. La transformation en ondelettes discrète orthogonale à support compact est un outil robuste de traitement numérique du signal, elle permet une analyse en multirésolution des signau de parole dans le plan temps-fréquence [6] [] [7]. L importance de cette transformation dans la conception d un codeur de parole réside dans le fait qu elle conserve l énergie, les fonctions de base sont identiques pour l analyse et la synthèse, et l implémentation des algorithmes est possible et aisé [] [5] [5]. Cette transformée est parfaitement définie par une paire de filtres miroirs en quadrature à reconstruction parfaite [] [8]. Le choi de ces filtres et de leurs ordres est d importance maeure dans la conception du codeur [5] [6]. Dans ce travail nous présentons une approche d optimisation de la représentation temps-fréquence pour le codage de la parole au sens du gain de codage ou compacité d énergie. Ce papier est organisé comme suit : la première section présente la transformation en ondelette discrète orthogonale, la deuième section définit les critères obectifs d évaluation de la transformation en ondelettes adoptée dans l architecture des codeurs de la parole, la troisième section présente les résultats epérimentau. Ce papier se termine par une conclusion et des perspectives.

S. Bousselmi et K. Ouni Transformation en ondelette discrète orthogonale La transformée en ondelettes W est une proection du signal (t) sur la base des fonctions ondelettes ψ produite par dilatation «a» et translation «b» de l ondelette d analyse : ψ (t)= (a,b) t-b ψ a a Dans le cas continu, elle est donnée par l équation suivante : + t-b W(a,b)= (t) ψ dt () a a - La transformation en ondelettes continue est redondante, et pour reconstruire le signal (t) il faut utiliser tous les coefficients d ondelettes. Par conséquent, elle n est pas pratique, et la discrétisation du paramètre de dilatation «a» et du temps «b» devient indispensable. Daubechies [9] [] suggère une méthode de discrétisation eponentielle, la version discrétisé de ces deu paramètres est eprimée par : m a = a ; b = nb n m a avec a >, b, m,n Z On obtient alors une transformée en ondelette discrète donnée par la formule suivante : () + - m / -m ψ - W ( m, n) = a ( t) ( a t - nb ) dt m,n Z (3) Stéphane allat [8] fut le premier à donner un algorithme pratique pour calculer les coefficients de la transformation en ondelette discrète. Il est schématisé sur la figure. Figure : Décomposition et reconstruction du signal sur niveau (ou échelles). Ca représentent les coefficients d approimation. Cd représentent les coefficients des détails. Cet algorithme comprend un filtre passe-bas ɶ h et un filtre passe-haut ɶ g permettant de séparer le signal (n) en deu composantes représentant les coefficients d approimations «Ca» en basses fréquences et les coefficients de détails «Cd» en hautes fréquences. Ces deu composantes sont de taille égale à la moitié de (n) du fait l opération de décimation par qui consiste à ne retenir qu un échantillon sur deu. La synthèse est faite en passant les coefficients de détails et d approimations par des interpolateurs suivies de filtrage par h et g, filtres transposés de ɶ h et ɶ g où ɶ h = h(-n) et ɶ g = g(-n). Le signal est alors analysé à différentes résolutions, d où le nom d analyse multirésolution. La généralisation de l analyse ultirésolution qui consiste à décomposer, en plus, les composantes hautes fréquences est baptisé transformation en paquets d ondelettes. L algorithme des paquets d ondelettes

Sur la recherche d une analyse temps fréquence optimisée pour le codage de la parole 3 permet de décomposer un signal de N échantillons sur N bases orthogonales différentes, avec des résolutions temps-fréquence différentes. Ceci nous permet une liberté de choi de la base optimale, selon un critère donné ou un découpage en temps-fréquence prédéfini. 3 Critères obectifs d évaluation L étude des performances de la transformation en ondelettes discrète orthogonale et la transformation en paquets d ondelettes dans le codage par transformée des signau de parole, est basé sur des critères subectifs et des critères obectifs, les plus important sont la compacité d énergie ou gain de codage et le rapport signal sur bruit segmental. 3. Gain de codage 3.. Gain de codage par transformée Le gain de codage ou compacité d énergie est un critère obectif utilisé pour comparer les performances entre différentes transformations orthogonales [3] [5]. Il eprime le gain obtenu par la quantification des coefficients de la transformation d un signal parole au lieu de ces échantillons. Les transformations orthogonales conservent l énergie, d où l énergie d un signal est égale à la somme des énergies de tous les coefficients de la transformation, il en est de même pour la variance du signal (n) noté : k k = = (4) Avec k la variance de la k ème sous-bande, et est le nombre total des sous-bandes. Le gain de codage par transformée GT est le rapport entre la moyenne arithmétique et la moyenne géométrique des variances dans les sous-bandes, il est donnée par l équation suivante [] [3]: G T = k k= k k= (5) 3.. Gain de codage dans le cas de la transformée en ondelettes Dans le cas de la transformée en ondelettes discrète orthogonale la variance du signal est donnée par l équation suivante : + (6) = + = Où est la variance des cœfficients de la ème sous-bande donnée par :

4 S. Bousselmi et K. Ouni n Ci i= = n (7) La moyenne géométrique des variances des coefficients s eprime sous la forme du produit suivant [4] [4] [5]: ( L+ ) ( ) ρ = Ce qui implique que le gain de codage par transformée en ondelettes G suivante: G TO = = ρ = (8) = + + ( L+ ) ( ) = TO, est donné par la relation 3..3 Gain de codage dans le cas de la transformation en paquets d ondelettes Dans le cas de la transformation en paquets d ondelettes la variance du signal est donnée par l équation suivante : = N () n = Où N représente la somme de tous les coefficients des différentes sous-bandes, et est la variance des n coefficients de la ème sous-bande. La moyenne géométrique des variances des coefficients est donnée par l équation suivante [4] [5]: D = ( ) n /N () = Ce qui implique que le gain de codage par transformation en paquets d ondelettes par la relation suivante : G PO = = D N = ( ) = n n /N (9) G PO est eprimé () 3. Rapport signal sur bruit segmental Un autre critère d évaluation est le rapport signal sur bruit segmental noté RSBseg, où nous décomposons le signal sur un nombre déterminé de segments temporels avec ou sans recouvrement, et nous calculons le RSB dans chaque segment. Le RSBseg est la moyenne des RSB, il est eprimé en db :

Sur la recherche d une analyse temps fréquence optimisée pour le codage de la parole 5 RSB seg = L L- k=.log - - i= [ ( i+. k)- ( i+ k. )] i= ( i+ k. ) L est le nombre de segments, chacun de échantillons. représenté le signal original et le signal codé. (3) 4 Résultats epérimentau Notre travail concerne l optimisation du codeur de la parole par transformée dont le schéma de principe est donné par la figure. Nous nous sommes intéressés particulièrement à l étape de décomposition temps-fréquence où nous avons étudié plusieurs types d ondelettes en faisant varier à chaque fois les paramètres. Nous avons effectués une évaluation de cette étude en utilisant les critères obectifs mentionnés ci-dessus. Figure : schéma synoptique d un codeur de parole Le calcul des coefficients transformés dépend du niveau de décomposition et du choi du filtre d ondelette. Pour cela, nous avons étudiés les performances de deu ondelettes orthogonales, l ondelette de Daubechies et l ondelette de Symlet. Vu que la compleité du calcul des coefficients augmente avec l ordre des filtres, nous avons intérêt à diminuer cet ordre et afin d estimer l ordre convenable, nous avons effectué une étude comparative des différents ordres pour chaque ondelette. Nous avons mené notre étude sur des signau issus de la base TIIT, échantillonnés à 6 khz. Compte tenu du fait que le codeur proposé est de type bande téléphonique, nous avons été amenés à faire un sous échantillonnage pour avoir une fréquence de 8 khz. Pour étudier l effet du choi du niveau de décomposition, ou échelle, sur la compacité d énergie nous avons calculé la transformation en ondelettes discrète pour les niveau à 5 en considérant l ondelette de Daubechies d ordre 6 (6 moments nuls). La valeur du gain eprimé en db est une valeur moyenne calculée sur 3 trames, de 56 échantillons chacune, obtenue par segmentation de phrases du corpus TIIT. La figure 3 représente la variation du gain de codage en fonction du niveau de décomposition. Nous remarquons que ce gain augmente lorsque le niveau de décomposition croit et commence à se stabilisé à partir du niveau 3. Par eemple, en passant du niveau 4 au niveau 5 le gain est de.8 db. On obtiendra le même résultat dans le cas de la transformation en paquets d ondelettes.

6 S. Bousselmi et K. Ouni.5 9.5 Gain(dB) 9 8.5 8 7.5 7.5.5 3 3.5 4 4.5 5 Nombre de niveau de décomposition Figure 3 : Variation du gain de codage en fonction du niveau de décomposition Dans le but d évaluer les performances des deu familles d ondelettes orthogonales, la famille de Daubechies et la famille de Symlets, nous avons calculé une valeur moyenne de la compacité d énergie (gain de codage) sur des trames du signal de longueur 56 échantillons. Dans les figures 4 on représente la variation du gain avec les ordres, 8, 4 et 6 de l ondelette de Daubechies et de l ondelette de Symlet, respectivement dans le cas de la transformation en ondelettes et la transformation en paquets d ondelettes. Nous remarquons que pour les deu familles d ondelettes et pour les deu transformations, le gain de codage augmente avec l ordre. ais à partir de l ordre 8, cette augmentation commence à diminuer. Par eemple dans la figure 4(a) le gain obtenu par l ondelette de Daubechies d ordre6 par rapport à celle d ordre 4 n est que de. db, et dans la figure 4(b) le gain obtenu par l ondelette de Daubechies d ordre6 par rapport à celle d ordre 4 n est que de.6 db. Nous remarquons aussi que l ondelette de Daubechies à un gain légèrement supérieur à celui de l ondelette de Symlet. Par ailleurs, la transformation en paquets d ondelettes présente un gain nettement supérieur à celui de la transformée en ondelettes. En effet, pour l ondelette de Daubechies d ordre 6, le gain est de. db dans le cas de la transformation en ondelettes, et de 3.6 db dans le cas de la transformation en paquets d ondelettes..5 4 Daub Daub Sym Sym.5 Gain(dB) 9.5 Gain(dB) 8 6 9 8.5 4 8 4 6 8 4 6 4 6 8 4 6 (a) (b) Figure 4 : Variation du gain de codage en fonction de l ordre de l ondelette, pour les deu familles d ondelettes, dans le cas de la transformation en ondelette (a), et dans le cas de la transformation en paquets d ondelettes (b). Les figures 5(a) et 5(b) montrent la variation du RSBseg en fonction de l ordre de l ondelette en ne retenant que 7% des coefficients les plus énergétiques à la synthèse, respectivement pour la transformée d ondelettes et la transformation en paquets d ondelettes. Le RSBseg est calculé pour un signal de la base TIIT découpé en trames de 56 échantillons. Nous remarquons que la valeur du

Sur la recherche d une analyse temps fréquence optimisée pour le codage de la parole 7 RSBseg augmente avec l ordre des ondelettes pour les deu transformations, et que les deu types d ondelettes possèdent un RSBseg très proches. Le choi des coefficients les plus énergétiques est un critère obectif qui à pour but de minimiser l erreur de reconstruction. Par ailleurs, si on diminue le pourcentage des coefficients retenue dans la synthèse, la qualité des signau se dégrade. Par contre une haute qualité peut être obtenue pour un pourcentage égal à 7 %. La variation du RSBseg en fonction de l ordre de l ondelette de Daubechies et pour des pourcentages entre % à 9% est présentée sur la figure 6. On obtient les mêmes résultats pour les différents tau de coefficients. 7.5 4.8 Daub Daub 7 Sym 4.6 Sym 6.5 4.4 RSBseg(dB) 6 5.5 5 4.5 RSBseg (db) 4. 4 3.8 4 3.6 3.5 3.4 3 4 6 8 4 6 8 (a) 3. 4 6 8 4 6 8 (b) Figure 5 : Variation du RSBseg avec l ordre du filtre, pour les deu familles d ondelettes, dans le cas de la transformation en ondelette et dans le cas de la transformation en paquets d ondelette RSBseg(dB) 8 6 4 8 % 35% 5% 65% 8% 9% 6 4 4 6 8 4 6 8 Figure 6 : Rapport signal sur bruit segmental en fonction de l ordre du filtre pour différentes pourcentages de coefficients 5 Conclusion Dans ce papier nous avons proposé une étude des performances de la transformation en ondelettes dans le codage par transformée des signau de la parole. Nous avons étudié, dans ce cadre, l influence de certains paramètres tels que le niveau de décomposition, le type d ondelette et son ordre, sur la compacité d énergie et le rapport signal sur bruit segmental. Les résultats obtenus montrent que l augmentation du niveau de décomposition ne présente pas d intérêt au-delà du niveau 3, et que l ondelette de Daubechies d ordre 6 présente un gain important. Ces résultats montrent aussi que les performances de la transformation en paquets d ondelettes sont supérieures à ceu de la

8 S. Bousselmi et K. Ouni transformée en ondelette. De plus, elle permet d avoir une base orthogonale tenant compte du modèle de l oreille. Cela nous permet d envisager le choi de la transformation en paquets d ondelette pour la conception du codeur de parole. Références [] A. Cohen. Ondelettes, analyses multirésolutions et filtres miroirs en quadrature. Annales de l'institut Henri Poincaré (C) Analyse non linéaire, tome 7. n. 5, p. 439-459, 99. [] A. Chentir,. Arezki et A. Guessoum. Codage en Sous Bandes par Ondelettes Orthogonales, Application à la Parole. 3rd International Conference: Sciences of Electronic, Technologies of Information and Telecommunications, SETIT, arch 7-3, 5, Tunisia [3] A. K. Soman et P. P. Vaidyanathan. On orthonormal wavelets and paraunitary filter banks. IEEE Trans. on Signal Processing, vol.4, n.3, pp. 7-83, 993. [4] A. K. Soman et P. P. Vaidyanathan. Coding gain in paraunitary analysis/synthesis systems. IEEE Trans. on Signal Processing, vol.4, n.5, pp. 84-834, 993. [5] D. Sinha et A. H. Tewfik. Low bit rate transparent audio compression using adapted wavelets. IEEE Trans. on Signal Processing, vol.4, n., pp. 3464-3479, Dec 993. [6] F. Hlawatsch, F. Auger. Temps-fréquence: concepts et outils. Edition HERES, 5. [7] G. Gonon. Proposition d un schéma d analyse/synthèse adaptatif dans le plan basé sur des critères entropiques. Application au codage audio par transformée. Thèse de Doctorat de l Université de aine, 3 uin. [8] H. Dia. Codage par transformée de la parole à bande élargie (-7kHz). Thèse de Doctorat, Institut National Polytechnique de Grenoble, 993. [9] I. Daubechies. Ten Lectures on Wavelets. CBS-NSF, Regional Conference Series in Applied athematics SIA, 6, Septième Edition,. [] I. Daubechies. The Wavelet Transform, Time-Frequency Localization and Signal Analysis. IEEE Transaction on Information Theory, vol. 36, No. 5, pp. 96-5, September 99. []. ichel,. Yves, O. Georges, et P. ean-ichel. Les ondelettes et leurs applications. Hermes, 3. [] N. oreau. Techniques de compression des signau. Technique et sciences des télécommunications. asson, 995. [3] N. S. ayant et P. Noll. Digital Coding of Waveforms: Principles and Applications to Speech and Video. Prentice Hall Signal Processing Series, 984. [4] P. P. Vaidyanathan. Orthonormal and biorthonormal filter banks as convolvers, and convolution coding gain. IEEE Trans. on Signal Processing, vol.4, n.6, pp. -9, une 993. [5] R. Kastantin. Codage de la parole basé sur la transformation en ondelettes. Thèse de Doctorat, Institut National Polytechnique de Grenoble, ars 996. [6] R. Kastantin. Optimal wavelets for high quality speech coding. EUSIPCO-94, pp. 399-43. [7] S. allat. Une eploration des signau en ondelettes. Les Editions de l'ecole Polytechnique, Novembre. [8] S. allat. A Theory for ultiresolution Signal Decomposition: The Wavelet Representation. IEEE Transactions on pattern analysis and machine intelligence. Vol., No. 7, pp. 674-693, ui.989.