Séparaton de Sources par lssage cepstral des masques bnares Ibrahm Mssaou 1 Zed Lachr 1, 2 (1) École natonale d ngéneurs de Tuns, ENIT, BP. 37 Le Belvedere, 1002 Tuns, Tunse (2) Insttut natonal des scences applquées et de technologe,insat, BP 676 centre urban cedex,tuns, Tunse brahm.mssaou@ent.rnu.tn, zed.lachr@ent.rnu.tn RÉSUMÉ Dans cet artcle, nous proposons un système de séparaton des sgnaux de parole à partr de deux mélanges convolutfs. Le système suggéré est basé sur la combnason d une technque de séparaton aveugle de sources avec une procédure de masquage temps-fréquence, suve d un lssage cepstral. En effet, après la séparaton des sgnaux sources, les masques bnares estmés subssent un lssage cepstral afn de rédure les fluctuatons des artefacts ntrodutes par l opératon de masquage temps-fréquence. Les résultats d évaluaton ont montrés l effcacté du système proposé même dans les cas les plus défavorables. ABSTRACT Source separaton by cepstral smoothng of bnary masks In ths paper, we propose a separaton system of speech sgnals from two convolutve mxtures. The suggested system s based on the combnaton of blnd source separaton technque wth a tme-frequency maskng procedure, followed by a smoothng cepstral. Indeed, after separaton of sgnal sources, the estmated bnary masks undergo a cepstral smoothng to reduce the fluctuatons artfacts whch ntroduced by tme-frequency maskng operaton. The evaluaton results have shown the effectveness of the proposed system even n the most unfavorable case. MOTS-CLÉS : Masque bnare déal, Lssage cepstral, Séparaton aveugle de sources. KEYWORDS: Ideal bnary mask, Cepstral smoothng, Blnd source separaton. 1 Introducton Le problème de séparaton aveugle de sources (SAS) consste à extrare des sgnaux nconnus provenant de dfférentes sources, à partr de leurs mélanges, sans tenr compte d aucune nformaton à pror, n sur la nature du mélange n sur les sgnaux sources elles-mêmes. Les approches de SAS développées pour trater ce problème dans le cas convolutf peuvent classées en deux grandes catégores (Pedersen et al., 2007) : ceux qu tendent de le résoudre dans le domane temporel (Gorokhov et Loubaton, 1997; Douglas et al., 2007) et ceux qu transforment ce problème dans le domane fréquentel (Parra et Spence, 2000; Makno et al., 2005; Yoshoka et al., 2009). Toutefos, parm les algorthmes proposés dans la lttérature, l Actes de la conférence conjonte JEP-TALN-RECITAL 2012, volume 1: JEP, pages 585 592, Grenoble, 4 au 8 jun 2012. c 2012 ATALA & AFCP 585
n exste pas encore un algorthme fable qu peut être utlsé pour les dfférents sgnaux mélanges, surtout dans le cas de réverbératon et dans le cas bruté. La performance de séparaton, dans ces deux cas, reste encore lmtée et exge d autre améloraton. Dans ce sens, pluseurs méthodes de SAS basées sur le masquage temps-fréquence ont été développées (Ylmaz et Rckard, 2004; Sawada et al., 2006). Ces méthodes consstent à applquer un masque temps-fréquence bnare aux sgnaux mélanges. Récemment, la noton de masque bnare déal a été ntrodute comme étant l objectf prncpal de l analyse de scènes audtves computatonnelle (Wang et Brown, 2006). Cette technque a montré qu l est ben adapté à la séparaton de sgnaux de paroles. En fat, l a montré des proprétés remarquables dans la suppresson d nterférences ans que dans l améloraton de l ntellgblté du sgnal cble (Wang et al., 2009). Le masque bnare déal est détermné en comparant chaque unté temps-fréquence de sgnal cble avec celle d nterférence tout en assocant une valeur 1 s l énerge de cble est supéreure à celle d énerge de l nterférence et une valeur 0 en cas nverse (Wang, 2005; Wang et Brown, 2006). Cependant, sans la connassance à pror de sgnal de parole cble et celu d nterférence, l estmaton exacte d un masque bnare déal à partr de sgnaux mélanges devent une tâche dffcle (Jan et al., 2009; Madhu et al., 2008). Dans ce traval, nous proposons d estmer les masques bnares à partr des sgnaux résultants d une étape de séparaton en utlsant un algorthme de SAS. Ces masques subssent ensute une opératon de lssage cepstral. Cette dernère permet de rédure les fluctuatons des artefacts, connue sous le nom de "brut muscal", provoquées généralement par la masquage temps-fréquence (Jan et al., 2009; Madhu et al., 2008). Ce paper est organsé comme sut : Nous commençons dans la secton 2 par présenter le prncpe de SAS dans le cas convolutf. L étape de lssage cepstral des masques bnares est détallé dans la secton 3. la secton 4 expose les expérences et les mesures d évaluatons obtenues. Enfn, la secton 5 conclure notre traval. 2 Séparaton aveugle des sgnaux de parole Dans le cas convolutf, le SAS consste à extrare N sgnaux nconnues s, à partr de leurs mélanges x j enregstrés par M mcrophones sans aucune nformaton à pror. Le modèle mathématque assocé à ce type des mélanges est défne comme sut : x j (m) = N =1 p=1 Avce h j sont les réponses mpulsonnelles des fltres de mélange. Ce modèle peut être écrte sous la forme matrcelle suvante : P h j (p)s (m p + 1) (1) X (m) = H(m) S(m) (2) Avec X (m) = [x 1 (m),.., x M (m)] T et S(m) = [s 1 (m),.., s N (m)] T sont défnes comme étant le vecteur des sgnaux mélanges x j (m) et celu des sgnaux sources s (m), est l opérateur de convoluton et H(m) est la matrce des fltres de mélange. En applquant la transformée de Fourer à court terme à l équaton (1), le problème de SAS convolutf est transformé en un ensemble des problèmes nstantanés dans le domane fréquentel (Parra et Spence, 2000; Makno et al., 2005; Yoshoka et al., 2009). Ce qu donne l équaton 586
suvante : X (k, m) = H(k)S(k, m) (3) l objectf de SAS consste à trouver une matrce des fltres W (k) qu sera ensute utlsé pour extrare les sgnaux sources à partr des mélanges comme sut : Ŝ(k, m) = W (k)x (k, m) (4) Les sgnaux séparés Ŝ(m) = [ŝ 1 (m),.., ŝ N (m)] T sont obtenus en applquant la transformée de Fourer à court terme nverse à la représentaton temps-fréquence des ces sgnaux Ŝ(k, m) = [ŝ 1 (k, m),.., ŝ N (k, m)] T. Dans ce traval, nous tratons le cas de deux mélanges convolutfs où chaque mélange est formé par deux sgnaux de parole (N = M = 2). Le système de séparaton proposé, présenté par la fgure 1, comporte deux modules. Dans le premer module, les sgnaux séparés sont extrats à l ade de l algorthme de SAS développé par Parra et Spence (Parra et Spence, 2000). Cet algorthme est basé sur l explotaton de la non statonnarté de sgnal de parole. Il permet de détermner la matrce de fltres W (k) en effectuant une dagonalsaton smultanée du spectre de pussance crosée. Cette matrce des fltres est ensute utlsée pour obtenr les sgnaux séparés. Le deuxème module correspond à l étape de lssage cepstral des masques bnares. Ce module comporte deux étapes. Dans la premère étape, deux masques bnares sont estmés à partr des sgnaux séparés obtenus dans le module précédant. Ensute, une étape de lssage temporel de ces deux masques est réalsée dans le domane cepstral afn de rédure les fluctuatons des artefacts ntrodutes par l opératon de masquage temps-fréquence. Les deux masques lssés sont ensute convert en domane spectral et applqués aux deux sgnaux dans le but d obtenr une estmaton fnale de sgnaux sources. Nous décrvons dans le paragraphe suvant l étape de lssage cepstral des masques bnares. FIGURE 1 Le système de séparaton proposé 2.1 Les masques bnares Les sgnaux séparés ŝ 1 et ŝ 2 obtenues dans le premer module sont transformés dans le domane temps-fréquence en utlsant la transformée de Fourer à court terme. Les deux spectrogrammes correspondants sont notés par S 1 (k, m) et S 2 (k, m). ŝ 1 S 1 (k, m) ŝ 2 S 2 (k, m) (5) 587
Les deux masques bnares déals M 1 et M 2 sont estmés en comparant l énerge de chaque zone temps-fréquence de ces deux spectrogrammes comme sut : 1 S S1 (k, m) S2 (k, m) M 1 (k, m) = 0 Snon 1 S S2 (k, m) S1 (k, m) M 2 (k, m) = 0 Snon (6) 2.2 Lssage cepstral des masques bnares Afn de rédure les artéfacts muscaux produts généralement par la technque de masquage tempsfréquence, les deux masques bnares sont transformés en domane cepstral dans lequel pluseurs nveaux de lssage temporel sont effectués (Oppenhem et Schafer, 2009). Cette procédure de lssage cepstral qu se base sur le mécansme de producton de parole, permet de rédure le brut muscal, tout en préservant la structure à large bande et l nformaton harmonque du sgnal de parole cble (Jan et al., 2009; Madhu et al., 2008; Oppenhem et Schafer, 2009). La représentaton cepstral de chacun de deux masques spectraux M 1 et M 2 est donnée par l équaton suvante : M cep (l, m) = DF T 1 {ln(m (k, m)) k=1,..,k 1 }, = 1, 2 (7) Avec l est l ndce des bns fréquentels et K est la longueur de la transformée de Fourer dscrète (TFD) (Jan et al., 2009; Madhu et al., 2008). En applquant un lssage temporel récursf du premer ordre aux masques résultants, Les deux masques lssés M cep (l, m) sont donées par : M cep (l, m) = β l M cep (l, m 1) + (1 β l )M cep (l, m) (8) Avec la valeur de paramètre de nveau de lssage β l est chose en foncton des valeurs de l ndce des bns fréquentels l comme sut : f l 0,.., l env β l = β env β ptch f l = l ptch β peak f l l env + 1,..., K \l ptch (9) Où 0 < β env < β ptch < β peak < 1 et le symbole \ désgne l excluson de l ptch de l ntervalle [l env + 1; K]. Pour de pettes valeurs de l ndce des bns fréquentels, les valeurs correspondants de M cep (l, m) représentent l enveloppe spectral du masque M (k, m) (Madhu et al., 2008; Oppenhem et Schafer, 2009). Pour cela, le paramètre β env est fxé à une pette valeur afn d évter la dstorson de l enveloppe spectrale. De même, la structure harmonque du sgnal est mantenue en applquant un fable lssage β ptch pour l = l ptch. Le reste des valeurs de l ndce des bns fréquentels content les pcs spectraux aléatores ndésrables (Oppenhem et Schafer, 2009). Ces pcs engendrent généralement la dstorson harmonque. Par conséquent, un fort lssage (β peak )) dans cette régon est exgé afn de rédure les artefacts (Madhu et al., 2008; Oppenhem et Schafer, 2009). La fréquence fondamentale l ptch est calculée pour chaque fenêtre temporelle m à partr de sgnaux séparés ŝ 1 et ŝ 2 comme sut (Jan et al., 2009) : l ptch = arg max l s g cep (l, m) l low l l hgh (10) 588
Avec sg cep (l, m) est la représentaton cepstrale de sgnal séparé obtenue par le module 1. Les deux valeurs de l low et l hgh sont choses de sorte que l ntervalle correspondant pusse accuellr les fréquences fondamentales de la vox humane entre 50 to 500 Hz. La verson lssée du masque spectrale est calculée selon l équaton suvante : (k, m) = exp DF T M cep (l, m) l=0,...,k 1 (11) M cepsm Le masque lssés est ensute applqués à la représentaton temps-fréquence S (k, m) de sgnal séparé obtenue par le module 1. S cepsm (k, m) = M cepsm S (k, m) (12) Enfn, les sgnaux estmés fnales sont récupérés dans le domane temporel en utlsant la transformée de Fourer à court terme nverse. 3 Résultats expérmentaux Pour évaluer la performance du système proposé, nous avons utlsé pluseurs confguratons de mélanges convolutfs artfcellement établs, où chaque mélange est formé par deux sgnaux de parole. Dans ce paper, nous présentons les résultats obtenues par deux expérences. Dans la premère expérence, les deux sgnaux mélanges sont formés en utlsant des canaux convolutfs, alors que dans la deuxème expérence, nous mélangeons deux sgnaux de parole à l ade d une smulaton d une salle acoustque étable par Allen et Berklen (Gaubtch, 1979). Les valeurs des dfférents paramètres de notre système de séparaton est présentés dans le tableau 1. DFT length= 2048 β env = 0 l env = 8 overlap factor=0.75 β ptch = 0.9 l low = 16 β peak = 0.4 l hgh = 120 TABLE 1 Les valeurs des paramètres utlsées L évaluaton de notre système de séparaton porte sur la qualté de séparaton à travers un crtère de performance fourne par la bote à outls d évaluaton "BSS EVAL toolbox", en partculer le rapport le rapport sgnal à nterférence (SIR) (Vncent et al., 2006). En outre, la qualté de sgnaux séparés est évaluée en utlsant l ndce de qualté PESQ (Perceptual Evaluaton of Speech Qualty). Ce derner représente l équvalence de mesure subjectve de Mean Opnon Score (MOS) (ITU-TP.862, 2001),. Les résultats des évaluatons obtenues sont comparés à ceux obtenus par algorthme de Parra (Parra et Spence, 2000). Expérence 1 :Dans la premère expérence, les sgnaux mélanges sont obtenus en applquant, aux deux sgnaux de parole, quatre canaux convolutfs défnes par l équaton (13). Les sgnaux utlsé sont ssues de base TIMIT (Fsher et al., 1986). h 11 (m) = [1.0, 0.8, 0.7, 0.4, 0.3, 0.25, 0.2, 0.15] h 12 (m) = [0.6, 0.5, 0.5, 0.4, 0.3, 0.2, 0.25, 0.1] h 21 (m) = [0.5, 0.5, 0.4, 0.35, 0.3, 0.3, 0.2, 0.1] h 22 (m) = [1.0, 0.9, 0.8, 0.6, 0.4, 0.35, 0.3, 0.15] (13) 589
Les canaux de mélange sont choss les mêmes que celle utlsée dans (Rahbar et Relly, 2001) et (Me et al., 2008). SIR PESQ Algorthme de Parra SP Algorthme de Parra SP sgnal 1 20.71 db 25.74 db 2.92 3.06 sgnal 2 14.92 db 18.05 db 3.13 3.33 Moyenne 17.81 db 21.98 db 3.02 3.19 TABLE 2 Les valeurs de SIR et PESQ obtenues en utlsant le système proposé (SP) et l algorthme de Parra Le tableau 2 présente les résultats de rapport SIR et l ndce de qualté PESQ obtenus, dans la premère expérence, en utlsant le système proposé et l algorthme de Parra. Nous remarquons que notre système fourne un bon résultat par rapport à celu de l algorthme de Parra pour les deux sgnaux. En effet, nous avons enregstré une valeur moyenne de SIR d ordre de 21.98 db en utlsant notre système de séparaton et 17.81 db en utlsant l algorthme de Parra. Nos résultats sont confrmés par l améloraton de l ndce de qualté PESQ. Nous avons obtenus une valeur moyenne de PESQ égale 3,19 pour notre système et 3,02 pour l algorthme de Parra. Expérence 2 : Dans la deuxème expérence, notre système est testé sur des mélanges convolutfs fourns à l ade d une smulaton d une salle acoustque réverbérant étable par Allen et Berklen (Gaubtch, 1979). Chaque mélange est formé par deux sgnaux de parole mélangés pour dfférents valeurs de temps de réverbératon RT (RT=30,50,100,150,200 ms). Les sgnaux de parole utlsés, ayant approxmatvement le même nveau d ntensté sonore et un longueur de 5 secondes, sont échantllonné à 10 KHz (Pedersen et al., 2008). SIR(dB) PESQ RT (ms) Algorthme de Parra SP Algorthme de Parra SP sgnal 1 20.75 26.68 2.83 2.93 30 sgnal 2 20.99 36.13 3.27 3.42 Moyenne 20.87 31.04 3.05 3.67 sgnal 1 21.08 26.88 2.57 2.62 50 sgnal 2 17.93 29.15 3.22 3.34 Moyenne 19.50 28.01 2.89 2.98 sgnal 1 12.66 20.78 1.94 1.94 100 sgnal 2 17.61 27.54 2.79 2.90 Moyenne 15.13 24.16 2.36 2.42 sgnal 1 13.83 29.10 1.71 1.68 150 sgnal 2 2.33 8.64 2.50 2.65 Moyenne 8.02 18.87 2.10 2.16 sgnal 1 3.72 17.29 1.60 1.66 200 sgnal 2-0.72 7.51 2.36 2.42 Moyenne 1.5 12.4 1.98 2.04 TABLE 3 Les valeurs de SIR et PESQ obtenues en utlsant le système proposé (SP) et l algorthme de Parra pour dfférents valeurs de RT. Les résultats d évaluaton de cette sére des tests obtenus en utlsant le système proposé et 590
l algorthme de Parra, sont récaptulé dans le tableau 3. Nous constatons que notre système fourne un bon résultat en terme de SIR, pour les dfférentes valeurs de RT, par rapport à ceux obtenus par l algorthme Parra. Par exemple, la valeur moyenne de SIR pour RT=30 est de 20,87 db en utlsant l algorthme de Parra alors que notre système fourne un rapport SIR égale à 31,04 db. Cette améloraton est confrmée par la mesure de l ndce de qualté PESQ qu permet d évaluer la qualté des sgnaux séparés. Nous remarquons que notre système a fourne des résultats remarquables en termes de PESQ. Par exemple, pour RT=30 ms, nous avons obtenue une valeur de PESQ égale à 2.93 tands que l algorthme de Parra fourne une valeur de l ordre de 2.83. D après le tableau 3, la melleure performance de système suggéré est obtenue pour les pettes valeurs de RT. Cette performance se dégrade progressvement en augmentant la valeur de RT de 30 à 200 ms. Ce résultat est dû à l augmentaton des réflexons sonores pour les hautes valeurs de RT. 4 Concluson Nous avons proposé un système de séparaton basé sur la technque de séparaton aveugle de sources et la procédure de masquage temps-fréquence, suve d une opératon de lssage cepstral. Les sgnaux séparés obtenus en utlsant un algorthme de SAS, sont explotés pour estmer deux masques bnares. Ces masques ont subes ensute un lssage cepstral afn de rédure les fluctuatons des artefacts ntroduts par l opératon de masquage temps-fréquence. Les résultats de séparaton obtenus sont très encourageants et montrent une consdérable améloraton de la qualté des sgnaux séparés ans que la réducton des fluctuatons des artefacts. Références DOUGLAS, S., GUPTA, M., SAWADA, H. et MAKINO, S. (2007). Spato-temporal fastca algorthms for the blnd separaton of convolutve mxtures. IEEE Transactons on Audo Speech Lang. Processng, 15(5):1511 1520. FISHER, W., DODINGTON, G. et GOUDIE-MARSHALL, K. (1986). The tmt-darpa speech recognton research database : Specfcaton and status. In DARPA Workshop on Speech Recognton. GAUBITCH, N. (1979). Allen and berkeley mage model for room mpulse response. In Imperal College London. GOROKHOV, A. et LOUBATON, P. (1997). Subspace based technques for second order blnd separaton of convolutve mxtures wth temporally correlated sources. IEEE Transactons on Crcut Systems I : Fundamental Theory and Applcatons, 44(9):813 820. ITU-TP.862 (2001). Perceptual evaluaton of speech qualty (PESQ), an objectve method for end-toend speech qualty assessment of narrow-band telephone networks and speech codecs. Internatonal Telecommuncaton Unon, Geneva. JAN, T., WANG, W. et WANG, D. (2009). A multstage approach for blnd separaton of convolutve speech mxtures. In IEEE Internatonal Conference on Acoustcs, Speech and Sgnal Processng, pages 1713 1716. 591
MADHU, N., BREITHAUPT, C. et MARTIN, R. (2008). Temporal smoothng of spectral masks n the cepstral doman for speech separaton. In IEEE Internatonal Conference on Acoustcs, Speech and Sgnal Processng, pages 45 48. MAKINO, S., SAWADA, H., MUKAI, R. et ARAKI, S. (2005). Blnd source separaton of convolutve mxtures of speech n frequency doman. IEICE Transactons on Fundamentals of Electroncs, Communcatons and Computer Scences E88-A, 7:1640 1655. MEI, T., MERTINS, A., YIN, F., XI, J. et CHICHARO, J. (2008). Blnd source separaton for convolutve mxtures based on the jont dagonalzaton of power spectral densty matrces. Sgnal Processng, 88(8):1990 2007. OPPENHEIM, A. et SCHAFER, R. (2009). Dscrete Tme Sgnal Processng. Prentce Hall, New Jersey, thrd édton. PARRA, L. et SPENCE, C. (2000). Convolutve blnd separaton of non-statonary sources. IEEE Transactons on Speech and Audo Processng, 8(3):320 327. PEDERSEN, M., LARSEN, J., KJEMS, U. et PARRA, L. C. (2007). A survey of convolutve blnd source separaton methods. In Sprnger Handbook of Speech Processng, pages 1 34. Sprnger Press. PEDERSEN, M., WANG, D., LARSEN, J. et KJEMS, U. (2008). Two-mcrophone separaton of speech mxtures. IEEE Transactons on Neural Networks, 19:475 492. RAHBAR, K. et REILLY, J. (2001). Blnd source separaton of convolved sources by jont approxmate dagonalzaton of crossspectral densty matrces. In IEEE Internatonal Conference on Acoustcs Speech and Sgnal Processng, pages 2745 2748. SAWADA, H., ARAKI, S., MUKAI, R. et MAKINO, S. (2006). Blnd extracton of domnant target sources usng ca and tme-frequency maskng. IEEE Trans. Audo, Speech, Lang. Process, 14(6): 2165 2173. VINCENT, E., GRIBONVAL, R. et FEVOTTE, C. (2006). Performance measurement n blnd audo source separaton. IEEE Transactons on Audo, Speech, and Language Processng, 14(4):1462 1469. WANG, D. (2005). On deal bnary mask as the computatonal goal of audtory scene analyss. In DIVENYI, P., édteur : Speech Separaton by Humans and Machnes, pages 181 197. Sprnger. WANG, D. et BROWN, G. (2006). Computatonal Audtory Scene Analyss : Prncples, Algorthms, and Applcatons. Wley-IEEE Press, New Jersey. WANG, D., KJEMS, U., PEDERSEN, M., BOLDT, J. et LUNNER, T. (2009). Speech ntellgblty n background nose wth deal bnary tme-frequency maskng. Journal of the Acoustcal Socety of Amerca, 125:2336 2347. YILMAZ, O. et RICKARD, S. (2004). Blnd separaton of speech mxtures va tme-frequency maskng. IEEE Transactons on Sgnal Processng, 52(7):1830 1847. YOSHIOKA, T., NAKATANI, T. et MIYOSHI, M. (2009). Fast algorthm for condtonal separaton and dereverberaton. In Proc 17th European Sgnal Processng Conference, pages 1432 1436. 592