Synthèse théorique des méthodes de transmission binaires sur les canaux vocodés

Synthèse théorique des méthodes de transmission binaires sur les canaux vocodés I Introduction On cherche à moduler des données binaires dans le but de les transmettre sur des canaux vocodés. Afin de transmettre fidèlement les données, le signal modulé doit assurer une certaine transparence envers ce canal particulier, et plus précisément les codeurs et les décodeurs de la parole. La construction de ce signal doit alors prendre en considération les caractéristiques et les paramètres des différents codeurs de parole. Les paramètres du signal auxquels agissent les codeurs de parole sont le pitch, l énergie et le spectre du signal à travers les paramètres de la prédiction linéaire. Un codeur de parole est caractérisé par : - La longueur d une trame. - Le VAD associé est ses critères de décision. - Le retard introduit au signal après décodage par rapport au signal à l entrée. A partir de ce qui précède, on conclut que le signal modulé requiert des caractéristiques des signaux de parole, et on l appellera dans la suite le signal de «pseudo-parole». Ce signal possède une ou plusieurs caractéristiques de la parole, et pourrait même être de la vraie parole. Quand la «pseudo-parole» subit un codage puis décodage, il faut que tout d abord que le VAD ne la considère pas comme du bruit, ensuite qu elle reste conservée le plus possible. II Capacité du canal Le canal de transmission vocodé considéré comprend au minimum : - Le codeur de parole - Le canal de transmission des communications - Le décodeur de parole. Le canal de transmission des communications peut quant-à lui inclure un ou plusieurs étages de codage/décodage de parole. La capacité du canal représente la limite théorique du débit des données binaires que l on peut transmettre dans ce canal sans erreur. La capacité du canal dépend de sa bande passante, soit la bande passante de la parole, typiquement de 300 Hz à 3400 Hz ou 3 KHz pour un codeur de parole bande étroite (dans le cas des codeurs large bande, la bande passante est de 7 KHz). Cette capacité dépend aussi du rapport signal sur bruit dans le canal. Ce dernier est variable en fonction de(s) codeur(s) rencontré(s) dans le canal et leur(s) qualité(s). Le bruit désigne l erreur entre le signal codé et le signal original e( n) = x( n) xˆ( n). Notons que ce bruit n est pas forcément gaussien. La formule de Shannon pour un canal additif blanc Gaussien donne la valeur de la capacité ou le débit maximal C = B log 2 (1 + RSB) Pour se faire une idée sur cette capacité, dans le cas d un codeur de parole EFR, si le rapport signal sur bruit est de 10 db, cette capacité est près de 9 Kb/s

III Principe Les points critiques pour les solutions proposées pour la problématique de transmission sur les canaux vocodés sont : la création des formes d onde, la taille de mémoire nécessaire, la complexité de la démodulation et la résistance aux transformations effectuées par un codeur / décodeur de parole. On considère deux approches possibles pour la solution du point de vue démodulation : La première est basée sur l idée de création d unités de signal de pseudo parole. Lors de la démodulation, on utilise un critère statistique pour choisir une unité parmi l ensemble des unités possible. On se rend très rapidement compte des limitations de cette méthode en considèrent des longues séries binaires (voir plus loin). On a recours alors à des fragmentations temporelles et/ou fréquentielles. La deuxième approche consiste à utiliser des méthodes de modulations /démodulations numériques. IV Modulations en forme d onde de pseudo-parole Les données binaires modulés doivent passer inaperçues dans le canal et à travers le(s) codeur(s). Une solution consiste à fabriquer un signal dont la forme d onde est similaire à celle de la parole. Dans ce type de modulation on peut distinguer deux familles : la conversion directe et synthèse du signal de pseudo parole Conversion directe Les données binaires servent d une façon directe à la construction d un signal de la pseudoparole. Cela revient à choisir la forme d onde correspondant à chaque séquence binaire dans un dictionnaire. Lors de la démodulation, la bonne forme va être recherchée dans le même dictionnaire selon un critère (tel le MMSE). La solution est retenue après dérouler le test sur la totalité des solutions candidates, i.e. la totalité des formes d onde stockées dans le dictionnaire. Par exemple une trame de 20 ms et un débit brut de 4000 bps correspondent à un paquet de 80 bits. On peut imaginer une méthode de création de forme d onde qui à chaque paquet de 80 bits associe un signal de 20 ms. Les signaux de 20 ms doivent être très différents les uns des autres pour assurer une bonne discrimination enter eux à la réception. Mais cette approche ne peut être mise en œuvre car la taille du dictionnaire est très grande. Dans l exemple il serait de 2 80 formes d onde de 20 ms chacune. La taille de mémoire pour le stockage serait énorme et la démodulation très lourde en calcul. 010010101 - Décomposition temporelle Une solution consiste à découper les trames du signal en portions plus petites. Elle a été adoptée dans le brevet «Data transmission over GSM speech channels» par M. Kondoz. La trame de 20 ms est décomposé en 4 sous-trame de 5 ms chacune, ce qui réduit la taille du dictionnaire à 2 15 signaux. Dans cette méthode, lors de la modulation les formes d onde ne sont pas choisies dans le dictionnaire. Les 15 bits sont séparés en 5 séquences de 3 bits, et la sous-trame de 40 échantillons est repartie sur 5 voies de 8 échantillons chacune. Sur Chaque voie deux impulsions sont placées dans une position qui dépend de la séquence de 3 bits.

La sous trame finale est construite par la conjonction de ces 5 voies avec un total de 10 impulsions. L intérêt de cette approche est qu il n est pas nécessaire de stocker le dictionnaire. On peut fabriquer les formes d ondes dynamiquement lors de la modulation et éventuellement de la démodulation. - Décomposition fréquentielle Une autre solution pourrait consister à passer au domaine fréquentiel. Au lieu de décomposer une trame de 20 ms en sous trame en temps, cette trame est transformée dans le domaine fréquentiel. Son spectre sera décomposé en plusieurs plages fréquentielles. La séquence binaire sera décomposée à son tour en plusieurs flux. Pour chaque plage fréquentielle, on choisit dans un dictionnaire la forme d onde correspondant au flux binaire. Dans ce cas le dictionnaire contient des formes d onde décrites par leur spectre. Les plages fréquentielles doivent être soigneusement choisies, ainsi que le nombre de bits affecté à chacune de ces plages. 100 signal spectrum and freq response of prediction filter 90 80 70 60 50 40 001001 11101 1000 1001 30 0 500 1000 1500 2000 2500 3000 3500 4000

Synthèse d un signal de la pseudo-parole à partir des paramètres Dans cette approche les données binaires ne sont pas traduites directement en signal de pseudo-parole. Une étape intermédiaire est introduite : il s agit d un synthétiseur de parole. Les données binaires seront converties en paramètres de parole qui serviront à la synthèse (LSP, période de pitch, énergie ). Les paramètres de parole sont choisis dans des dictionnaires de paramètres pré-calculés. Une fois choisie, la série des paramètres servira comme entrée au synthétiseur qui va générer la pseudo-parole. Côté démodulation, le signal reçu va être analysé, et les paramètres caractéristiques seront extraits. Dans les dictionnaires des paramètres on choisit à l aide d un critère tel MMSE le plus proche voisin dans le dictionnaire. Une fois les paramètres choisis, on retrouve les séquences binaires correspondantes. Dans sa publication «secure data tranmission over GSM voice channel» M. Kondoz utilise cette approche, mais il ne précise pas quelle synthèse de parole il a utilisé. Il reste à préciser le type de synthèse/ analyse de parole parmi les algorithmes possible. La synthèse est équivalente à un décodeur de parole, alors que l analyse utilisée lors de la démodulation n est que le codeur. - LPC 10 - MELP à 2400 b/s - AMR pour sa version plus bas débit 4.2 Kb/s 0001011 LSP, A(z) 011010100011 00111 010101 pitch énergie Synthèse de la parole V Modulations numériques Les modulations numériques présentent des solutions alternatives pour franchir la complexité de recherche dans le dictionnaire, ainsi que son stockage. Plusieurs type de modulation pourrant être considérées ; - OFDM : plusieurs porteuses sont comprises dans le signal. Il reste à préciser le nombre de ces porteuses et l écart entre deux porteuses adjacentes. L autre paramètre à décider est le type de modulation QAM utilisée pour chaque porteuse. - M-FSK : la modulation en fréquence. Cette approche est déjà utilisée en pratique mais pour de très faible débits de données (quelques centaines de bits par secondes au maximum avec un modulation binaires BFSK). Il faudra étudier les limites de ce débit ainsi que l intérêt d une modulation M-aire.

- M-QAM : A vérifier si les états de modulations sont conservés après traversé des codeurs / décodeurs de parole. Cette approche paraît peut adaptée car les codeurs de parole ne conservent généralement pas bien les notions de phases.