THÈSE / UNIVERSITÉ DE RENNES 1 sous le sceau de l Université Européenne de Bretagne. pour le grade de DOCTEUR DE L UNIVERSITÉ DE RENNES 1

Documents pareils
Qualité perçue de parole transmise par voie téléphonique large-bande

Chaine de transmission

La Qualité de Service le la Voix sur IP. Principes et Assurance. 5WVOIP rev E

Les techniques de multiplexage

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

Transmission de données. A) Principaux éléments intervenant dans la transmission

Benchmark Accès Internet

Technique de codage des formes d'ondes

Enregistrement et transformation du son. S. Natkin Novembre 2001

Chapitre 2 Les ondes progressives périodiques

Chapitre 13 Numérisation de l information

Accédez au test ici

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Multimedia. Systèmes, Communications et Applications. Ahmed MEHAOUA

LES CARACTERISTIQUES DES SUPPORTS DE TRANSMISSION

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

LES DIFFÉRENTS FORMATS AUDIO NUMÉRIQUES

La voix sur IP n'est pas un gadget, et présente de réels bénéfices pour l'entreprise.

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Errata et mises à jour

Bandes Critiques et Masquage

ISO/CEI NORME INTERNATIONALE

Architectures et Protocoles des Réseaux

La Voix sur IP OLIVIER D.

Chapitre 18 : Transmettre et stocker de l information

UE11 Phonétique appliquée

Organisation du module

Transmission d informations sur le réseau électrique

Chapitre 2 : communications numériques.

M1 Informatique, Réseaux Cours 9 : Réseaux pour le multimédia

Observer. Un outil adapté à la VoIP

IMPLEMENTATION D UN IPBX AVEC MESSAGERIE UNIFIEE

Voix et Téléphonie sur IP : Architectures et plateformes

Chapitre I La fonction transmission

Caractéristiques des ondes

Calcul des indicateurs de sonie : revue des algorithmes et implémentation

Cours d Acoustique. Niveaux Sonores Puissance, Pression, Intensité

Numérisation du signal

LA VoIP LES PRINCIPES

La VoIP & la convergence

Liste de vérification des exigences Flexfone

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

ACOUSTIQUE 3 : ACOUSTIQUE MUSICALE ET PHYSIQUE DES SONS

ADSL. Étude d une LiveBox. 1. Environnement de la LiveBox TMRIM 2 EME TRIMESTRE LP CHATEAU BLANC CHALETTE/LOING NIVEAU :

Université de La Rochelle. Réseaux TD n 6

Notion de débit binaire (bit rate ou encore bande passante)

QU EST-CE QUE LA VOIX SUR IP?

xdsl Digital Suscriber Line «Utiliser la totalité de la bande passante du cuivre»

Internet et Multimédia Exercices: flux multimédia

Chapitre 22 : (Cours) Numérisation, transmission, et stockage de l information

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

2. Couche physique (Couche 1 OSI et TCP/IP)

Chap17 - CORRECTİON DES EXERCİCES

I. TRANSMISSION DE DONNEES

M1107 : Initiation à la mesure du signal. T_MesSig

Systèmes de communications numériques 2

Apprentissage Automatique

Traitement numérique du son

Systèmes de transmission

Ordonnance du DFJP sur les instruments de mesure audiométriques

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Les Réseaux Informatiques

Intérêt du découpage en sous-bandes pour l analyse spectrale

EMETTEUR ULB. Architectures & circuits. Ecole ULB GDRO ESISAR - Valence 23-27/10/2006. David MARCHALAND STMicroelectronics 26/10/2006

Analyse de la bande passante

SEMINAIRES & ATELIERS EN TÉLÉCOMMUNICATIONS RESEAUX

La structure du mobile GSM

Conception d un outil d aide au déploiement d un réseau EV-DO dans un concept IMS pour l opérateur CAMTEL

CLIP. (Calling Line Identification Presentation) Appareil autonome affichant le numéro appelant

TP Modulation Démodulation BPSK

Quantification Scalaire et Prédictive

TD séance n 10 Multimédia Son

Technologies xdsl. 1 Introduction Une courte histoire d Internet La connexion à Internet L évolution... 3

La Voix sur le Réseau IP

2 Sur les Méthodes d Évaluation de la Qualité de la VoIP

Cours n 12. Technologies WAN 2nd partie

Veille Technologique : la VoIP

Glossaire technique Veditec

Votre Réseau est-il prêt?

QoS et Multimédia SIR / RTS. Introduction / Architecture des applications multimédia communicantes

Chapitre 1. Introduction aux applications multimédia. 1. Introduction. Définitions des concepts liés au Multimédia (1/2)

Electron S.R.L. - MERLINO - MILAN ITALIE Tel ( ) Fax Web electron@electron.it

Analyses psychoacoustiques dans ArtemiS SUITE

Chapitre 5 Émetteurs et récepteurs sonores

Calcul de la bande passante réelle consommée par appel suivant le codec utilisé

Voix sur IP. Généralités. Paramètres. IPv4 H323 / SIP. Matériel constructeur. Asterisk

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

«Le Dolby Digital 5.1 et les tests en champ libre par ordinateur»

Réseaux grande distance

Efficace et ciblée : La surveillance des signaux de télévision numérique (2)

Codage hiérarchique et multirésolution (JPEG 2000) Codage Vidéo. Représentation de la couleur. Codage canal et codes correcteurs d erreur

Mesure agnostique de la qualité des images.

Evolution de l infrastructure transport

LE VDSL 2 EN FRANCE. Source :

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

Digital Subscriber Line

ADSL. C est comme son nom l indique une liaison asymétrique fort bien adaptée à l Internet et au streaming radio et vidéo.

Transcription:

ANNEE 2014 THÈSE / UNIVERSITÉ DE RENNES 1 sous le sceau de l Université Européenne de Bretagne pour le grade de DOCTEUR DE L UNIVERSITÉ DE RENNES 1 Mention : Traitement du Signal et Télécommunications École doctorale Matisse présentée par Sibiri TIEMOUNOU Préparée à l unité de recherche LTSI INSERM UMR 1099 Laboratoire Traitement du Signal et de l Image UFR Informatique Électronique (ISTIC) Thèse soutenue à Rennes le 17 février 2014 Développement d une méthode de diagnostic technique des dégradations de qualité vocale perçue des communications téléphoniques à partir d une analyse du signal de parole devant le jury composé de : Gang FENG Professeur à l'inp de Grenoble / rapporteur Etienne PARIZET Professeur à l'insa de Lyon / rapporteur Thierry CHONAVEL Professeur à Telecom Bretagne / examinateur Gaël MAHE Maître de Conférences, Université Paris Descartes / examinateur Vincent BARRIAC Ingénieur Orange Labs Lannion / directeur de thèse Régine LE BOUQUIN JEANNES Professeur à l Université de Rennes 1 / directeur de thèse

Table de matières Table des matières Table des matières... 3 Liste des acronymes et abréviations... 7 Introduction... 9 Chapitre 1 - Etat de l'art sur la qualité vocale dans les systèmes de télécommunications... 13 1.1. Production et perception de la parole... 13 1.2. Qualité vocale... 16 1.2.1. Définition... 16 1.2.2. Qualité de Service et Qualité d'expérience... 17 1.3. Systèmes de transmission de la parole... 18 1.3.1. Réseaux téléphoniques... 18 1.3.1.1. Réseau Téléphonique Commuté (RTC)... 18 1.3.1.2. Réseaux numériques... 18 1.3.1.3. Réseaux mobiles... 19 1.3.1.4. Voix sur IP (VoIP)... 19 1.3.2. Codage de la parole... 20 1.3.2.1. Détecteur d Activité Vocale (DAV)... 21 1.3.2.2. Mécanisme de masquage des pertes de paquets... 21 1.3.3. Fonctionnalités d'amélioration du signal de parole... 21 1.3.3.1. Annuleurs d'écho... 22 1.3.3.2. Réducteurs de bruit... 22 1.3.3.3. Systèmes de contrôle automatique de gain... 22 1.3.4. Interface utilisateur... 22 1.4. Evaluation de la qualité vocale... 23 1.4.1. Définitions... 23 1.4.2. Evaluation subjective de la qualité vocale... 24 1.4.2.1. Contexte d évaluation de la qualité vocale... 24 1.4.2.1.1. Contexte d écoute... 25 1.4.2.1.2. Contexte de locution... 25 1.4.2.1.3. Contexte de conversation... 25 1.4.2.2. Evaluation unidimensionnelle de la qualité vocale... 25 1.4.2.2.1. Test ACR (Absolute Category Rating)... 25 1.4.2.2.2. Test DCR (Degradation Category Rating)... 26 1.4.2.2.3. Test CCR (Comparison Category Rating)... 26 1.4.2.2.4. Test MUSHRA (MUlti Stimulus test with Hidden Reference and Anchor)... 27 1.4.2.3. Evaluation multidimensionnelle de la qualité vocale... 27 1.4.2.3.1. DAM (Diagnostic Acceptability Measure)... 27 1.4.2.3.2. P.MULTI... 28 1.4.2.3.3. Recommandation P.835 de l UIT-T... 28 1.4.3. Evaluation objective de la qualité vocale... 28 1.4.3.1. Modèles paramétriques... 29-3 -

Table de matières 1.4.3.1.1. Modèle E... 29 1.4.3.1.2. Modèle CCI (Call Clarity Index ou indice de netteté des logatomes)... 30 1.4.3.1.3. Recommandation P.564... 30 1.4.3.2. Modèles basés sur le signal de parole... 30 1.4.3.2.1. Modèles avec référence... 30 1.4.3.2.1.1. Modèle PSQM (Perceptual Speech-Quality Measure)... 33 1.4.3.2.1.2. Modèle PESQ (Perceptual Evaluation of Speech Quality)... 33 1.4.3.2.1.3. Modèle POLQA (Perceptual Objective Listening Quality Assessment)... 34 1.4.3.2.1.4. Modèle DIAL (Diagnostic Instrumental Assessment of Listening quality)... 35 1.4.3.2.1.5. Modèle TOSQA (Telecommunications Objective Speech Quality Assessment) 35 1.4.3.2.1.6. Modèle PESQM (Perceptual Echo and Sidetone Quality Measure)... 36 1.4.2.3.1.7. Modèle objectif conversationnel... 36 1.4.3.2.2. Modèles sans référence... 36 1.4.3.2.2.1. Modèle P.563... 37 1.4.3.2.2.2. Modèle DESQHI (Diagnostic and Speech Quality using Hybrid Indicators)... 37 1.4.3.2.2.3. Autres modèles sans référence... 37 1.5. Espace perceptif de la qualité vocale... 37 1.5.1. Procédure d identification des dimensions perceptives... 38 1.5.1.1. Réalisation de tests subjectifs... 38 1.5.1.1.1. Tests de dissimilarité... 38 1.5.1.1.2. Test par Différentielle Sémantique (SD)... 38 1.5.1.2. Extraction des dimensions perceptives... 39 1.5.1.1.1. Méthode d Echelonnement MultiDimensionnel (EMD)... 39 1.5.1.1.2. Analyse en Composantes Principales (ACP)... 39 1.5.1.2. Test de verbalisation... 39 1.5.2. Dimensions perceptives de la qualité vocale... 39 1.6. Conclusion... 42 Chapitre 2 - Indicateurs de qualité et performances... 43 2.1. Etude de modèles récents... 44 2.1.1. Présentation du modèle POLQA... 44 2.1.2. Présentation du modèle DIAL... 46 2.1.3. Présentation du modèle DESQHI... 47 2.2. Identification des indicateurs de qualité dans les modèles présentés... 48 2.2.1. Indicateurs de la dimension Bruyance... 49 2.2.2. Indicateurs de la dimension Continuité... 52 2.2.3. Indicateurs de la dimension Coloration... 57 2.2.4. Indicateurs de la dimension Sonie... 62 2.2.5. Récapitulatif des indicateurs identifiés dans les modèles objectifs... 62 2.3. Etude de performances des indicateurs de qualité... 63 2.3.1. Description des méthodes d évaluation des indicateurs de qualité... 63 2.3.1.1. Méthode graphique... 63 2.3.1.2. Méthode objective... 64 2.3.2. Description de la base sonore... 65 2.3.3. Evaluation des performances des indicateurs... 68-4 -

Table de matières 2.3.3.1. Performances des indicateurs de la dimension Bruyance... 69 2.3.3.2. Performances des indicateurs de la dimension Continuité... 70 2.3.3.3. Performances des indicateurs de la dimension Coloration... 71 2.3.3.4. Performances des indicateurs de la dimension Sonie... 72 2.4. Conclusion... 73 Chapitre 3 - Modélisation de la dimension Bruyance... 75 3.1. Hypothèses... 75 3.2. Réalisation du test subjectif d évaluation de la qualité vocale... 76 3.2.1. Description des échantillons sonores... 77 3.2.1.1. Signaux de parole... 77 3.2.1.2. Bruits... 77 3.2.2. Pré-égalisation du niveau sonore des bruits... 78 3.2.3. Construction de la base sonore... 79 3.2.4. Plan du test subjectif... 80 3.3. Analyse des résultats du test subjectif... 81 3.4. Modélisation de la dimension Bruyance... 84 3.4.1. Classification automatique des bruits de fond... 84 3.4.1.1. Description des indicateurs de qualité... 84 3.4.1.2. Base sonore... 86 3.4.1.3. Phase d apprentissage... 86 3.4.1.4. Phase de validation... 87 3.4.2. Prédiction de la qualité vocale en présence de bruit de fond... 88 3.4.2.1. Phase d apprentissage... 88 3.4.2.2. Phase de validation... 90 3.5. Validation du modèle proposé sur des bases sonores inconnues... 90 3.5.1. Performance de classification... 91 3.5.2. Performance de prédiction... 91 3.6. Conclusion... 92 Chapitre 4 - Modélisation de la dimension Continuité... 93 4.1. Modélisation de la Continuité... 93 4.1.1. Modélisation de la sous-dimension Variation de Gain... 94 4.1.2. Principe de la modélisation de la dimension Continuité... 95 4.1.3. Description de la base sonore... 96 4.1.4. Détection automatique des discontinuités... 96 4.1.4.1. Phase d apprentissage... 96 4.1.4.2. Phase de validation... 97 4.1.5. Prédiction de la qualité vocale en présence de discontinuités... 97 4.1.5.1. Phase d apprentissage... 98 4.1.5.2. Phase de validation... 99 4.2. Validation du modèle proposé sur une base sonore inconnue... 99 4.3. Conclusion... 100-5 -

Table de matières Chapitre 5 - Modélisation de la dimension Coloration... 101 5.1. Description des codecs sélectionnés... 102 5.2. Construction de la base sonore... 104 5.3. Détermination de la signature des codecs... 105 5.3.1. Approche méthodologique... 105 5.3.2. Détermination des largeurs de bande des codecs... 106 5.3.3. Classification des codecs... 110 5.3.3.1. Description des indicateurs de qualité... 110 5.3.3.2. Description de la méthode CAH... 112 5.3.3.3. Application de la méthode CAH aux codecs... 112 5.3.3.3.1. Cas des codecs NB... 113 5.3.3.3.2. Cas des codecs WB... 114 5.3.3.3.3. Cas des codecs SWB... 115 5.3.3.3.4. Analyse des résultats... 116 5.3.3.4. Classification automatique des codecs... 117 5.4. Performances du modèle proposé... 120 5.5. Conclusion... 121 Chapitre 6 - Modélisation de la dimension Sonie... 123 6.1. Méthodes objectives d estimation de la sonie... 123 6.1.1. Méthodes d estimation de la sonie des sons stationnaires... 124 6.1.2. Méthodes d estimation de la sonie des sons non stationnaires... 125 6.2. Indicateurs de qualité de la dimension Sonie et performances... 125 6.3. Conclusion... 128 Chapitre 7 - Performances de l outil de diagnostic... 129 7.1. Structure globale de l outil de diagnostic... 129 7.2. Description de la base sonore... 133 7.3. Performances des modules de détection de dégradations... 135 7.3.1. Performances de classification des bruits de fond... 136 7.3.2. Performances de détection de discontinuités... 137 7.3.3. Performances de classification des codecs... 138 7.3.4. Performances d estimation des variations du niveau sonore global de la parole... 139 7.4. Performances de prédiction de notre outil et comparaison avec DIAL... 140 7.5. Conclusion... 141 Conclusion et perspectives... 143 Annexe A - Coefficients des fonctions de mappage des indicateurs de qualité... 147 Annexe B - Consigne du test d évaluation de la qualité vocale Méthode DCR... 151 Bibliographie... 153-6 -

Liste des acronymes et abréviations Liste des acronymes et abréviations 3GPP AAC AbS ACELP ACP ADPCM AMR AMR WB ATC CAH CELP CMOS CSB DAM db DCR DCT DESQHI DFT DIAL DMOS DPCM DSP EDGE EQM ETSI FB FEC GMM GPRS GSM GSM - EFR GSM - FR Hz IP ITU kbit/s khz 3rd Generation Partnership Project Advanced Audio Coding Analysis by Synthesis Algebraic Code-Excited Linear Prediction Analyse en Composantes Principales Adaptive Differential Pulse Code Modulation Adaptive Multi-Rate Adaptive Multi-Rate WideBand Adaptive Transform Coding Classification Ascendante Hiérarchique Coded-Excited Linear Prediction Comparison MOS Codage en Sous Bande Diagnostic Acceptability Measure decibel Degradation Category Rating Discrete Cosine Transform Diagnostic and Speech Quality using Hybrid Indicators Discrete Fourier Transform Diagnostic Instrumental Assessment of Listening quality Degradation MOS Differential Pulse Code Modulation Densité Spectrale de Puissance Enhanced Data for GSM Evolution Erreur Quadratique Moyenne European Telecommunications Standards Institute Full-Band Frame Error Correction Gaussian Mixture Model General Packet Radio Service Global System for Mobile communications GSM - Enhanced Full Rate GSM - Full Rate Hertz Internet Protocol International Telecommunication Union kilo-bits par seconde kilo Hertz - 7 -

Liste des acronymes et abréviations LTE Mbit/s MDCT MDS MIC MICD MICDA MIPS MLT MOS MOS-LQO MUSHRA NB NMR PCM PESQ PLC POLQA PSQM RPE SWB SMS SPL STFT TDAC TDBWE TOSQA UIT UMTS VAD VoIP WB WSS Long Term Evolution Mega-bits par seconde Modified Discrete Cosine Transform MultiDimensional Scaling Modulation par Impulsions Codées MIC différentiel Modulation par Impulsions Codées Adaptative Million d Instructions Par Seconde Modulated Lapped Transform Mean Opinion Score MOS Listening Quality Objective MUltiple Stimuli with Hidden Reference and Anchor NarrowBand Noise to Mask Ratio Pulse Code Modulation Perceptual Evaluation of Speech Quality Packet Loss Cancealment Perceptual Objective Listening Quality Assessment Perceptual Speech-Quality Measure Regular Pulse Excitation Super WideBand Short Message Service Sound Pressure Level Short Term Fourier Transform Time Domain Aliasing Cancellation Time-Domain Bandwidth Extension Telecommunications Objective Speech Quality Assessment Union Internationale des Télécommunications Universal Mobile Telecommunication System Voice Activity Detection Voice over IP WideBand Weighted Spectral Slope - 8 -

Introduction Introduction De nos jours, les systèmes de télécommunication sont en pleine évolution, marquée par l apparition de nouveaux réseaux d accès, notamment mobiles, comme la 3G (UMTS, Universal Mobile Telecommunications System) ou la 4G (LTE, Long-Term Evolution), et de nouveaux services repoussant toujours plus loin les limites de l innovation. Parmi ceux-ci, nous nous intéressons en particulier à la VoIP (Voice over the Internet Protocol). Si la téléphonie dite «classique» a été initialement prévue pour transmettre la voix sur une bande passante allant de 300 Hz à 3400 Hz (aussi appelée bande étroite ou NB, Narrowband), les réseaux utilisant le transport sur IP permettent de transmettre ce que l on appelle la «voix HD» (Haute Définition), i.e. des communications téléphoniques en bande élargie ou WB, WideBand (i.e. [50 Hz 7000 Hz]). Ils rendent également possible l utilisation d applications de VoIP en bande super-élargie ou SWB (Super WideBand), dont la bande de fréquences s étend de 50 à 14000 Hz. Ces différentes extensions de la bande audio améliorent nettement l intelligibilité de la voix comparée à la téléphonie classique. Cependant, elles ne sont pas sans risque. En effet, au-delà des conséquences en termes de congestion de réseau (compensée par les techniques de codage à débit réduit), les dégradations présentes dans les hautes fréquences deviennent audibles dans les communications téléphoniques en bande élargie ou super-élargie, alors qu elles sont atténuées dans le contexte en bande étroite. La qualité vocale n est donc pas nécessairement améliorée avec les nouvelles techniques de réseau et de traitement de la voix. Afin de faire face à la concurrence et de satisfaire aux exigences de leurs clients ainsi que des autorités de régulations nationales, les opérateurs de télécommunications se doivent de connaître, et donc de contrôler en permanence, la qualité de leurs services. C est le cas en particulier des services de téléphonie. Un des facteurs principaux de la qualité de ces services est la qualité vocale telle que perçue par les utilisateurs. L approche la plus fiable pour évaluer la qualité vocale est de recourir à ce que l on appelle des tests subjectifs, i.e. des tests durant lesquels les participants, qu on soumet à des stimuli sonores issus d enregistrements effectués sur le service à évaluer, jugent la qualité telle qu ils la perçoivent sur une échelle de qualité bien définie. Cependant, la réalisation de ces tests subjectifs s avère coûteuse en temps et en moyens financiers. De plus, c est une évaluation a posteriori, quand bien souvent le besoin est de pouvoir réagir rapidement aux dégradations constatées. Comme alternative à ces tests subjectifs, des méthodes de mesures dites «objectives», fondées soit sur une analyse du signal de parole soit sur des informations issues du réseau, sont développées. En particulier, de nos jours, nous assistons à l apparition de méthodes de plus en plus «sophistiquées», fondées sur la modélisation du système auditif humain, connues aussi sous le nom de modèles perceptifs, et dont le but est de prédire de manière automatique la qualité vocale telle qu elle serait déterminée lors d un test subjectif formel. C est à ces modèles que nous nous sommes intéressés principalement dans le cadre de cette étude. Les plus connus et les plus utilisés de ces modèles sont ceux normalisés au sein de l Union Internationale des Télécommunications (UIT), notamment ceux décrits dans les normes P.862 (ITU-T 2001) et P.863 (ITU-T 2011a). De tels modèles ont été développés et entraînés afin de s adapter aux nouvelles technologies de traitement et de transmission de la voix sur les réseaux de télécommunications. Bien que ces modèles fassent preuve de bonnes performances en matière de prédiction de la qualité vocale (en contexte d écoute, i.e. sans prise en compte d éventuels retards et de l écho), ils ne permettent pas d établir de lien entre cette dégradation perçue et sa cause. Autrement dit, ils ne fournissent pas d information sur la nature des défauts à l origine - 9 -

Introduction des dégradations perçues. Or, bien souvent, d un point de vue opérationnel, la mesure de qualité vocale (sous forme d un scalaire quantifiant le degré de dégradation) est nettement insuffisante. Il faut la compléter d autres éléments de mesure afin de déterminer l origine des défauts constatés, voire proposer des actions correctives. Ces éléments peuvent être obtenus au niveau des équipements de réseau (qui fournissent moult compteurs), par le biais de mesures au niveau du réseau de transmission (notamment IP) ou d accès (DSL, radio, etc.), ou encore par une analyse plus avancée du signal de parole. L objectif de nos recherches consiste à proposer un outil de diagnostic avancé des dégradations de la qualité vocale qui, à partir d une analyse du signal sonore (parole + bruits environnants), fournira des informations plus spécifiques sur la nature des défauts perçus lors des communications téléphoniques et d orienter vers les causes possibles en vue d une action d amélioration. Pour ce faire, nous sommes partis du constat fait dans la littérature, à savoir que l analyse des défauts perçus lors des communications téléphoniques conduit à une représentation multidimensionnelle de la qualité vocale. L outil de diagnostic proposé dans cette thèse va reposer sur la modélisation de quatre familles de défauts correspondant à autant de dimensions perceptives (Bruyance, Continuité, Coloration et Sonie) couvrant l ensemble des défauts perçus lors des communications téléphoniques, et orthogonales entre elles (au moins pour les trois premières). Cette approche multidimensionnelle nous permet de fournir, en complément de la note de qualité vocale globale, des informations plus fines sur les principaux défauts présents sur le signal vocal. De plus, notre outil de diagnostic sera conçu de sorte à couvrir les trois bandes audio utilisées en téléphonie (bande étroite, bande élargie et bande super-élargie), avec une priorité pour les signaux en bande super-élargie, la plus prometteuse (les futurs services de téléphonie seront en bande super-élargie) mais aussi la plus pauvre à ce jour en études portant sur le diagnostic des dégradations des signaux de parole. Le premier chapitre sera consacré à un état de l art sur la qualité vocale perçue dans les systèmes de télécommunications et aux défauts altérant cette qualité. Après une description des éléments importants présents dans les réseaux et systèmes de télécommunications actuels et à venir et leur impact sur la qualité vocale, un état de l art des méthodes d évaluation subjective et objective de la qualité vocale sera dressé. Les études portant sur l identification des dimensions caractérisant l espace perceptif de la qualité vocale seront présentées et permettront de mettre en exergue l intérêt des quatre dimensions perceptives pour notre étude. Chaque dimension perceptive peut être modélisée par au moins un estimateur de dégradation, simplement appelé par la suite «indicateur de qualité». La fiabilité de notre outil à obtenir des informations sur chaque dimension repose sur la pertinence et la robustesse des indicateurs de qualité que nous aurons sélectionnés. L objet du chapitre 2 sera d identifier certains de ces indicateurs. Pour ce faire, nous avons décidé de nous intéresser en premier lieu aux modèles perceptifs les plus récents, parmi lesquels la norme P.863 de l UIT-T (ITU-T 2011a). Les quatre chapitres suivants (chapitres 3 à 6) seront respectivement consacrés à la modélisation proprement dite des quatre dimensions perceptives à partir d indicateurs de qualité (dont ceux identifiés au chapitre 2). La modélisation de la dimension Bruyance (chapitre 3) sera fondée sur des travaux réalisés au sein d Orange Labs (Leman 2011) portant sur l élaboration d un modèle fiable de classification automatique des bruits de fond en contexte téléphonique en bande étroite, dont nous proposons d élargir le domaine d application aux signaux en bande super-élargie. Concernant la modélisation de la dimension Continuité (chapitre 4), elle reposera sur la quantification de trois familles de discontinuités perçues, chacune représentée par un indicateur spécifique. Quant à la dimension Coloration (chapitre 5), nous - 10 -

Introduction proposerons une modélisation de cette dimension essentiellement orientée sur la détermination de la signature des codecs à bande étroite, élargie ou super-élargie utilisés dans les systèmes de télécommunications actuels ou à venir. En ce qui concerne la dimension Sonie (chapitre 6), nous envisagerons une modélisation des variations observées sur le niveau sonore global. Sera finalement présenté au chapitre 7 notre outil de diagnostic, constitué d une combinaison des différents indicateurs étudiés dans les chapitres précédents, dont nous analyserons les performances globales, avant de conclure et de suggérer des perspectives à ce travail. - 11 -

Chapitre 1 Etat de l art sur la qualité vocale dans les systèmes de télécommunications Chapitre 1 Etat de l'art sur la qualité vocale dans les systèmes de télécommunications La parole est un langage articulé humain, composé de signes audibles. C est un élément essentiel dans les relations humaines car elle permet de communiquer la pensée, les sentiments etc. Cette communication peut être faite face-à-face (i.e. le locuteur et l auditeur se parlent en se faisant face) ou au moyen d un système de télécommunications (i.e. communication à distance). Quel que soit le mode de communication utilisé, l information véhiculée dans le signal de parole doit être de bonne qualité afin de faciliter sa compréhension. Cela est d autant plus important dans les communications téléphoniques que le signal de parole est soumis à des séries de traitement pouvant introduire des distorsions dans le signal et impacter par conséquent la qualité du message vocal. Conscients de l enjeu économique que cela représente, les opérateurs de télécommunications se doivent de garantir une bonne qualité du signal de parole transmis. Dans ce chapitre, nous présenterons dans la section 1.1 le processus de production de la parole et sa perception suivis d une description de la qualité vocale dans la section 1.2. La section 1.3 sera consacrée à une étude détaillée des éléments constitutifs des systèmes de transmission et leur impact sur la qualité vocale. Les méthodes d évaluation de la qualité vocale seront décrites dans la section 1.4 avant d aborder l espace perceptif de cette qualité (cf. 1.5). 1.1. Production et perception de la parole La parole est produite à partir de l'appareil phonatoire décrit sur la Figure 1.1. Celui-ci est constitué de trois parties essentielles : la partie sous-glottique ou appareil respiratoire, constituée du diaphragme, des poumons et de la trachée, est l'appareil de la soufflerie qui fournit l énergie nécessaire à la phonation (i.e. acte de la parole) en insufflant l air vers la partie glottique ; la partie glottique ou larynx assure le premier niveau de transformation de l'air pulmonaire en vibration sonore audible. Elle est constituée essentiellement de cordes vocales qui, lors de la phonation, vibrent en s'ouvrant et se fermant rapidement de manière quasi-périodique. Le taux de cette vibration (ouverture-fermeture) correspond à la fréquence fondamentale (F0) de la voix humaine et exprimée en Hertz (Hz). Cette fréquence fondamentale dépend du sexe et de l'âge du locuteur. Ainsi, la fréquence F0 moyenne des hommes, femmes et enfants se situe respectivement autour de 100 Hz, 200 Hz et 300 Hz (Shaughnessy 2000) ; la partie supra-glottique ou conduit vocal est formée de la cavité orale (pharyngienne et buccale) et des cavités nasales. Ces cavités transforment l'énergie acoustique induite par la partie glottique en langage articulé grâce, essentiellement, à l extrême mobilité de la langue et des lèvres. - 13 -

Chapitre 1 Etat de l art sur la qualité vocale dans les systèmes de télécommunications La bande passante produite par la parole humaine à la sortie de la bouche est généralement définie dans la gamme (100-7000 Hz) (Deng and O Shaughnessy 2003). C est une bande contenant les informations utiles à la bonne compréhension de la parole humaine. Le son acoustique issu de la parole du locuteur est propagé via l air, dans le cas d une communication face-à-face, ou à travers un système de transmission (cf. 1.2) dans le cas d une communication téléphonique. Ce son est ensuite capté par le système auditif de l auditeur qui transforme ce signal de sorte que le cerveau puisse l'analyser. Le système auditif humain est composé de trois parties (cf. Figure 1.2) : l oreille externe, partie visible de l'oreille comprenant le pavillon et le conduit auditif, est le canal par lequel le son est acheminé ; l oreille moyenne est constituée du tympan (ou membrane tympanique) et des osselets (marteau, enclume, étrier). Ces deux éléments servent à amplifier les vibrations sonores pour les transmettre à l'oreille interne ; l oreille interne ou la cochlée (ou encore limaçon) est l organe essentiel de l audition et a pour rôle de convertir les vibrations sonores en impulsions neuro-électriques transmises au nerf auditif. Ce dernier les conduit ensuite jusqu'au cerveau qui les interprète grâce à un processus cognitif. Figure 1.1. Appareil phonatoire humain Figure 1.2. Système auditif humain L oreille humaine perçoit des sons dans des fréquences comprises entre 20 et 20000 Hz. Cet intervalle varie d un individu à l autre et s amenuise avec l âge. Toutefois, il existe un seuil d audition absolu en dessous duquel l oreille humaine ne perçoit pas de son. Une courbe du seuil d audition absolu, illustrée sur la Figure 1.3, a été proposée par Fletcher(Fletcher 1940) et dont l équation est la suivante : 2 0,8 0,6 f 10003,3 3 4 S f 3,4 f 1000 6,5e 10 f 1000, (1.1) a où Sa f est le seuil absolu d audition, exprimée en db-spl (SPL signifie Sound Pressure Level ou niveau de pression du son) et f la fréquence exprimée en Hz. D autre part, les études réalisées par - 14 -

Chapitre 1 Etat de l art sur la qualité vocale dans les systèmes de télécommunications Fletcher (Fletcher 1940) ont montré que l oreille interne est constituée d un banc de filtres passe-bande se chevauchant fortement appelées bandes critiques. Une bande critique correspond à l écart minimal pour que deux fréquences soient perceptivement discriminées. Dans cette bande, la puissance perçue par l oreille correspond à la somme de toutes les puissances des composantes fréquentielles comprises dans cette bande. Figure 1.3. Courbe du seuil d audition absolu Bande critique Fréquence (Hz) Bande Fréquence (Hz) Basse Haute Largeur critique Basse Haute Largeur 0 0 100 100 13 2000 2320 320 1 100 200 100 14 2320 2700 380 2 200 300 100 15 2700 3150 450 3 300 400 100 16 3150 3700 550 4 400 510 110 17 3700 4400 700 5 510 630 120 18 4400 5300 800 6 630 770 140 19 5300 6400 1100 7 770 920 150 20 6400 7700 1300 8 920 1080 160 21 7700 9500 1800 9 1080 1270 190 22 9500 12000 2500 10 1270 1480 210 23 12000 15500 3500 11 1480 1720 240 24 15500 22050 6550 12 1720 2000 280 Tableau 1.1. Liste des bandes critiques composant le système auditif humain Lorsque cette somme est supérieure au seuil d audition absolu, le son présent dans cette bande est considéré comme audible, sinon il est inaudible. Zwicker et al. (Zwicker et al. 1999) ont proposé une échelle de mesure de la bande critique appelée l échelle des barks dont la relation avec l échelle des hertz est donnée par : - 15 -

Chapitre 1 Etat de l art sur la qualité vocale dans les systèmes de télécommunications 0,76 f f zb 13arctan 3,5arctan 1000 7500, (1.2) où z B est une bande critique exprimée en Bark et f une fréquence exprimée en khz. On distingue généralement 25 bandes critiques, qui sont celles données dans le Tableau 1.1. 2 De façon générale, la perception de la parole représente l ensemble des aptitudes auditives et cognitives d'un individu lui permettant d interpréter et de comprendre l'information contenue dans le signal de parole. Le résultat du processus de reconnaissance de cette information est défini comme étant la compréhension (Jekosch 2005). Raake (Raake 2006) et Möller (Möller 2000) considèrent que la compréhension vocale correspond à la dernière étape du processus de la perception vocale. Ce processus comprend quatre étapes successives : la compréhensibilité représente l aptitude du signal acoustique à transmettre l'information phonémique. Un niveau de compréhensibilité élevé correspond à une reconnaissance parfaite des phonèmes 1 constituant le signal de parole ; l intelligibilité traduit les capacités d'un individu à extraire l information contenue dans un signal de parole sur la base d une identification des phonèmes ; la communicabilité désigne la capacité d un individu à comprendre le signal de parole tel que le locuteur avait l intention de dire ; la compréhension est le résultat final du processus de perception de la parole. Elle nécessite alors que l auditeur soit prêt et ait l intention de comprendre le message contenu dans le signal de parole prononcé par son locuteur. 1.2. Qualité vocale 1.2.1. Définition La qualité vocale est une notion subjective très complexe liée à la perception humaine. Jekosch (Jekosch 2000) définit la qualité vocale comme étant le résultat d'un processus de perception et de jugement, durant lequel l individu établit une relation entre ce qu il perçoit (i.e. l'événement sonore) et ce qu il désire ou attend (i.e. la référence interne). La Figure 1.4 décrit le mécanisme de jugement de la qualité vocale par un auditeur. D après ce schéma, l auditeur perçoit le signal acoustique, identifie ensuite les caractéristiques du signal de parole telles que les informations phonétiques, le timbre, le niveau sonore, etc. et aboutit à une composition des paramètres perçus. D autre part, l auditeur, en fonction de ses expériences personnelles, ses connaissances passées, sa motivation, son humeur, crée mentalement des paramètres du signal auxquels il s attend ou qu il désire (i.e. référence interne). Cela étant, le jugement de la qualité vocale est réalisé sur la base d une comparaison entre les paramètres perçus et les paramètres désirés. En somme, la qualité vocale est une notion relative, dépendante de l interprétation que chacun donne du signal acoustique perçu et de la référence interne que l on se crée. Toutefois, la qualité vocale peut être 1 Un phonème est défini comme un élément sonore distinctif du langage articulé. - 16 -

Chapitre 1 Etat de l art sur la qualité vocale dans les systèmes de télécommunications quantifiée, soit à l aide des tests subjectifs durant lesquels des groupes d individus jugent la qualité vocale sur une échelle spécifique, soit à l aide de mesures objectives (cf. 1.4). Facteurs variables Evènement sonore Ajustement Perception Composition des paramètres désirés Composition des paramètres perçus Réflexion Réflexion Paramètres désirés Comparaison Paramètres perçus Jugement Qualité perçue Description Auditeur Figure 1.4. Description du mécanisme de jugement de la qualité vocale par un auditeur, selon Raake (Raake 2006) basée l'étude de Jekosch (Jekosch 2005). Les cercles correspondent aux procédures et les rectangles aux transformations faites par l auditeur 1.2.2. Qualité de Service et Qualité d'expérience Dans le domaine des télécommunications, le terme le plus communément utilisé dans les télécommunications quand on parle de qualité est la Qualité de Service ou QoS (Quality of Service). Cette dernière est définie comme «l'ensemble des caractéristiques d'un service de télécommunications permettant de satisfaire aux besoins explicites et implicites de l'utilisateur du service» (ITU-T 2008d). Autrement dit, elle désigne l ensemble des caractéristiques techniques d un service permettant de déterminer ou de prédire le degré de satisfaction des utilisateurs. La qualité vocale est une sous-partie prépondérante de la QoS car elle a un impact direct sur l acceptabilité d un service et donc de son succès commercial. Cette notion d acceptabilité de service est connue sous le nom de Qualité d'expérience ou QoE (Quality of Experience) décrite dans la norme P.10/G.100 de l'uit-t. La QoE désigne le degré d'acceptabilité d'une application ou d'un service par l'utilisateur (ITU-T 2006c). A la différence de la QoS - 17 -

Chapitre 1 Etat de l art sur la qualité vocale dans les systèmes de télécommunications qui est mesurable, la QoE s estime en questionnant les utilisateurs eux-mêmes sur leur perception de service proposé. 1.3. Systèmes de transmission de la parole Dans les relations humaines, la conversation face-à-face est la plus couramment utilisée. Cependant, cette forme de communication s avère délicate quand le locuteur est éloigné de l auditeur. Les systèmes de transmission utilisés en télécommunications sont des moyens modernes de communication permettant d établir une conversation entre deux individus situés loin l un de l autre. L objectif de ces systèmes est de reproduire fidèlement la conversation face-à-face tout en conservant la quasi-totalité du message contenu dans le signal de parole. Toutefois, le signal de parole, transmis via ces systèmes, est soumis à des mécanismes de traitement introduisant ainsi des dégradations. La Figure 1.4 décrit un exemple de scénario d un système de transmission téléphonique. Tout d abord, à l émission, le signal acoustique prononcé par le locuteur, aussi appelé signal utile, est capté par le microphone du terminal téléphonique. Ce microphone capte en plus du signal utile, les signaux présents dans l environnement du locuteur tel que le bruit ou l écho. Le signal résultant est ensuite converti en signal électrique numérisé suivi d un processus de suppression des signaux indésirables, codé et transmis via un réseau. A la réception, le signal transmis est décodé et suite à des étapes d amélioration de la qualité du signal, le signal résultant est reconverti en signal acoustique. Ce signal acoustique parvient à l oreille de l auditeur via l écouteur de son terminal. Cette partie décrit l'ensemble des éléments importants intervenant lors d une communication téléphonique et les dégradations qu ils engendrent. 1.3.1. Réseaux téléphoniques On distingue principalement le Réseau Téléphonique Commuté (RTC) analogique, les réseaux numériques, mobiles et la VoIP (Voice over IP). 1.3.1.1. Réseau Téléphonique Commuté (RTC) Le RTC est un réseau téléphonique analogique dans lequel le signal vocal est transmis sur une paire de fils de cuivre entre le poste de l usager et le plus proche central téléphonique. Le terme commuté vient du fait que les communications sont effectuées grâce à des commutateurs automatiques assurant une liaison entre deux interlocuteurs. La bande passante se situe entre 300 Hz et 3400 Hz correspondant à la bande étroite ou Narrowband (NB). Les principales dégradations identifiées par ce type de réseau sont le bruit de fond, l'écho, le délai de transmission et les dégradations liées au codage de la parole et la limitation de bande de fréquences. 1.3.1.2. Réseaux numériques Les années 80 ont vu apparaître des systèmes numériques permettant de transmettre le signal de parole en numérique et de bout en bout. Cela est rendu possible grâce au Réseau Numérique à Intégration de Services (RNIS). Dans ce réseau, le signal de parole est transformé d analogique en numérique dans le codec du terminal du locuteur puis inversement transformé au niveau du terminal de l auditeur. L avantage du RNIS est qu il permet de transmettre en plus de la voix, toutes sortes de données numériques avec un débit de 64 kbits/s. - 18 -

Chapitre 1 Etat de l art sur la qualité vocale dans les systèmes de télécommunications Les dégradations présentes dans ce réseau sont similaires à celles des réseaux analogiques auxquelles s ajoute le délai lié à la numérisation. Signal dégradé y(t) A D y(k) CNG Décodeur PLC e(t) Echo AEC Réseau s(t) Signal utile A D x(k) NR DAV Codeur n(t) Bruit Figure 1.4. Synthèse des éléments composant un système de transmission vocale. A/D représente un convertisseur analogique/numérique, AEC (Acoustic Echo Canceller : annuleur d écho), NR (Noise Reduction : réducteur de Bruit), DAV (Détecteur d Activité Vocale), PLC (Packet Loss Concealment : mécanisme de masquage de pertes de paquets) et CNG (Confort Noise Generation : Générateur de bruit de confort) 1.3.1.3. Réseaux mobiles A la fin des années 90, des téléphonies dites mobiles, utilisant la technique de transmission mobile ou GSM (Global System for Mobile communications), ont vu le jour. Aussi appelée seconde génération de réseaux mobiles et noté 2G, le GSM est le standard le plus utilisé dans le monde. Il permet de transmettre la voix ainsi que des données numériques telles que des messages textes ou SMS (Short Message Service) ou des messages multimédia ou MMS (Multimedia Messaging Service). Grâce à l évolution technologique, le GSM a fait place à la troisième génération de réseau mobile (3G) basée sur la technologie UMTS (Universal Mobile Telecommunications System). La 3G offre une bande passante plus large que le GSM offrant de nouveaux services tels que la visiophonie. Avec cette technologie, on assiste à des communications téléphoniques en bande élargie améliorant l intelligibilité de la voix. Plus récemment, une quatrième génération (4G) est en cours d expansion. Elle est basée sur la technologie LTE (Long Term Evolution). Cette nouvelle génération obtient un débit 10 fois plus rapide que la 3G et la voix y sera transportée sur IP (Internet Protocol). Compte tenu de la mobilité lors d une communication, les dégradations présentes dans les réseaux peuvent être multiples (e.g. bruits de nature non stationnaire, délai lié au traitement numérique, erreurs de bit liées à transmission radio etc.). 1.3.1.4. Voix sur IP (VoIP) La Voix sur IP est une technologie de communication vocale en pleine émergence permettant de communiquer via des réseaux IP. Avec cette technologie, le signal vocal est numérisé, comprimé et découpé en paquets IP au niveau de l émetteur du terminal. A la réception, le signal subit une transformation inverse afin de reconstituer le signal de parole. L architecture du réseau VoIP est telle qu elle permet d effectuer des communications téléphoniques en bande super-élargie. - 19 -

Chapitre 1 Etat de l art sur la qualité vocale dans les systèmes de télécommunications Le mode d envoi et de réception des paquets IP est particulier. En effet, les paquets sont acheminés dans plusieurs réseaux indépendants les uns des autres, les routeurs assurant l'acheminement de chaque paquet à travers le réseau en empruntant le chemin a priori le plus court. Cependant, il arrive parfois que les paquets arrivent soit aléatoirement, soit en retard ou bien soient perdus. On assiste dès lors à un délai variable en fonction du retard de chaque paquet au niveau du récepteur. Ce délai variable est appelé gigue. Afin d obtenir un signal continu, des buffers de gigue sont introduits au niveau du récepteur avant le décodage afin d annihiler l effet de la gigue ou de remettre les paquets affluant dans le bon ordre. Toutefois, la taille des buffers étant limitée, une gigue trop importante peut entraîner une surcharge des buffers, conduisant ainsi à des pertes de paquets pouvant être aléatoires ou en rafales. Les dégradations identifiées dans la VoIP sont généralement les pertes de paquets et le délai de bout en bout mais aussi l instabilité de la QoS dans le temps. 1.3.2. Codage de la parole L objectif du codage de la parole est de comprimer le signal de parole, i.e. de réduire le débit du signal afin de l adapter au canal de transmission. Le système de codage de la parole comprend le codeur et le décodeur. Le codeur analyse le signal afin d extraire un nombre réduit de paramètres pertinents représentés par un nombre réduit de bits. Quant au décodeur, il utilise ces paramètres pour reconstruire un signal de parole synthétique. Les algorithmes de codage de la parole peuvent être regroupés en quatre catégories : codage par forme d onde (waveform coding) : c est un ensemble de techniques visant à reproduire le plus fidèlement possible la forme d onde du signal de parole. On distingue les techniques MIC (Modulation d Impulsion Codée) ou PCM (Pulse Coding Modulation), MICDA (MIC Différentiel Adaptatif) ou AD-PCM (Adaptive Differential PCM), MICDA-SB (MICDA en Sous-Bande) ou SB-ADPCM (Sub-Band ADPCM) ; codage par transformée (Transform Coding) : son but est de transformer le signal temporel dans un espace de représentation où l élimination de la redondance d échantillons dans le signal de parole est plus nette. Les techniques de type MDCT (Modified Discrete Cosine Transform) et MLT (Modulated Lapped Transform) appartiennent à cette catégorie ; codage paramétrique (parametric coding) : aussi appelés vocodeurs (voice coders), les codecs paramétriques ont pour objectif de modéliser le processus de production de la parole afin de transmettre seulement les paramètres importants d un point de vue perceptif. On distingue principalement les techniques LPC (Linear Predictive Coding), CELP (Coded-Excited Linear Prediction) (Schroeder and Atal, 1985)] et ACELP (Algebriac CELP) ; codage hybride (hybrid coding) : ce type de codage utilise au moins deux techniques de codage (ex. PCM/MDCT). Les codecs de la parole sont caractérisés par le débit utilisé, la taille de la fenêtre d analyse du signal, la complexité des algorithmes de codage et le délai lié au processus de codage et décodage du signal. La qualité d un codec réside dans un compromis entre ces différentes caractéristiques. Le Tableau 1.2 résume les différents codecs couramment utilisés dans les systèmes de télécommunications en fonction de leurs caractéristiques. - 20 -

Chapitre 1 Etat de l art sur la qualité vocale dans les systèmes de télécommunications 1.3.2.1. Détecteur d Activité Vocale (DAV) Certains codecs de la parole intègrent des DAV afin de réduire les données envoyées dans les réseaux mobiles ou en mode paquet. En fait, les DAV permettent de classifier le signal suivant qu il contient ou non des périodes d activité vocale. Ainsi, seules les parties du signal correspondant aux périodes d activité vocale sont codées et transmises via le réseau. Dans le cas où une période de silence est détectée, un bruit de confort est joué en réception afin d éviter la sensation d interruption de la communication. Les imperfections des DAV peuvent introduire des coupures dans le signal de parole généralement situées au début ou à la fin d une zone d activité vocale. Largeur de la bande passante NB WB codec Type de codage Débits (kbits/s) G711 Forme d onde (PCM) 64 G.726 Forme d onde (ADPCM) 16-40 G.728 Paramétrique (CELP) 16 G.729 Paramétrique (CS-ACELP) 8 11,8 GSM-FR Paramétrique (RPE-LTP) 13 GSM-EFR Paramétrique (ACELP) 12.2 AMR Paramétrique (ACELP) 4,75-12,2 EVRC Paramétrique (RCELP) 0,8-8,55 ilbc Paramétrique (LPC) 13,33-15,2 G722 Forme d onde (SB-ADPCM) 48-64 G722.1 Codage par transformée (MLT) 24-32 AMR-WB ou G722.2 Paramétrique (ACELP) 6,6-23,85 G729.1 Hybride (CS-ACELP/TDAC) 14-32 G711.1 Hybride (Log.PCM/MDCT) 64-96 G718 Hybride (CELP/MDCT) 8-32 G722.1C Codage par transformée (MLT) 24-48 AMRWB+ Hybride (ACELP/TCX) 13,6-24 Speex Paramétrique (CELP) 2,15 44,2 SWB Hybride (CELP/MDCT/TD- G718B BWE) 36 48 G729.1E Hybride (CELP/MDCT/TD- BWE) 36 64 Tableau 1.2. Liste de quelques codecs utilisés dans les systèmes de télécommunications 1.3.2.2. Mécanisme de masquage des pertes de paquets Les pertes de paquets ou erreurs de bits survenant dans les réseaux de transmission se traduisent par des pertes d une ou de plusieurs de trames dans le signal de parole perçues comme des coupures. Pour pallier l effet de ces pertes sur la qualité vocale, des mécanismes de masquage des pertes de paquets ou PLC (Packet Loss Concealment) sont introduits au niveau du décodeur afin de reconstruire les trames perdues. Il existe principalement deux types d algorithme PLC : la technique de type «insertion de trames de silence» consistant à remplacer la trame perdue par des trames de silence et celle de type «répétition de trame» qui reconstruit la trame perdue par répétition de la trame précédente. 1.3.3. Fonctionnalités d'amélioration du signal de parole Comme leur nom l indique, ces systèmes sont des dispositifs de traitement de signal dont le but est d améliorer la qualité du signal transmis à travers les systèmes de télécommunications. On distingue - 21 -

Chapitre 1 Etat de l art sur la qualité vocale dans les systèmes de télécommunications principalement les annuleurs d écho, les réducteurs de bruit et les systèmes de contrôle automatique de gain. 1.3.3.1. Annuleurs d'écho On parle d écho lorsque la personne qui parle entend sa propre voix. Le phénomène d écho se perçoit lorsque des réflexions du signal se produisent et se combinent avec des délais importants. L écho perçu peut provenir soit de l écho acoustique soit de l écho électrique. Le premier cas survient généralement lorsque le terminal est utilisé en mode mains libres. Quant au second cas, il survient lors du passage d un circuit téléphonique à 2 fils vers un autre à 4 fils. L impact de l écho sur la qualité vocale pour le locuteur dépend de son temps de propagation et de la différence de niveau entre le signal original et le signal d'écho reçu (ITU-T 2012c). Il a pour effet principal de réduire l interactivité lors d une communication téléphonique. Afin d atténuer son influence sur la qualité vocale, des systèmes d annulation d écho sont intégrés au niveau des terminaux de communication. Ces systèmes peuvent introduire des distorsions dans le signal de parole lors d une mauvaise estimation de l écho. L écho est à dissocier de l effet local (ou sidetone) qui correspond au signal allant directement du microphone au haut-parleur du même appareil téléphonique. Si l affaiblissement de l effet local est insuffisant, le volume des signaux renvoyés est trop élevé et il en résulte une diminution de la satisfaction du locuteur. A contrario, si cet affaiblissement est trop fort, il s ensuit une sensation de vide. 1.3.3.2. Réducteurs de bruit Suivant l environnement dans lequel une communication téléphonique a lieu, la conversation peut être perturbée par la présence de bruit (e.g. bruit en provenance d une voiture, d un restaurant, ). Les algorithmes de réduction de bruit sont utilisés afin d atténuer l impact du bruit sur la qualité vocale perçue. Ces algorithmes estiment le bruit, généralement pendant les périodes de silence de la parole, et l extraient du signal bruité de sorte à conserver le mieux possible le signal utile. Cependant, ces réducteurs de bruit peuvent introduire des dégradations sur le signal de parole dans la mesure où une sous-estimation du bruit peut causer un phénomène appelé bruit musical. A contrario, une surestimation du bruit entraîne des distorsions d ordre fréquentiel (e.g. suppression ou atténuation des contenus fréquentiels du signal de parole, etc.) ou temporel (e.g. coupure, variation abrupte du niveau sonore, etc.) dans le signal de parole surtout lorsque le niveau du bruit est important (Loizou, 2013). 1.3.3.3. Systèmes de contrôle automatique de gain Ces systèmes ont pour but de maintenir le niveau du signal de parole constant afin d éviter une surcharge des canaux de transmission. Toutefois, un mauvais réglage du niveau peut engendrer une sensation de fluctuation du niveau sonore. 1.3.4. Interface utilisateur Il s agit de l interface physique entre l utilisateur et le système de transmission. Elle sert à l émission et à la réception du signal. Cette interface peut être un casque audio, un terminal mains-libres ou un combiné. La qualité de ces interfaces dépend de celle des deux transducteurs (microphone et haut-parleur), et aussi des systèmes de traitement de signal tels que la réduction de bruit, les systèmes de réglage du niveau sonore de la parole etc. - 22 -

Chapitre 1 Etat de l art sur la qualité vocale dans les systèmes de télécommunications Les transducteurs peuvent engendrer des distorsions fréquentielles dues au couplage entre le terminal et la tête de l utilisateur. De plus, l utilisation des terminaux mains-libres peut causer un effet de réverbération acoustique 2 ou d écho influençant la réponse en fréquence de l ensemble du système de transmission. 1.4. Evaluation de la qualité vocale Comme nous l avons vu dans la section 1.2.2, la qualité vocale est un facteur important de la QoS. Pour offrir des services de meilleure qualité à leurs clients, les opérateurs de télécommunications se doivent d évaluer en permanence la qualité vocale perçue par les utilisateurs. Cette évaluation consiste à apprécier la capacité des services de télécommunications à transmettre fidèlement le contenu du signal vocal en générant le moins possible de dégradations. Autrement dit, cela revient à mesurer l impact des différentes dégradations, introduites par ces systèmes, sur la qualité vocale. Cela étant, la qualité vocale peut être évaluée soit à l'aide de tests subjectifs soit en utilisant des outils de mesures objectives. Cette partie est consacrée à la description de ces différentes méthodes d'évaluation de la qualité. Avant d aborder ces différentes méthodes, il est nécessaire de se familiariser avec certaines définitions couramment utilisées et définies dans la norme P.10 de l UIT-T (ITU-T 2006c). 1.4.1. Définitions Un modèle est dit paramétrique s il utilise des mesures physiques du système à évaluer (i.e. des informations issues des statistiques du réseau) pour estimer la qualité vocale. Un modèle est dit basé sur le signal si la qualité vocale est prédite à partir d une analyse basée sur le signal de parole. Il est dit avec référence lorsque cette prédiction est obtenue en comparant un signal de référence (i.e. le signal non dégradé) à un signal dégradé, signal résultant du passage du signal de référence à travers un système de télécommunications. Il est dit sans référence si elle (i.e. la prédiction de la qualité vocale) ne nécessite que le signal dégradé. Une mesure est dite intrusive si elle nécessite l introduction d un signal (pas forcément de référence) dans le système à évaluer. Généralement, la note de la qualité vocale issue soit d un test subjectif ou d un modèle objectif s écrit sous la forme MOS-XQYZ dont la signification est donnée dans la Figure 1.5. 2 Les sons, quel que soit le milieu dans lequel ils se propagent, subissent des réflexions sur les solides qui les entourent (sol, murs, ) et l ensemble des réflexions est connu sous le nom de réverbération acoustique. - 23 -