Analyse spectrale de la parole

Documents pareils
INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Analyses psychoacoustiques dans ArtemiS SUITE

Chapitre 2 Les ondes progressives périodiques

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Chaine de transmission

Bandes Critiques et Masquage

TD1 Signaux, énergie et puissance, signaux aléatoires

Enregistrement et transformation du son. S. Natkin Novembre 2001

Traitement du signal avec Scilab : la transformée de Fourier discrète

Chapitre I La fonction transmission

M1107 : Initiation à la mesure du signal. T_MesSig

EMETTEUR ULB. Architectures & circuits. Ecole ULB GDRO ESISAR - Valence 23-27/10/2006. David MARCHALAND STMicroelectronics 26/10/2006

Calcul des indicateurs de sonie : revue des algorithmes et implémentation

TP Modulation Démodulation BPSK

Intérêt du découpage en sous-bandes pour l analyse spectrale

Projet de Traitement du Signal Segmentation d images SAR

Les techniques de multiplexage

Son et Mathématiques

P2: Perception auditive

AudioSculpt. Manuel de l utilisateur. Alain LITHAUD

Ordonnance du DFJP sur les instruments de mesure audiométriques

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Caractéristiques des ondes

Actions de réduction de bruit sur un moteur poids lourd

THÈSE. présentée à l Université d Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT

Etude et conception d un serveur vocal :

ACOUSTIQUE 3 : ACOUSTIQUE MUSICALE ET PHYSIQUE DES SONS

Transmission d informations sur le réseau électrique

CHAPITRE V. Théorie de l échantillonnage et de la quantification

10ème Congrès Français d'acoustique Lyon, Avril 2010

Systèmes de communications numériques 2

EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (43) Date de publication: Bulletin 2011/26

Quantification Scalaire et Prédictive

LABO PROJET : IMPLEMENTATION D UN MODEM ADSL SOUS MATLAB

INTERPRÉTATION ET ANOMALIES DE LA PROSPECTION À RÉSONANCE MAGNÉTIQUE (MRS)

Didier Pietquin. Timbre et fréquence : fondamentale et harmoniques

FAG Detector II le collecteur et l analyseur de données portatif. Information Technique Produit

LA COUCHE PHYSIQUE EST LA COUCHE par laquelle l information est effectivemnt transmise.

Systèmes de transmission

LES CARACTERISTIQUES DES SUPPORTS DE TRANSMISSION

Communications numériques

5.2 Théorème/Transformée de Fourier a) Théorème

Echantillonnage Non uniforme

- Instrumentation numérique -

V corr Jacques Ferber. LIRMM - Université Montpellier II 161 rue Ada Montpellier Cedex 5

Résolution de systèmes linéaires par des méthodes directes

10ème Congrès Français d'acoustique Lyon, Avril 2010

Recherche De Coalescences Binaires Étalonnage Du Détecteur

Traitement du signal avec Scilab : transmission numérique en bande de base

J AUVRAY Systèmes Electroniques TRANSMISSION DES SIGNAUX NUMERIQUES : SIGNAUX EN BANDE DE BASE

Extraction de descripteurs musicaux: une approche évolutionniste

Psychoacoustique. VI. Localisation. VI.2 Latéralisation: différences temporelles (ITDs) VI.1 Position du problème. VI.

Expérience 3 Formats de signalisation binaire

Scanner acoustique NoiseScanner

Transmission des signaux numériques

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

Partie 1: Gestion de l interférence entre symboles

8563A. SPECTRUM ANALYZER 9 khz GHz ANALYSEUR DE SPECTRE

Qualité perçue de parole transmise par voie téléphonique large-bande

AMELIORATION DE LA FIABILITE D UN MOTEUR GRÂCE AU TEST STATIQUE ET DYNAMIQUE

LABO 5 ET 6 TRAITEMENT DE SIGNAL SOUS SIMULINK

SUJET ZÉRO Epreuve d'informatique et modélisation de systèmes physiques

Mesures de temps de propagation de groupe sur convertisseurs de fréquence sans accès aux OL

Filtres passe-bas. On utilise les filtres passe-bas pour réduire l amplitude des composantes de fréquences supérieures à la celle de la coupure.

FAG Detector III la solution pour la surveillance et l équilibrage. Information Technique Produit

La couche physique de l ADSL (voie descendante)

1.1.1 Signaux à variation temporelle continue-discrète

Analyse des bruits de clavier d ordinateur

Filtrage stochastique non linéaire par la théorie de représentation des martingales

UE11 Phonétique appliquée

REPRÉSENTATIONS ANALYTIQUES AVANCÉES AVEC EANALYSIS

I. Polynômes de Tchebychev

Partie Observer : Ondes et matière CHAP 04-ACT/DOC Analyse spectrale : Spectroscopies IR et RMN

La Perception Auditive

Université du Québec à Chicoutimi THESE. Présentée à l'université du Québec à Chicoutimi Département des Sciences Appliquées

2 g Net - 36 g emballé 2 tips silicone anallergique small + 2 medium + 2 filtres à membrane. 2 tailles d embouts

Fonctions de la couche physique

Hélène Lœvenbruck, Christophe Savariaux, Dorothée Lefebvre

Champ électromagnétique?

TP: Représentation des signaux binaires. 1 Simulation d un message binaire - Codage en ligne

Algorithmes pour la planification de mouvements en robotique non-holonome

Logiciel d analyse et de gestion du bruit OUIE2000

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Les Contrôles Non Destructifs

BTS Groupement A. Mathématiques Session Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

ÉTUDE ET DÉVELOPPEMENT D UN SYSTÈME EXPERT BASÉ SUR LES RÉSEAUX DE NEURONES POUR LE DIAGNOSTIC DES DÉFAUTS DE ROULEMENTS

ANALYSE SPECTRALE. monochromateur

Equipement. électronique

Ecole Centrale d Electronique VA «Réseaux haut débit et multimédia» Novembre 2009

Codage de la parole à bas et très bas débit 1

SIGNAUX NUMERIQUES ET MODULATIONS NUMERIQUES


Mode d emploi ALTO MONITOR PROCESSEUR D ÉCOUTE. Version 1.0 Juillet 2003 Français

Multichronomètre SA10 Présentation générale

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

MOTORISATION DIRECTDRIVE POUR NOS TELESCOPES. Par C.CAVADORE ALCOR-SYSTEM WETAL Nov

Chapitre 2 : Techniques de transmission

3 Approximation de solutions d équations

Transcription:

Analyse spectrale de la parole Yves Laprie 12 octobre 2000

Plan Pourquoi analyser [14] spectralement le signal de parole? 1. Spectrogramme 2. Spectrogramme de parole 3. Lissages cepstraux (a) Quelle utilisation du lissage cepstral? (b) Coefficients Mel cepstraux (c) Enveloppe vraie 4. Prédiction linéaire (a) Prédiction linéaire sélective (b) Prédiction linéaire perceptive (c) Prédiction linéaire perceptive RASTA 5. Caractérisation spectrographique des sons de la parole 6. Deux problèmes d analyse de la parole 7. Détection et modification de la fréquence fondamentale (a) Détection du fondamental (F0) (b) PSOLA (Pitch Synchronous Overlap and Add) 1

1 Spectrogramme Objectif : connaître l évolution temporelle du spectre de parole ffl Transformée de Fourier Discrète F (k) = X N 1 n=0 f (n)exp( j 2ß N kn) ffl Pour utiliser la transformée de Fourier discrète il faut un signal périodique! fenêtrage du signal ffl Soit T la période d échantillonnage, f le signal de départ, w la fenêtre appliquée au signal, F w sa transformée de Fourier, on a : 1X F w (!) = n= 1 w(nt )f (nt )exp( j!nt) où w(nt ) = 0 pour jnj > N=2 avec N pair et w(-nt) = w(nt) avec w(n=2) = 0) ffl F w est la transformée d un produit, c est donc la convolution des transformées. F w (!) = Z 1 1 F (x)w (! x)dx=2ß F w (!) = F (!) Λ W (!) ffl Exemple très simple : fenêtre rectangulairew(nt ) = 1 (voir [4] par exemple) W (!) = N=2 1 X n= N=2 W (!) = exp(j!t 2 ) sin( N 2!T ) sin( 1 2!T ) w(nt )exp( j!nt) (noyau de Dirichlet) ffl Attention si on somme de 0 à N 1 (cas de la transformée de Fourier discrète) alors W 0 (!) = exp( j! N 2 T ) W (!) 2

Importance de la fenêtre Module de deux noyaux de Dirichlet 16 14 12 10 8 6 4 2 3 2 1 0 1 2 3 x ffl Enjeu : trouver une bonne fenêtre qui réduit la convolution dont la largeur du lobe central est faible et la proéminence du lobe central forte. ffl Difficulté : pour réduire la largeur du lobe central il faut augmenter N, donc amplifier les effets de moyenne. ffl Exemples de fenêtres (rectangulaire, triangulaire et Hamming) représentées en db (20 Λ log10(jh(n)j) ffl Remarque : multiplier un signal par 2 élève son spectre de 6 db. 3

60 60 60 40 40 40 20 20 20 0 0 0-20 -20-20 -40-40 -40-60 0 200 400 600 800 1000 1200-60 0 200 400 600 800 1000 1200-60 0 200 400 600 800 1000 1200 rectangulaire ffl Deux fenêtres célèbres : triangulaire Hamming: w(n) = 0:54 0:46cos(2 Λ ß=N Λ n) pour n = 0; 1; 2; :::; N 1 Hanning: w(n) = 0:5 +0:5cos(2 Λ ß=N Λ n) pour n = N=2; :::; 1; 0; 1; :::; N=2 1 F (k) jhanning = 1 [F 2 (k) + 1 (F (k 1) + F (k +1))] 2 hamming ffl L effet de la convolution est donc de lisser le spectre : fenêtre longue! lissage faible fenêtre courte! lissage fort 4

2 Spectrogramme de parole [6] ffl Modèle simplifié de la production de la parole e(n) source pédiodique ou bruitée h(n) conduit vocal s(n)=e(n)*h(n) signal de parole Le spectre utile s étend de 0 à 8kHz. ffl Caractéristiques de la source : bruit pour les fricatives et les bruits d explosion vibration des cordes vocales pour les sons vocaliques (voyelles en particulier).! fréquence fondamentale 120Hz pour un locuteur, 200Hz pour une locutrice ffl Calcul d un spectrogramme : DFT d une fenêtre de 4 à 32 ms qui se déplace de la moitié de sa durée. Avec une fréquence d échantillonnage de 16kHz, cette fenêtre a donc entre 64 et 512 points.! DFT entre 64 et 512 points! pour lisser le spectre on utilise en fait une DFT avec plus de points (au moins 256) ce qui permet d interpoler le spectre plus finement.! zero padding : le signal de départ complétépardeszéros. Si on utilise une DFT de 512 points et que la fenêtre a 64 points on complète par (512-64) zéros. ffl fenêtre plus courte que la période fondamentale (spectre àlarge bande)! fort lissage fréquentiel et pas d harmonique ffl fenêtre plus longue (spectre à bande étroite)! faible lissage fréquentiel et visualisation des harmoniques 5

ffl Pour renforcer la contribution des hautes fréquences on préaccentue le signal : u(n) = s(n) s(n 1) En passant à la transformée en z l effet est donc 1 z 1 c est-à-dire un renforcement de la contribution des hautes fréquences. 10 0-10 -20-30 -40-50 -60-70 -80 0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 Effetdelapréaccentuation (db entre 0 et Π) ffl Exemples (locuteur en bas, locutrice en haut) : 6

ffl Exemples de spectrogrammes Spectrogrammes à bande large (locuteur à gauche, locutrice à droite) Spectrogrammes à bande étroite (locuteur à gauche, locutrice à droite) ffl Comment lisser le spectre? Comment séparer la contribution du conduit vocal de celle de l excitation? 7

3 Lissages cepstraux Est-il possible de séparer dans le signal de parole s(n) = e(n) Λ h(n) les contributions de l excitation et du conduit vocal? ffl traitement homomorphique [13, 2] : Signal x(n) = x 1 (n) Λ x 2 (n) Transformée de Fourier (pour passer de la convolution à une multiplication) X(!) = X 1 (!)X 2 (!) Logarithme ^X(!) = ln[x(!)] = ln[x 1 (!)] + ln[x 2 (!)] = ^X 1 (!) + ^X 2 (!) Transformée de Fourier inverse. Le signal revient dans le domaine temporel mais il reste additif. ^x(n) = ^x 1 (n) +^x 2 (n) Traitement linéaire, par exemple le liftrage (ne conserver que les premiers coeeficients cepstraux pour éliminer la contribution de la source). ^y(n) = ^x 1 (n) Transformée de Fourier ^Y (!) = ^X 1 (!) Exponentielle. Y (!) = X 1 (!) Transformée de Fourier inverse. y(n) = x 1 (n) Signal déconvolué x 1 (n) *.. + + + x(n) T.F Ln T.F.I x(n) ^ y(n) ^ + + +.. * T.F exp T.F.I y(n) Schéma homomorphique 8

14e3 110 10e3 100 90 6e3 80 2e3 70-2e3 60-6e3-10e3 50 40 30-14e3 0 100 200 300 400 500 600 signal temporel avant hamming 20 0 200 400 600 800 1000 1200 spectre (0 à 2ß) 110 80 100 90 80 70 60 50 40 70 60 50 40 30 20 30 10 20 0 100 200 300 400 500 600 spectre (0 à ß) 0 0 200 400 600 800 1000 1200 cepstre 8 8 7 7 6 6 5 5 4 4 3 3 2 2 1 1 0 0 200 400 600 800 1000 1200 cepstre sans le premier coef. 0 0 200 400 600 800 1000 1200 cepstre liftré sans le premier coef. 9

110 100 100 90 90 80 80 70 60 70 50 60 40 30 50 20 0 100 200 300 400 500 600 spectre lissé(0 à ß) Remarques : 40 0 100 200 300 400 500 600 spectre lissé(0 à ß) ffl le lissage cepstral est un lissage, le spectre résultat ne passe donc pas par les harmoniques. ffl il faut connaître, ou au moins avoir une idée, de la fréquence fondamentale pour choisir le liftrage. ffl le cepstre est, au signe près de la TF, la TF du spectre donc le liftrage correspond àl élimination des hautes quéfrences du spectre. ffl considérations d implantation : la transformée de Fourier inverse est appliquée à un signal réel symétrique, on peut donc utiliser une transformée en cosinus. X(k) = P N 1 n=0 s(n)e j 2ß N kn Si s(n) est réel et symétrique (s(n m) = s(m)) alors X(k) = s(0) + ( 1) k s(n=2) + 2 P N=2 1 n=1 s(n)cos 2ß N kn ffl généralement on ne revient pas au signal temporel déconvolué. 10

3.1 Quelles utilisations du lissage cepstral? 1. fournir un vecteur spectral pour la reconaissance automatique de la parole (coefficients mel cepstre) 2. lisser le spectre de parole pour trouver les formants (fréquences de résonance du conduit vocal) 3. retrouver les signaux d excitation et le filtre correspondant au conduit vocal, 3.2 Coefficients Mel cepstraux [1] ffl Point de départ : la contribution à la perception des sons de la parole des hautes fréquences est plus faible que celle des basses fréquences.! changement d échelle. ffl échelle Mel : linéaire en basse fréquence, logarithmique en haute fréquence. 1 Poids 0 0 1000 2000 3000 4000 4600 Fréquence M = 1000 Log2 log(1 + f 1000 ) 11

ffl échelle Bark (à peuprès identique) : float bark(float f) // f en Hz f if (f <= 200.0) return(((9.88e-3 + 6.222e-8 * f) * f)); else return((26.81 * f / (1960.0 + f) - 0.53)); g ffl Mise en œuvre : 1. Calcul du spectre sur une fenêtre plus longue que le fondamental (environ 20ms) 2. Calcul de l énergie en sortie des filtres traingulaires X k pour k = 1; 2;:::;20 3. Calcul des cepstres Mel MFCC i = NX k=1 X k cos[i(k 1 2 ) ß N ] 4. Récupération des premiers coefficients pour la reco (en général N=2). ffl généralement on prend des fenêtres entre 20 et 30ms, N égal à24etun déplacement égal àlamoitiédelafenêtre. ffl Comment prendre en compte le bruit : bruit additif suppriméaprès le calcul du spectre bruit convolutif suppriméaprès le calcul des cepstres 12

3.3 Enveloppe vraie ffl But : obtenir un spectre lissé [3] qui passe par les harmoniques (ce que l oreille perçoit effectivement). ffl Idée : partir du lissage classique et le corriger itérativement en écartant la contribution des valeurs situées au-dessous du spectre lissé. S spectre V (1) = ^S (lissage cepstral classique) E (1) = g(s ^S) où g(y) =siy > 0 alors y sinon 0 fsi E (1) représente les dépassements de S sur ^S ^E (1) est le lissage cepstral de ce dépassement : S E (1) E (1) (1) ^ E S^ 13

ffl Algorithme : 1. solution initiale ^E (1) = P N 1 m=0 e(1) m h m cos( 2 N mk) où e(1) = IDFT(E (1) ) et h m est la fenêtre de liftrage. 2. itération i +1 soit V (i) l enveloppe obtenue àl étape précédente, E (i) et ^E (i) les dépassements et lissage du dépassement correspondants. V (i+1) = V (i) (i) + ^E E (i+1) = g(e (i) (1 + ff) ^E (i) ) où ff est un coefficient accélérateur. ^E (i+1) = DFT (h(idft(e (i+1) ))) 3. fin ou nouvelle itération spectre bande étroite, lissé cepstralement et enveloppe vraie ffl Avantages : pas de battement d énergie dû àlaplacedelafenêtre par rapport à la période, spectre passant par les harmoniques. 14

4 Prédiction linéaire [13] ffl Origine : le signal de parole n étant pas complètement aléatoire, les échantillons successifs sont corrélés. Peut-on utiliser cette corrélation pour réduire la quantité de données? ffl Principe : s(n) est représenté par la somme d une combinaison linéaire des échantillons précédents et d une erreur, les coefficients de la combinaison linéaire sont trouvés de façon à minimiser l erreur, cette modélisation correspond àunmodèle tout pôle : Soient S(z), H(z) et U (z) les transformées en z du signal, du filtre du conduit vocal et de l excitation. Un modèle tout pôle de H(z) est : H(z) = S(z) G U (z) = P p 1 a k=1 kz k ffl Calcul des coefficients a k P p La prédiction de s(n) est ^s(n) = a k=1 ks(n P k). p L erreur est e(n) = s(n) ^s(n) = s(n) k=1 a ks(n k). P P L énergie de l erreur est E n = m e2 (m) = [s(m) ^s(m)] 2 En minimisant E n par rapport aux a k : @ @a i E n = 0 pour (i = 1; 2;:::;p) on obtient : P Pm s n(m i)s n (m) = P p k=1 a k m s n(m i)s n (m k) pour (1» i» p). En posant Φ n (i; k) = P m s n(m i)s n (m k) on obtient : P p k=1 a kφ n (i; k) = Φ n (i; 0) pour (1» i» p). ffl Deux méthodes suivant la sommation : par autocorrélation : signal multiplié par une fenêtre, par covariance : limite de la somme des erreurs ffl Solutions de calcul efficaces (Toeplitz ou Cholesky). 15

ffl Exemples Un exemple qui ne marche pas : / ο/ Un exemple qui marche : /ο/ ffl Evaluation du spectre LPC Calculer H(z) pourz = exp(jk 2ß N G H(z) = avec P p k=0 b kz k ) avec 0» k» N=2 1. b 0 = 1 b k = a k pour 1» k» p! DFT sur les b k complétés par des zéros. 16

4.1 Prédiction linéaire sélective [7] Idée : Appliquer le calcul des coefficients de prédiction sur une partie du spectre ffl Comment obtenir les Φ(i; k) à partir du spectre? éléments de réponse : jx(k)j 2 = N 1 X n=0 X N 1 k2ß j s(n)e N n m=0 s(m)e k2ß +j N ffl en réorganisant la somme précédente ([12] pages 536 et suivantes) : jx(k)j 2 = L 1 X l=0 ( L 1 X m=0 s(m)s L (m + l))e j k2ß N avec l = n m et s L (m + l) = s((m + l) modulo L) ffl et en complétant le signal par suffisamment de zéros (M) pour que : P N 1 l n=0 s(n)s(n + l) = P L 1 n=0 s(m)s L(m + l) l m signal non nul 0 0 0 Adjonction de zéros pour éviter le repliement ffl Calcul des coef. d autocorrélation par transformée de Fourier inverse R(l) = 1 L P L 1 n=0 jx(k)j2 e j 2ß L kl. ffl L doit être la première puissance de 2 telle que L» N + M. 17

ffl Comme jx(k)j 2 donne un signal réel et pair la TF se réduit à une somme de cos. 1. si L = 2l R(n) = 2 L Xl 1 k=1 S(k)cos 2ß L km + 1 L (S(0) + ( 1)m S(l)) 2. si L = 2l+1 R(n) = 1 L S(0) + 2 L lx k=1 S(k)cos 2ß L km Exemple de spectre LPC sélective entre 4000 et 7000 Hz 18

4.2 Prédiction linéaire perceptuelle [5] 4.2.1 Les origines psychoacoustiques Contours d égale intensité sonore [10] (Equal loudness contours) d après Robinson and Dadson 1956 ffl Pour passer du seuil d audition à 100 Phons : à 100 Hz il faut 79 db, à 1000 Hz il faut 97 db. ffl! élever l intensité sonore change l équilibre tonal (vers les graves). ffl Echelle d intensité sonore (perception de l élévation de l intexnsité SPL) L = ki 0:3 où I est l intensité physique (db), L l intensité sonore et k une constante. ffl! une augmentation de 10 db double l intensité sonore. 19

4.2.2 Mise en œuvre Speech Critical band analysis Inverse discrete Fourier transform Equal loudness pre-emphasis Solution for autoregressive coefficients Intensity-loudness conversion All-pole model Exemples avec une PLP d ordre 5 (5 coefficients de prédiction). 20

4.3 Prédiction linéaire perceptive RASTA ffl Origine : La perception humaine réagit aux valeurs relatives plus qu aux valeurs absolues. ffl Idée : éliminer les variations trop lentes ou trop rapides par filtrage sur le spectre d amplitude. SPEECH Spectral analysis Bank of compressing static nonlinearities Bank of linear bandpass filters RASTA Bank of expanding static nonlinearities Optional processing Algorithme 1. Calcul le spectre d amplitude en bandes critiques (comme pour la PLP), 2. Compression de l amplitude à l aide d une transformation non linéaire, 3. Filtrage des trajectoires temporelles de chaque composante spectrale, 4. Expansion de l amplitude à l aide d une transformation non linéaire, 5. Préaccentuation à l aide du contour d égale intensité sonore et prise en compte de l échelle sonore par élévation à la puissance 0.33, 6. Calcul du modèle tout pôleduspectreselonlaméthode PLP classique. 21

Filtre RASTA De haut en bas, spectrogramme FFT normal, PLP et RASTA-PLP. 22

4.4 Retour sur les bases de RASTA-PLP Réponse du nerf auditif à une phrase (d après Delgutte et Hammond 97) chez un chat. Effet du contexte sur la réponse du nerf auditif (à gauche les syllabes synthétiques, à droite la réponse d un neurone du nerf auditif). 23

4.5 Remarques sur la mise en œuvre ffl l étape de compression est plus ou moins bien adaptée au bruit éventuel : bruit convolutif! somme du spectre de parole et du bruit après le log bruit additif! le log n améliore pas les choses du tout ffl remplacement de l étape de compression en log par un opérateur du genre log(1 + Jx) où x est l énergie dans le canal fréquentiel considéréetj une constante numérique. ffl comportement : linéaire si J fi 1 logarithmique si J fl 1 ffl Détermination de J : Détermination pour différents niveaux de rapports signal sur bruit (en maximisant le taux de reconnaissance), Choix de J en fonction du rapport signal sur bruit estimé surle signal à traiter. 24

5 Caractérisation spectrographique des sons de la parole ffl Mode d articulation vocalique vibration des cordes vocales (voisement) et constriction pas trop forte, fricatif fort resserrement du conduit vocal provoquant un bruit de friction, occlusif fermeture partielle ou totale du conduit vocal, augmentation de la pression derrière la constriction puis relâchement brutal de l occlusion qui produit un bruit d explosion (burst). ffl Lieu d articulation = lieu de la constriction principale du conduit vocal : pharynx, palais /k/, dents /t/, lèvres /p/ i a u p t k f s ch b d g v z 3 25

ffl Caractérisation acoustique et articulatoire des voyelles les voyelles sont caractérisées acoustiquement par leurs formants (renforcement spectraux qui correspondent aux fréquences de résonance du conduit vocal) les voyelles sont caractérisées articulatoirement par le lieu de la plus forte constriction du conduit vocal parole continue! COARTICULATION lèvres cavité avant cavité arrière glotte constriction Schéma simplifié du conduit vocal F2 Avant 2000 Arrière 800 i y u Fermé 300 e O/ o oe o a Triangle vocalique pour le français 700 Ouvert F1 26

27

28

6 Deux problèmes d analyse de la parole ffl Calcul de la fréquence fondamentale Fréquence de vibration des cordes vocales Essentiel pour le codage, la synthèse acoustique de la parole et l étude de la prosodie Méthodes opérant dans le domaine temporel (autocorrélation, résidu LPC) ou spectral (cepstre, peigne), Deux sous-problèmes : Λ détection du fondamental! traitement du signal Λ correction ou lissage des résultats bruts! reconnaissance des formes ffl Suivi de formants Les formants caractérisent l évolution de la forme du conduit vocal Problème difficile à cause du couplage avec les cavités nasales Comment interpoler la fonction de transfert du conduit vocal à partir du spectre de parole?! quelle est l analyse spectrale la plus appropriée? Interprétation des pics spectraux en termes de formants ou choix des formants pour représenter au mieux le spectre de parole? Suivi dans le temps pour créer des trajectoires ou simple détection? 29

7 Détection et modification de la fréquence fondamentale 7.1 Détection du fondamental (F0) Quelques méthodes : autocorrélation (domaine temporel) P N ffl calcul de la fonction d autocorrélation ffi(n) = i=0 x(i)x(n + i) ffl ffi(n) est périodique si x(b) est périodique multiplication par 2 de F0 F0 Fonction d autocorrélation d un signal pseudopériodique ffl problèmes possibles : division ou multiplication par deux de F0 ffl parades : ne conserver le signal que au-dessous de 1000 Hz (éviter les formants) 30

peigne (domaine spectral) [8] ffl Intercorrélation entre le spectre d harmonique et un peigne : I(! p ) = Z 1 0 P (! p ;!)jf (!)jd! Peigne superposé au spectre peigne Méthode du peigne ffl Si les dents ont une hauteur égale il n est pas possible de distinguer F 0 et F 0=k. ffl Peigne de la forme A n = n p avec p > 1. ffl Pour simplifier les calculs et renforcer F0 le spectre est réduit à l interpolation du spectre à proximité des pics. Détermination à super résolution (domaine temporel) [9] ffl modèle de similarité : x fi (t; t 0 ) = s(t)w fi (t t 0 ) y fi (t; t 0 ) = s(t + fi )w fi (t t 0 ) x T 0 (t; t 0) = a(t 0 )y T 0 (t; t 0)+e(t; t 0 ) s(t) est le signal de parole, w fi est une fenêtre rectangulaire de durée fi, a et e permettent d assurer la similarité. 31

T 0 = argmin f fi;a(t0)>0 R t 0+fi t0 (x fi (t; t 0 ) a(t 0 )y fi (t; t 0 )) 2 dt g x fi (t; t 0 ) 2 dt R t 0+fi t0 τ 1 τ 2 τ τ 1 τ 2 τ 3 3 Calcul de la similarité ffl Une fois T 0 calculé on augmente la précision autour de T 0. 32

7.2 PSOLA (Pitch synchronous Overlap and Add) [11] ffl Décomposition du signal en fenêtres recouvrantes synchronisées avec les périodes du fondamental ffl Les changements de F0 ou de débits reviennent à jouer sur la duplication et/ou l écart entre les fenêtres. 33

34

References [1] S. B. Davis and P. Mermelstein. Comparison of parametric representation for monosyllabic word recognition in continuously spoken sentences. IEEE Trans. Acoust., Speech, Signal Processing, ASSP-28(4):357 366, August 1980. [2] Scilab group. Scilab. In http://www-rocq.inria.fr/scilab/.inria. [3] P. Halle. Techniques cepstrales améliorées pour l extraction d enveloppe spectrale et la détection du pitch. In Actes du séminaire Traitement du signal de parole, pages 83 93, Paris, 1983. [4] F. J. Harris. On the use of windows for harmonic analysis with the discrete fourier transform. Proceedings of the IEEE, 66(1):51 83, January 1978. [5] H. Hermansky. Perceptual linear predictive (lpl) analysis of speech. Journal of Acoustical Society of America, 87:1738 1752, April 1990. [6] Y. Laprie. WinSnoori. In http://www.loria.fr/ laprie/winsnoori.loria, 2000. [7] J.D. Markel and A.H. Gray. Linear Prediction of Speech. Springer-Verlag, Berlin Heidelberg New York, 1976. [8] Ph. Martin. Comparison of pitch detection by cepstrum and spectral comb analysis. In Proc. of Int. Conf. Acoust., Speech, Signal Processing 1982, pages 180 183, 1982. [9] Y. Medan, E. Yair, and D. Chazan. Super resolution pitch determination of speech signals. IEEE Trans. on Acoustics, Speech, and Signal Processing, ASSP-39(1):40 48, January 1991. [10] Brian. C. J. Moore. An introduction to the psychology of hearing. Academic Press, London, 1989. [11] E. Moulines and F. Charpentier. Pitch synchronous waveform processing techniques for a text-to-speech synthesis using diphones. Speech Communication, 9(5,6):453 467, 1990. [12] A. V. Oppenheim and R. W. Schafer. Digital Signal Processing. Prentice- Hall, Inc, 1975. [13] L. R. Rabiner and R. W. Schafer. Digital Processing of Speech Signals. Prentice-Hall, Englewood Cliffs, N.J., 1978. 34-1

[14] T. Robinson. Speech Analysis. In http://svr-www.eng.cam.ac.uk/svr.html, http://svr-www.eng.cam.ac.uk/ ajr/speechanalysis/index.html, 1998. Speech Vision and Robotics Group, University of Cambridge. 34-2