Traitement de la Parole Cours 2: Signal de parole Production Perception Analyse 19/03/2007 Plan 1. Processus de production et de perception de la parole chez les humains 2. Production de la parole Définition L appareil phonatoire Vue d ensemble Larynx et cordes vocales Représentation schématique Définition de la parole: point de vue physiologique Les types de sons produits 3. Perception de la parole Perception humaine Le système auditif Analyse fréquentielle Réponse en fréquence de l oreille: seuil de l audition et de la douleur 4. Analyse de la parole Traits acoustiques caractéristiques Evolution temporelle Quasi-stationnarité Analyse fréquentielle court-terme Distribution des formants pour les voyelles Note: certains schémas de ce support proviennent de 1. Rabiner et Juang, «Fundamentals of Speech Recognition», Prentice Hall, 1993 2. Boite et al., «Traitement de la parole», Presses Polytechniques et Universitaires Romandes, Collection électricité, 2000 3. http://catalogue.ircam.fr/sites/voix/decrire/index.html 1
1. Processus de production et de perception de la parole chez les humains 2
2. Production de la parole Définition L appareil phonatoire Vue d ensemble Larynx et cordes vocales Représentation schématique Définition de la parole: point de vue physiologique Les types de sons produits Production de la parole définition Production de la parole: action volontaire et coordonnée d un certain nombre de muscles du système articulatoire. 1. L appareil respiratoire fournit l énergie nécessaire à la production de sons, en poussant l air à travers l appareil phonatoire. 2. L appareil phonatoire inclut le larynx, les cordes vocales, différentes cavités (la bouche, le pharynx, le nez) et différents muscles ou mécanismes qui contrôlent la forme et l occlusion de ces cavités (la langue, la mâchoire, la luette, les lèvres). 3
Recette de production d un son Pour produire un son, il faut 1. produire un souffle 2. faire vibrer les cordes vocales 3. modeler et faire résonner les vibrations Appareil phonatoire vue d ensemble 4
Appareil phonatoire: les éléments Les «modulateurs» et «résonateurs» de l'appareil vocal sont : le larynx : mouvements souples et verticaux ; le voile du palais : obturation ou pas des cavités nasale; les mâchoires : position plus ou moins ouvertes ; la langue : formes très différentes; les dents : plus ou moins fermées, plus ou moins obturées par la langue, plus ou moins obturées par les lèvres ; les lèvres : plus ou moins fermées, plus ou moins pincées, plus ou moins étirées Appareil phonatoire le larynx - Sons voisés: lorsque les cordes vocales sont tendues, le flux d air les fait vibrer, c est la phonation. - Le flux d air est découpé en un train d impulsion quasi périodique qui «résonnent» dans les différentes cavités: pharynx, bouche et optionnellement nez. - Physiquement, le train d impulsion quasi périodique subit une modulation en fréquence en passant par les différentes cavités. - Différents muscles et mécanismes (mâchoire, langue, luette, lèvres, bouche) modifient la configuration des cavités pour produire les différents types de sons voisés. - Sons non-voisés: lorsque les cordes vocales sont relâchées, l air passe librement au niveau du larynx - De façon similaire aux sons voisés, différents muscles et mécanismes (mâchoire, langue, luette, lèvres, bouche) modifient la configuration des cavités pour produire les différents types de sons non-voisés. 5
Représentation schématique de la production de parole La parole d un point de vue physiologique Parole: séquence de sons qui correspond à une succession d états de l appareil phonatoire. Les états de l appareil phonatoire sont définis par : État des cordes vocales: tendues / relâchées Position, forme, taille des diverses cavités (pharynx, bouche, nez) et de leurs mécanismes d occlusion 6
Les types de sons produits (1/2) - Les états de l appareil phonatoire déterminent les natures des sons produits: 1. Voyelles: - Des voyelles sont produites lorsque le conduit vocal est ouvert - les cordes vocales vibrent (sons voisés) - la forme des cavités (essentiellement la bouche) modifie le timbre - les voyelles sont orales ou nasales selon que la cavité nasale n est pas ou est mise en parallèle à la cavité buccale - Orales: idée, ému, modèle, alarme, pâte, corps, beau, élu, loup, deux, peur, petite - Nasales: matin, temps, bon, brun Les types de sons produits (2/2) 2. Consonnes: - Des consonnes sont produites lorsqu un rétrécissement apparaît dans l appareil phonatoire - les cordes vocales peuvent vibrer ou laisser passer librement l air (sons voisés et non voisés) - les consonnes sont fricatives si le rétrécissement est partiel ou occlusives (plosives) si une occlusion totale apparaît dans l appareil phonatoire, causant une augmentation de la pression et un relâchement brutal de celle-ci lors de l ouverture - Fricatives non-voisées: chanter, soupe, facile - Fricatives voisées: jouer, zéro, vélo - Occlusives non-voisées: papa, tapis, carte - Occlusives voisées: bébé, début, gauche - Liquides: lapin, rayon - Nasales: maman, nord, grogner 7
Phonèmes Voyelles Semiconsonnes Consonnes Orales Nasales Fricatives Occlusives Liquides Nasales Voisées Non-voisées Voisées Non-voisées /a/ (a) /i/ (i) /e/ (é) /e/ (è) /f/ (eu) /œ/ (oe) /y/ (u) ~ / e/ (in) /œ/ ~ (un) /j/ (y) / / (ui) h /v/ (v) /z/ (z) / / (j) /f/ (f) /s/ (s) /Û/ (ch) /b/ (b) /d/ (d) /g/ (g) /k/ (k) /p/ (p) /t/ (t) /l/ (l) /r/ (r) /m/ (m) /n/ (n) / / (gn) / / (e) e /w/ (w) /u/ (ou) /o/ (au) / / (o) /a/ (â) c / / (on) ~ / a / (an) Alphabet phonétique international (1/2) 8
Alphabet phonétique international (2/2) 3. Perception de la parole Perception humaine Le système auditif Analyse fréquentielle Réponse en fréquence de l oreille seuil de l audition seuil de la douleur 9
Perception humaine L humain qualifie les sons suivants différents facteurs liés à des mesures physique: Intensité: - cause: une énergie plus ou moins forte en provenance du diaphragme ; - conséquence : cette énergie provoque une pression plus ou moins forte de l'air sous la glotte ; - résultat sonore : la variation de l'amplitude du son émis est plus ou moins grande. Hauteur : - cause : périodicité plus ou moins grande du battement des cordes vocales; - conséquence : cette périodicité produit une fréquence de la variation de pression de l'air plus ou moins grande ; - résultat sonore: le son est grave ou aigu Timbre : - cause : positionnement du voile du palais ; - conséquence : le son est plus ou moins riche en harmoniques graves ou aiguës ; - résultat sonore : le son semble clair ou pas, «riche», «sombre», «couvert» Le système auditif Les vibrations mécaniques du signal sont converties en impulsion nerveuses du nerf auditif par les cellules ciliées au niveau de la cochlée. 10
Analyse fréquentielle Il y a environ 25000 cellules ciliées qui sont réparties au niveau de la cochlée Une cellule ciliée «vibre» à une certaine fréquence dite de résonance La fréquence de résonance dépend de la position sur la cochlée. L oreille effectue donc une sorte d analyse en fréquence du signal acoustique La transformation en impulsion nerveuse est sensible à la fréquence mais est insensible à la phase. Réponse en fréquence de l oreille L oreille ne répond pas de manière égale à toutes les fréquences. La limite supérieure en fréquence est d environ 16000-20000 Hz Fréquence d échantillonnage Fe = 2 Fmax = 40000 Hz 11
4. Analyse de la parole Traits acoustiques caractéristiques Evolution temporelle Quasi-stationnarité Analyse fréquentielle court-terme Distribution des formants pour les voyelles Traits acoustiques du signal de parole Les traits acoustiques du signal de parole sont liés à sa production L énergie du son est liée à la pression de l air en amont du larynx Pour les sons voisés, la fréquence fondamentale correspond à la fréquence du cycle d ouverture/fermeture des cordes vocales La fréquence est déterminée par la tension du muscle qui les contrôle Sans action musculaire volontaire, cette fréquence varie peu Son spectre résulte du filtrage dynamique du signal en provenance du larynx (signal glottique) par le conduit vocal qui peut être considéré comme une succession de tubes ou de cavités acoustiques de sections diverses. Chaque trait acoustique est lui-même intimement lié à une grandeur perceptuelle : intensité, pitch (hauteur), et timbre. 12
Evolution temporelle d un signal (1/2) Evolution temporelle du signal de parole pour le mot «accumulation» prononcé en anglais Cette figure représente l évolution temporelle, ou audiogramme, du signal vocal On y constate une alternance de zones assez périodiques et de zones bruitées, les zones voisées et non voisées. L évolution temporelle ne fournit cependant pas directement les traits acoustiques du signal. Il est nécessaire, pour les obtenir, de mener à bien un ensemble de calculs ad-hoc. Evolution temporelle d un signal (2/2) Son voisé Son non-voisé 13
Quasi stationnarité La séquence de sons correspond à une succession d états de l appareil phonatoire Le signal est non-stationnaire au long-terme Le signal est quasi stationnaire à court terme Une analyse fréquentielle dite à «courtterme» peut donc s effectuer sur des tranches de signal d environ 30 ms. On utilise pour cela la transformée de Fourier. Analyse fréquentielle court-terme (1/3) 14
Analyse fréquentielle court-terme (2/3) Fréq fond (Pitch) Formants Exemple de son voisé: [a] de baluchon Analyse fréquentielle court-terme (2/3) Exemple de son non-voisé: [ch] de baluchon 15
Distribution des formants F1 et F2 pour les voyelles Compléments http://catalogue.ircam.fr/sites/voix/decrir e/index.html L. Rabiner, B. Juang, «Fundamentals of Speech Recognition», Prentice Hall, 1993 R. Boite et al., «Traitement de la parole», PPUR 2000 16