Multimédia Licence LIOVIS Parole Modélisation & reconnaissance
Plan du cours 1. Introduction au multimédia et à la parole 2. Acquisition 3. Codage 4. Reconnaissance
L avènement du «tout numérique» Montée en puissance progressive du «tout numérique» Informatique Télécommunications Médias et industries de la communication
Etape 1 : l informatique La machine à différences de Babbage (1791) Les ordinateurs à lampes (195) Les microprocesseurs (198) Un outil dont l utilisation se propage à un nombre croissant d utilisateurs
Etape 2 : les télécommunications L évolution de l informatique catalyse les télécommunications Les lignes téléphoniques ne supportent que le signal analogique 1ère cohabitation données/son : utilisation d un convertisseur ou MODulateur/DEModulateur : Le MODEM Numérisation des lignes téléphoniques : Modulation par impulsion et codage (MIC) ou PCM (Pulse Code Modulation) Cable, fibre optique, liaison hertzienne, satellite TELEMATIQUE = TELEcommunications + informatique
Etape 3 : la communication Le développement de la communication est directement le fruit d innovations L écrit Le son L image manuscrits Imprimerie Gutemberg livre presse radio disque Phonographe Cros dessin et peinture Liaison hertzienne Hertz photographie cinéma télévision Tube cathodique Edison, Senlecq Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur Le numérique est une opportunité pour les industries de la communication : - informatisation des procédés et techniques de travail, - élargissement des supports (compression de l information = plus de place aux médias) Mais également une menace : les frontières des différents secteurs s estompent.
Du «tout numérique» au multimédia MULTIMEDIA : élaboration de documents comprenant de MULTiples MEDIAS De nouveaux types de produits et services émergent peu à peu Enrichissement et redimensionnement de l information Interactivité et navigation Sens multiples : texte et hypertexte Encyclopédie : texte + image + commentaire oral + séquence vidéo Presse électronique Synthèse : jeux vidéo Cours magistral Synthèse, simulations, réalité virtuelle Dialogue conversation Enchaînement linéaire des idées Assemblage d explorations possibles autour d une idée Nouveaux modes de représentation du réel
Support technologique de l émergence du multimédia Création Numérisation Codage compression distribution Stockage infrastructure Commercialisation Émergence du multimédia produits services L acquisition et la numérisation permettent la création des objets multimédia Compression et codage réduisent la quantité de données de façon réversible et non réversible L objet multimédia peut être stocké sur un support ou utilisé comme un service Le service multimédia nécessite des structures de transmission adaptées à des flux importants de données numériques
Numérisation du son Le son est une information complexe car dynamique Analogique, à variations continues, on peut représenter le son comme un flux d ondes Étendue du spectre auditif : de 2Hz à 2kHz Bande passante du téléphone : entre 3Hz et 34Hz Bande passante du disque CD : jusqu à 2kHz
Conversion AN-NA Étape difficile : sensibilité au bruit et perturbations, coût élevé Instabilités temporelles : le jitter Tops échantillons Tops théoriques du 16 au 24 bits : fiabilité limitée dans les bits de poids faibles 16 bits = 65536 niveaux (96dB) ~ 14 bits réels 24bits = 16777216 niveaux (144dB) ~ 21.22 bits réels db -6dB Dynamique limitée : problème de la saturation des signaux numériques Repliement du spectre ou aliasing
Multimédia La parole
Mécanisme de la phonation
Production de la parole Trois grandes étapes La souflerie poumons La gestuelle articulatoire Cordes vocales Le voisement Conduit vocal et fosses nasales
Les sons de la parole Caractéristiques acoustiques de la parole Mécanismes de production Vibration des cordes vocales Source de voisement Turbulences de l air dans le conduit vocal Relâchement d une occlusion dans le conduit vocal Sources de bruit
Description phonétique Établir des distinctions entre les unités de signification Les phonèmes sont les éléments sonores les plus brefs qui permettent de distinguer différents mots [k] dans «qui» == [k] dans «cou» Articulations différentes même phonème en français phonèmes différents en hongrois Les phonèmes ne tiennent compte que des caractéristiques acoustiques pertinentes pour les distinctions de signification Les 36 phonèmes français
Classification en traits distinctifs Les phonèmes et les traits distinctifs sont des éléments abstraits Liés aux éléments de signification. Ils ne spécifient pas Complètement le signal acoustique - orales - nasales nasalité Degré d ouverture Du conduit vocal Position de la constriction principale Du conduit vocal - antérieures - postérieures voyelles Protrusion des lèvres (arrondissement) - arrondies - non arrondies voisement - voisées - non voisées Mode d articulation - occlusif - nasal - fricatif - glissant - liquide consonnes Position de la constriction principale (lieu d articulation) - labiales - dentales - vélo-palatales
Audition
Analyse acoustique descriptive L analyse fréquentielle Équivalence des représentations Temps et fréquences Exemple : le «la 44 Hz»
Signal de la parole «She had your dark suit in greasy Wash water all year» temps «Suit» temps
Spectre «Suit»
Représentation spectrographique
Applications en parole - Téléphonie filaire - GSM, GPRS, UMTS - Transmissions audiovisuelles - Stockage, restitution de message vocaux Transmission de la parole - IHM - Parole continue - Mots isolés - Locuteur (Vérification) (identification) Reconnaissance de la parole Reconnaissance du locuteur - IHM - Synthèse à partir du texte (lecture automatique de messages écrits) (questionnement de bases de données) (alarmes dans les centres de surveillance) (aide aux handicapés) (etc.)
Pré-traitement pour la reconnaissance signal Segmentation Découpage en trames Preacc. fenêtrage Codage Vecteurs acoustiques
1.5 acquisition -.5.6.4.2 -.2 -.4-1.5 1 1.5 2 2.5 3 3.5 x 1 4 1.5 -.5 -.6 -.8-1 1.25 1.3 1.35 1.4 1.45 1.5 1.55 x 1 4 Découpage en trames -1.5 1 1.5 2 2.5 3 3.5.8.6.4.2 Élimination du bruit x 1 4 -.2 -.4 -.6 -.8-1 5 1 15 2 25 3
Détection parole / bruit Variance du signal à comparer avec la variance du bruit Variance court terme du mot parenthèse
Phonème Segmentation phonétique.6.4.2 -.2 -.4 -.6 -.8-1 1.25 1.3 1.35 1.4 1.45 1.5 1.55 x 1 4 Occurrences Du même phonème Découpage du signal en trames entrelacées Décision sur plusieurs trames
trame spectre 1-1 4 5 1 15 2 25 3 2.2 5 1 15 2 25 3 Pré-accentuation -.2 4 5 1 15 2 25 3 2.2 5 1 15 2 25 3 Fenêtrage (Hamming) -.2 2 5 1 15 2 25 3 1 5 1 15 2 25 3
Codages MFCC LPC FFT.15.1.5 -.5 -.1 5 1 15 2 25 3 a1 a2 a3 a4 a5 a6 a7 a8 a9 a1 a11 a12 signal Preacc. fenêtre Codage Vecteurs acoustiques
Codage LPC Modèle du conduit vocal a) Conduit vocal b) Modèle acoustique à réflexion c) Modélisation par lignes électriques
Modélisation linéaire (LPC) Coefficients LPC
Reconnaissance niveaux de complexité Dépendance du locuteur Mots isolés ou parole continue Taille du vocabulaire Conditions d acquisition Variabilité inter et intra-locuteur Détection et reconnaissance de mots clés Le degré de confusion augmente avec la taille Dégradation rapide des performances
Robustesse des reconnaisseurs de parole Bruits d environnement Bruits corrélés au signal de parole (ex :reverb.) Microphones, prise de son Bande passante fréquentielle limitée Élocution inhabituelle
Etapes de la reconnaissance Acquisition des vecteurs acoustiques Acquisition et Codage Classification des vecteurs Hypothèses locales Alignement temporel Score global au niveau de la phrase Analyse syntaxique, sémantique, pragmatique Contraintes vocabulaire, grammaire, sens
Méthodes de reconnaissance Statistiques Directes Décision Bayésienne Chaînes de Markov cachées (HMM) K-ppv et Distances Fonctions discriminantes Connexionnistes Structurelles Modélisation Discrimination Programmation dynamique (DTW)
Décision par les plus proches voisins Aucune hypothèse sur la forme des classes ou sur celle de leurs séparatrices Simple à mettre en oeuvre Statistiquement efficace Temps de calcul prohibitifs Problème de la métrique
Méthodes structurelles : DTW Classification phonétique Étape intermédiaire (classification locale) Etape entachée d erreurs (variabilité spectrale importante) Contraintes de niveau supérieur Nécessaires pour réduire les erreurs Reconnaissance de mots
Reconnaissance de mots Comparaison de séquences de vecteurs acoustiques.8.6.4 «sept».2 -.2 -.4 -.6 -.8 5 6 7 8 9 1 11 12 13 14 Séquence de 59 trames 59 vecteurs acoustiques
Reconnaissance de mots (suite) Séquences de longueurs différentes.6.4 «un».2 -.2 -.4 -.6 -.8-1 1.2 1.25 1.3 1.35 1.4 1.45 1.5 1.55 1.6 x 1 4 Séquence de 25 trames 25 vecteurs acoustiques
Distance entre chaînes : la distance d édition On note S(u,v) la substitution de u par v X.$ = $.x = x pour tout mot x Insertion = substitution de $ (S($,u)) Suppression = substitution par $ (S(u,$)) Matrice des coûts : C(u,v) : C(u,u) = et C(u,v) > La matrice des coûts permet de palier aux problèmes de mauvaise Segmentation si la différence de coût est faible pour une erreur donnée
Distance d édition : algorithme Calcul par récurrence d une fonction D(i,j) : les distances cumulées X = a1a2a3 an Y = b1b2b3 bm X(i) = a1a2a3 ai Y(j) = b1b2b3 bj X() = y() = $ D(n,m) = d(x,y) D(,) = d($,$) = D(i-1,j) + C(ai,$) D(i,j) = min D(i,j-1) + C($,bj) D(i-1,j-1) + C(ai,bj)
Distance d édition : exemple x = aabccbdeeabbd y=abcbdeebda Les coûts non nuls sont tous égaux à 1 $ a a b c c b d e e a b b d $ 1 2 3 4 5 6 7 8 9 1 11 12 13 a 1 1 2 3 4 5 6 7 8 9 1 11 12 b 2 1 1 1 2 3 4 5 6 7 8 9 1 11 c 3 2 2 2 1 2 3 4 5 6 7 8 9 1 b 4 3 3 2 2 2 2 3 4 5 6 7 8 9 d 5 4 4 3 3 3 3 2 3 4 5 6 7 8 e 6 5 5 4 4 4 4 3 2 3 4 5 6 7 e 7 6 6 5 5 5 5 4 3 2 3 4 5 6 b 8 7 7 6 6 6 5 5 4 3 3 3 4 5 d 9 8 8 7 7 7 6 5 5 4 4 4 4 4 a 1 9 8 8 8 8 7 6 6 5 4 5 5 5 Distance = 5
Distance d édition : autre exemple x = aabac y=abd Coûts d insertion/suppression :.5, Coûts de substitution si symboles différents : 1, sinon $ a a b a c $.5 1 1.5 2 2.5 a.5.5 1 1.5 2 b 1.5 1.5 1 1.5 d 1.5 1 1.5 1 1.5 2 Distance = 2
Distance d édition : les limites de cette métrique Limitation aux substitutions d ordre 1 Non prise en compte de paramètres numériques On ne dispose que de l alphabet des symboles pour représenter la réalité des formes
Distance d édition avec attributs numériques : D(i-1,j) + C(ai,$) D(i,j) = min D(i,j-1) + C($,bj) D(i-1,j-1) + C(ai,bj) C(ai,$) = ai C($,bj) = bj C(ai,bj) = bj ai Distance de Bellman : D(i-1,j) + d(ai,bj) D(i,j) = min D(i,j-1) + d(ai,bj) D(i-1,j-1) + 2d(ai,bj) Exemple : d(ai,bj) = bj ai
Algorithme DTW (Dynamic Time Warping) j-2 2 1 j-1 j i-2 i-1 1 i D(i-1,j) D(i,j) = d(i,j) + min D(i,j-1) + d(i,j) D(i-1,j-1) Bellman 1 1 j-2 j-1 j i-2 i-1 1 i D(i-1,j) D(i,j) = d(i,j) + min D(i-1,j-1) D(i-1,j-2) Itakura j-2 2 2 2 j-1 1 j i-2 i-1 1 i D(i-2,j-1) + 2d(i-1,j) D(i,j) = d(i,j) + min D(i-1,j-1) + d(i,j) D(i-1,j-2) + 2d(i,j-1)
Distances locales Distance euclidienne Distance de Mahalanobis (Euclidienne pondérée : toutes les classes ont même matrice de covariance) Distance d Itakura (vecteurs LPC) Le choix de la distance influence fortement la classification Ex (problème des distances cumulées dans le temps): Bé, Cé, Dé, Gué, Té, Vé Vers des métriques perceptives
Distances associées aux normes L n n = 1 (simple à évaluer) n = 2 (euclidienne : la plus utilisée) n = infini (tchebichef) Problème des distances cumulées dans le temps
Distance de Mahalanobis Prise en compte des densités de probabilité Estimation des densités de probabilité Méthode paramétrique : hypothèse gaussienne Grand nombre d exemples nécessaire pour l estimation des moyennes et variances d(a,b) = (b-a) Γ -1 (b-a) T d M d E m x m y
Distance d Itakura Coefficients du filtre modélisant le signal de référence Coefficients d autocorrélation Du signal à reconnaître Coefficients du filtre modélisant le signal à reconnaître
Distance d Itakura (suite) Bruit blanc ou Peigne de Dirac A Signal de parole Signal de parole a = 1/A Erreur de prédiction Signal de parole à reconnaître X b a = 1/A b = 1/B Erreurs de prédiction
Filtre inverse
DTW : contraintes Longueur du k ème mot testé Contraintes de monotonicité du chemin : Début en (1,1), fin en (N,J(k)) Contraintes globales : réduction de l espace de recherche Longueur du mot de référence Contraintes locales : prédécesseurs limités garantissant un chemin strictement gauche-droite
Modèles 1-1 1.5 1 1.5 2 2.5 3 3.5 x 1 4-1 1.5 1 1.5 2 2.5 3 3.5 4 x 1 4-1 1.5 1 1.5 2 2.5 3 3.5 4 x 1 4-1 1.5 1 1.5 2 2.5 3 3.5 4 x 1 4-1 1.5 1 1.5 2 2.5 3 3.5 4 x 1 4-1 1.5 1 1.5 2 2.5 3 3.5 4 x 1 4-1 1.5 1 1.5 2 2.5 3 3.5 4 4.5 x 1 4-1.5 1 1.5 2 2.5 3 3.5 4 4.5 x 1 4 1 2 3 4 5 6 7 8
Les 8 tests 4 2 2 1 4 2 2 1 5 4 2 2 1 4 2 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 Les 8 modèles
Méthodes connexionnistes Réseaux prédictifs Réseaux MLP Réseaux à poids partagés (TDNN)
Classification phonétique Par modélisation Par discrimination C 1 C 2 Erreurs de prédiction e 1 e 2 phonème C 3 C 4 e 3 Réseau Trames codées e 4 Trames codées
Réseaux prédictifs Réseaux prédictifs Erreurs de prédiction C 1 C 2 e 1 C 3 C 4 e 2 e 3 classes Trames codées e 4
But de l apprentissage : déterminer les paramètres des prédicteurs pour minimiser l erreur de prédiction Approche par modélisation : chaque réseau modélise un phonème, un groupe de phonèmes ou un mot Reconnaissance : comparaison des traits acoustiques avec Chacun des modèles par calcul de l erreur de prédiction
Matrice de distorsions Trames prédites MLP Trames acoustiques Trames précédentes Trames suivantes
Performances en vérification du locuteur