Multimédia Licence LIOVIS. Parole Modélisation & reconnaissance

Documents pareils

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Transmission d informations sur le réseau électrique

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Chapitre 2 : communications numériques.

Chapitre 22 : (Cours) Numérisation, transmission, et stockage de l information

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

Chaine de transmission

Chapitre I La fonction transmission

LES CARACTERISTIQUES DES SUPPORTS DE TRANSMISSION

Numérisation du signal

Transmission de données. A) Principaux éléments intervenant dans la transmission

Apprentissage Automatique

Enregistrement et transformation du son. S. Natkin Novembre 2001

Systèmes de communications numériques 2

Chapitre 18 : Transmettre et stocker de l information

Chapitre 13 Numérisation de l information

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

2. Couche physique (Couche 1 OSI et TCP/IP)

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

UE11 Phonétique appliquée

Expérience 3 Formats de signalisation binaire

ISO/CEI NORME INTERNATIONALE

Les techniques de multiplexage

M1107 : Initiation à la mesure du signal. T_MesSig

Qualité perçue de parole transmise par voie téléphonique large-bande

Chapitre 2 Les ondes progressives périodiques

LA COUCHE PHYSIQUE EST LA COUCHE par laquelle l information est effectivemnt transmise.

Ecole Centrale d Electronique VA «Réseaux haut débit et multimédia» Novembre 2009

A la découverte du Traitement. des signaux audio METISS. Inria Rennes - Bretagne Atlantique

Fonctions de la couche physique

Etude et conception d un serveur vocal :

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

données en connaissance et en actions?

ETUDE D IMPACT ACOUSTIQUE

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

1. Productions orales en continu après travail individuel

Echantillonnage Non uniforme

LÕenregistrement Enregistrement analogique et enregistrement numžrique

Université du Québec à Chicoutimi THESE. Présentée à l'université du Québec à Chicoutimi Département des Sciences Appliquées

DAC. avec interface USB audio et préampli stéréo Casque CONVERTISSEUR DIGITAL VERS ANALOGIQUE. Guide d utilisation V1.1 Jan 2011

Information. BASES LITTERAIRES Etre capable de répondre à une question du type «la valeur trouvée respecte t-elle le cahier des charges?

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

SYSTEME DE PALPAGE A TRANSMISSION RADIO ETUDE DU RECEPTEUR (MI16) DOSSIER DE PRESENTATION. Contenu du dossier :

QoS et Multimédia SIR / RTS. Introduction / Architecture des applications multimédia communicantes

La syllabe (1/5) Unité intuitive (différent du phonème) Constituant essentiel pour la phonologie au même titre que phonème et trait

Notice d utilisation de la : Pro-Ject Debut & Debut Phono SB

N SIMON Anne-Catherine

Communications numériques

Technique de codage des formes d'ondes

EMETTEUR ULB. Architectures & circuits. Ecole ULB GDRO ESISAR - Valence 23-27/10/2006. David MARCHALAND STMicroelectronics 26/10/2006

Rapport. Mesures de champ de très basses fréquences à proximité d antennes de stations de base GSM et UMTS

Phonologie, Master LFA Professeur : André THIBAULT

xdsl Digital Suscriber Line «Utiliser la totalité de la bande passante du cuivre»

Chapitre 1. Introduction aux applications multimédia. 1. Introduction. Définitions des concepts liés au Multimédia (1/2)

Le modèle standard, SPE (1/8)

Université de La Rochelle. Réseaux TD n 6

Electron S.R.L. SERIE B46 - SYSTEMES DIDACTIQUES DE TELEPHONIE

La structure du mobile GSM

Transmission des signaux numériques

Systèmes de transmission

I. TRANSMISSION DE DONNEES

Groupe Eyrolles, 2000, 2004, ISBN :

Année Transmission des données. Nicolas Baudru mél : nicolas.baudru@esil.univmed.fr page web : nicolas.baudru.perso.esil.univmed.

TeamConnect. SL TeamConnect CU1, Unité centrale SL TeamConnect CB1, Combox CARACTÉRISTIQUES

Les Réseaux Informatiques

P2: Perception auditive

LABO PROJET : IMPLEMENTATION D UN MODEM ADSL SOUS MATLAB

LABO 5 ET 6 TRAITEMENT DE SIGNAL SOUS SIMULINK

La Voix sur IP OLIVIER D.

Présentation Module logique Zelio Logic 0 Interface de communication

Bandes Critiques et Masquage

Présentation et installation PCE-LOG V4 1-5

CLIP. (Calling Line Identification Presentation) Appareil autonome affichant le numéro appelant

2. DIFFÉRENTS TYPES DE RÉSEAUX

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA

Organisation du module

Multimedia. Systèmes, Communications et Applications. Ahmed MEHAOUA

Compatibilité Électromagnétique

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

Production de documents audio-numériques

NOTICE D EMPLOI SLT-TR

Représentation des Nombres

ANALYSE ACOUSTIQUE de la VOIX. pour la. DÉTECTION de PERTURBATIONS PSYCHOPHYSIOLOGIQUES. APPLICATION au CONTEXTE AÉRONAUTIQUE

ADSL. C est comme son nom l indique une liaison asymétrique fort bien adaptée à l Internet et au streaming radio et vidéo.

ADSL. Étude d une LiveBox. 1. Environnement de la LiveBox TMRIM 2 EME TRIMESTRE LP CHATEAU BLANC CHALETTE/LOING NIVEAU :

Traitement numérique du son

Spectrophotomètres. Spectrophotomètres modèle Les spectrophotomètres Série 67 : 3 modèles uniques

Mise en pratique : Etude de spectres

Procédures de qualification Télématicienne CFC Télématicien CFC

III.2 SPECTROPHOTOMÈTRES

J AUVRAY Systèmes Electroniques TRANSMISSION DES SIGNAUX NUMERIQUES : SIGNAUX EN BANDE DE BASE

«Le Dolby Digital 5.1 et les tests en champ libre par ordinateur»

Data loggers SOFREL LT/LT-US Solutions réseaux d eaux usées

Evolution de l infrastructure transport

Signalisation, codage, contrôle d'erreurs

Transcription:

Multimédia Licence LIOVIS Parole Modélisation & reconnaissance

Plan du cours 1. Introduction au multimédia et à la parole 2. Acquisition 3. Codage 4. Reconnaissance

L avènement du «tout numérique» Montée en puissance progressive du «tout numérique» Informatique Télécommunications Médias et industries de la communication

Etape 1 : l informatique La machine à différences de Babbage (1791) Les ordinateurs à lampes (195) Les microprocesseurs (198) Un outil dont l utilisation se propage à un nombre croissant d utilisateurs

Etape 2 : les télécommunications L évolution de l informatique catalyse les télécommunications Les lignes téléphoniques ne supportent que le signal analogique 1ère cohabitation données/son : utilisation d un convertisseur ou MODulateur/DEModulateur : Le MODEM Numérisation des lignes téléphoniques : Modulation par impulsion et codage (MIC) ou PCM (Pulse Code Modulation) Cable, fibre optique, liaison hertzienne, satellite TELEMATIQUE = TELEcommunications + informatique

Etape 3 : la communication Le développement de la communication est directement le fruit d innovations L écrit Le son L image manuscrits Imprimerie Gutemberg livre presse radio disque Phonographe Cros dessin et peinture Liaison hertzienne Hertz photographie cinéma télévision Tube cathodique Edison, Senlecq Essentiellement monomédia, la communication nous institue lecteur, auditeur ou téléspectateur Le numérique est une opportunité pour les industries de la communication : - informatisation des procédés et techniques de travail, - élargissement des supports (compression de l information = plus de place aux médias) Mais également une menace : les frontières des différents secteurs s estompent.

Du «tout numérique» au multimédia MULTIMEDIA : élaboration de documents comprenant de MULTiples MEDIAS De nouveaux types de produits et services émergent peu à peu Enrichissement et redimensionnement de l information Interactivité et navigation Sens multiples : texte et hypertexte Encyclopédie : texte + image + commentaire oral + séquence vidéo Presse électronique Synthèse : jeux vidéo Cours magistral Synthèse, simulations, réalité virtuelle Dialogue conversation Enchaînement linéaire des idées Assemblage d explorations possibles autour d une idée Nouveaux modes de représentation du réel

Support technologique de l émergence du multimédia Création Numérisation Codage compression distribution Stockage infrastructure Commercialisation Émergence du multimédia produits services L acquisition et la numérisation permettent la création des objets multimédia Compression et codage réduisent la quantité de données de façon réversible et non réversible L objet multimédia peut être stocké sur un support ou utilisé comme un service Le service multimédia nécessite des structures de transmission adaptées à des flux importants de données numériques

Numérisation du son Le son est une information complexe car dynamique Analogique, à variations continues, on peut représenter le son comme un flux d ondes Étendue du spectre auditif : de 2Hz à 2kHz Bande passante du téléphone : entre 3Hz et 34Hz Bande passante du disque CD : jusqu à 2kHz

Conversion AN-NA Étape difficile : sensibilité au bruit et perturbations, coût élevé Instabilités temporelles : le jitter Tops échantillons Tops théoriques du 16 au 24 bits : fiabilité limitée dans les bits de poids faibles 16 bits = 65536 niveaux (96dB) ~ 14 bits réels 24bits = 16777216 niveaux (144dB) ~ 21.22 bits réels db -6dB Dynamique limitée : problème de la saturation des signaux numériques Repliement du spectre ou aliasing

Multimédia La parole

Mécanisme de la phonation

Production de la parole Trois grandes étapes La souflerie poumons La gestuelle articulatoire Cordes vocales Le voisement Conduit vocal et fosses nasales

Les sons de la parole Caractéristiques acoustiques de la parole Mécanismes de production Vibration des cordes vocales Source de voisement Turbulences de l air dans le conduit vocal Relâchement d une occlusion dans le conduit vocal Sources de bruit

Description phonétique Établir des distinctions entre les unités de signification Les phonèmes sont les éléments sonores les plus brefs qui permettent de distinguer différents mots [k] dans «qui» == [k] dans «cou» Articulations différentes même phonème en français phonèmes différents en hongrois Les phonèmes ne tiennent compte que des caractéristiques acoustiques pertinentes pour les distinctions de signification Les 36 phonèmes français

Classification en traits distinctifs Les phonèmes et les traits distinctifs sont des éléments abstraits Liés aux éléments de signification. Ils ne spécifient pas Complètement le signal acoustique - orales - nasales nasalité Degré d ouverture Du conduit vocal Position de la constriction principale Du conduit vocal - antérieures - postérieures voyelles Protrusion des lèvres (arrondissement) - arrondies - non arrondies voisement - voisées - non voisées Mode d articulation - occlusif - nasal - fricatif - glissant - liquide consonnes Position de la constriction principale (lieu d articulation) - labiales - dentales - vélo-palatales

Audition

Analyse acoustique descriptive L analyse fréquentielle Équivalence des représentations Temps et fréquences Exemple : le «la 44 Hz»

Signal de la parole «She had your dark suit in greasy Wash water all year» temps «Suit» temps

Spectre «Suit»

Représentation spectrographique

Applications en parole - Téléphonie filaire - GSM, GPRS, UMTS - Transmissions audiovisuelles - Stockage, restitution de message vocaux Transmission de la parole - IHM - Parole continue - Mots isolés - Locuteur (Vérification) (identification) Reconnaissance de la parole Reconnaissance du locuteur - IHM - Synthèse à partir du texte (lecture automatique de messages écrits) (questionnement de bases de données) (alarmes dans les centres de surveillance) (aide aux handicapés) (etc.)

Pré-traitement pour la reconnaissance signal Segmentation Découpage en trames Preacc. fenêtrage Codage Vecteurs acoustiques

1.5 acquisition -.5.6.4.2 -.2 -.4-1.5 1 1.5 2 2.5 3 3.5 x 1 4 1.5 -.5 -.6 -.8-1 1.25 1.3 1.35 1.4 1.45 1.5 1.55 x 1 4 Découpage en trames -1.5 1 1.5 2 2.5 3 3.5.8.6.4.2 Élimination du bruit x 1 4 -.2 -.4 -.6 -.8-1 5 1 15 2 25 3

Détection parole / bruit Variance du signal à comparer avec la variance du bruit Variance court terme du mot parenthèse

Phonème Segmentation phonétique.6.4.2 -.2 -.4 -.6 -.8-1 1.25 1.3 1.35 1.4 1.45 1.5 1.55 x 1 4 Occurrences Du même phonème Découpage du signal en trames entrelacées Décision sur plusieurs trames

trame spectre 1-1 4 5 1 15 2 25 3 2.2 5 1 15 2 25 3 Pré-accentuation -.2 4 5 1 15 2 25 3 2.2 5 1 15 2 25 3 Fenêtrage (Hamming) -.2 2 5 1 15 2 25 3 1 5 1 15 2 25 3

Codages MFCC LPC FFT.15.1.5 -.5 -.1 5 1 15 2 25 3 a1 a2 a3 a4 a5 a6 a7 a8 a9 a1 a11 a12 signal Preacc. fenêtre Codage Vecteurs acoustiques

Codage LPC Modèle du conduit vocal a) Conduit vocal b) Modèle acoustique à réflexion c) Modélisation par lignes électriques

Modélisation linéaire (LPC) Coefficients LPC

Reconnaissance niveaux de complexité Dépendance du locuteur Mots isolés ou parole continue Taille du vocabulaire Conditions d acquisition Variabilité inter et intra-locuteur Détection et reconnaissance de mots clés Le degré de confusion augmente avec la taille Dégradation rapide des performances

Robustesse des reconnaisseurs de parole Bruits d environnement Bruits corrélés au signal de parole (ex :reverb.) Microphones, prise de son Bande passante fréquentielle limitée Élocution inhabituelle

Etapes de la reconnaissance Acquisition des vecteurs acoustiques Acquisition et Codage Classification des vecteurs Hypothèses locales Alignement temporel Score global au niveau de la phrase Analyse syntaxique, sémantique, pragmatique Contraintes vocabulaire, grammaire, sens

Méthodes de reconnaissance Statistiques Directes Décision Bayésienne Chaînes de Markov cachées (HMM) K-ppv et Distances Fonctions discriminantes Connexionnistes Structurelles Modélisation Discrimination Programmation dynamique (DTW)

Décision par les plus proches voisins Aucune hypothèse sur la forme des classes ou sur celle de leurs séparatrices Simple à mettre en oeuvre Statistiquement efficace Temps de calcul prohibitifs Problème de la métrique

Méthodes structurelles : DTW Classification phonétique Étape intermédiaire (classification locale) Etape entachée d erreurs (variabilité spectrale importante) Contraintes de niveau supérieur Nécessaires pour réduire les erreurs Reconnaissance de mots

Reconnaissance de mots Comparaison de séquences de vecteurs acoustiques.8.6.4 «sept».2 -.2 -.4 -.6 -.8 5 6 7 8 9 1 11 12 13 14 Séquence de 59 trames 59 vecteurs acoustiques

Reconnaissance de mots (suite) Séquences de longueurs différentes.6.4 «un».2 -.2 -.4 -.6 -.8-1 1.2 1.25 1.3 1.35 1.4 1.45 1.5 1.55 1.6 x 1 4 Séquence de 25 trames 25 vecteurs acoustiques

Distance entre chaînes : la distance d édition On note S(u,v) la substitution de u par v X.$ = $.x = x pour tout mot x Insertion = substitution de $ (S($,u)) Suppression = substitution par $ (S(u,$)) Matrice des coûts : C(u,v) : C(u,u) = et C(u,v) > La matrice des coûts permet de palier aux problèmes de mauvaise Segmentation si la différence de coût est faible pour une erreur donnée

Distance d édition : algorithme Calcul par récurrence d une fonction D(i,j) : les distances cumulées X = a1a2a3 an Y = b1b2b3 bm X(i) = a1a2a3 ai Y(j) = b1b2b3 bj X() = y() = $ D(n,m) = d(x,y) D(,) = d($,$) = D(i-1,j) + C(ai,$) D(i,j) = min D(i,j-1) + C($,bj) D(i-1,j-1) + C(ai,bj)

Distance d édition : exemple x = aabccbdeeabbd y=abcbdeebda Les coûts non nuls sont tous égaux à 1 $ a a b c c b d e e a b b d $ 1 2 3 4 5 6 7 8 9 1 11 12 13 a 1 1 2 3 4 5 6 7 8 9 1 11 12 b 2 1 1 1 2 3 4 5 6 7 8 9 1 11 c 3 2 2 2 1 2 3 4 5 6 7 8 9 1 b 4 3 3 2 2 2 2 3 4 5 6 7 8 9 d 5 4 4 3 3 3 3 2 3 4 5 6 7 8 e 6 5 5 4 4 4 4 3 2 3 4 5 6 7 e 7 6 6 5 5 5 5 4 3 2 3 4 5 6 b 8 7 7 6 6 6 5 5 4 3 3 3 4 5 d 9 8 8 7 7 7 6 5 5 4 4 4 4 4 a 1 9 8 8 8 8 7 6 6 5 4 5 5 5 Distance = 5

Distance d édition : autre exemple x = aabac y=abd Coûts d insertion/suppression :.5, Coûts de substitution si symboles différents : 1, sinon $ a a b a c $.5 1 1.5 2 2.5 a.5.5 1 1.5 2 b 1.5 1.5 1 1.5 d 1.5 1 1.5 1 1.5 2 Distance = 2

Distance d édition : les limites de cette métrique Limitation aux substitutions d ordre 1 Non prise en compte de paramètres numériques On ne dispose que de l alphabet des symboles pour représenter la réalité des formes

Distance d édition avec attributs numériques : D(i-1,j) + C(ai,$) D(i,j) = min D(i,j-1) + C($,bj) D(i-1,j-1) + C(ai,bj) C(ai,$) = ai C($,bj) = bj C(ai,bj) = bj ai Distance de Bellman : D(i-1,j) + d(ai,bj) D(i,j) = min D(i,j-1) + d(ai,bj) D(i-1,j-1) + 2d(ai,bj) Exemple : d(ai,bj) = bj ai

Algorithme DTW (Dynamic Time Warping) j-2 2 1 j-1 j i-2 i-1 1 i D(i-1,j) D(i,j) = d(i,j) + min D(i,j-1) + d(i,j) D(i-1,j-1) Bellman 1 1 j-2 j-1 j i-2 i-1 1 i D(i-1,j) D(i,j) = d(i,j) + min D(i-1,j-1) D(i-1,j-2) Itakura j-2 2 2 2 j-1 1 j i-2 i-1 1 i D(i-2,j-1) + 2d(i-1,j) D(i,j) = d(i,j) + min D(i-1,j-1) + d(i,j) D(i-1,j-2) + 2d(i,j-1)

Distances locales Distance euclidienne Distance de Mahalanobis (Euclidienne pondérée : toutes les classes ont même matrice de covariance) Distance d Itakura (vecteurs LPC) Le choix de la distance influence fortement la classification Ex (problème des distances cumulées dans le temps): Bé, Cé, Dé, Gué, Té, Vé Vers des métriques perceptives

Distances associées aux normes L n n = 1 (simple à évaluer) n = 2 (euclidienne : la plus utilisée) n = infini (tchebichef) Problème des distances cumulées dans le temps

Distance de Mahalanobis Prise en compte des densités de probabilité Estimation des densités de probabilité Méthode paramétrique : hypothèse gaussienne Grand nombre d exemples nécessaire pour l estimation des moyennes et variances d(a,b) = (b-a) Γ -1 (b-a) T d M d E m x m y

Distance d Itakura Coefficients du filtre modélisant le signal de référence Coefficients d autocorrélation Du signal à reconnaître Coefficients du filtre modélisant le signal à reconnaître

Distance d Itakura (suite) Bruit blanc ou Peigne de Dirac A Signal de parole Signal de parole a = 1/A Erreur de prédiction Signal de parole à reconnaître X b a = 1/A b = 1/B Erreurs de prédiction

Filtre inverse

DTW : contraintes Longueur du k ème mot testé Contraintes de monotonicité du chemin : Début en (1,1), fin en (N,J(k)) Contraintes globales : réduction de l espace de recherche Longueur du mot de référence Contraintes locales : prédécesseurs limités garantissant un chemin strictement gauche-droite

Modèles 1-1 1.5 1 1.5 2 2.5 3 3.5 x 1 4-1 1.5 1 1.5 2 2.5 3 3.5 4 x 1 4-1 1.5 1 1.5 2 2.5 3 3.5 4 x 1 4-1 1.5 1 1.5 2 2.5 3 3.5 4 x 1 4-1 1.5 1 1.5 2 2.5 3 3.5 4 x 1 4-1 1.5 1 1.5 2 2.5 3 3.5 4 x 1 4-1 1.5 1 1.5 2 2.5 3 3.5 4 4.5 x 1 4-1.5 1 1.5 2 2.5 3 3.5 4 4.5 x 1 4 1 2 3 4 5 6 7 8

Les 8 tests 4 2 2 1 4 2 2 1 5 4 2 2 1 4 2 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 Les 8 modèles

Méthodes connexionnistes Réseaux prédictifs Réseaux MLP Réseaux à poids partagés (TDNN)

Classification phonétique Par modélisation Par discrimination C 1 C 2 Erreurs de prédiction e 1 e 2 phonème C 3 C 4 e 3 Réseau Trames codées e 4 Trames codées

Réseaux prédictifs Réseaux prédictifs Erreurs de prédiction C 1 C 2 e 1 C 3 C 4 e 2 e 3 classes Trames codées e 4

But de l apprentissage : déterminer les paramètres des prédicteurs pour minimiser l erreur de prédiction Approche par modélisation : chaque réseau modélise un phonème, un groupe de phonèmes ou un mot Reconnaissance : comparaison des traits acoustiques avec Chacun des modèles par calcul de l erreur de prédiction

Matrice de distorsions Trames prédites MLP Trames acoustiques Trames précédentes Trames suivantes

Performances en vérification du locuteur