TP OP3 - Traitement Automatique de la Parole

Documents pareils
INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Transmission d informations sur le réseau électrique

Chaine de transmission

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Outils permettant la diffusion de l information. Un point sur le droit numérique

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

UE 503 L3 MIAGE. Initiation Réseau et Programmation Web La couche physique. A. Belaïd

Enregistrement et transformation du son. S. Natkin Novembre 2001

Apprentissage Automatique

Numérisation du signal

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole


Technique de codage des formes d'ondes

Etude et conception d un serveur vocal :

Transmission de données. A) Principaux éléments intervenant dans la transmission

Outils informatiques de manipulation de la vidéo et du son : une introduction

Multimedia. Systèmes, Communications et Applications. Ahmed MEHAOUA

Analyse des bruits de clavier d ordinateur

Chapitre 2 Les ondes progressives périodiques

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

Projet audio. Analyse des Signaux ELE2700

Expérience 3 Formats de signalisation binaire

SCL LOGICIEL DE CONTROL

Chapitre 13 Numérisation de l information

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Hélène Lœvenbruck, Christophe Savariaux, Dorothée Lefebvre

Chapitre 18 : Transmettre et stocker de l information

Mini_guide_Isis.pdf le 23/09/2001 Page 1/14

Université de La Rochelle. Réseaux TD n 6

Tutoriels. 01 Utiliser Praat. 02 Transcrire sous Praat en utilisant les conventions VALIBEL. Sylviane Bachy. Rédaction octobre 2005

Étude des Corrélations entre Paramètres Statiques et Dynamiques des Convertisseurs Analogique-Numérique en vue d optimiser leur Flot de Test

Partie Agir : Défis du XXI ème siècle CHAP 20-ACT EXP Convertisseur Analogique Numérique (CAN)

Les techniques de multiplexage

LABO PROJET : IMPLEMENTATION D UN MODEM ADSL SOUS MATLAB

Régler les paramètres de mesure en choisissant un intervalle de mesure 10µs et 200 mesures.

GUIDE DE PRODUCTION DES STEMS

Qualité perçue de parole transmise par voie téléphonique large-bande

Chap17 - CORRECTİON DES EXERCİCES

Reconnaissance du locuteur

Comment enregistrer simplement toute musique restituée par votre PC

LES DIFFÉRENTS FORMATS AUDIO NUMÉRIQUES

TP Modulation Démodulation BPSK

TP: Représentation des signaux binaires. 1 Simulation d un message binaire - Codage en ligne

TD séance n 10 Multimédia Son

Tuto pour connecter une source RVB RGB à un moniteur Commodore / Amiga

«Le Dolby Digital 5.1 et les tests en champ libre par ordinateur»

FAG Detector III la solution pour la surveillance et l équilibrage. Information Technique Produit

Systèmes de transmission

1 Démarrer L écran Isis La boite à outils Mode principal Mode gadget Mode graphique...

T500 DUAlTACH. JAQUET T500 DualTach Instrument de mesure et de surveillance équipé de 2 entrées fréquence TACHYMETRE 2 CANAUX

Production de documents audio-numériques

M1107 : Initiation à la mesure du signal. T_MesSig

Scarlett Plug-in Suite

xdsl Digital Suscriber Line «Utiliser la totalité de la bande passante du cuivre»

Traitement numérique du son

ISO/CEI NORME INTERNATIONALE

2 g Net - 36 g emballé 2 tips silicone anallergique small + 2 medium + 2 filtres à membrane. 2 tailles d embouts

1. PRESENTATION DU PROJET

Leçon 1 : Les principaux composants d un ordinateur

ASSISTANCE TECHNIQUE INTERACTIVE TC

Systèmes de communications numériques 2

Mini_guide_Isis_v6.doc le 10/02/2005 Page 1/15

Matériel & Logiciels (Hardware & Software)

Le concept cellulaire

TIC. Tout d abord. Objectifs. L information et l ordinateur. TC IUT Montpellier

I. TRANSMISSION DE DONNEES

BACCALAURÉAT PROFESSIONNEL EPREUVE DE TRAVAUX PRATIQUES DE SCIENCES PHYSIQUES SUJET A.1

Prise en main. Prise en main - 0

Multichronomètre SA10 Présentation générale

TABLE DES MATIÈRES 1. DÉMARRER ISIS 2 2. SAISIE D UN SCHÉMA 3 & ' " ( ) '*+ ", ##) # " -. /0 " 1 2 " 3. SIMULATION 7 " - 4.

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

USB TableMike de SpeechWare

TeamConnect. SL TeamConnect CU1, Unité centrale SL TeamConnect CB1, Combox CARACTÉRISTIQUES

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

THÈSE. présentée à l Université d Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT

Récupérer au format AVI un extrait d'un DVD à l'aide du logiciel FlaskMpeg

LA COUCHE PHYSIQUE EST LA COUCHE par laquelle l information est effectivemnt transmise.

Guide des fonctions avancées de mywishtv

CHAPITRE V. Théorie de l échantillonnage et de la quantification

Didier Pietquin. Timbre et fréquence : fondamentale et harmoniques

Intérêt du découpage en sous-bandes pour l analyse spectrale

Extraction de descripteurs musicaux: une approche évolutionniste

Information. BASES LITTERAIRES Etre capable de répondre à une question du type «la valeur trouvée respecte t-elle le cahier des charges?

TP sauvegarde et restauration avec le logiciel Cobian Backup

AudioSculpt. Manuel de l utilisateur. Alain LITHAUD

Les réseaux cellulaires

Connaissances VDI 1 : Chapitres annexe

ENVOI EN NOMBRE DE MESSAGES AUDIO

sommaire Archives... Archiver votre messagerie... Les notes... Les règles de messagerie... Les calendriers partagés Les listes de diffusions...

Manuel Utilisateur RF Monitor Tracker

Document rédigé par Alexis Michaud (en janvier 2005), réactualisé par Angélique Amelot (septembre 2009)

LABO 5 ET 6 TRAITEMENT DE SIGNAL SOUS SIMULINK

J ai peur des souris mais je me soigne Petit manuel à l attention des profs de langues vivantes désireux d affronter le Monstre Informatique

Maintenir un service de traitement de son ou d image d ordinateur

1 Démarrage de Marionnet

FAG Detector II le collecteur et l analyseur de données portatif. Information Technique Produit

Transcription:

TP OP3 - Traitement Automatique de la Parole Master 1 informatique jerome.farinas@irit.fr Institut de Recherche en Informatique de Toulouse Université Paul Sabatier 5 mars 2009 jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 1 / 52

Présentation des TPs 6 séances de TP de 2h Evaluation : mini dossier (moins de 10 pages) synthétisant ce que vous avez appris lors de ces deux parties) Détail des parties : 1 Rappels (prérequis M1 info TC4) 2 TP1 : Analyse du signal de parole (sous windows+matlab) Manipulation du signal sous matlab, compréhension des mécanismes de base de la paramétrisation audio 3 TP2-4 : Modélisation GMM (reconnaissance du locuteur) (sous linux+mistral) : Modélisation acoustique des locuteurs et mise en place d un outil de vérification. 4 TP5-6 : Modélisation HMM (décodage acoustique) (sous linux+wavesurfer+htk) : Réalisation d un système de reconnaissance de phonème, élément de base des système de reconnaissance de la parole grand vocabulaire jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 2 / 52

Première partie I Rappels jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 3 / 52

Plan 1 Numérisation du signal de parole Fréquence d échantillonnage Quantification Fichiers informatiques 2 Analyse du signal de parole Lancer Matlab Charger un fichier audio Afficher un signal audio Spectre du signal Spectrogramme du signal Echelle MEL Application : spectre du signal Application : analyse cepstrale jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 4 / 52

Numérisation du signal de parole Objectif : reproduire un signal sonore analogique dans un fichier informatique numérique Intensité Temps jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 5 / 52

Plan 1 Numérisation du signal de parole Fréquence d échantillonnage Quantification Fichiers informatiques 2 Analyse du signal de parole Lancer Matlab Charger un fichier audio Afficher un signal audio Spectre du signal Spectrogramme du signal Echelle MEL Application : spectre du signal Application : analyse cepstrale jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 6 / 52

Fréquence d échantillonnage Intensité 1 2 3 4 5 6 7 8 Temps Le signal est échantillonné avec un pas de mesure T = 1/F ech jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 7 / 52

Fréquence d échantillonnage Théorème de Shannon La fréquence d échantillonnage assurant un non repliement du spectre doit être supérieure à 2 fois la fréquence haute du spectre du signal analogique. F ech = 2 F max Signal audio pleine bande à un spectre s étalant de 20 Hz à 20 khz Bandes de fréquences couramment utilisées pour réduire F ech : Spectre du signal F ech Applications Qualité téléphonique [300-3400 Hz] 8 khz Téléphonie Qualité bande élargie [50-7000 Hz] 16 ou 22 khz PC, audio-conférence (ADPCM) Haute qualité en radiodiffusion [50-15 000 Hz] 32 khz DAB, NICAM Qualité Hi-Fi [20-20 000 Hz] 44.1 ou 48 khz CD Audio, Studio numérique, DAT jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 8 / 52

Plan 1 Numérisation du signal de parole Fréquence d échantillonnage Quantification Fichiers informatiques 2 Analyse du signal de parole Lancer Matlab Charger un fichier audio Afficher un signal audio Spectre du signal Spectrogramme du signal Echelle MEL Application : spectre du signal Application : analyse cepstrale jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 9 / 52

Quantification Intensité 4 3 2 1 0 1 2 3 4 5 6 7 8 Temps 1 2 3 Le signal numérisé est représenté en rouge, l erreur de quantification en pointillé rouge jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 10 / 52

Quantification Nombre n de bits utilisés pour le codage des échantillons Erreur de quantification maximale proportionnelle à 1 2 n Dans le cas d une quantification linéaire (pas de quantification constant sur toute la plage de conversion), on exprime l erreur due à la quantification sous la forme d un rapport Signal à Bruit (SNR : Signal to Noise Ratio) dont l expression est la suivante 1 : SNR db = 6.02 n + 1.76dB Q SNR db Qualité Hi-Fi 16-18 bits 95 Codage la parole, NICAM 14 bits 80 Codage son PC 8 bits 40 1 Calcul SNR : http://fr.wikipedia.org/wiki/rapport_signal_sur_bruit jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 11 / 52

Plan 1 Numérisation du signal de parole Fréquence d échantillonnage Quantification Fichiers informatiques 2 Analyse du signal de parole Lancer Matlab Charger un fichier audio Afficher un signal audio Spectre du signal Spectrogramme du signal Echelle MEL Application : spectre du signal Application : analyse cepstrale jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 12 / 52

Fichiers informatiques Il existe de nombreux formats de fichiers son Parmi les plus courant : raw : fichier binaire nu wav : introduit par Microsoft aiff : utilisé sur Silicon Graphics et Macintosh au : format SUN En plus du fichier brut, ces formats encapsulent des informations complémentaires, comme la valeur de la fréquence d échantillonnage, la quantification utilisée, le nombre de canaux... jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 13 / 52

Plan 1 Numérisation du signal de parole Fréquence d échantillonnage Quantification Fichiers informatiques 2 Analyse du signal de parole Lancer Matlab Charger un fichier audio Afficher un signal audio Spectre du signal Spectrogramme du signal Echelle MEL Application : spectre du signal Application : analyse cepstrale jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 14 / 52

Plan 1 Numérisation du signal de parole Fréquence d échantillonnage Quantification Fichiers informatiques 2 Analyse du signal de parole Lancer Matlab Charger un fichier audio Afficher un signal audio Spectre du signal Spectrogramme du signal Echelle MEL Application : spectre du signal Application : analyse cepstrale jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 15 / 52

Lancer Matlab se connecter sur Windows lancer matlab jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 16 / 52

Plan 1 Numérisation du signal de parole Fréquence d échantillonnage Quantification Fichiers informatiques 2 Analyse du signal de parole Lancer Matlab Charger un fichier audio Afficher un signal audio Spectre du signal Spectrogramme du signal Echelle MEL Application : spectre du signal Application : analyse cepstrale jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 17 / 52

Charger un fichier audio cd T :\M1OP3\ ; [signal,fs,q,options] = wavread( Signal/essai.wav ) ; Quelles sont les valeurs de fs et q? Que contient options? Affichez les 10 premières valeurs de signal. Quel est l intervalle de variation des échantillons du signal? Comment ramener le vecteur à des valeurs entières? jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 18 / 52

Plan 1 Numérisation du signal de parole Fréquence d échantillonnage Quantification Fichiers informatiques 2 Analyse du signal de parole Lancer Matlab Charger un fichier audio Afficher un signal audio Spectre du signal Spectrogramme du signal Echelle MEL Application : spectre du signal Application : analyse cepstrale jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 19 / 52

Afficher un signal audio plot(signal) ; Calculez la longueur en secondes du signal Affichez dans une nouvelle fenêtre le vecteur converti en entier Affichez la portion de signal comprise entre les échantillons 11345 et 11375 en bleu Figez l affichage et affichez avec des croix rouge la même portion jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 20 / 52

Plan 1 Numérisation du signal de parole Fréquence d échantillonnage Quantification Fichiers informatiques 2 Analyse du signal de parole Lancer Matlab Charger un fichier audio Afficher un signal audio Spectre du signal Spectrogramme du signal Echelle MEL Application : spectre du signal Application : analyse cepstrale jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 21 / 52

Spectre d un signal 1 Charger le fichier Signal/note.wav dans la variable note. 2 Affichez le signal de note avec l axe des abscisses en secondes. 3 Affichez le spectre de note (avec la fonction fft) avec l axe des abscisses en Hertz. Que remarquez-vous? 4 Quelle est la fréquence de base de cette note de musique? 5 Calculez la transformée de Fourier rapide de l extrait du signal de parole (signal) et affichez le résultat sur une demi-période, avec les abscisses en Hertz. 6 Comparez le spectre de note et celui de signal. jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 22 / 52

Plan 1 Numérisation du signal de parole Fréquence d échantillonnage Quantification Fichiers informatiques 2 Analyse du signal de parole Lancer Matlab Charger un fichier audio Afficher un signal audio Spectre du signal Spectrogramme du signal Echelle MEL Application : spectre du signal Application : analyse cepstrale jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 23 / 52

Spectrogramme du signal figure ; specgram(signal,1024,fs,hamming(1024)) ; jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 24 / 52

Plan 1 Numérisation du signal de parole Fréquence d échantillonnage Quantification Fichiers informatiques 2 Analyse du signal de parole Lancer Matlab Charger un fichier audio Afficher un signal audio Spectre du signal Spectrogramme du signal Echelle MEL Application : spectre du signal Application : analyse cepstrale jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 25 / 52

Echelle MEL en = canaux(signal,11300,512,16,24, voyelle o ) ; 1 fenêtre d analyse (512 points de signal) 2 Module du spectre sur 256 points 3 Canaux d énergies dans les 24 bandes réparties selon l échelle MEL jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 26 / 52

Plan 1 Numérisation du signal de parole Fréquence d échantillonnage Quantification Fichiers informatiques 2 Analyse du signal de parole Lancer Matlab Charger un fichier audio Afficher un signal audio Spectre du signal Spectrogramme du signal Echelle MEL Application : spectre du signal Application : analyse cepstrale jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 27 / 52

Calcul du spectre et fenêtrage de Hamming figure ; extrait = signal(11300 :12323) ; subplot(511) ; plot(extrait) ; subplot(512) ; plot(hamming(1024)) ; subplot(513) ; plot(hamming(1024).*extrait) ; subplot(514) ; f=abs(fft(extrait)) ; plot(f(1 :512)) ; subplot(515) ; h=abs(fft(extrait.*hamming(1024))) ; plot(h(1 :512)) ; Expliquez ces différents tracés. Quel est l intérêt de l utilisation d une fenêtre de Hamming? jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 28 / 52

Plan 1 Numérisation du signal de parole Fréquence d échantillonnage Quantification Fichiers informatiques 2 Analyse du signal de parole Lancer Matlab Charger un fichier audio Afficher un signal audio Spectre du signal Spectrogramme du signal Echelle MEL Application : spectre du signal Application : analyse cepstrale jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 29 / 52

Calcul du cepstre 1 Réalisez le calcul du cepstre sur l extrait de signal de parole. 2 Affichez l extrait, son spectre et son cepstre dans la même fenêtre. 3 Affichez le spectre lissé du signal. 4 Pourquoi la valeur du premier coefficient cepstral est-elle aussi élévée? jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 30 / 52

Deuxième partie II Modélisation GMM (locuteur) jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 31 / 52

Plan 3 Enregistrement fichiers audio 4 Analyse triangle vocalique des locuteurs 5 Modélisation GMM des locuteurs Théorie Mise en pratique jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 32 / 52

La bise et le soleil La bise et le soleil se disputaient, chacun assurant qu il était le plus fort, quand ils ont vu un voyageur qui s avançait, enveloppé dans son manteau. Ils sont tombés d accord que celui qui arriverait le premier à faire ôter son manteau au voyageur serait regardé comme le plus fort. Alors, la bise s est mise à souffler de toute sa force mais plus elle soufflait, plus le voyageur serrait son manteau autour de lui et à la fin, la bise a renoncé à le lui faire ôter. Alors le soleil a commencé à briller et au bout d un moment, le voyageur, réchauffé a ôté son manteau. Ainsi, la bise a du reconnaître que le soleil était le plus fort des deux. jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 33 / 52 Enregistrement fichiers audio En utilisant wavesurfer (sous linux) vous allez enregistrer 3 versions différentes d un texte équilibré phonétiquement («la bise et le soleil») : une version sera lue normalement (nom du fichier : nom-prenom_2009_normal.wav), une version lue rapidement (nom-prenom_2009_rapide.wav), une version lente et hyper-articulée (nom-prenom_2009_lent.wav).

Plan 3 Enregistrement fichiers audio 4 Analyse triangle vocalique des locuteurs 5 Modélisation GMM des locuteurs Théorie Mise en pratique jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 34 / 52

Analyse du triangle vocalique Chaque locuteur doit extraire de l enregistrement lent les valeurs des formants F1 et F2 afin de représenter leur propre triangle vocalique Les phonèmes à isoler sont : /a/ /i/ et /u/ («ou») Afin d isoler ces valeurs, le plus facile est d activer le suivi de formants sous wavesurfer. Vous pouvez également utiliser l affichage d une fenetre LPC pour isoler les formants Comparez les triangles obtenus par les différents locuteurs : que concluez-vous? Réfaites cette manipulation en utilisant la version lue à vitesse normale (sur la meme partie du texte). Est-ce que le triangle est modifié? jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 35 / 52

Plan 3 Enregistrement fichiers audio 4 Analyse triangle vocalique des locuteurs 5 Modélisation GMM des locuteurs Théorie Mise en pratique jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 36 / 52

Plan 3 Enregistrement fichiers audio 4 Analyse triangle vocalique des locuteurs 5 Modélisation GMM des locuteurs Théorie Mise en pratique jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 37 / 52

Principe général de la modélisation de locuteurs Source : exposé Najim Dehac jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 38 / 52

Modélisation du monde l ensemble des locuteurs qui vont servir a l apprentissage vont former un modèle du monde (appelé GMM-UBM : Universal Background Model, cf. [Reynolds QuatieriDunn 2000] utilité du modèle GMM-UBM : permettra l adaptation à un locuteur permettra de normaliser les scores afin de permettre des comparaisons entre systèmes Il s agit d un modèle de mélange de lois Gaussiennes (GMM) apris par l algorithme EM (Expectation-Maximisation). En général 5 itérations EM sont nécessaires. jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 39 / 52

Modélisation du locuteur le modèle du monde peut-etre adapté au locuteur par : adaptation MAP (Maximum A Posteriori) : adaptation fondée sur le maximum de vraisemblance Bayésien. Cela revient à modifier les variances des modèles. adaptation MLLR (Maximun Likelihood Linear Regression) : utilisation des données de test pour modifier le modèle. Cela revient à modifier els moyennes des modèles. jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 40 / 52

Reconnaissance du locuteur Calcul du score : rapport de log vraisemblance (LLR) : S x (Y ) = 1 N N n=1 log p(y m/x ) p(y m /Ω) θ avec X modèle à évaluer et Ω modèle du monde Y représente l opservation qui se décompose en N paramètres que l on suppose indépendants. le seuil θ est défini lors de l apprentissage (sur l ensemble de développement) jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 41 / 52

Plan 3 Enregistrement fichiers audio 4 Analyse triangle vocalique des locuteurs 5 Modélisation GMM des locuteurs Théorie Mise en pratique jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 42 / 52

Installation Mistral IHM Récupérez l archive contenant le programme (Mistral démo pour Lia Spk Det) et décompressez-la : tar xzvf tpspk.tar.gz placez-vous dans le repertoire tpgmm lancez le programme : java -jar SpkIHM jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 43 / 52

Enregistrement locuteur un locuteur correspond a un seul enregistrement audio il faut au moins 2 minutes de parole pour obtenir un bon modèle appuyez sur Add User saisissez un nom de locuteur (le fichier actuelement en cours d édition sera renommé nom du locuteur.wav) jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 44 / 52

Modélisation et reconnaissance Après avoir rajouté tous les locuteurs voulus, lancez la modélisation du modèle du monde : Train World Puis lancez la modélisation des locuteurs : Train Users Vous pouvez ensuite enregistrer un ficheir de test et appuyer sur Reco : le genre est détecté (Male/Female), et la vraisemblance est calculée (LLR) jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 45 / 52

Troisième partie III Modélisation HMM (décodage acoustique) jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 46 / 52

Plan 6 Variabilité du signal de parole 7 Paramétrisation de la collection audio 8 Modélisation par Modèles de Markov Cachés jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 47 / 52

Variabilité du signal de parole Sous linux, installer les fichiers et l arborescence : ~farinas/m1op3/install En vous aidant de la transcription du signal de parole, analysez un fichier d une heure de radio avec wavesurfer (vérifiez que wavesurfer ne charge pas tous les fichiers en mémoire : Préférences -> Sound I/O -> Sound storage = keep on disk). Quels sont les facteurs qui contribuent à rendre variable le signal de parole? Est-ce lié : au locuteur? au sexe de la personne qui parle? aux bruits environants? Affichez le signal de parole avec un étiquetage en phonème et tracez le triangle vocalique du chroniqueur «Pierre Le Marc». Regardez dans le répertoire Listes/ quels sont les fichiers qui correspondent à ce critère. jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 48 / 52

Plan 6 Variabilité du signal de parole 7 Paramétrisation de la collection audio 8 Modélisation par Modèles de Markov Cachés jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 49 / 52

Paramétrisation de la collection audio Vous allez travailler sur les fichiers audio découpé en utilisant la boite à outils HTK. Les labels phonétiques se trouvent rassemblés dans le fichier «Labels/LABELSalignes.mlf» Utiliser le script «HTKparametrisation» pour réaliser la paramétrisation (les fichiers résultats sont stockés sur votre compte dans le répertoire Parametres/) Questions : Quelle est la paramétrisation appliquée? Où pourriez-vous agir pour modifier la paramétrisation? Comment est structuré le fichier de labels? Quelle autre représentation des labels aurait-été possible? jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 50 / 52

Plan 6 Variabilité du signal de parole 7 Paramétrisation de la collection audio 8 Modélisation par Modèles de Markov Cachés jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 51 / 52

Modélisation par Modèles de Markov Cachés A quoi va correspondre un modèle de Markov caché? Réalisez l apprentissage des modèles avec le programme HTKinitialisation (utilisez les fichiers du 14 au 16 avril 2003) Testez votre apprentissage (fichier HTKreco.mlf) avec le fichier du 17 avril 2003. Comment pourriez-vous améliorer les résultats? Quelles modélisations pourriez-vous utiliser? Quels paramètres? jerome.farinas@irit.fr (IRIT) TP OP3 / TAP 5 mars 2009 52 / 52