Implémentation de l'algorithme de reconnaissance du locuteur

Documents pareils
Reconnaissance du locuteur

Internet et Multimédia Exercices: flux multimédia

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

Comme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:

Programmation sous QT

Codage d information. Codage d information : -Définition-

Cours de Java. Sciences-U Lyon. Java - Introduction Java - Fondamentaux Java Avancé.

Apprentissage Automatique

Traitement numérique de l'image. Raphaël Isdant

Représentation des Nombres

ISO/CEI NORME INTERNATIONALE

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

Modèle GARCH Application à la prévision de la volatilité

Méthodes de développement. Analyse des exigences (spécification)

Vérification audiovisuelle de l identité

PROBABILITES ET STATISTIQUE I&II

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Errata et mises à jour

Dispositif sur budget fédéral

Outils permettant la diffusion de l information. Un point sur le droit numérique

Introduction à l Informatique licence 1 ère année Notes de Cours

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Système à enseigner : Robot M.I.M.I. MultipodeIntelligent à Mobilité Interactive. Version 1.0

Diagrammes de Package, de déploiement et de composants UML

Chaine de transmission

Multimedia. Systèmes, Communications et Applications. Ahmed MEHAOUA

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Cours Informatique 1. Monsieur SADOUNI Salheddine

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

LES TYPES DE DONNÉES DU LANGAGE PASCAL

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Figure 2 Pyramide de la décision H.A SIMON

Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application

Calcul des indicateurs de sonie : revue des algorithmes et implémentation

UML (Paquetage) Unified Modeling Language

Chapitre 11 : Le Multicast sur IP

Déroulement. Evaluation. Préambule. Définition. Définition. Algorithmes et structures de données 28/09/2009

Développement ebusiness

STREAMCORE. Gestion de Performance et Optimisation Réseau

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

MODALITES DE SUIVI DU PROJET ANNUEL DU MASTER 2 SOLUTIONS INFORMATIQUES LIBRES

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

SEMINAIRES & ATELIERS EN TÉLÉCOMMUNICATIONS RESEAUX

Technologie de Déduplication Progressive

SAS ENTERPRISE MINER POUR L'ACTUAIRE


Partie 7 : Gestion de la mémoire

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Simulation : application au système bonus-malus en responsabilité civile automobile

Livrable 2.1 Rapport d analyse et de restructuration de code monothread des modules P, T, Q et F de l encodage MPEG-4 AVC

Loi binomiale Lois normales

Algorithmique des Systèmes Répartis Protocoles de Communications

TD 1 - Transmission en bande de passe

LES DIFFÉRENTS FORMATS AUDIO NUMÉRIQUES

La VoIP: Les protocoles SIP, SCCP et H323. Jonathan BRIFFAUT Alexandre MARTIN

FLEX 3. Applications Internet riches avec Flash ActionScript 3, MXML et Flex Builder. Aurélien Vannieuwenhuyze

Plan du cours Cours théoriques. 29 septembre 2014

Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.

Voix et Téléphonie sur IP : Architectures et plateformes

S LICENCE INFORMATIQUE Non Alt Alt SS1 S2 S3 S4 S5 S6 Parcours : IL (Ingénierie Logicielle) SRI (Systèmes et Réseaux Informatiques)

DESCRIPTIF DE MODULE S4 ADG : Mathématique pour la Gestion

Codage hiérarchique et multirésolution (JPEG 2000) Codage Vidéo. Représentation de la couleur. Codage canal et codes correcteurs d erreur

Créer une application de livre interactif pour tablette avec Indesign CS6 et Adobe Digital Publishing Suite

FORMULAIRE DE STATISTIQUES

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Programmation Objet - Cours II

Géométrie discrète Chapitre V

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Simulation de variables aléatoires

PloneLabs un gestionnaire de contenu pour les laboratoires

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Cryptographie Quantique

Pour les futurs développeurs Sommaire

Types de fichiers multimédias pris en charge sur les smartphones BlackBerry. Guide de référence

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Traitement de données

Numérisation Traitement formel Ordinateur ET logiciel

Bases de programmation. Cours 5. Structurer les données

La classification automatique de données quantitatives

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

Extraction d informations stratégiques par Analyse en Composantes Principales

Transmission de données. A) Principaux éléments intervenant dans la transmission

Algorithmes de recherche

Technique de compression des images médicales 4D

Cours n 12. Technologies WAN 2nd partie

Cours d algorithmique pour la classe de 2nde

EVALUATION Nombres CM1

FORMATION MULTIMÉDIA LVE

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

Validation probabiliste d un Système de Prévision d Ensemble

Plus courts chemins, programmation dynamique

Le réseau au service de la Gestion Technique des Bâtiments. Présentation d'un service de vidéosurveillance

Examen Médian - 1 heure 30

THÈSE. présentée à l Université d Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT

Logiciel SCRATCH FICHE 02

Paramétrisation adaptée de transitoires pour la reconnaissance d instruments de musique

Technologies mobiles pour la reconnaissance vocale des langues africaines

Transcription:

Implémentation de l'algorithme de reconnaissance du locuteur 1

Mixtures de Gaussiennes - 1 gaussienne 1D seule = 1 moyenne + 1 variance - dans un GMM (à matrice de covariance diagonale) 1 gaussienne 1D = 1 moyenne + 1 variance + 1 poids

Mixtures de Gaussiennes - 1 gaussienne 1D seule = 1 moyenne + 1 variance - dans un GMM (à matrice de covariance diagonale) 1 gaussienne 1D = 1 moyenne + 1 variance + 1 poids - Estimation des densités de probabilité par une somme pondérée de gaussiennes.

Mixtures de Gaussiennes - 1 gaussienne 1D seule = 1 moyenne + 1 variance - dans un GMM (à matrice de covariance diagonale) 1 gaussienne 1D = 1 moyenne + 1 variance + 1 poids - Estimation des densités de probabilité par une somme pondérée de gaussiennes. - 1 gaussienne nd seule = n moyennes + n variances - dans un GMM (à matrice de covariance diagonale) 1 gaussienne nd = n moyennes + n variances + 1 poids

Mixtures de Gaussiennes - 1 gaussienne 1D seule = 1 moyenne + 1 variance - dans un GMM (à matrice de covariance diagonale) 1 gaussienne 1D = 1 moyenne + 1 variance + 1 poids - Estimation des densités de probabilité par une somme pondérée de gaussiennes. - 1 gaussienne nd seule = n moyennes + n variances - dans un GMM (à matrice de covariance diagonale) 1 gaussienne nd = n moyennes + n variances + 1 poids 1 gaussienne nd = 2n +1 paramètres

Données Audio Découpage du signal en échantillons de quelques ms

Données Audio Découpage du signal en échantillons de quelques ms Calcul des coefficients cepstraux (discriminants) et de leurs dérivées. Le nombre de ces coefficients fixe la dimension des gaussiennes.

Données Audio Découpage du signal en échantillons de quelques ms Calcul des coefficients cepstraux (discriminants) et de leurs dérivées. Le nombre de ces coefficients fixe la dimension des gaussiennes. En phase d'apprentissage : utilisation de ces trames (ou features) pour créer et adapter les modèles GMM.

Données Audio Découpage du signal en échantillons de quelques ms Calcul des coefficients cepstraux (discriminants) et de leurs dérivées. Le nombre de ces coefficients fixe la dimension des gaussiennes. En phase d'apprentissage : utilisation de ces trames (ou features) pour créer et adapter les modèles GMM. En phase de test : comparaison des trames avec les différents mots de passe

Schéma général Modèle du monde (UBM) Adaptation des n meilleures moyennes Locuteur 1

Schéma général Modèle du monde (UBM) Adaptation des n meilleures moyennes Locuteur 1 Adaptation des m meilleurs poids Mot de passe 1 Etat n 1 Mot de passe 1 Etat n 2 Mot de passe 1 Etat n 3

Phase de Test Algorithme de Viterbi Une fois le meilleur chemin trouvé on a un score pour le mot de passe. On calcule en même temps le score du locuteur.

Phase de Test Algorithme de Viterbi Une fois le meilleur chemin trouvé on a un score pour le mot de passe. On calcule en même temps le score du locuteur. L'information provenant de la vidéo sera intégrée aux probabilités de transition entre états.

Apprentissage Adaptation du modèle de locuteur à partir du modèle du monde en modifiant les n meilleures moyennes Création du modèle de mot de passe par un procédé itératif

Apprentissage Adaptation du modèle de locuteur à partir du modèle du monde en modifiant les n meilleures moyennes Création du modèle de mot de passe par un procédé itératif Initialisation : on associe les trames de façon régulière aux états du mot de passe. On adapte le modèle du locuteur pour obtenir le premier modèle des états. Algorithme de Viterbi, on associe les trames aux états du mot de passe. On adapte les états avec les nouvelles trames associées et on répète les 2 dernières étapes

Données stockées Modèles stockés en permanence Mémoire utilisée pendant les phases de test UBM : - 2 vecteurs de dimension n (moyennes et variances)par gaussienne. - 1 vecteur de poids de dimension le nombre de gaussiennes du GMM Locuteur X : - 1 vecteur de dimension n par gaussienne(moyennes) - 1 vecteur de poids Etat Xi : - Vecteur des poids (dimension : nombre de gaussiennes) - Vecteur d'index des poids Locuteur X : - Gaussiennes modifiées (on stocke les moyennes et les variances) Etat Xi : - Vecteur des poids (dimension : nombre de gaussiennes)

Occupation mémoire Modèles à 2048 gaussiennes Gaussiennes de dimension 32 UBM : 2048 x 32 x 2 + 2048 = 133 120 paramètres On modifie les n meilleures moyennes pour chaque locuteur Locuteur X : n x 32 + n (avec n = 20 : 660 paramètres) Index des moyennes modifiées Mot de Passe : M poids modifiés sur E états : 2 x M x E paramètres (2 car on stocke l'index et la valeur)

Occupation mémoire Paramètres : double (8 octets) UBM : 1040 ko SpkModel avec 5 PassWord: 20,785 ko SpkModel avec 20 moyennes modifiées: 5,16 ko PassWord à 10 états et 20 poids modifiées : 3,125 ko Modèle UBM + 20 locuteurs avec 5 Password chacun : 1455 ko

Coût de Calcul Log Vraisemblance d'une gaussienne avec une trame : additions : distribution x [[dimension x 2] + 1] multiplications : distribution x ([[dimension x 2] + 2]+1) 1 logarithme 1 exponentielle Dans le cas précédent : 133 120 additions 137 216 multiplications

Coût de Calcul Log Vraisemblance d'une gaussienne avec une trame : additions : distribution x [[dimension x 2] + 1] multiplications : distribution x ([[dimension x 2] + 2]+1) 1 logarithme 1 exponentielle Dans le cas précédent : 133 120 additions 137 216 multiplications Pour une séquence de T trames ( 300 trames par mot de passe): (133 120 x T) + T-1 additions (137 216 x T) + T-1 multiplications 1 logarithme et 1 exponentielle (à supprimer lors de l'optimisation)

Coût de Calcul Pour un test Pour un mot de passe à E états et un mot de passe à T trames : on calcule E x T log vraisemblances et (T 1 ) x E additions

Coût de Calcul Pour un test Pour un mot de passe à E états et un mot de passe à T trames : on calcule E x T log vraisemblances et (T 1 ) x E additions Dans le cas précédent : 10 états et 300 trames : Additions : 399 362 990 Multiplications : 411 648 000

Coût de Calcul Pour un test Pour un mot de passe à E états et un mot de passe à T trames : on calcule E x T log vraisemblances et (T 1 ) x E additions En réalité compte tenu des redondances de distributions : Additions : Multiplications : 40 328 366 41 569 167

Schémas UML

Schémas UML Alize

Schémas UML Mémoire

Schémas UML Apprentissage

Schémas UML Décodage

Conclusion Partie décodage entièrement codée et testée. Partie apprentissage en cours de codage. Intégration des données issues de la vidéo à faire