MODELISATION NEURO-PREDICTIVE POUR LA CLASSIFICATION PHONETIQUE DE LA LANGUE ARABE



Documents pareils
Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Communication parlée L2F01 TD 7 Phonétique acoustique (1) Jiayin GAO <jiayin.gao@univ-paris3.fr> 20 mars 2014

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Apprentissage Automatique

Intérêt du découpage en sous-bandes pour l analyse spectrale

Coup de Projecteur sur les Réseaux de Neurones

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

Chaine de transmission

Etude et conception d un serveur vocal :

Transmission d informations sur le réseau électrique

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Introduction au datamining

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

INF6304 Interfaces Intelligentes

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Enregistrement et transformation du son. S. Natkin Novembre 2001

Laboratoire 4 Développement d un système intelligent

Mesure agnostique de la qualité des images.

THÈSE. présentée à l Université d Avignon et des Pays de Vaucluse pour obtenir le diplôme de DOCTORAT

Extraction de descripteurs musicaux: une approche évolutionniste

La Recherche du Point Optimum de Fonctionnement d un Générateur Photovoltaïque en Utilisant les Réseaux NEURO-FLOUS

Une fréquence peut-elle être instantanée?

Détection et suivi d'objets dans une séquence d'images par contours actifs

4.2 Unités d enseignement du M1

Quantification Scalaire et Prédictive

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

NON-LINEARITE ET RESEAUX NEURONAUX

ÉTUDE ET DÉVELOPPEMENT D UN SYSTÈME EXPERT BASÉ SUR LES RÉSEAUX DE NEURONES POUR LE DIAGNOSTIC DES DÉFAUTS DE ROULEMENTS

Introduction au Data-Mining

Codage vidéo par block matching adaptatif

Vérification audiovisuelle de l identité

Systèmes de transmission

UE11 Phonétique appliquée

Analyse des bruits de clavier d ordinateur

Son et Mathématiques

La classification automatique de données quantitatives

(Quelle identité par la parole?) Thèse. présentée à la section. Systèmes de Communication. par. Dominique Genoud

LABO 5 ET 6 TRAITEMENT DE SIGNAL SOUS SIMULINK

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

Classification Automatique de messages : une approche hybride

Projet audio. Analyse des Signaux ELE2700

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet de Traitement du Signal Segmentation d images SAR

Introduction au Data-Mining

Université du Québec à Chicoutimi THESE. Présentée à l'université du Québec à Chicoutimi Département des Sciences Appliquées

Codage de la parole à bas et très bas débit 1

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Enjeux mathématiques et Statistiques du Big Data

Traitement bas-niveau

Technique de codage des formes d'ondes

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

10ème Congrès Français d'acoustique Lyon, Avril 2010

TD1 Signaux, énergie et puissance, signaux aléatoires

L apprentissage automatique

Traitement du signal avec Scilab : la transformée de Fourier discrète

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Modélisation du comportement habituel de la personne en smarthome

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

5.2 Théorème/Transformée de Fourier a) Théorème

1 Définition de la non stationnarité

Organisation du parcours M2 IR Les unités d enseignements (UE) affichées dans la partie tronc commun sont toutes obligatoires, ainsi que le stage et

EMETTEUR ULB. Architectures & circuits. Ecole ULB GDRO ESISAR - Valence 23-27/10/2006. David MARCHALAND STMicroelectronics 26/10/2006

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Utilisation des méthodes Support Vector Machine (SVM) dans l analyse des bases de données

Technique de compression des images médicales 4D

V corr Jacques Ferber. LIRMM - Université Montpellier II 161 rue Ada Montpellier Cedex 5

Reconnaissance du locuteur

données en connaissance et en actions?

APPLICATION DE RESEAUX DE NEURONES ARTIFICIELS A LA RECONNAISSANCE AUTOMATIQUE DE CARACTERES MANUSCRITS

5. Apprentissage pour le filtrage collaboratif

«Tous les sons sont-ils audibles»

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

10ème Congrès Français d'acoustique Lyon, Avril 2010

Ordonnance du DFJP sur les instruments de mesure audiométriques

Automatique Linéaire 1 Travaux Dirigés 1A ISMIN

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Détection des deux roues motorisés par télémétrie laser à balayage

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Compte-rendu Réunion générale. Grenoble, le 29 juin 2011 URBASIS

Chapitre I La fonction transmission

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

Echantillonnage Non uniforme

Utilisation du SIG dans une entreprise industrielle pour l analyse et la prise de décision

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Bandes Critiques et Masquage

1 Recherche en table par balayage

1. Situation actuelle... p. 1

P2: Perception auditive

Formation des enseignants. Le tensiomètre. Objet technique modélisable issu de l environnement des élèves

LABO PROJET : IMPLEMENTATION D UN MODEM ADSL SOUS MATLAB

Codage hiérarchique et multirésolution (JPEG 2000) Codage Vidéo. Représentation de la couleur. Codage canal et codes correcteurs d erreur

Améliorer les performances du site par l'utilisation de techniques de Web Mining

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Transcription:

Courrier du Savoir N 17, Décembre 2013, pp.87-91 MODELISATION NEURO-PREDICTIVE POUR LA CLASSIFICATION PHONETIQUE DE LA LANGUE ARABE M.DIDICHE 1 & A.DEBILOU 2 Laboratoire de l identification commande, contrôle et communication l I3C Université Med Khider Biskra ALGERIE m.didiche@hotmail.fr RÉSUMÉ La modélisation neuro-prédictive pour la classification phonétique de la langue arabe est une branche de la reconnaissance automatique de la parole qui suppose l application de deux processus fondamentaux : la para métrisation du signal de parole et le décodage phonétique. La para métrisation acoustique a pour but d extraire l information pertinente du signal acoustique afin de fournir une description aussi complète et représentative que possible. Sa mise en œuvre repose essentiellement sur des méthodes issues du traitement du signal. Le décodage phonétique consiste à classifier des formes acoustiques en vue de la reconnaissance. Différents décodeurs ont été utilisé (Modèles de Markov Cachés, Ondelettes, Réseaux de neurones etc.) ayant chacun leur propre algorithme d apprentissage. Dans la littérature, nous avons constaté que le processus de paramétrisation acoustique et le processus décodage (classification) utilisent des critères d optimisation différents, alors qu ils ont pour objectif commun la reconnaissance des unités phonétiques. Dans ce papier, Nous allons procéder à la mise en forme d un signal de parole que l on injectera dans un réseau de neurone MLP(Multi Layer Perceptron) et ensuite faire une comparaison entre les résultats obtenus par les MFCC()Mel Frequency Cepstral Coding et NPC(Neuronal Predictive Coding).Notre contribution sera sans doute l implication da le langue arabe dans ce processus. Mots Clés : extraction de caractéristique, reconnaissance de la parole, MFCC, NPC et MLF 1 INTRODUCTION Dans l objectif d améliorer les résultats en reconnaissance de la parole, plusieurs méthode peuvent être adopté. L une d elle est l extraction de caractéristiques, dont les vecteurs d observation sont déterminés à l aide de méthode temporelles comme le LPC (linear Predictive coding) ou MFCC (Mel Frequency Cepstral Coding). De nombreux travaux ont montré l importance de l étape d extraction de caractéristique [4,1,8] qui est un élément de mise au point d un système de reconnaissance. Mais comme la parole n est pas stationnaire, donc notre approche est une extension au domaine non linéaire du codage LPC par les réseaux de neurones multicouche. Les réseaux de neurones sont des outils puissants et commodes pour résoudre des problèmes complexes. L étape la plus importante lors de la construction d un système de reconnaissance connexionniste est l apprentissage, qui consiste a mettre a jours les valeurs des connexions de ce réseaux afin de réussir la tache qui lui est assigné. Sachant que cet apprentissage est basé sur l algorithme de la rétro propagation du gradient. Dans cette article, nous nous intéressons aux traitements de l information vocal et aux algorithmes pour l extraction des LPC, MFCC, FFT, et enfin MLP. 2 TRAITEMENT DE L INFORMATION VOCAL 2.1 PRETRAITEMENT Le but des prétraitements acoustiques pour la reconnaissance de la parole est de réduire la quantité d information du signal de parole et de faciliter la classification en mettant en évidence des invariants par rapport aux événements acoustiques. La procédure d isolation consiste à déterminer les limites du mot en réalisant une segmentation parole/non parole du signal vocal car il est assez coûteux en temps et inutile d analyser la totalité du signal. On utilisera les critères d énergie et de passage par zéro. L introduction d une pré-emphase sur le signal de parole avant son analyse tient au souci de rehausser les amplitudes fréquentielles faibles par rapport aux hautes amplitudes afin de tenir compte de l ensemble du signal. Le procédé le plus simple, c est d appliquer un filtre de préaccentuation donnée par fonction de transfert. 2.1.1 PREACCENTUATION : La préaccentuation est une opération de filtrage d un signal de parole s(n) avec un filtre dont la fonction de transfert H(Z) est donnée par : H(Z) = 1 - µz -1 Université Mohamed Khider Biskra, Algérie, 2013

M.DIDICHE & al La valeur la plus utilisée pour µ est 0,95. Excitation Si s(n) est le signal de la parole préaccentué alors : Sp(n)=s(n) 0,95 S(n-1) Sons voisés Périodique Cette opération permet d accentuer les hautes fréquences du signal. Signal de Parole Bruit blanc 2.1.2 FENETRAGE Le signal de la parole est de nature non stationnaire, il est donc nécessaire, avant d extraire les paramètres de la reconnaissance de la subdiviser en segments. Cette étape permet d obtenir pour chaque segment de parole un signal quasi stationnaire. Figure 1: Modèle autorégressif de production de la parole Comme le conduit vocale peut être assimilé à un filtre récursif, à pôle seulement défini par : Les discontinuités aux extrémités des segments peuvent être amoindries en multipliant chaque segment par une fenêtre de Hamming. La fenêtre de Hamming est donnée par l équation suivante : s2(n) = s1(n).(0,54+0,46.cos( Filtre AR Sons non voisé Et Ou : G est le gain, G/A(Z) est la fonction de transfert du filtre, les paramètres ai sont les coefficients de prédiction, Y(Z) est le signal de sortie du filtre et U(Z) représente le signal d excitation, qui est formé d impulsion périodique pour le son voisé. - л)) Où N est le nombre d échantillons du segment. 2.1.3 FFT : Cette étape transforme le signal de parole en domaine fréquentiel [1] avec la formule : L équation donne : Xn= k, Dans le domaine temporel, l équation devient : n=0,1.,n-1 où j = Ou y est le signal estimé à partir de la composition linéaire des p échantillons passés. Pour l estimation des paramètres ai, on doit minimiser l erreur quadratique suivante : Figure 2: FFT (bleu riche en harmonique) et Cepstre (vert) pour le phonème i: d une locutrice 2.2 CALCUL DES COEFFICIENTS Dans cette étape, nous survolerons les deux méthodes les plus utilisées d extraction des paramètres. La première est basée sur le principe de production de la parole et la deuxième sur le principe de perception de la parole. Pour résoudre ces équations, on peut utiliser la matrice d autocorrélation qui est une matrice de Toeplitz. Elle permet de résoudre l équation à l aide de l algorithme Levinson-Durbin comme suite : Initialisation : E(0)= r(0) 2.2.1 CODAGE LINEAIRE PREDICTIF LPC Le codage linéaire prédictif est une méthode d extraction basée sur le principe qu un échantillon du signal peut être estimé à l aide d une composition linéaire de p échantillons précédentes. Elle est fondée sur un modèle Autorégressif [1,8]. Bo Avec : 88,

Modélisation neuro-prédictive pour la classification phonétique de la langue arabe 3 Coefficients : 2.2.2 MFCC METHODE UTILISEE Le codage neuro-prédictif est une extension du codage LPC, donc une méthode de codage temporelle, le codeur NPC extrait les caractéristiques non linéaires d un phonème. Il est basé sur un MLP à une couche cachée suivi d une couche de sortie à 1 neurone appelé cellule de prédiction. L étape d apprentissage consiste à prédire un échantillon (extrait du signal acoustique d un phonème) à partir des n échantillons précédents. Tous ces coefficients sont injecté dans un réseau de neurone MLP [6,7] qui doit déterminer l erreur quadratique afin de réajuster les poids de la couche d entré jusqu'à pouvoir avoir une erreur désirée acceptable, cette algorithme est basé sur la rétro propagation du gradient. La methode MFCC est une méthode d'extraction des paramètres selon l'echelle MEL. En effet, la perception de la parole par le système auditif humain est fondée sur une echelle fréquentielle semblable a l'echelle MEL. Cette echelle est linèaire aux basses fréquences et logarithmique en hautes fréquences et elle est donnée selon l'equation suivante: B = 2595 et C = 700, f représente la fréquence Après une préaccentuation et une subdivision en différents segments avec fenêtrage du signal de parole, on applique la méthode MFCC qui consiste à calculer la transformée de Fourier de chaque segment. Puis à utiliser des filtres triangulaire, espacés suivant l'échelle Mel, pour filtrer cette transformée est obtenir les énergies à partir du module au carré de la transformée de Fourier. Finalement, on calcul la transformée discrète en cosinus (DCT) des logarithmes des énergies obtenues par les filtres triangulaires afin d'extraire les coefficients MFCC utilisés pour la reconnaissance. Ces coefficients sont donnés par l'équation suivante: Figure 4 : Codeur NPC La rétro propagation de l erreur: Wijl(k+1)=Wijl(k) - Wijl Ci= j) cos ( (j-0.5)) 4 RESULTAT ET DISCUTION Afin de tester les performances de notre système, nous allons l appliquer sur notre base de données. Pour cela, nous allons extraire une suite de vecteurs de coefficients (MFCC/NPC) de nos fichiers wav, et lancer le mécanisme (apprentissage/test). 4.1 Base de voyelle avec un MLP Commentaire Sur 1000 itérations avec 12 coefficient NPC, et 16 coefficient MFCC. Les résultats montrent une supériorité des MFCC que soit en taux d apprentissage (89%MFCC, 85%NPC) ou en taux de reconnaissance (66%MFCC, 58%NPC). Le codage MFCC étant une méthode fréquentielle arrive mieux à reconnaître les voyelles que le codage NPC.les coefficients MFCC montre une meilleure résistance au bruit que les coefficients NPC. Figure 3: étapes de calcul des coefficients MFCC 89

M.DIDICHE & al Figure 5: résultat avec MFCC et NPC 4.2 Base de mot avec un MLP MFCC : Taux de reconnaissance sur les consonnes Tableau 1: résultat par MFCC ب د ض ت ط ک ق ذ ظ ع س ص م ن ل ر 15% 46% 55% 33% 13% 85% 0% 98% 71% 97% 97% 67% NPC : Taux de reconnaissance sur les consonnes Tableau 2: résultat par NPC ب د ض ت ط ک ق ذ ظ ع س ص م ن ل ر 72% 62% 82% 62% 68% 94% 63% 98% 73% 63% 65% 69% Commentaire Une large avance en taux de reconnaissance NPC pour les plosives, ce qui veut dire qu on arrive à mieux prendre en compte les phonèmes rapides dans le temps, contrairement au codage MFCC qui arrive plutôt à prendre en compte les consonnes de longue durée comme les nasales. 5 CONCLUSION J ai présenté la mise en œuvre de deux méthodes de codage destinées à la reconnaissance de parole et qui sont les paramètres qui se sont imposés lors de l extraction des caractéristiques dans l analyse de la parole. A savoir le NPC tiré de la phase de production et le MFCC tiré de la perception. Cette étude nous a montré l importance du contexte en reconnaissance de la parole, donc là où des classifieurs ne prennent pas en compte le temps tel que le MLP et qui ont montré des faiblesses en taux de reconnaissance. REFERENCE [1] Maïtine Bergounioux «Mathématiques pour le traitement du signal :cours et exrcices corrigés» Dunod, paris 2010 p :270-279 [2] Z.Hamaiza et M.Bedda «Analyse et synthése de la parole Arabe» université annaba et biskra, 2011 [3] Abdelkader Benyattou et Hiba Khelil «Application du réseau de neurone gamma à la reconnaissance de la parole» USTO oran SETIT 2007 [4] O.Deroo «Modèles Dependant du context et Méthodes de Fusion de données Appliquées à la reconnaissance de la parole par Modèles Hybrides HMM/MPL, Faculté Polytechnique de Mons, 1998 90

Modélisation neuro-prédictive pour la classification phonétique de la langue arabe [5] Rimah Amani, Dorra Ben Ayed et Noureddine Ellouz «Application de la méthode Adaboost à la reconnaissace Automatique de la parole» département de genie electrique, ENIT tunis Tunisie 2011 [6] Patrice Wira «Réseaux de Neurones artificiels : architectures et applications», université de haute Alsace, laboratoire MIPS avril 2009, p : 32, 49-56, [7] Claude Touzet Introduction au connexionnisme: cours, exercices et travaux pratiques juillet 1992, p: 65-67,112 [8] M.Bellanger «Traitement Numérique du signal : Théorie et pratique» edition Masson 1987, p : 363 [9] D.E.Kouloughli «Grammaire de l arabe d aujourd hui 2001» [10] Tahar Saidane, Mounir Zrigui et Mohamed Ben Ahmed «La transcription orthographique phonétique de la langue arabe 1999» [11] AMROUCHE A., DEBIECHE M., TALEB-AHMED A., (2010). An efficient speech recognition system in adverse conditions using the nonparametric regression. Engineering application of artificiel intelligence, 23(1), pp 85-94. [12] AMROUCHE A., TALEB-AHMED A., ROUVAEN. J-M., YAGOUB M. (2009) improvement of the speech recognition in noisy environments using a nonparametric regression. International journal of parallel, emergent and distributed system, vol 34, issue 1, pp.49-67 91