Implémentation d un système de reconnaissance automatique de la parole visuelle par les SVMs

1 Implémentation d un système de reconnaissance automatique de la parole visuelle par les SVMs Nadia BAKIR 1, Mohammed DEBYECHE 2 et Abderrahmene AMROUCHE 2 Résumé Dans cet article, nous avons élaboré un système de Reconnaissance Automatique de la Parole Visuelle (RAPV) par les Supports à Vecteurs Machines (SVM) comme méthodes de reconnaissance. Nous avons utilisé plusieurs méthodes de paramétrisation du signal parole visuel, pour trouver la meilleure méthode qui s adapte mieux à la base de données utilisée ainsi que le système de reconnaissance. La première méthode est l approche par estimation du gradient qui nécessite plusieurs prétraitements, la deuxième méthode est basée sur les contours actifs par approche des ensembles de niveaux, elle permet une estimation moyenne des contours extérieurs des lèvres, mes ne permet pas d avoir une bonne détection sur tout la base de données, car ces paramètres change d une image à une autre. Nous avons opté pour la DCT comme solution à nos problèmes, elle a permet d avoir un très bon taux de reconnaissance. Mots clés RAP visuelle, SVM, contours actifs, DCT. L I. INTRODUCTION a parole est un moyen de communication. Le message parlé est plus intelligible quand il est accompagné de la vision des lèvres du locuteur, surtout quand le milieu de transmission est dégradé [1]. Dans le cadre de la communication homme-machine, le signal visuel des lèvres parlantes peut s appréhender à la fois comme modalités d entrée et de sortie. La machine peut lire sur les lèvres en intégrant des paramètres labiaux dans les systèmes de RAP visuelle et réduire considérablement sa sensibilité au bruit ambiant. L enjeu est d isoler et de caractériser les gestes de parole produits par les lèvres. Pour pouvoir utiliser la parole visuelle dans les applications réelles [3], il semble nécessaire d étudier l extraction des paramètres labiaux sur des images en niveau de gris acquises sans préparation du locuteur dans un environnement réaliste soumis à des variations d éclairement. Dans ce travail nous nous intéressons à la RAP visuelle, et cela par l utilisation de différentes méthodes de caractérisation du signal visuel de parole, ainsi que l utilisation d un moteur de reconnaissance les machines à vecteurs de support désignées par SVM (Support Vector Machines) qui permet d avoir des résultats satisfaisants et d amélioré celles qui font l objet de ce travail. II. SYSTEME DE RAP VISUELLE Comme le montre le schéma synoptique de la figure 1, un système de RAP visuelle nécessite une base de données qui contient l information du signal parole. Dans le cadre de cette étude il s agit d une base de données audiovisuelle. Ce système comprend trois phases : phase de lecture du signal visuel, phase de prétraitements et traitements du signal visuel et la phase de reconnaissance. Une fois le signal parole est caractérisé, on passe à l étape de la reconnaissance par SVM qui attribue chaque information à une classe selon un processus d apprentissage qui va classifier chaque mot ou chaque chiffre à sa place selon l application utilisée. Fig. 1. Schéma global d un système RAP visuelle. III. PARAMETRISATION DU SIGNAL PAROLE VISUEL A. Définition du signal parole visuel Les caractéristiques visuelles d un signal parole reposent sur la lecture labiale qui permet de comprendre le message parlé en mettant en relation les mouvements des lèvres. Un signal audiovisuel est représenté dans un signal vidéo numérique qui contient les deux informations acoustique et visuelle, la paramétrisation du signal visuelle revient à extraire l information visuelle de la vidéo. B. Méthodes d analyse du signal visuel La RAP visuelle a pour objet la transformation automatique d un signal vidéo en image puis évaluer les différents changements issus des mouvements des lèvres pour les traduire, idéalement, au mot prononcé par un locuteur. Le traitement visuel de la parole regroupe l acquisition du signal visuel, son débruitage et l extraction des coefficients caractéristiques de ce signal. Donc, le signal parole est représenté par une suite de vecteurs qui constituent l information relative au mouvement des lèvres de chaque image dans une séquence vidéo. Nous allons aborder différentes approches : une approche pour la détection de contour classique [] et une autre pour la détection de contour actif : ensemble de niveaux (level set ) [] et la DCT.

2 1) Approche classique a) Prétraitements Les prétraitements sont faits par des étapes successives obtenus pour la détection des contours des lèvres. L organigramme utilisé concernant l approche classique est Fig. 2. Image filtrée avec sigma= comme elles sont présentées comme suite : Filtrage gaussien : On applique un filtrage gaussien Fig. 3. Application du masque vertical à l image filtrée et son Histogramme. d un écart type sigma=. 1 Application du masque 0 à l image filtrée. 1 Seuillage : Comme on peut le voir sur l histogramme de l image prétraitée (seuil=0). Sur la figure a, on voit bien l effet de bord créé par le filtrage gaussien, ce qui va générer par la suite des contours artificiels, et ça engendrera une information redondante sur le processus de reconnaissance. Pour remédier à cela, un a. Filtrage par Effets de bord Fig. 7. Organigramme de l algorithme de la paramétrisation du signal visuel par la méthode classique. illustrée par la figure 7 : 2) Approche par détection de contour actif (level set) Le principe général de l algorithme des contours actifs utilisés est d initialiser une courbe dite zero level set, et puis faire subir une évolution (déformation de la courbe) jusqu'à atteindre le contour extérieur des lèvres, et cela grâce à la minimisation d une fonctionnelle d énergie. b. Redimensionnement de l image traitée c. Image seuillée. Fig. Seuillage après filtrage et redimensionnement redimensionnement de l image pour éliminer ce problème. a) Détection de contour On a utilisé 6 filtres représentés sur la figure 6. Comme on peut le voir, les frontières des lèvres inférieures ne sont pas détectées, ce qui ne caractérise pas l information relative à la séquence vidéo du mot prononcé. Malgré les prétraitements utilisés, on n a pas pu avoir une bonne détection des contours des lèvres. Comme on l a Prewitt canny zerocross Sobel Roberts log Fig.6 Détection des contours des lèvres par plusieurs filtres. appliqué. La figure ci-dessus représente les meilleurs résultats Fig. 8. Organigramme de l algorithme de paramétrisation du signal visuel par les contours actifs. L implémentation de l algorithme de parametrisation du signal visuel par les contours actifs est donnée par la figure 8 : 3) Caractérisation par la DCT Comme cette méthode est déjà faite dans les travaux précédents [3], on applique la DCT sur les images des lèvres. La dimension de l image est de 80x60, où sont conservés seulement 00 coefficients de basses fréquences. Ainsi les tailles des vecteurs caractéristiques sont comme suites : - Base d apprentissage [63, 00,]. - Base de test [63, 00, 0] IV. MÉTHODE DE RECONNAISSANCE SVM A. Principe de fonctionnement 1) Notions de base : hyperplan, marge et support vecteur Pour deux classes d exemples donnés, le but du SVM est de trouver un classificateur qui va séparer les données et

3 des séries de dix mots des chiffres arabes tirés aléatoirement, sans répétition, appelés en élocution continue [3]. Fig. 9. Hyperplan séparateur optimal. maximiser la distance entre deux classes [6]. Dans la figure si dessus, on détermine un hyper plan qui sépare les deux ensembles de points.les points les plus proches, qui seuls sont utilisés pour la détermination de l hyperplan, sont appelés vecteurs de support. On appelle la distance marge entre l hyperplan et les exemples. L hyperplan séparateur optimal est celui qui maximise la marge. Comme on cherche à maximiser cette marge, on parlera de séparateur à vaste marge. 2) Extensions des SVMs aux problèmes multi-classes Les SVMs sont des classifieurs binaires permettant de séparer deux classes de données uniquement. Leurs extensions aux problèmes multi-classes peuvent être établies selon différentes approches procédant toutes par la combinaison de plusieurs SVMs. [ref2] telles que : - L approche un contre tous (OAA : One-Against-All) : dans laquelle chaque SVM est entrainé par séparer une classe de Fig. 12. Schéma synoptique du banc d acquisition [2] La figure suivante présente le schéma synoptique du banc d acquisition : Normalisation Une normalisation de la base de données s impose pour simplifier la tâche à l algorithme de traitement et de reconnaissance. La matrice finale est de 4 dimensions (hauteur, largeur, nombre d images maximal, nombre de clips). L apprentissage des modèles visuels se fait par estimation de leurs paramètres sur un corpus dit Apprentissage qui doit être disjoint du corpus dit Test. Nous avons utilisé 60% de la base globale pour l apprentissage et % pour le test. B. Schéma synoptique du système de RAP visuelle Fig.. Schéma synoptique pour l approche un contre tous (OAA). toutes les autres classes). - L approche un contre un (OAO: One-Against-One) : C est une méthode dite de un contre un, au lieu d apprendre N Fig. 11. Schéma synoptique pour l approche un contre un OAO. fonction de décision, chaque classe est discriminé d une autre. V. EXPERIENCES ET RESULTATS A. Base de données La base de données utilisée est une base audiovisuelle comportant des chiffres arabes isolés prélevés à une fréquence d échantillonnage de 16 KHz et 2 images/s. Elle est constituée de 2 répétitions des mots isolés (siffer, wahed, ithnani, thalatha, arbaa, khamssa, sitta, sabaa, thamania, tissaa) prononcés par une seule locutrice arabisante. Donc c est une base monolocuteur, elle a été apprise sur le mot à reconnaître pour le même style de corpus de parole. A savoir Fig. 13. Schéma synoptique du système de RAP visuelle par SVM mis en œuvre. Le schéma général du système implémenté est donné par la figure 13. Comme le montre la figure 13 la base de données globale est divisée en deux: Base Test BT et Base Apprentissage BA. Et après sa normalisation, leurs tailles sont : - la matrice de la base Apprentissage est de [60,80,63,]. - la matrice de la base Test est de dimension [60,80,63,0]. a : Image originale b : Histogramme du l'image originale c : Image modifié. d : Modification de l'histogramme. Fig. 14 : Modification d une image par son histogramme Avant tout, on va chercher les caractéristiques des images

1 2 3 1 2 3 0 60 70 0 60 70 80 1 2 3 0 60 70 2 emes JOURNEES DU LABORATOIRE DE COMMUNIPARLEE ET DE TRAITEMENT DES SIGNAUX 4 de la base de données. La figure 14 montre l amélioration de l information visuelle par la modification de l histogramme. Après les modifications sur l histogramme, on obtient l image modifiée représenté dans la figure 14.c, on constate que les lèvres supérieures sont confondues avec la partie inférieure des lèvres inférieures, qui sont confondues avec le reste de l image. Cela est dû à l acquisition de la base de données. C. Résultats par la détection des contours actifs Avant toute chose, on applique un filtre gaussien de l écarttype 1 sur l image, et on redimensionne l image pour éliminer l effet de bord. Comme le montre les figures 14.a et 14.b, on initialise la fonction Level Set LS (rectangle en rouge). On applique l évolution avec les paramètres suivants : ε =1., μ = 0.04, λ =, ν =1, nombre d itérations =00. Sur la figure 14.a : la fonction level set finale est représentée en rouge sur l image originale. On peut dire a. Initialisation de la fonction LS b. Initialisation de la fonction LS (lèvres fermées). (lèvres ouvertes). c. Contour final après 00 itérations. d. Contour final après 00 itérations. Fig. 14 : Résultats du contour sans application du masque vertical. quand à une détection moyenne des contours extérieurs des lèvres. On refait le même travail sur des lèvres ouvertes avec les mêmes paramètres. Le résultat final est moins bon comme le montre la figure 14.d, par rapport au résultat obtenu sur les lèvres fermées de la figure 14.c. On filtre maintenant l image avec le masque vertical après a. Initialisation de la fonction LS b. Initialisation de la fonction LS (lèvres fermées). (lèvres ouvertes). de la figure 14 mais il est moins précis par rapport au contour de la figure 6. Discussion La caractérisation du signal visuel de la parole avec les deux méthodes proposées ont données de résultats un peu satisfaisants et cela à cause des conditions réels d acquisition du signal visuel. On a vu que pour la détection de contours avec l approche classique nécessite plusieurs prétraitements pour détecter les contours intérieurs et extérieurs des lèvres. La deuxième méthode nous a révélé que ces paramètres changent d une image à une autre, d une image où les lèvres sont fermées à une image où les lèvres sont ouvertes. On se retrouve à poser le problème suivant : est-ce-qu on peut faire une meilleure paramétrisation sur toute la base de données sans faire des changements des paramètres avec moins de prétraitements. La méthode qui répond à tous ces contraintes est la DCT [3]. D. Résultats de la classification On va présenter les résultats de la classification par les SVMs sur les résultats de la caractérisation par la DCT. Les matrices d entrés des SVMs doivent être représenté en 2-D, or que les taille des matrice sont en 3-D. Les matrices contenant les caractéristiques visuelles des deux bases respectivement Apprentissage et de Test sont réorganisées comme suit : Base Apprentissage: [, 63*00]. Base Test: [0, 63*00]. Ou chaque ligne de la matrice (apprentissage ou test) représente les 00 coefficients des 63 images d un clip, c.-à-d., une ligne représente la caractérisation d une répétition d un chiffre. Les résultats de la classification sont représentés par le paramètre Taux Moyen de Bon Reconnaissance TMBR : TMBR = N i C ii nombre de répétitions c. Contour final après 00 itérations. d. Contour final après 00 itérations. Fig. 1 : Résultats du contour avec application du masque vertical. le redimensionnement, et on applique l algorithme comme il est présenté sur la figure 1. Comme on peut le voir sur les figures 1.a et.b, l initialisation de la fonction level set sur l image filtré par le masque vertical. Les figures 1.c et 1.d nous montrent les contours finals sur les images originales respectivement lèvres fermés et ouverts. On peut dire que le contour est fermé par rapport au contour Fig. 16. Influence du noyaux sur le TMBR pour chaque chiffre. Avec: N: nombre de classes (chiffres) =. Nombre de répétitions = 1 (Apprentissage) et (Test). Classification par noyaux La figure16 présente l influence des différents noyaux sur le TMBR pour chaque chiffre, ou le système à fait une erreur de % pour le chiffre 7 pour les noyaux Linéaires et RBF, et pour remédier à cette erreur, on applique le noyau linéaire à la classe d erreur et le noyau RBF sur les autres classes. On obtient résultat meilleur TMBR = 0%. On peut représenter l influence du type de noyaux sur le TMBR global par la figure ci-dessous.

[6] Y. Ben Ayad, Détection de mots clés dans un flux de parole, Thèse PHD, Ecole Nationale Supérieure des Télécommunications ENST, France, 03. Fig. 17. Comparaison des differents noyaux du SVM sur le TMBRG. VI. CONCLUSION Notre travail présenté dans ce document a porté sur la RAP Visuelle. Nous avons ainsi abordé les principaux problèmes de la RAPV, à savoir la paramétrisation des informations de parole et la nature du système de Reconnaissance. Nous avons choisi pour résoudre ces problèmes en appuyant sur des travaux réalisés dans le domaine de la perception visuelle de la parole. Nous nous sommes intéressés, en premier temps, à l extraction des paramètres visuels. Elles sont calculées sur des images fixes basées sur la forme et les mouvements des lèvres, et paramétrées par trois méthodes : La premier est la détection de contour par estimation de gradient (Approche classique), la deuxième méthode est la détection des contours actifs par la formulation Level Set et la dernier méthode c est la DCT. Nous avons ensuite mis en œuvre le système de RAP visuelle fondé sur le module de reconnaissance SVMs. Aux cours de l évaluation de notre système, on a constaté que la méthode de paramétrisation classique ne donne pas de bonne résultats, car cette méthode permet de détecter tous les contours présents dans l image, ainsi il nous a fallu employer plusieurs prétraitements, mes la nature de la base de données utilisée (milieu réel) a engendré plusieurs problèmes liés à la détection des contours des lèvres. Par contre la méthode Level Set permet de détecter les contours extérieurs des lèvres, mais ces paramètres changent d une image à une autre. Pour remédier à ces problèmes, on a utilisé la DCT qui nous a donné un TMBR (Taux Moyen de Bonne Reconnaissance) égale à 0%. La DCT reste toujours la meilleure approche pour la caractérisation des images par rapport aux autres méthodes. REFERENCES [1] A. Rogonza, Etude de la fusion des données hétérogènes pour la reconnaissance automatique de la parole audiovisuelle, Thèse PHD, Ecole doctorale en électronique de l université d Orsay, Paris, 1999. [2] N. Bakir,. Debyeche, Y. Chibani, Reconnaissance automatique des chiffres arabes en milieu réel par fusion audiovisuelle, ème Congrès Français d'acoustique, Lyon, France, Avril. [3] N. Bakir, Reconnaissance automatique de la parole par fusion audiovisuelle dans un milieu réel, Thèse Magister en Électronique, Université des Sciences et de la Technologie Houari Boumediene USTHB, Alger, 08. [4] A. Bovik, Handbouk of Image and Vide Processing, Academic Press, p891 (00). [] H. Mehrotra, G. Agrawal and M.C. Srivastava, Automatic Lip Contour Tracking and Visual Character Recognition for Computerized Lip Reading, International Journal of Computer Science 4:1 09.