De la caractérisation à l identification des langues



Documents pareils
Master Actuariat-Finance Master Actuariat-Prévoyance Sociale. Prof ABDELKADER SALMI 2012

Manuel d'utilisation de Wapam

Lexmark Print Management

Sécurité Lexmark pour les imprimantes et MFP compatibles avec les solutions

UNICEF/ /Toutounji

Une introduction à l analyse discriminante avec SPSS pour Windows

Rejoignez le. No 1 mondial. de la franchise *! Créez votre entreprise en Franchise avec SUBWAY.

TSP 6500/7000 SÉRIE. Spécifications Chariots tridirectionnels à nacelle élevable

La conception et les spécifications peuvent être modifiées sans préavis.

La gestion de la relation client au sein de la PME. Contenu de la présentation. Le CRM outil pour les PME? SOGID SA

Vétérinaires : quelles perspectives d activité en 2010?

NOTRE MISSION NOTRE APPROCHE NOTRE ÉQUIPE NOTRE MARCHÉ. Confiance. Professionnalisme. Confidentialité

Le recours à l Aide complémentaire santé : les enseignements d une expérimentation sociale à Lille

La transformation du centre informatique. Les enjeux économiques, écologiques et métiers des centres informatiques

l EXCLUSION, INCLUSION m

PRIMOPIERRE. Société Civile de Placement Immobilier

Comment s installer aux Canaries

Automobile et aéronautique

Système PBX IP hybride

Face au deuil, Vous n êtes pas seul(e) Ce guide vous est proposé par la Caf de Meurthe-et-Moselle et les Associations Deuil Espoir et Favec.

MUTUELLES DE SANTÉ ET ASSOCIATIONS DE MICRO-ENTREPRENEURS GUIDE

Jacques Lévy, professeur à l'universités de Reims et à l'institut d'études politiques de Paris, fellow au Wissenschaftskolleg zu Berlin

LE Chapitre I : Rappels généraux. Chapitre 13 Les câbles

Une grille pour évaluer la qualité de vos données et choisir votre outil de D Q M

Mesure de facteur de bruit sur analyseur de réseaux vectoriel corrigée en Paramètres-S. Frédéric Molina

Bouclier sanitaire : choisir entre égalité et équité?

LE MANUEL DE L INITIATIVE DE LAVAGE DES MAINS

Dossier d actualité ARCHITECTURE DE L INFORMATION, ARCHITECTURE DES CONNAISSANCES VEILLE ET ANALYSES. Sommaire. n 74 Avril /16

Conception et réalisation d une sectorisation

DE COMMERCE ET DE GESTION

Guide d utilisation 5117

Étude de la performance des modèles acoustiques pour des voix de personnes âgées en vue de l adaptation des systèmes de RAP

Structures dynamiques Listes chaînées


1. INTRODUCTION On voit apparaître depuis quelques années des codes de calcul de tenue à la mer des navires par la méthode des singularités utilisant

MÉCANIQUE DES STRUCTURES

Parlons d avenir. Ingénieur Télécom ParisTech. Innover et entreprendre dans un monde numérique

Développement du leadership :

Dossier d actualité PISA : CE QUE L ON EN SAIT ET CE QUE VEILLE ET ANALYSES. Sommaire. n 66 Oct Une évaluation qui polarise l attention 1/18

Guide d utilisation 4738

Apprentissage Automatique

2 juillet h00 Mairie de Saint-Priest

Université libre FACULTÉ DES SCIENCES DE LA MOTRICITÉ. Kinésithérapie et réadaptation. Education physique. Ostéopathie.

UNIVERSITÉ LIBRE DE BRUXELLES FACULTÉ DE PHARMACIE SCIENCES PHARMACEUTIQUES COSMÉTOLOGIE ET DERMOPHARMACIE PHARMACIE OFFICINALE PHARMACIE D INDUSTRIE

CI/SfB (29) Et6. Janvier Dispositifs d Attente pour Béton Armé Pour l Industrie de la Construction

Projet de Master en Informatique: Web WriteIt!

Un guide du bailleur : pourquoi?...3

de suivi et d évaluation de la participation des enfants

Payer peut nuire à votre santé : une étude de l impact du renoncement financier aux soins sur l état de santé

E.2.14 ACTIVITES ECONOMIQUES

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

SOMMAIRE. Vous souhaitez embaucher dans votre entreprise un ou plusieurs apprenti(e)s. INFOS APPRENTISSAGE

MÉCÉNAT PARTICIPATIF : tous à l œuvre! Cérémonie de décoration de donateurs de la culture

Modélisation 3D par le modèle de turbulence k-ε standard de la position de la tête sur la force de résistance rencontrée par les nageurs.

C Eco CHAUDIÈRES GAZ AU SOL À CONDENSATION

Les écarts des coûts hospitaliers sont-ils justifiables? Réflexions sur une convergence tarifaire entre les secteurs public et privé en France

BIG Data et R: opportunités et perspectives

Transferts thermiques en écoulements oscillants laminaires incompressibles

ATLAS FORESTIER INTERACTIF DU GABON VERSION PILOTE Document de Synthèse

WIRELESS SYSTEM QLX-D USER GUIDE. Le Guide de l Utilisateur Shure Incorporated 27A22351 (Rev. 1)

Modélisation du comportement habituel de la personne en smarthome

Le Lieutenant-colonel Mamoudou Seydou prend le commandement

AGROBASE : un système de gestion de données expérimentales

ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE

Reconnaissance automatique de la parole à l aide de colonies de fourmis

ECO ECO. Probablement le chauffe-eau solaire le plus évolué du monde. Eco 200 / Eco 250 / Eco 300 / Eco 450 ENERGIE CATALOGUE 13

Les solutions pour une gestion de l éclairage simple et intelligente

Octobre 2011 ALIMENTAIRE. DOSSIER SANTé SécURITé N 4. Proximité : le retour. Rachat de contrat assurance-vie = danger

Le Conseil général, acteur de l insertion

ÉVALUATION DES RÉTROACTIONS DONNÉES PAR UN LOGICIEL D AIDE À L APPRENTISSAGE DE L ÉCRITURE MANUSCRITE

MCMC et approximations en champ moyen pour les modèles de Markov

Informations techniques. Ultrason Mesure du niveau dans des liquides et des solides en vrac/pulvérulents VEGASON 61, 62, 63

Cette Leçon va remplir ces attentes spécifiques du curriculum :

Contributions à la reconnaissance robuste de la parole

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

UE11 Phonétique appliquée

Face Recognition Performance: Man vs. Machine

Quel est l apport de la détection d entités nommées pour l extraction d information en domaine restreint?

Modélisation géostatistique des débits le long des cours d eau.

Application Form/ Formulaire de demande

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

Des solutions technologiques pour des systèmes hautes performances

Serrurier Métallier. Thionville l Hayange l l s. Moyeuvre /Grande. Montigny les Metz l l l s. Morhange l s s. Verny. l l s Jarville l.

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

recommandation Domaine : Informatique, Intelligence Artificielle, Modélisation de préférences

SYMBIOSES. Comment changer les comportements? Jeter des idées sur le papier p.6. n o 70 mars, avril, mai 2006

de l'économie à l'aménagement du territoire Rapport d'activités Société Financière Lorient Développement Capital investissement

La Recherche du Point Optimum de Fonctionnement d un Générateur Photovoltaïque en Utilisant les Réseaux NEURO-FLOUS

Object Oriented Parallel Discrete Event Simulation: The PROSIT Approach

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Forthcoming Database

Classification Automatique de messages : une approche hybride

Détection et suivi d'objets dans une séquence d'images par contours actifs

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Transcription:

De a caractérisation à identification des angues Séection de conférences données ors de a 1 ère journée d étude sur identification automatique des angues, Lyon, 19 janvier 1999 avec e soutien de Association Francophone de a Communication Parée du Groupe Paroe du GDR-PRC I3 Edité par F. Peegrino Institut des Sciences de Homme de Lyon

Identification automatique de a angue par tééphone D. Matrouf 1,2, M. Adda-Decker 1, J.-L. Gauvain 1, L.Lame 1 1 LIMSI-CNRS, BP 133, 91403 Orsay Cedex, FRANCE 2 LIA, Université d Avignon, France {madda, ame, gauvain}@imsi.fr Driss.Matrouf@ia.univ-avignon.fr Résumé Dans cette contribution nous présentons nos travaux récents en identification automatique de a angue à travers e tééphone. Différentes approches sont présentées et discutées. Une approche acoustico-phonétique et exicae a été mise en œuvre et testée pour 4 angues (corpus IDEAL). L introduction des N mots es pus fréquents dans chaque angue a permis de réduire e taux d erreur d environ 20% en reatif. Ceci montre importance de information exicae pour un système d identification automatique de a angue. Pour une tâche de 11 angues (corpus OGI) une approche phonotactique a été impémentée et testée avec différentes configurations de prétraitement acoustico-phonétique. En particuier ces expériences montrent intérêt de modèes acoustiques mutiingues. Abstract In this contribution we describe our recent progress in automatic anguage identification (LID) on teephone speech. Different approaches are presented and discussed. An acousticphonetic approach incorporating exica information has been impemented and tested on a four anguage task (IDEAL). Adding the N most frequent words of each anguage into the LID system yieds a reative error reduction of about 20% reative. This resut underines the importance of exica information for automatic LID. A phonotactic approach has been deveoped and evauated on an 11 anguage task using the OGI corpus. Within the framework of the phonotactic approach different acoustic-phonetic preprocessing configurations have been experimented with. In particuar a comparison of mutiingua and anguage-dependent acoustic phone modes is carried out. The mutiingua modes are shown to improve LID resuts. 1. Introduction Afin d identifier une angue de manière automatique à partir d un signa de paroe, différentes possibiités de modéisation ont été exporées par es chercheurs. On admet généraement que information utie à identification de a angue se trouve répartie aux différents niveaux de représentation de a angue : acoustique, phonétique, phonotactique, prosodique, exica... Les systèmes d identification automatique se imitent e pus souvent à une modéisation qui reste proche du signa. Une comparaison des principaes méthodes a été présentée par Zissman [Zissman 96]. Une revue pus arge peut être trouvée dans [Peegrino 98]. Dans cette contribution nous comparons deux famies d approches pour identification de a angue : une approche acoustico-phonétique qui est fondée sur des modèes acoustiques de 65

phones dépendants de a angue et une approche phonotactique qui fait simpement appe à des modèes phonotactiques dépendants de a angue. Avec approche acoustico-phonétique nous introduisons pour chaque angue connue du système, en pus de ensembe de phonèmes dépendants de a angue, un ensembe des N mots es pus fréquents, et évauons apport de cette information suppémentaire. Cette approche fait donc appe à de nombreuses connaissances, ce qui permet d espérer de bonnes performances en identification automatique. En contrepartie extension à de nouvees angues est pour e moins coûteux, voire impossibe par manque de ressources spécifiques pour ces nouvees angues. Le deuxième type d approche présente avantage de permettre une extension facie à une nouvee angue. I suffit d un simpe corpus de paroe à partir duque on estime des modèes phonotactiques dépendants de a angue via un modue de prétraitement acoustico-phonétique (un système de décodage acoustico-phonétique queconque). Nous étudions e ien entre es résutats d identification et ce système de décodage acoustico-phonétique. 2.1. Méthode 2. Approche acoustico-phonétique et exicae Les modèes spécifiques à a angue mis en jeu sont de nature acoustico-phonétique, f ( x φ, ) (modèe de Markov caché correspondant à une séquence de phonèmes φ pour a angue ) et de nature phonotactique, Pr( φ ) (modèe bigramme sur es séquences de symboes de phonèmes de a angue ). Ainsi, si on dispose de modèes acoustico-phonétiques et phonotactiques pour chacune des angues considérées, on obtient a soution optimae suivante : arg max φ f ( x φ, ) Pr( φ ) En utiisant approximation de Viterbi e probème peut être considérabement simpifié grâce à usage de a programmation dynamique : arg max max f x φ, Pr φ φ ( ( ) ( )) L approche est schématisée pour 3 angues dans a figure 1. Figure 1 Système d identification utiisant pour chaque angue (parmi L = 3 dans e schéma) des modèes acoustiques de phones et un bigramme de phones qui peut être augmenté des N mots es pus fréquents. 66

2.2. Corpus Le corpus utiisé correspond au corpus IDEAL [Lame 98]. D autres travaux de recherche en identification de a angue utiisant ce corpus ont été pubiés dans [Matrouf 98, Corredor- Ardoy 97]. IDEAL est un arge corpus tééphonique comprenant 4 angues (français, angais, aemand et espagno). IDEAL a été conçu pour a recherche en identification automatique de a angue. Le contenu de IDEAL est simiaire au corpus OGI [Muthusamy 92], mais es ocuteurs sont des autochtones, qui appeent de eur pays. angue #appes #hommes #femmes #heures Aemand 257 109 148 15,8 Angais 258 109 149 14,8 Espagno 253 114 139 17,9 Français 259 129 130 13,1 Tabeau 1 Résumé des données d apprentissage IDEAL utiisées pour es expériences avec approche acoustico-phonétique et exicae. Le corpus comprend de a paroe ue et de a paroe spontanée. On peut distinguer 3 types de données pas ocuteur : des informations généraes concernant appe non utiisées dans ces travaux. de a paroe ue et préparée avec des phrases et des suites de chiffres et de nombres à ire, ou des réponses à des questions simpes concernant a date et heure par exempe. de a paroe spontanée, en réponse à des questions diverses ( décrivez endroit où vous habitez, décrivez votre maison de rêve... ). La paroe spontanée représente environ 15% du corpus. Le corpus comprenant pus de 300 appes par angue, environ 250 appes sont réservés pour apprentissage des modèes et queques 50 appes différents pour e test. 2.3. Résutats expérimentaux Des modèes acoustico-phonétiques (HMM de phones contexte-indépendants) sont appris pour chaque angue à partir de a totaité des 250 appes en apprentissage. Pour différentes vaeurs de N (mots es pus fréquents) des modèes de angage (bigrammes de phones et de N mots) sont estimés. N varie de 0 (approche acoustico-phonétique pure) à N=500. Suivant e type d énoncé (texte de journa, spontané, chiffres...) es N mots vont permettre une couverture pus ou moins importante du test. Afin de mesurer infuence du type de paroe (ue et préparée ou spontanée) sur es résutats d identification, nous avons conçu différents ensembes de test à partir du corpus de test. Pour a paroe ue et préparée un premier jeu de test u & préparé contient tous es énoncés de cette partie du corpus : des phrases de textes de journaux, des transcriptions ues de demande d informations, des adresses, des dates... Un 67

deuxième jeu de test nombres se imite aors aux énoncés faisant intervenir majoritairement des nombres : dates, heures, cartes de crédit, numéros de tééphone, somme d argent... Pour a paroe spontané un seu jeu de test spontané a été utiisé incuant a totaité de cette partie du corpus. Des modèes phonotactiques spécifiques sont estimés pour chaque type de test spontané, u & préparé, nombres à partir des 200 appes d apprentissage. Les résutats sont montrés par es courbes spontané, u & préparé, nombres dans a figure 2 en fonction du nombre N des mots es pus fréquents rajoutés pour e modèe de angage. Figure.2 Taux d erreur d identification sur des segments de 5 sec. en fonction de N (N = 0; ; 500), N étant e nombre de mots utiisés dans e modèe phonotactique. Les courbes notées spontané, u & préparé, et nombres (phrases ues incuant majoritairement des nombres) permettent de mesurer impact du stye de paroe et du contenu du test sur e taux d erreur. Les courbes marquées /paroe correspondent à des segments de paroe (excuant e sience en début et fin). Pour es 3 jeux de test seus es segments de 5 secondes sont utiisés. La durée utie de paroe est donc au pus 5 secondes par énoncé, a durée compémentaire correspondant à du sience ou du bruit. Nous avons décidé de mesurer infuence de ces siences sur es résutats d identification en comparant es résutats obtenus à ceux où seue a paroe utie est utiisée. Cee-ci a donc été ocaisée auparavant par aignement de a transcription avec e signa. Ces résutats suppémentaires sont signaés en rajoutant /paroe à chaque type de test. Les résutats obtenus permettent de constater pusieurs choses : L approche acoustico-phonétique permet d obtenir de bons résutats pour des segments très courts (5 sec.). 68

La modéisation des N mots es pus fréquents a permis d améiorer es taux d identification de manière significative avec un gain reatif supérieur à 25% dans toutes es configurations de test. Les résutats varient de manière significative suivant e contenu du test. Des résutats proches de 100% sont obtenus pour e jeu de test nombres aors que pour a paroe spontanée e taux d erreur reste supérieur à 10% dans a meieure configuration. Les résutats montrent qu à instar des systèmes de reconnaissance, es systèmes d identification de a angue ont beaucoup pus de difficutés avec a paroe spontanée qu avec a paroe ue. Les segments de sience perturbent es résutats d identification, particuièrement pour a paroe spontanée et es nombres. Afin de remédier à a sensibiité observée en présence de sience ou bruit e système d identification doit faire appe à un modue de détection de a paroe. 3.1. Méthode 3. Approche phonotactique Dans e cas où i n existe pas de données d apprentissage transcrites pour une ou pusieurs angues, approche acoustico-phonétique devient impossibe. On fait aors appe à approche phonotactique. Figure 3 Schéma d un système d identification fondé sur approche phonotactique avec 2 décodeurs acoustiques en paraèe et 3 angues à identifier. On peut transcrire e signa x de a angue à aide des modèes acoustiques de phones d une angue queconque k (prétraitement acoustico-phonétique) : φ = arg max f x φ, k Pr( φ k) (1) k φ ( ( ) ) 69

ou bien, en ignorant es contraintes phonotactiques de a angue k : φ = arg max f x φ k (2) ( ) k, φ A partir de φ k de a angue on peut estimer e modèe phonotactique Pr(φ k ).Le probème d identification de a angue revient aors à équation suivante : * = arg max Pr ( φ ) k Si on dispose de modèes acoustiques pour K angues, on peut considérer que observation est (φ 1,, φ 2,, φ K ) (c est-à-dire e résutat des K décodeurs pour e signa x), e probème d identification de a angue se ramène aors à équation suivante si on suppose es différentes suites de phones indépendantes : 3.2. Corpus * K k = 1 ( (3) = arg max Pr φ ) (4) Pour es modèes acoustiques nous utiisons excusivement e corpus IDEAL. Pour estimation des modèes phonotactiques dépendants de a angue (mais aussi du décodeur acoustique qui fournit a suite de phones φ k ) e corpus OGI-TS (Oregon Graduate Institute Muti-Language Teephone Speech) est utiisé [Muthusamy 92]. Ce corpus comprend 11 angues (français, angais, aemand, espagno, japonais, coréen, mandarin, tami, farsi, vietnamien, hindi) avec pus de 100 appes par angue provenant de ocuteurs aogènes (d une origine différente de cee de a popuation autochtone) vivant aux états-unis. Par appe i y a 4 énoncés du type paroe préparée ( prononcez es jours de a semaine, es chiffres de 0 à 10...) et 6 énoncés spontanés ( décrivez endroit d où vous appeez...). Seus es énoncés spontanés sont utiisés pour es modèes de angage phonotactiques. Les tests utiisent uniquement es données spontanées avec des durées des segments variabes de 10 à 45 secondes. 3.3. Résutats expérimentaux Différentes combinaisons de décodeurs acoustico-phonétiques ont été évauées, aant de a configuration avec un seu décodeur acoustico-phonétique dépendant d une angue jusqu à 5 décodeurs acoustico-phonétiques en paraèe. Les décodeurs acoustico-phonétiques dépendants de a angue sont ceux déveoppés pour approche acoustique avec e corpus IDEAL. Un ensembe de modèes acoustiques de phones mutiingues a été déveoppé par cassification automatique des modèes de phones dépendants de a angue [Boua de Mareüi 2000, Corredor-Ardoy 98]. Ce système est appeé IL (indépendant de a angue) dans a figure 4. Des configurations avec 1, 4 ou 5 systèmes en paraèe ont été utiisées. Les résutats de cette figure sont donnés en fonction de a ongueur du test (de 10 à 45 secondes) avec 11 angues du corpus OGI-TS (français, angais, aemand, espagno, japonais, coréen, mandarin, tami, farsi, vietnamien, hindi). Aors que e taux d erreur est encore proche de 20% avec e meieur système sur des segments de 10 secondes, ce taux chute à environ 10% pour des segments de 45 secondes. k 70

Figure 4 Taux d erreur d identification avec 11 angues en fonction de a ongueur du test (de 10 à 45 sec.). Les courbes présentées correspondent à différentes combinaisons de décodeurs acoustiques : systèmes dépendants de a angue (DL, déveoppés pour approche acoustique avec e corpus IDEAL) et indépendant de a angue (IL, obtenu par cassification automatique). Les courbes DL et IL correspondent à une configuration où un seu décodeur acousticophonétique, soit dépendant de a angue (DL), soit indépendant de a angue (IL), est utiisé. On peut remarquer que e décodeur utiisant es modèes mutiingues est significativement meieur que si on utiise un seu décodeur dépendant de a angue. La figure montre a performance moyenne (1 système DL (moy)) après avoir testé séparément es 4 décodeurs dépendants de a angue. De manière générae es 4 systèmes en paraèe (4 systèmes DL) permettent d améiorer es taux d identification par rapport au décodeur commun. Pour es segments de 45 secondes e système acoustique commun produit des résutats équivaents à a configuration avec 4 systèmes acoustiques (dépendants de a angue) en paraèe. Le passage à 5 systèmes (5 systèmes(1il+4dl)) produit une améioration significative de 14,5% à 10,5%. Nous donnons dans e Tabeau 2 a matrice de confusion observée pour es 11 angues. On peut remarquer que e nombre de segments par angue est faibe.en examinant es résutats par angue on ne peut pas distinguer un comportement cairement différent entre es angues représentées par es modèes acoustico-phonétiques et cees qui ne étaient pas. On peut noter que e français, aemand, e tami et e farsi sont identifiés à 100%. Pour aemand, e farsi, e japonais et e mandarin aucune fausse aerte n a été faite. Pour approche phonotactique nous avons montré intérêt d utiiser un ensembe de modèes acoustiques de phones indépendant de a angue ors du décodage acoustique. La combinaison de pusieurs décodeurs en paraèe permet d améiorer encore es taux d identification. Des résutats comparatifs ont été obtenus en utiisant un ou pusieurs décodeurs, sur des segments de test de ongueur variabe. Les résutats sont d autant meieurs que es segments à identifier sont ongs (de 10 à 45 sec.). L extension à une nouvee angue est 71

beaucoup pus simpe ici qu avec approche acoustique pour aquee a mise au point d un décodeur acoustico-phonétique dépendant de a angue est nécessaire. 45s #segm fr an a es ja ko ma ta fa hi vi fr 15 100 an 19 94,7 5,3 a 18 100 es 14 7,1 7,1 78,6 7,1 ja 15 6,7 86,7 6,7 ko 8 87,5 12,5 ma 11 9,1 9,1 81,9 ta 12 100 fa 13 100 hi 11 9,1 9,1 72,7 9,1 vi 16 6,2 6,2 87,5 Tabeau 2 Résutats sur e corpus OGI-11. Matrice de confusion entre es 11 angues pour des segments de durée de 45s avec 5 décodeurs acoustico-phonétiques. 4. Concusion Nous avons présenté nos travaux en identification de a angue utiisant deux famies d approches. La première, approche acoustico-phonétique, nécessite des corpus étiquetés phonétiquement pour chaque angue, afin de pouvoir estimer des modèes acousticophonétiques pour chaque angue. L ajout des N mots es pus fréquents dans e modèe de angage (bigramme de phones augmenté de N mots) permet une réduction du taux d erreur de 25% en reatif. Sur une tâche de 4 angues un corpus de test de paroe spontanée contenant des segments de 5 secondes donne un taux d erreur proche de 10%. Ce taux chute près de 5% pour un test de paroe ue et préparée et près de 2% pour un corpus de test incuant majoritairement des chiffres et des nombres. Les erreurs observées ici sont dues surtout au sience. L approche acoustico-phonétique donne de bons résutats sur des segments reativement court (5 secondes), mais extension à une nouvee angue est souvent probématique à cause des ressources spécifiques à a angue requises. L approche phonotactique est pus facie à adapter à de nouvees angues dans a mesure où de simpes corpus de paroe sont suffisants. Cette approche a été utiisée pour déveopper un système d identification pour 11 angues (corpus OGI-TS). Les résutats d identification, mauvais sur des courts segments de paroe, s améiorent avec a durée des segments de test et des taux d erreurs proche de 10% sont obtenus avec des segments de 45 secondes. Nous avons montré intérêt d utiiser un ensembe de modèes acoustiques de phones mutiingue ors du décodage acoustique. La combinaison de pusieurs décodeurs en paraèe permet d améiorer encore es taux d identification. 72

[Lame 98] [Muthusamy 92] [Boua de Mareüi 2000] [Lame 94] [Matrouf 98] [Corredor-Ardoy 98] [Corredor-Ardoy 97] [Lame 93] [Lowe 94] [Schutz 97] [Zissman 96] [Zissman 97] [Peegrino 98] 5. Références L. Lame, G. Adda, M. Adda-Decker, C. Corredor-Ardoy, J.J. Gangof, J.L. Gauvain, A Mutiingua Corpus for Language Identification, in Proc. of 1st Internationa Conference on Language Resources and Evauation, 1, pp. 1115-1122, Grenade, mai 1998. Y.K. Muthusamy, R.A. Coe, B.T. Oshika (1992), The OGI Muti- Language Teephone Speech Corpus, in Proc. of Internationa Conference on Speech and Language Processing, 2, pp. 895-898 Banff, octobre 1992. P. Boua de Mareüi, C. Corredor-Ardoy, D. Matrouf, M. Adda-Decker, Cassement automatique de phonèmes dans un cadre mutiingue & appication à identification de a angue, aieurs dans ces actes. L.F. Lame, J.L. Gauvain, Language Identification Using Phone-based Acoustic Likeihoods, in Proc. of IEEE-ICASSP, Adeaide 1994. D. Matrouf, M. Adda-Decker, L. Lame, and J.L. Gauvain, Language Identification Incorporating Lexica Information, in Proc. of Internationa Conference on Speech and Language Processing, Sydney 1998. C. Corredor-Ardoy, P. Boua de Mareüi, M. Adda-Decker, L. Lame, J.L. Gauvain, Cassement automatique de phonèmes dans un cadre mutiingue, in actes XXIIièmes Journées d études sur a Paroe, pages 75-78, Martigny, Suisse, juin 1998. C. Corredor-Ardoy, J.L. Gauvain, M. Adda-Decker, L. Lame, Language identification with anguage-independent acoustic modes, in Proc. of European Conference on Speech Technoogy, EuroSpeech, 3, pages 1423-1426, Rhodes, septembre 1997. 9 L. Lame, J.L. Gauvain, Identifying Non-Linguistic Speech Features, in Proc. of European Conference on Speech Technoogy, EuroSpeech 1, pp. 23-28, Berin, septembre 1993. S. Lowe, A. Demedts, L. Giick, M. Mande, B. Peskin, Language Identification via Large Vocabuary Speaker Independent Continuous Speech Recognition, in Proc. of ARPA Human Language Technoogy Workshop, pp. 437-441, Painsboro, mars 1994. T. Schutz, A. Waibe, Fast Bootstrapping of LVCSR Systems with Mutiingua Phone Sets, in Proc. of European Conference on Speech Technoogy, EuroSpeech, 1, pp. 371-374, Rhodes, septembre 1997. M.A. Zissman, Comparison of Four Approaches to Automatic Language Identification of Teephone Speech, IEEE Transactions on SAP, 4(1), Jan. 1996. M.A. Zissman, Predicting, Diagnosing and Improving Automatic Language Identification Performance,, in Proc. of European Conference on Speech Technoogy, EuroSpeech, 1, pp. 51-54, Rhodes, septembre 1997. F. Peegrino, Une approche phonétique en identification automatique de a angue : a modéisation acoustique des systèmes vocaiques, Thèse de Université Pau Sabatier, Tououse 1998. 73